A SciEx revela os pontos fortes e os desafios dos LLMs na avaliação científica.
― 8 min ler
Ciência de ponta explicada de forma simples
A SciEx revela os pontos fortes e os desafios dos LLMs na avaliação científica.
― 8 min ler
Esse estudo mostra como o BERT aprende fatos sobre COVID-19 através de treinamento contínuo.
― 5 min ler
Um novo teste de referência avalia as habilidades dos LLMs com formatos de dados estruturados.
― 7 min ler
Um novo framework melhora como os agentes LLM aprendem através de um guia de processo detalhado.
― 9 min ler
Apresentando o RePrompt pra melhorar o desempenho do modelo de linguagem com prompts otimizados.
― 7 min ler
Um novo benchmark avalia como os modelos de linguagem lidam com mudanças de texto.
― 7 min ler
As características dos usuários influenciam as respostas dos modelos de linguagem e a segurança deles.
― 7 min ler
Um conjunto de ferramentas pra avaliar o desempenho de modelos aumentados por recuperação em domínios específicos.
― 12 min ler
Este estudo revela como os modelos de linguagem mudam de comportamento durante o treinamento.
― 7 min ler
Esse artigo examina maneiras de melhorar as habilidades de planejamento em grandes modelos de linguagem.
― 8 min ler
O DetectBench avalia LLMs pela capacidade de detectar evidências ocultas em tarefas de raciocínio.
― 6 min ler
Analisando como a ativação de neurônios melhora o raciocínio aritmético em modelos de linguagem grandes.
― 11 min ler
Um novo modelo gera poesia tcheca com rimas e ritmos melhores.
― 7 min ler
Um novo benchmark avalia as habilidades de raciocínio em modelos de linguagem.
― 9 min ler
Um estudo sobre como modelos de linguagem geram justificativas persuasivas para avaliação de argumentos.
― 6 min ler
Esse estudo avalia a honestidade dos LLMs em três áreas principais.
― 6 min ler
Este artigo explora como adversários impactam o trabalho em equipe entre modelos de linguagem.
― 14 min ler
Um estudo completo sobre o desempenho de modelos de linguagem em 10 línguas do subcontinente indiano.
― 8 min ler
Um novo método melhora a reparação de código para linguagens de programação pouco usadas.
― 8 min ler
Explorando como os sinks de atenção impactam o desempenho dos modelos de linguagem e apresentando uma técnica de calibração.
― 7 min ler
O RankAdaptor otimiza o fine-tuning para modelos de IA podados, melhorando o desempenho de forma eficiente.
― 9 min ler
Um estudo sobre o PlagBench e seu papel na detecção de plágio em saídas de LLM.
― 5 min ler
Novo conjunto de dados avalia a habilidade dos LLMs em tarefas complexas de raciocínio lógico.
― 9 min ler
Essa pesquisa investiga como as habilidades de raciocínio se transferem entre os idiomas em modelos de linguagem.
― 10 min ler
Esse artigo fala sobre como os modelos de IA aprendem com os erros através da autocorreção.
― 7 min ler
Este estudo avalia como os LLMs entendem direções cardeais.
― 6 min ler
Esse estudo avalia como os LLMs lidam com a tomada de decisão em um ambiente de jogo.
― 10 min ler
Estudo revela como os traços dos usuários afetam as respostas e a precisão dos LLM.
― 9 min ler
CharED combina modelos de linguagem pra melhorar a performance sem vocabulários compartilhados.
― 5 min ler
O RAGBench apresenta um conjunto de dados completo pra avaliar sistemas de Geração Aumentada por Recuperação.
― 8 min ler
Explorando questões de justiça em modelos de linguagem de IA e suas implicações.
― 10 min ler
Apresentando uma ferramenta para aumentar a segurança nas interações com modelos de linguagem.
― 7 min ler
Este artigo explora a detecção de erros em ferramentas usadas por modelos de linguagem.
― 6 min ler
Esse artigo analisa estruturas repetitivas em textos gerados por modelos de linguagem.
― 8 min ler
Um novo benchmark avalia quão bem os modelos de linguagem seguem múltiplas instruções em sequência.
― 5 min ler
O dataset MalAlgoQA avalia o raciocínio de Modelos de Linguagem Grandes em cenários contrafactuais.
― 7 min ler
MathCAMPS oferece uma nova forma de avaliar o raciocínio matemático em modelos de linguagem.
― 11 min ler
Esse trabalho foca em uma representação numérica melhor usando embeddings de dígitos pra fazer previsões mais precisas.
― 9 min ler
Explorando a eficácia dos LLMs na tomada de decisões através de cenários de Dueling Bandits.
― 10 min ler
Um novo padrão pra avaliar grandes modelos de linguagem em testes de hipótese.
― 8 min ler