Um novo conjunto de dados melhora a avaliação do conhecimento molecular em modelos de linguagem.
― 8 min ler
Ciência de ponta explicada de forma simples
Um novo conjunto de dados melhora a avaliação do conhecimento molecular em modelos de linguagem.
― 8 min ler
O SPHINX-V melhora a capacidade da IA de interpretar imagens através da interação do usuário.
― 7 min ler
O BEAR melhora a avaliação do conhecimento relacional em modelos de linguagem.
― 9 min ler
Esse estudo examina como os modelos de linguagem lidam com diferentes expressões dos mesmos problemas de raciocínio.
― 5 min ler
Um novo conjunto de dados avalia como os modelos de linguagem lidam com conteúdo prejudicial em diferentes culturas.
― 6 min ler
Um novo parâmetro melhora como a gente avalia os LVLMs e a precisão deles.
― 6 min ler
Uma avaliação de quão bem os LLMs lembram informações factuais e os fatores envolvidos.
― 6 min ler
Este estudo oferece métodos melhores para avaliar modelos de texto para imagem.
― 7 min ler
Um estudo avaliando métodos de aprendizado com poucos exemplos para classificação da língua polonesa.
― 5 min ler
Novas métricas melhoram a avaliação de sistemas de extração de informações em documentos manuscritos.
― 8 min ler
O WorkBench testa a habilidade dos agentes de realizar tarefas de escritório realistas com um método de avaliação único.
― 7 min ler
Avaliando como os LLMs se adaptam a novas informações e preconceitos.
― 9 min ler
Um novo método pra avaliar como os modelos de linguagem tão alinhados com os valores humanos.
― 8 min ler
Combinar revisores humanos com LLMs melhora as avaliações de pesquisa biomédica.
― 7 min ler
Um desafio focado em modelos generativos profundos pra geração de imagens médicas realistas.
― 10 min ler
Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.
― 6 min ler
Um novo método pra avaliar o raciocínio de bom senso em modelos de IA através de tarefas abertas.
― 9 min ler
Novo conjunto de dados GAIA revela a qualidade das ações no conteúdo gerado por IA.
― 9 min ler
Um novo método pra avaliar modelos generativos com a geração mínima de dados.
― 6 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
Novo conjunto de dados ajuda a avaliar a precisão e confiabilidade do texto da IA.
― 8 min ler
Um novo benchmark avalia como os modelos de linguagem lidam com mudanças de texto.
― 7 min ler
Um conjunto de ferramentas pra avaliar o desempenho de modelos aumentados por recuperação em domínios específicos.
― 12 min ler
A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.
― 7 min ler
Métodos para medir efeitos de tratamento em diferentes grupos e períodos de tempo.
― 5 min ler
Esse artigo apresenta um novo método pra avaliar modelos de texto pra imagem de forma eficaz.
― 7 min ler
A Dysca apresenta uma nova forma de avaliar o desempenho do LVLM usando dados sintéticos.
― 8 min ler
Um novo método mede como os modelos de linguagem adaptam suas crenças com novas evidências.
― 11 min ler
Um novo padrão pra avaliar o desempenho de agentes de IA em literatura biomédica e gráficos de conhecimento.
― 6 min ler
Apresentando o FairMedFM pra avaliar a justiça dos modelos de fundação na área da saúde.
― 7 min ler
Este estudo avalia como os LVLMs médicos se saem em meio a alucinações usando um novo conjunto de dados.
― 7 min ler
Explorando modelos de aprendizado de máquina e novos conjuntos de dados pra melhorar a segurança.
― 9 min ler
FKEA oferece uma forma nova de avaliar modelos generativos sem precisar de conjuntos de dados de referência.
― 7 min ler
Uma olhada nos benefícios dos métodos de avaliação de qualidade de tradução em nível de segmento.
― 11 min ler
Novas métricas e módulo EdgeHead melhoram a detecção 3D para veículos autônomos.
― 8 min ler
Uma nova abordagem melhora a precisão das avaliações de modelos de linguagem.
― 8 min ler
Melhorar como os modelos lidam com evidências em documentos longos aumenta a confiança do usuário.
― 5 min ler
BiasAlert melhora a detecção de viés em modelos de linguagem para resultados de IA mais justos.
― 6 min ler
Um novo método pra avaliar a precisão nas saídas de modelos de linguagem.
― 4 min ler
Um novo marco traz à tona a alucinação em modelos de linguagem visual.
― 6 min ler