Apresentando uma maneira eficiente de avaliar a qualidade das amostras geradas usando pontuações de densidade latente.
― 10 min ler
Ciência de ponta explicada de forma simples
Apresentando uma maneira eficiente de avaliar a qualidade das amostras geradas usando pontuações de densidade latente.
― 10 min ler
Um novo benchmark melhora a compreensão dos modelos sobre vídeos longos e linguagem.
― 6 min ler
O HaloQuest resolve problemas de alucinação em modelos de visão-linguagem com um novo conjunto de dados.
― 12 min ler
Um novo parâmetro busca melhorar as avaliações dos sistemas OIE para ter melhores insights de desempenho.
― 6 min ler
Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.
― 7 min ler
Este estudo destaca a necessidade dos LLMs saberem quando se abster.
― 7 min ler
Regras de pontuação adequadas melhoram a avaliação de previsões probabilísticas em várias áreas.
― 9 min ler
Um esquema pra estimar melhor os efeitos do tratamento em experimentos randomizados em clusters pareados.
― 7 min ler
Usando marcas de relevância geradas por IA pra avaliar de forma eficiente sistemas de recuperação de informações.
― 9 min ler
Um novo método melhora a precisão na avaliação de verificação de autoria ao reduzir o vazamento de tópicos.
― 9 min ler
Uma nova estrutura melhora a avaliação de sistemas RAG em domínios especializados.
― 10 min ler
Novos métodos oferecem uma avaliação melhor da compreensão de linguagem em modelos.
― 7 min ler
O MicroSSIM melhora a avaliação da qualidade da imagem em microscopia pra resultados científicos melhores.
― 7 min ler
Um novo modelo pra avaliar o desempenho de sistemas RAG.
― 9 min ler
ArabLegalEval avalia o desempenho dos LLMs em lidar com informações legais em árabe.
― 7 min ler
Novo benchmark enfrenta alucinações de relação em modelos de linguagem multimodal grandes.
― 7 min ler
Uma nova abordagem pra avaliar respostas relacionadas à saúde geradas por modelos de IA.
― 7 min ler
O Soda-Eval estabelece novos padrões para os métodos de avaliação de chatbots.
― 7 min ler
Um novo benchmark e conjunto de dados melhoram a avaliação de modelos de linguagem médica.
― 7 min ler
Uma nova maneira de avaliar como as citações sustentam afirmações em textos gerados.
― 7 min ler
Pesquisadores avaliam a confiabilidade das métricas para a segurança de modelos de linguagem.
― 7 min ler
Um benchmark de múltiplos domínios avalia as habilidades de geração de código dos LLMs em várias áreas.
― 8 min ler
Um novo sistema otimiza as respostas de IA para áreas legais, focando na Lei Local 144 da cidade de Nova York.
― 7 min ler
Um estudo sobre a efetividade dos métodos de comparação de imagens em diferentes cenários.
― 7 min ler
Analisando a efetividade dos LVLMs em gerar explicações de arte multilíngues.
― 9 min ler
Esse estudo avalia como a IA categoriza imagens em comparação com os humanos.
― 8 min ler
Um método novo de avaliação para grandes modelos de linguagem usando chamadas de API aninhadas.
― 6 min ler
O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.
― 6 min ler
Aprenda a avaliar e comparar imagens de forma eficaz.
― 5 min ler
A VERA melhora a precisão e a relevância das respostas dos modelos de linguagem.
― 6 min ler
O RAGProbe automatiza a avaliação de sistemas RAG, melhorando seu desempenho e confiabilidade.
― 7 min ler
Um novo conjunto de dados melhora a avaliação de modelos de linguagem na precisão de ensaios clínicos.
― 8 min ler
Um conjunto de dados ajuda os sistemas de IA a aprenderem melhor com visuais que distraem.
― 8 min ler
Um estudo sobre como os modelos seguem instruções durante diálogos complexos.
― 7 min ler
A HealthQ avalia a capacidade da IA de fazer perguntas no cuidado ao paciente.
― 8 min ler
Explorando maneiras de melhorar modelos multimodais na hora de entender perguntas visuais.
― 7 min ler
Apresentando o MemSim, uma ferramenta pra avaliar a eficácia da memória em assistentes de modelos de linguagem.
― 6 min ler
Apresentando um novo modelo e referência para avaliar tarefas de áudio múltiplo.
― 7 min ler
A gente vê como checar se perguntas de programação podem ser respondidas de boa.
― 6 min ler
O EVQAScore melhora a avaliação de QA em vídeo de um jeito eficiente e eficaz.
― 7 min ler