Combinar revisores humanos com LLMs melhora as avaliações de pesquisa biomédica.
― 7 min ler
Ciência de ponta explicada de forma simples
Combinar revisores humanos com LLMs melhora as avaliações de pesquisa biomédica.
― 7 min ler
Um desafio focado em modelos generativos profundos pra geração de imagens médicas realistas.
― 10 min ler
Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.
― 6 min ler
Um novo método pra avaliar o raciocínio de bom senso em modelos de IA através de tarefas abertas.
― 9 min ler
Novo conjunto de dados GAIA revela a qualidade das ações no conteúdo gerado por IA.
― 9 min ler
Um novo método pra avaliar modelos generativos com a geração mínima de dados.
― 6 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
Novo conjunto de dados ajuda a avaliar a precisão e confiabilidade do texto da IA.
― 8 min ler
Um novo benchmark avalia como os modelos de linguagem lidam com mudanças de texto.
― 7 min ler
Um conjunto de ferramentas pra avaliar o desempenho de modelos aumentados por recuperação em domínios específicos.
― 12 min ler
A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.
― 7 min ler
Métodos para medir efeitos de tratamento em diferentes grupos e períodos de tempo.
― 5 min ler
Esse artigo apresenta um novo método pra avaliar modelos de texto pra imagem de forma eficaz.
― 7 min ler
A Dysca apresenta uma nova forma de avaliar o desempenho do LVLM usando dados sintéticos.
― 8 min ler
Um novo método mede como os modelos de linguagem adaptam suas crenças com novas evidências.
― 11 min ler
Um novo padrão pra avaliar o desempenho de agentes de IA em literatura biomédica e gráficos de conhecimento.
― 6 min ler
Apresentando o FairMedFM pra avaliar a justiça dos modelos de fundação na área da saúde.
― 7 min ler
Este estudo avalia como os LVLMs médicos se saem em meio a alucinações usando um novo conjunto de dados.
― 7 min ler
Explorando modelos de aprendizado de máquina e novos conjuntos de dados pra melhorar a segurança.
― 9 min ler
FKEA oferece uma forma nova de avaliar modelos generativos sem precisar de conjuntos de dados de referência.
― 7 min ler
Uma olhada nos benefícios dos métodos de avaliação de qualidade de tradução em nível de segmento.
― 11 min ler
Novas métricas e módulo EdgeHead melhoram a detecção 3D para veículos autônomos.
― 8 min ler
Uma nova abordagem melhora a precisão das avaliações de modelos de linguagem.
― 8 min ler
Melhorar como os modelos lidam com evidências em documentos longos aumenta a confiança do usuário.
― 5 min ler
BiasAlert melhora a detecção de viés em modelos de linguagem para resultados de IA mais justos.
― 6 min ler
Um novo método pra avaliar a precisão nas saídas de modelos de linguagem.
― 4 min ler
Um novo marco traz à tona a alucinação em modelos de linguagem visual.
― 6 min ler
Esse estudo destaca a importância da granularidade dos conjuntos de dados para melhorar os sistemas de recuperação de imagem e texto.
― 7 min ler
Apresentando uma maneira eficiente de avaliar a qualidade das amostras geradas usando pontuações de densidade latente.
― 10 min ler
Um novo benchmark melhora a compreensão dos modelos sobre vídeos longos e linguagem.
― 6 min ler
O HaloQuest resolve problemas de alucinação em modelos de visão-linguagem com um novo conjunto de dados.
― 12 min ler
Um novo parâmetro busca melhorar as avaliações dos sistemas OIE para ter melhores insights de desempenho.
― 6 min ler
Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.
― 7 min ler
Este estudo destaca a necessidade dos LLMs saberem quando se abster.
― 7 min ler
Regras de pontuação adequadas melhoram a avaliação de previsões probabilísticas em várias áreas.
― 9 min ler
Um esquema pra estimar melhor os efeitos do tratamento em experimentos randomizados em clusters pareados.
― 7 min ler
Usando marcas de relevância geradas por IA pra avaliar de forma eficiente sistemas de recuperação de informações.
― 9 min ler
Um novo método melhora a precisão na avaliação de verificação de autoria ao reduzir o vazamento de tópicos.
― 9 min ler
Uma nova estrutura melhora a avaliação de sistemas RAG em domínios especializados.
― 10 min ler
Novos métodos oferecem uma avaliação melhor da compreensão de linguagem em modelos.
― 7 min ler