Artigos mais recentes para Avaliação de Dados

Informatica sanitaria Avaliação da Pesquisa Biomédica: Colaboração entre Humanos e IA

Combinar revisores humanos com LLMs melhora as avaliações de pesquisa biomédica.

2025-08-06T10:09:00+00:00 ― 7 min ler

Processamento de Imagem e Vídeo Desafio Grande AAPM 2023 sobre Imagem Médica

Um desafio focado em modelos generativos profundos pra geração de imagens médicas realistas.

2025-08-04T00:01:12+00:00 ― 10 min ler

Aprendizagem de máquinas Benchmarks Dinâmicos para Avaliar Modelos de Linguagem

Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.

2025-08-02T01:23:42+00:00 ― 6 min ler

Computação e linguagem Avaliando o Conhecimento Comum em Modelos de Linguagem

Um novo método pra avaliar o raciocínio de bom senso em modelos de IA através de tarefas abertas.

2025-08-01T10:15:12+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avaliando a Qualidade da Ação em Vídeos Gerados por IA

Novo conjunto de dados GAIA revela a qualidade das ações no conteúdo gerado por IA.

2025-07-30T19:56:18+00:00 ― 9 min ler

Aprendizagem de máquinas Avaliação Online Eficiente de Modelos Generativos

Um novo método pra avaliar modelos generativos com a geração mínima de dados.

2025-07-30T12:41:48+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Desafiando os Limites dos Modelos de Visão-Linguagem

Um novo benchmark testa o raciocínio composicional em modelos avançados.

2025-07-29T19:42:42+00:00 ― 8 min ler

Computação e linguagem Avaliação de Alucinação em Modelos de Linguagem Grandes

Novo conjunto de dados ajuda a avaliar a precisão e confiabilidade do texto da IA.

2025-07-29T07:12:12+00:00 ― 8 min ler

Computação e linguagem RUPBench: Avaliando a Robustez em Modelos de Linguagem

Um novo benchmark avalia como os modelos de linguagem lidam com mudanças de texto.

2025-07-28T07:06:30+00:00 ― 7 min ler

Computação e linguagem Avaliação de Modelos de Linguagem Grande Aumentados por Recuperação

Um conjunto de ferramentas pra avaliar o desempenho de modelos aumentados por recuperação em domínios específicos.

2025-07-27T18:28:06+00:00 ― 12 min ler

Visão computacional e reconhecimento de padrões Apresentando o VideoVista: Um Novo Padrão para QA de Vídeo

A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.

2025-07-27T13:35:48+00:00 ― 7 min ler

Econometria Estimando Efeitos do Tratamento em Diferentes Designs

Métodos para medir efeitos de tratamento em diferentes grupos e períodos de tempo.

2025-07-24T23:14:12+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Uma Nova Abordagem para Avaliar Modelos de Texto para Imagem

Esse artigo apresenta um novo método pra avaliar modelos de texto pra imagem de forma eficaz.

2025-07-24T20:25:18+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação de Grandes Modelos de Linguagem com Visão com Dysca

A Dysca apresenta uma nova forma de avaliar o desempenho do LVLM usando dados sintéticos.

2025-07-24T03:49:54+00:00 ― 8 min ler

Computação e linguagem Avaliando a Revisão de Crenças em Modelos de Linguagem

Um novo método mede como os modelos de linguagem adaptam suas crenças com novas evidências.

2025-07-22T18:07:30+00:00 ― 11 min ler

Computação e linguagem Avaliando Agentes de IA na Pesquisa Biomédica

Um novo padrão pra avaliar o desempenho de agentes de IA em literatura biomédica e gráficos de conhecimento.

2025-07-22T12:04:06+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Abordando a Justiça em Modelos de Imagem Médica

Apresentando o FairMedFM pra avaliar a justiça dos modelos de fundação na área da saúde.

2025-07-21T07:45:36+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação de Alucinações em Modelos de Linguagem de Visão Médica

Este estudo avalia como os LVLMs médicos se saem em meio a alucinações usando um novo conjunto de dados.

2025-07-21T04:12:18+00:00 ― 7 min ler

Engenharia de software Aprimorando a Detecção de Vulnerabilidades em Sistemas de Software

Explorando modelos de aprendizado de máquina e novos conjuntos de dados pra melhorar a segurança.

2025-07-20T06:36:42+00:00 ― 9 min ler

Aprendizagem de máquinas Novo Método para Avaliar Modelos Generativos

FKEA oferece uma forma nova de avaliar modelos generativos sem precisar de conjuntos de dados de referência.

2025-07-20T04:38:12+00:00 ― 7 min ler

Computação e linguagem Avaliação de Tradução Automática: Indo em Direção a Avaliação em Nível de Segmento

Uma olhada nos benefícios dos métodos de avaliação de qualidade de tradução em nível de segmento.

2025-07-19T23:14:18+00:00 ― 11 min ler

Visão computacional e reconhecimento de padrões Melhorando a detecção de objetos 3D para dirigir sozinho com mais segurança

Novas métricas e módulo EdgeHead melhoram a detecção 3D para veículos autônomos.

2025-07-19T11:54:54+00:00 ― 8 min ler

Aprendizagem de máquinas Melhorando a Avaliação de Modelos de Linguagem com Métodos Estratificados

Uma nova abordagem melhora a precisão das avaliações de modelos de linguagem.

2025-07-18T10:41:56+00:00 ― 8 min ler

Computação e linguagem Avaliando a Confiança no Processamento de Documentos Longos

Melhorar como os modelos lidam com evidências em documentos longos aumenta a confiança do usuário.

2025-07-15T22:35:42+00:00 ― 5 min ler

Computação e linguagem Abordando o Viés em Modelos de Linguagem com o BiasAlert

BiasAlert melhora a detecção de viés em modelos de linguagem para resultados de IA mais justos.

2025-07-13T20:41:36+00:00 ― 6 min ler

Computação e linguagem Avaliação de Modelos de Linguagem: A Abordagem GraphEval

Um novo método pra avaliar a precisão nas saídas de modelos de linguagem.

2025-07-13T06:36:18+00:00 ― 4 min ler

Visão computacional e reconhecimento de padrões Avaliando Alucinações em Modelos de Linguagem Visuais

Um novo marco traz à tona a alucinação em modelos de linguagem visual.

2025-07-10T21:59:18+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões O Papel da Granularidade na Recuperação de Imagem-Texto

Esse estudo destaca a importância da granularidade dos conjuntos de dados para melhorar os sistemas de recuperação de imagem e texto.

2025-07-09T13:35:54+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Um Novo Método para Avaliar a Qualidade de Amostras Geradas

Apresentando uma maneira eficiente de avaliar a qualidade das amostras geradas usando pontuações de densidade latente.

2025-07-09T12:09:00+00:00 ― 10 min ler

Visão computacional e reconhecimento de padrões Novo Padrão Melhora Compreensão de Vídeo e Linguagem

Um novo benchmark melhora a compreensão dos modelos sobre vídeos longos e linguagem.

2025-07-09T01:29:06+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões HaloQuest: Uma Nova Abordagem para Alucinação em VLMs

O HaloQuest resolve problemas de alucinação em modelos de visão-linguagem com um novo conjunto de dados.

2025-07-08T23:14:48+00:00 ― 12 min ler

Computação e linguagem Melhorando os Marcos de Extração de Informações Abertas

Um novo parâmetro busca melhorar as avaliações dos sistemas OIE para ter melhores insights de desempenho.

2025-07-08T12:34:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avançando na Avaliação de Modelos de Linguagem Visual com o Benchmark VisMin

Um novo padrão pra testar modelos de linguagem visual com mudanças mínimas em imagens e legendas.

2025-07-08T11:08:00+00:00 ― 7 min ler

Computação e linguagem Melhorando a Confiança em Modelos de Linguagem Através da Abstenção

Este estudo destaca a necessidade dos LLMs saberem quando se abster.

2025-07-08T00:36:00+00:00 ― 7 min ler

Metodologia Avaliação de Previsões Probabilísticas: Uma Nova Estrutura

Regras de pontuação adequadas melhoram a avaliação de previsões probabilísticas em várias áreas.

2025-07-07T20:11:36+00:00 ― 9 min ler

Metodologia Analisando Efeitos do Tratamento em Ensaios Clusterizados

Um esquema pra estimar melhor os efeitos do tratamento em experimentos randomizados em clusters pareados.

2025-07-07T12:41:00+00:00 ― 7 min ler

Recuperação de informação Avaliação de Sistemas de Recuperação de Informação com Anotações de IA

Usando marcas de relevância geradas por IA pra avaliar de forma eficiente sistemas de recuperação de informações.

2025-07-06T13:19:08+00:00 ― 9 min ler

Computação e linguagem Abordando o Vazamento de Tópicos na Verificação de Autoria

Um novo método melhora a precisão na avaliação de verificação de autoria ao reduzir o vazamento de tópicos.

2025-07-06T02:38:54+00:00 ― 9 min ler

Computação e linguagem Avaliando Sistemas de Geração Aumentada por Recuperação

Uma nova estrutura melhora a avaliação de sistemas RAG em domínios especializados.

2025-07-03T13:09:36+00:00 ― 10 min ler

Computação e linguagem Melhorando Métodos de Avaliação para Compreensão de Leitura por Máquinas

Novos métodos oferecem uma avaliação melhor da compreensão de linguagem em modelos.

2025-06-29T22:47:12+00:00 ― 7 min ler