Artigos mais recentes para Avaliação de Dados

Processamento de Imagem e Vídeo Melhorando a Avaliação de Imagens de Microscopia com MicroSSIM

O MicroSSIM melhora a avaliação da qualidade da imagem em microscopia pra resultados científicos melhores.

2025-06-29T12:21:40+00:00 ― 7 min ler

Computação e linguagem Avaliando Sistemas de Geração Aumentada por Recuperação

Um novo modelo pra avaliar o desempenho de sistemas RAG.

2025-06-27T07:51:00+00:00 ― 9 min ler

Computação e linguagem Novo Benchmark Avalia Conhecimento Jurídico em Modelos de Linguagem em Árabe

ArabLegalEval avalia o desempenho dos LLMs em lidar com informações legais em árabe.

2025-06-27T05:52:30+00:00 ― 7 min ler

Aprendizagem de máquinas Abordando Alucinações de Relação em IA Multimodal

Novo benchmark enfrenta alucinações de relação em modelos de linguagem multimodal grandes.

2025-06-26T06:26:18+00:00 ― 7 min ler

Recuperação de informação Novo Método para Avaliar Respostas de Saúde de Modelos de Linguagem

Uma nova abordagem pra avaliar respostas relacionadas à saúde geradas por modelos de IA.

2025-06-25T15:09:54+00:00 ― 7 min ler

Computação e linguagem Avaliando Chatbots: A Ascensão do Soda-Eval

O Soda-Eval estabelece novos padrões para os métodos de avaliação de chatbots.

2025-06-25T03:58:24+00:00 ― 7 min ler

Computação e linguagem Avanços em Modelos de Linguagem Médica com o MedS-Bench

Um novo benchmark e conjunto de dados melhoram a avaliação de modelos de linguagem médica.

2025-06-23T19:42:54+00:00 ― 7 min ler

Recuperação de informação Avaliando o Suporte de Citação na Geração de Texto

Uma nova maneira de avaliar como as citações sustentam afirmações em textos gerados.

2025-06-23T17:04:54+00:00 ― 7 min ler

Inteligência Artificial Avaliando Métricas de Modelos de Linguagem: Um Mergulho Profundo

Pesquisadores avaliam a confiabilidade das métricas para a segurança de modelos de linguagem.

2025-06-23T14:50:36+00:00 ― 7 min ler

Inteligência Artificial Novo Padrão para Avaliar a Geração de Código em LLMs

Um benchmark de múltiplos domínios avalia as habilidades de geração de código dos LLMs em várias áreas.

2025-06-23T06:56:36+00:00 ― 8 min ler

Recuperação de informação Melhorando Respostas de IA em Contextos Legais com HyPA-RAG

Um novo sistema otimiza as respostas de IA para áreas legais, focando na Lei Local 144 da cidade de Nova York.

2025-06-20T13:38:12+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação de Técnicas de Correspondência de Imagens para Reconstrução 3D

Um estudo sobre a efetividade dos métodos de comparação de imagens em diferentes cenários.

2025-06-20T03:29:54+00:00 ― 7 min ler

Computação e linguagem Desafios dos Modelos de Linguagem Visual Multilíngues

Analisando a efetividade dos LVLMs em gerar explicações de arte multilíngues.

2025-06-18T18:03:18+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avaliando Habilidades de Categorizaçã em Modelos de IA

Esse estudo avalia como a IA categoriza imagens em comparação com os humanos.

2025-06-18T17:08:00+00:00 ― 8 min ler

Inteligência Artificial Novo Padrão para Avaliar Modelos que Usam API

Um método novo de avaliação para grandes modelos de linguagem usando chamadas de API aninhadas.

2025-06-17T11:46:18+00:00 ― 6 min ler

Processamento de Áudio e Fala OpenACE: Um Novo Padrão para Avaliação de Codec de Áudio

O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.

2025-06-13T14:58:55+00:00 ― 6 min ler

Computação e linguagem Avaliação de Similaridades de Imagens: Métodos e Modelos

Aprenda a avaliar e comparar imagens de forma eficaz.

2025-06-10T11:30:06+00:00 ― 5 min ler

Computação e linguagem Melhorando Modelos de Linguagem com o Sistema VERA

A VERA melhora a precisão e a relevância das respostas dos modelos de linguagem.

2025-06-10T08:20:30+00:00 ― 6 min ler

Computação e linguagem RAGProbe: Facilitando as Avaliações do Sistema RAG

O RAGProbe automatiza a avaliação de sistemas RAG, melhorando seu desempenho e confiabilidade.

2025-06-07T04:38:00+00:00 ― 7 min ler

Informatica sanitaria Avaliação de Modelos de Linguagem em Pesquisa Clínica

Um novo conjunto de dados melhora a avaliação de modelos de linguagem na precisão de ensaios clínicos.

2025-06-05T11:49:00+00:00 ― 8 min ler

Aprendizagem de máquinas Novo Conjunto de Dados pra Melhorar o Aprendizado Visual da IA

Um conjunto de dados ajuda os sistemas de IA a aprenderem melhor com visuais que distraem.

2025-06-05T09:18:54+00:00 ― 8 min ler

Inteligência Artificial Avaliando o Seguimento de Instruções em Conversas de Várias Interações

Um estudo sobre como os modelos seguem instruções durante diálogos complexos.

2025-06-05T06:40:54+00:00 ― 7 min ler

Computação e linguagem HealthQ: Transformando Perguntas de IA na Saúde

A HealthQ avalia a capacidade da IA de fazer perguntas no cuidado ao paciente.

2025-06-03T21:45:54+00:00 ― 8 min ler

Computação e linguagem Aprimorando a Decomposição de Perguntas Visuais em Modelos Multimodais

Explorando maneiras de melhorar modelos multimodais na hora de entender perguntas visuais.

2025-06-03T18:52:06+00:00 ― 7 min ler

Inteligência Artificial Avançando a Avaliação da Memória para Agentes LLM

Apresentando o MemSim, uma ferramenta pra avaliar a eficácia da memória em assistentes de modelos de linguagem.

2025-06-03T01:21:24+00:00 ― 6 min ler

Som Avançando o Processamento Multi-Audio com MALLM

Apresentando um novo modelo e referência para avaliar tarefas de áudio múltiplo.

2025-05-31T19:17:15+00:00 ― 7 min ler

Computação e linguagem Avaliação da Gerabilidade de Código: Uma Nova Abordagem

A gente vê como checar se perguntas de programação podem ser respondidas de boa.

2025-05-27T10:23:15+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Apresentando o EVQAScore: Um Novo Método para QA de Vídeo

O EVQAScore melhora a avaliação de QA em vídeo de um jeito eficiente e eficaz.

2025-05-25T13:21:54+00:00 ― 7 min ler

Aprendizagem de máquinas Melhorando a IA Multimodal com o Método ECIF

Novo método ECIF melhora o desempenho de modelos de IA multimodais através de uma melhor avaliação de dados.

2025-05-20T01:34:40+00:00 ― 4 min ler

Recuperação de informação Avaliando Modelos de Recuperação de Documentos para o Idioma Tcheco

Pesquisadores avaliam vários modelos de busca em tcheco, destacando pontos fortes e fracos.

2025-05-18T20:26:40+00:00 ― 5 min ler

Bioinformática Navegando no Mundo da Análise de Células Únicas

Descubra como a análise de células únicas ajuda a desvendar os mistérios do comportamento celular.

2025-05-18T19:15:32+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões IA em Radiologia: A Ascensão do ReXrank

ReXrank oferece uma nova maneira de avaliar ferramentas de IA para geração de relatórios de radiologia.

2025-05-12T23:00:00+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Nova Método Melhora Avaliação do Mapa de Atribuição

Uma nova maneiras de avaliar modelos de tomada de decisão de IA usando mapas de atribuição.

2025-05-12T12:26:40+00:00 ― 8 min ler

Computação e linguagem Avaliando o Viés na Pesquisa Biomédica

Aprenda a medir o viés em estudos biomédicos pra ter dados de saúde confiáveis.

2025-05-05T03:32:00+00:00 ― 6 min ler

Interação Homem-Computador Desafios na Avaliação de Chatbots: Votos dos Usuários em Perigo

Analisando problemas nas avaliações de chatbots feitas pela comunidade e maneiras de melhorá-las.

2025-04-11T18:18:00+00:00 ― 6 min ler

Computação e linguagem Enfrentando Respostas Erradas da IA com o SciFaultyQA

Nova iniciativa testa a capacidade da IA de lidar com perguntas científicas sem sentido.

2025-03-03T03:20:15+00:00 ― 7 min ler

Computação e linguagem MT-Lens: Elevando a Avaliação da Tradução Automática

MT-Lens oferece um kit de ferramentas completão pra melhorar as avaliações de tradução automática.

2025-02-28T19:09:45+00:00 ― 7 min ler

Computação e linguagem OmniEval: Avançando o Desempenho RAG em Finanças

Novo benchmark OmniEval melhora a avaliação de sistemas RAG em finanças.

2025-02-24T18:03:36+00:00 ― 9 min ler

Computação e linguagem RAG-RewardBench: Alinhando a IA com as Necessidades Humanas

Uma nova ferramenta melhora as respostas da IA pra se alinhar melhor com as preferências humanas.

2025-02-17T07:06:09+00:00 ― 4 min ler

Visão computacional e reconhecimento de padrões Repensando o ImageNet: Uma Abordagem Multi-Rótulo

Pesquisadores pedem uma mudança para avaliações de múltiplos rótulos na visão computacional.

2025-01-27T15:57:36+00:00 ― 7 min ler