Artigos mais recentes para Avaliação de Dados

Computação e linguagem SIB-200: Um Passo Rumo à Avaliação de Linguagem Inclusiva

Novo conjunto de dados melhora a avaliação de modelos multilíngues em várias línguas.

2025-09-26T23:44:12+00:00 ― 9 min ler

Computação e linguagem Uma Nova Forma de Avaliar Sistemas de Pergunta e Resposta

A métrica SQuArE melhora a avaliação de sistemas de QA através de múltiplas referências de resposta.

2025-09-23T13:58:18+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliando Segmentação Semântica Fraca para Objetos Pequenos

Novos métodos melhoram a avaliação de desempenho de pequenos objetos em WSSS.

2025-09-22T00:11:00+00:00 ― 7 min ler

Computação e linguagem Avaliando Sistemas de Geração Aumentada por Recuperação

Uma nova estrutura para avaliar sistemas RAG sem referências humanas.

2025-09-21T17:51:48+00:00 ― 7 min ler

Computação e linguagem Novo Método de Avaliação da Qualidade das Respostas

Apresentando um método que mede a qualidade das respostas em diferentes níveis de detalhe.

2025-09-18T05:04:12+00:00 ― 7 min ler

Computação e linguagem Aprimorando Métodos de Avaliação em Sistemas de Perguntas e Respostas

Este estudo propõe novos métodos para avaliar as respostas em sistemas de perguntas e respostas de máquina.

2025-09-15T03:20:12+00:00 ― 8 min ler

Inteligência Artificial Melhorando os Métodos de Avaliação de Explicação de IA

Novos métodos melhoram a avaliação das explicações de modelos de IA.

2025-09-13T08:41:04+00:00 ― 8 min ler

Computação e linguagem Avanços na Avaliação de Modelos de Linguagem com o WSC+

Um novo conjunto de dados e método melhoram a geração de perguntas em modelos de linguagem.

2025-09-12T20:18:00+00:00 ― 7 min ler

Computação e linguagem Aprimorando a Verificação do Raciocínio em Modelos de Linguagem

Novo conjunto de dados melhora a verificação dos passos de raciocínio em modelos de IA.

2025-09-12T11:28:42+00:00 ― 8 min ler

Computação e linguagem Avaliação de Modelos de Linguagem com Novo Padrão

Esse artigo apresenta um benchmark pra avaliar modelos de linguagem grandes com tarefas complexas.

2025-09-11T04:55:54+00:00 ― 7 min ler

Computação e linguagem Avaliando a Riqueza do Vocabulário no ChatGPT

Um estudo sobre como o ChatGPT usa linguagem e características de vocabulário.

2025-09-09T07:46:12+00:00 ― 12 min ler

Inteligência Artificial Avaliando Modelos de Linguagem Grandes em Cibersegurança

Um olhar detalhado sobre a avaliação da CyberMetric de especialistas em IA e humanos em cibersegurança.

2025-09-08T19:39:24+00:00 ― 10 min ler

Computação e linguagem Avaliação da Edição de Modelos em Textos Longos

Um novo método avalia a eficácia da edição de modelos na geração de textos mais longos.

2025-09-08T06:21:30+00:00 ― 10 min ler

Computação e linguagem Melhorando Métodos de Avaliação de Respostas a Perguntas

Uma nova estrutura pra avaliar a correção das respostas da IA com um julgamento parecido com o humano.

2025-09-07T13:06:36+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avaliação do Desaprender de Máquina em Modelos de Difusão

Novo conjunto de dados melhora os métodos de avaliação para desaprendizado de máquina na geração de imagens.

2025-09-06T06:02:12+00:00 ― 7 min ler

Computação e linguagem Apresentando o FanOutQA: Um Novo Conjunto de Dados para Respostas a Perguntas Complexas

O FanOutQA ajuda a avaliar modelos de linguagem em perguntas difíceis de múltiplos passos usando dados estruturados.

2025-09-05T08:58:12+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Abordando a Alucinação Visual em Modelos de IA

Uma nova ferramenta gera várias instâncias de alucinações visuais para melhorar a precisão da IA.

2025-09-04T23:45:12+00:00 ― 6 min ler

Inteligência Artificial Avaliando Alucinações em Grandes Modelos de Visão-Linguagem

Esse artigo fala sobre uma nova estrutura pra avaliar alucinações em LVLMs.

2025-09-04T12:02:06+00:00 ― 8 min ler

Aprendizagem de máquinas Referências de Vida Inteira: Uma Nova Abordagem para Avaliação de Modelos

Um método para avaliação contínua de modelos em machine learning pra evitar overfitting.

2025-09-02T23:49:36+00:00 ― 6 min ler

Computação e linguagem Melhorando a Verificação de Fatos em Sistemas RAG

Um novo método melhora a checagem de fatos em sistemas de geração aumentada por recuperação.

2025-08-31T22:19:12+00:00 ― 9 min ler

Computação e linguagem Melhorando o Reconhecimento de Intenções em Sistemas Conversacionais

Aprimorando a compreensão das intenções dos usuários através da negação e implicatura.

2025-08-31T10:04:30+00:00 ― 6 min ler

Computação e linguagem Avaliando Modelos de Linguagem em Reconhecimento de Entidades de Discurso

Uma análise da compreensão dos modelos de linguagem sobre as regras de reconhecimento de entidades.

2025-08-30T21:34:00+00:00 ― 7 min ler

Engenharia de software Avaliando o Realismo em Cenários de Teste de Carros Autônomos Usando LLMs

Essa pesquisa avalia o uso de LLMs pra cenários realistas de carros autônomos.

2025-08-29T14:13:48+00:00 ― 9 min ler

Computação e linguagem Aprimorando o PNL para Dialetos Diversos

Um framework pra melhorar o desempenho de NLP em vários dialetos de linguagem.

2025-08-28T20:51:00+00:00 ― 5 min ler

Computação e linguagem NovelQA: Um Novo Padrão para Compreensão de Textos Longos

Avaliar LLMs na habilidade de processar textos longos na literatura.

2025-08-28T03:12:24+00:00 ― 6 min ler

Aprendizagem de máquinas Avaliando a Confiabilidade dos LLMs em Biomedicina

Uma nova estrutura avalia quão confiáveis são os LLMs como assistentes biomédicos.

2025-08-27T05:13:06+00:00 ― 5 min ler

Engenharia de software Avaliação de Modelos de Linguagem de Código: O Desafio da Contaminação de Dados

Um estudo destaca o impacto da contaminação de dados nas avaliações de modelos de código.

2025-08-25T23:27:42+00:00 ― 7 min ler

Computação e linguagem Avaliação de Modelos de Linguagem em Pesquisa Molecular

Um novo conjunto de dados melhora a avaliação do conhecimento molecular em modelos de linguagem.

2025-08-24T19:45:30+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Transformando a Compreensão de Imagens com SPHINX-V

O SPHINX-V melhora a capacidade da IA de interpretar imagens através da interação do usuário.

2025-08-24T07:49:48+00:00 ― 7 min ler

Computação e linguagem BEAR: Uma Nova Estrutura para Avaliar Modelos de Linguagem

O BEAR melhora a avaliação do conhecimento relacional em modelos de linguagem.

2025-08-22T05:16:12+00:00 ― 9 min ler

Computação e linguagem Avaliando a Consistência Parafrástica em Modelos de Linguagem

Esse estudo examina como os modelos de linguagem lidam com diferentes expressões dos mesmos problemas de raciocínio.

2025-08-18T21:28:48+00:00 ― 5 min ler

Computação e linguagem Avaliando a Toxicidade em Modelos de Linguagem Multilíngues

Um novo conjunto de dados avalia como os modelos de linguagem lidam com conteúdo prejudicial em diferentes culturas.

2025-08-17T13:52:48+00:00 ― 6 min ler

Computação e linguagem Avaliando a Precisão de Grandes Modelos de Visão-Linguagem

Um novo parâmetro melhora como a gente avalia os LVLMs e a precisão deles.

2025-08-17T06:46:12+00:00 ― 6 min ler

Computação e linguagem Avaliação da Recordação Factual em Modelos de Linguagem Grandes

Uma avaliação de quão bem os LLMs lembram informações factuais e os fatores envolvidos.

2025-08-16T20:45:48+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliando Modelos de Texto pra Imagem: Uma Nova Abordagem

Este estudo oferece métodos melhores para avaliar modelos de texto para imagem.

2025-08-16T12:59:42+00:00 ― 7 min ler

Computação e linguagem Avançando o Few-Shot Learning para Tarefas em Polonês

Um estudo avaliando métodos de aprendizado com poucos exemplos para classificação da língua polonesa.

2025-08-15T22:38:36+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Avaliação da Extração de Informações em Textos Manuscritos

Novas métricas melhoram a avaliação de sistemas de extração de informações em documentos manuscritos.

2025-08-15T11:58:42+00:00 ― 8 min ler

Computação e linguagem Apresentando o WorkBench: Um Novo Conjunto de Dados de Tarefas de Escritório

O WorkBench testa a habilidade dos agentes de realizar tarefas de escritório realistas com um método de avaliação único.

2025-08-14T22:09:12+00:00 ― 7 min ler

Computação e linguagem Avaliação de Modelos de Linguagem Grandes em um Mundo em Mudança

Avaliando como os LLMs se adaptam a novas informações e preconceitos.

2025-08-11T02:46:36+00:00 ― 9 min ler

Inteligência Artificial Avaliação de Modelos de Linguagem com a Estrutura ALI-Agent

Um novo método pra avaliar como os modelos de linguagem tão alinhados com os valores humanos.

2025-08-09T06:16:24+00:00 ― 8 min ler