Artigos mais recentes para Avaliação

Computação e linguagem Avaliando o Raciocínio em Modelos de Linguagem Grandes

Um novo framework avalia como os LLMs raciocinam pra responder perguntas complexas.

2025-09-07T00:51:54+00:00 ― 5 min ler

Computação e linguagem Melhorando Modelos de Linguagem com Cadeia de Instruções

Esse artigo fala sobre um método pra melhorar modelos de linguagem usando instruções estruturadas.

2025-09-06T20:15:24+00:00 ― 6 min ler

Física atmosférica e oceânica Enfrentando a Turbulência Óptica com o otbench

Uma nova ferramenta ajuda os pesquisadores a modelar a turbulência óptica de forma eficaz.

2025-09-06T15:31:24+00:00 ― 6 min ler

Aprendizagem de máquinas Entendendo a Atribuição de Dados com o DualView

Explora como o DualView melhora a atribuição de dados em modelos de aprendizado de máquina.

2025-09-06T11:41:54+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação do Desaprender de Máquina em Modelos de Difusão

Novo conjunto de dados melhora os métodos de avaliação para desaprendizado de máquina na geração de imagens.

2025-09-06T06:02:12+00:00 ― 7 min ler

Computação e linguagem A Importância da Simplificação de Texto para Todos os Leitores

A simplificação do texto ajuda a melhorar o acesso à informação para leitores diferentes.

2025-09-06T01:02:00+00:00 ― 6 min ler

Bibliotecas digitais O Papel das Revisões de Literatura na Pesquisa em PAMI

Analisando a importância e os desafios das revisões de literatura em Análise de Padrões e Inteligência de Máquinas.

2025-09-05T22:55:36+00:00 ― 11 min ler

Computação e linguagem Expandindo Taxonomias com Modelos de Linguagem Grande

Automatizando a expansão de taxonomia usando modelos de linguagem avançados pra uma organização de conhecimento mais bacana.

2025-09-05T10:25:06+00:00 ― 7 min ler

Computação e linguagem Meta Probing Agents: Um Novo Jeito de Avaliar LLMs

Apresentando uma nova forma de avaliar modelos de linguagem grandes de maneira eficaz.

2025-09-05T09:14:00+00:00 ― 7 min ler

Computação e linguagem Extraindo Estruturas Comuns de Documentos pra Melhor Entendimento

Um novo método identifica layouts típicos de documentos em várias áreas e idiomas.

2025-09-05T08:34:30+00:00 ― 10 min ler

Comunicação científica e educação Melhorando a Comunicação Científica no NIH

Pesquisa revela informações sobre as práticas de comunicação científica entre a equipe do NIH.

2025-09-05T01:49:56+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avaliação de Modelos de Visão-Linguagem: O Papel da Incerteza

Este estudo destaca a importância da incerteza na avaliação de Modelos de Visão-Linguagem.

2025-09-05T01:43:42+00:00 ― 8 min ler

Computação e linguagem KIEval: Uma Nova Forma de Avaliar Modelos de Linguagem

A KIEval oferece avaliação interativa pra lidar com contaminação de dados em modelos de linguagem.

2025-09-05T00:16:48+00:00 ― 7 min ler

Inteligência Artificial Avaliando Alucinações em Grandes Modelos de Visão-Linguagem

Esse artigo fala sobre uma nova estrutura pra avaliar alucinações em LVLMs.

2025-09-04T12:02:06+00:00 ― 8 min ler

Computação e linguagem Apresentando o SportQA: Um Novo Padrão para Conhecimento Esportivo em Modelos de Linguagem

O SportQA avalia a compreensão de modelos de linguagem sobre esportes através de mais de 70.000 perguntas.

2025-09-04T11:54:12+00:00 ― 9 min ler

Computação e linguagem Abordando o Viés de Probabilidade em Modelos de Linguagem

A pesquisa destaca o viés nas avaliações de modelos de linguagem e sugere métodos pra melhorar isso.

2025-09-04T11:38:24+00:00 ― 7 min ler

Computação e linguagem Reavaliando as Avaliações de Modelos de Linguagem

A pesquisa desafia os métodos tradicionais de avaliar os valores e opiniões dos modelos de linguagem.

2025-09-03T21:41:00+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões OpenMEDLab: Uma Plataforma para Recursos de IA Médica

OpenMEDLab melhora o acesso a ferramentas e recursos de IA médica pra um atendimento de saúde melhor.

2025-09-03T20:06:12+00:00 ― 7 min ler

Computadores e sociedade Apresentando o SyllabusQA: Um Novo Conjunto de Dados para Logística de Cursos

SyllabusQA oferece uma visão sobre perguntas automáticas em educação.

2025-09-02T06:34:42+00:00 ― 10 min ler

Computação e linguagem Melhorando a Avaliação da Correção de Erros Gramaticais

Novo conjunto de dados melhora a avaliação de sistemas de correção de erros gramaticais.

2025-09-01T04:22:36+00:00 ― 7 min ler

Computação e linguagem Avaliando as habilidades de simplificação de frases do GPT-4

Um estudo sobre a eficácia do GPT-4 em simplificar frases.

2025-08-31T16:31:36+00:00 ― 6 min ler

Computação e linguagem Avaliando Ferramentas de Processamento de Linguagem pra Melhor Performance

Um novo método pra avaliar ferramentas de processamento de linguagem tá mostrando potencial pra melhorar.

2025-08-31T11:31:24+00:00 ― 6 min ler

Computação e linguagem Melhorando a Geração de Mensagens de Commit com o CommitBench

Um novo conjunto de dados tem como objetivo melhorar a qualidade das mensagens de commit automáticas para os desenvolvedores.

2025-08-31T04:32:42+00:00 ― 11 min ler

Computação e linguagem Melhorando as Habilidades Sociais em Agentes de Linguagem

Um novo método melhora as habilidades de comunicação dos agentes de linguagem.

2025-08-29T19:45:36+00:00 ― 7 min ler

Computação e linguagem Avaliação de Viés em Modelos de Linguagem: Uma Nova Abordagem

E avaliando como os preconceitos nos modelos de linguagem afetam aplicações no mundo real.

2025-08-29T12:22:36+00:00 ― 7 min ler

Computação e linguagem Avançando Modelos Multimodais com o X-LLaVA

X-LLaVA melhora as capacidades multilíngues para responder perguntas visuais.

2025-08-28T16:46:06+00:00 ― 8 min ler

Computação e linguagem ChartThinker: Melhorando a Resumão Automático de Gráficos

Descubra como o ChartThinker melhora os resumos de gráficos pra facilitar a compreensão.

2025-08-28T14:16:00+00:00 ― 7 min ler

Computação e linguagem NovelQA: Um Novo Padrão para Compreensão de Textos Longos

Avaliar LLMs na habilidade de processar textos longos na literatura.

2025-08-28T03:12:24+00:00 ― 6 min ler

Computação e linguagem Avaliando Modelos de Linguagem com TinyBenchmarks

Um novo método pra avaliar modelos de linguagem grandes usando menos exemplos.

2025-08-28T01:19:48+00:00 ― 7 min ler

Bases de dados Avanços na Avaliação de Programas Datalog

Melhorando a eficiência no Datalog através de semirring e técnicas de grounding.

2025-08-27T18:07:18+00:00 ― 6 min ler

Recuperação de informação Melhorando a Recuperação de Informações Através do Seguimento de Instruções

Um novo conjunto de dados ajuda os modelos de IR a se adaptarem a instruções complexas pra ter um desempenho melhor.

2025-08-26T18:49:00+00:00 ― 3 min ler

Computação e linguagem Avaliação da Qualidade dos Argumentos com Modelos de Linguagem

Descubra como os modelos de linguagem podem melhorar nossa compreensão sobre a qualidade dos argumentos.

2025-08-26T06:02:42+00:00 ― 9 min ler

Recuperação de informação Desafios na Avaliação de Sistemas de Recuperação de Informação Legal

Explorando as complexidades de avaliar sistemas de recuperação de informações legais e sua eficácia.

2025-08-25T05:09:36+00:00 ― 8 min ler

Computação e linguagem Apresentando o TriviaHG: Um Novo Conjunto de Dados para Geração de Dicas

A TriviaHG oferece dicas pra perguntas, estimulando um pensamento mais profundo e aprendizado.

2025-08-24T23:14:06+00:00 ― 7 min ler

Computação e linguagem Avaliação de Modelos de Linguagem em Pesquisa Molecular

Um novo conjunto de dados melhora a avaliação do conhecimento molecular em modelos de linguagem.

2025-08-24T19:45:30+00:00 ― 8 min ler

Neurociência Entendendo os Processos de Tomada de Decisão no Cérebro

Esse estudo explora como nossos cérebros avaliam escolhas e tomam decisões.

2025-08-23T09:22:44+00:00 ― 7 min ler

Recuperação de informação Um Esquema Claro para Avaliar Sistemas de Recomendação

Esse guia ajuda a facilitar a avaliação de sistemas de recomendação pra melhorar a experiência do usuário.

2025-08-23T02:20:12+00:00 ― 8 min ler

Computação e linguagem Melhorando a Resumo de Roteiros de Filmes com Cenas Marcantes

Esse trabalho foca em identificar cenas importantes pra melhorar os resumos de roteiros de filmes.

2025-08-22T12:54:24+00:00 ― 6 min ler

Aprendizagem de máquinas O Método Cram: Uma Nova Abordagem para Aprendizado de Dados

Um método para aprender e avaliar políticas ao mesmo tempo usando todos os dados disponíveis.

2025-08-22T09:18:56+00:00 ― 8 min ler

Inteligência Artificial Aproveitando Modelos de Linguagem para Geração de Hipóteses Científicas

Esse artigo explora como os LLMs geram e refinam hipóteses científicas a partir de dados existentes.

2025-08-22T06:43:06+00:00 ― 8 min ler