Artigos mais recentes para Avaliação

Recuperação de informação VERA: Uma Estrutura para Avaliar Sistemas RAG

Descubra como a VERA melhora a precisão e eficiência na avaliação de sistemas RAG.

2025-06-27T04:33:30+00:00 ― 12 min ler

Aprendizagem de máquinas Avaliação de Modelos de Linguagem Grande para Uso no Mundo Real

Uma nova abordagem para avaliar LLMs com conjuntos de avaliação diversos.

2025-06-26T22:53:48+00:00 ― 7 min ler

Computação e linguagem Abordando o viés de formato em modelos de linguagem

Este artigo analisa como o viés de formato afeta o desempenho dos modelos de linguagem e sugere estratégias de melhoria.

2025-06-26T20:23:42+00:00 ― 7 min ler

Recuperação de informação Hindi-BEIR: Um Benchmark para Recuperação de Informação em Hindi

O Hindi-BEIR tem como objetivo melhorar os sistemas de recuperação de informações para conteúdo em Hindi.

2025-06-26T06:50:00+00:00 ― 6 min ler

Computação e linguagem Alinhar Modelos de Linguagem com Comunidades Online

Explorando métodos pra alinhar LLMs com grupos online pra ter insights melhores.

2025-06-26T04:59:24+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação da Proficiência em Língua de Sinais: Uma Nova Ferramenta

Uma ferramenta criada pra avaliar as habilidades em linguagem de sinais através da análise do movimento natural.

2025-06-25T19:14:48+00:00 ― 7 min ler

Recuperação de informação Novo Método para Avaliar Respostas de Saúde de Modelos de Linguagem

Uma nova abordagem pra avaliar respostas relacionadas à saúde geradas por modelos de IA.

2025-06-25T15:09:54+00:00 ― 7 min ler

Bioquímica FilmCPI: Um Novo Modelo para Previsão de Interações de Medicamentos

O FilmCPI melhora a descoberta de medicamentos ao resolver o desequilíbrio de dados e aumentar a eficiência das previsões.

2025-06-25T14:06:39+00:00 ― 7 min ler

Computação e linguagem Avançando o Processamento da Língua Coreana com o RedWhale

O modelo RedWhale melhora a compreensão de texto em coreano com técnicas especializadas.

2025-06-25T10:49:12+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação do SAM2 em Imagens Médicas 3D

Uma olhada no desempenho e nos desafios do SAM2 na segmentação de imagens médicas.

2025-06-25T09:06:30+00:00 ― 6 min ler

Inteligência Artificial Avaliando as Habilidades de Questionamento de Grandes Modelos de Linguagem

A pesquisa avalia como os LLMs geram perguntas educacionais para aprendizado.

2025-06-25T04:53:42+00:00 ― 5 min ler

Computação e linguagem Uma Nova Abordagem para Resumos Médicos

Quadro inovador melhora a clareza em resumos de documentos médicos.

2025-06-24T18:13:48+00:00 ― 8 min ler

Engenharia de software Avaliating LLMs na Validação de Código de Software

Esse artigo analisa um método pra avaliar a precisão do código gerado por LLMs.

2025-06-24T11:15:06+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Melhorando a Contagem de Objetos na Geração de Imagens

Um novo método melhora a precisão na contagem de objetos em imagens geradas.

2025-06-24T10:59:18+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avaliação de Explicações de IA: Além das Caixas Delimitadoras

Um olhar sobre como melhorar os métodos de explicação da IA pra entender melhor.

2025-06-24T03:52:42+00:00 ― 6 min ler

Aprendizagem de máquinas Vintern-1B: Avançando a Tecnologia da Língua Vietnamita

Um novo modelo criado pra melhorar tarefas em vietnamita com processamento de texto e imagem.

2025-06-23T18:31:48+00:00 ― 6 min ler

Computação e linguagem Avaliando Modelos de Linguagem Grandes de Forma Justa

Uma nova forma de avaliar modelos de linguagem com diferentes instruções e tarefas.

2025-06-23T14:58:30+00:00 ― 7 min ler

Inteligência Artificial Assistência de IA na Correção de Respostas Escritas à Mão

A IA pode acelerar muito a correção de provas escritas para os professores.

2025-06-23T00:29:30+00:00 ― 5 min ler

Computação e linguagem Avaliação de Modelos de Linguagem Biomédica na Saúde

O estudo analisa a eficácia de LLMs especializados em tarefas clínicas.

2025-06-22T12:14:48+00:00 ― 6 min ler

Computação e linguagem Avaliando Tradução Automática: Novas Perspectivas e Desafios

Uma olhada nas descobertas recentes sobre métodos de avaliação de tradução automática.

2025-06-22T12:06:54+00:00 ― 6 min ler

Aprendizagem de máquinas Uma Nova Medida para Avaliar Métodos de Seleção de Recursos

O FSDEM traz uma nova maneira de avaliar técnicas de seleção de características para análise de dados.

2025-06-21T23:12:42+00:00 ― 7 min ler

Criptografia e segurança Avaliação de Modelos de Linguagem Grandes para Codificação Segura

Este artigo aborda a avaliação de LLMs em práticas de codificação segura.

2025-06-21T02:08:42+00:00 ― 7 min ler

Inteligência Artificial Avaliação do Raciocínio Lógico em Modelos de Linguagem

Um novo método pra avaliar quão bem os LLMs entendem e aplicam regras.

2025-06-20T19:41:36+00:00 ― 6 min ler

Computação e linguagem Avaliando o Conhecimento em Modelos de Linguagem com BEAR

Um novo método pra avaliar e comparar o conhecimento dos modelos de linguagem.

2025-06-20T18:38:24+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avançando a Geração de Panorama com o Operador MAD

Um novo método melhora a criação de panoramas usando o operador Merge-Attend-Diffuse.

2025-06-20T17:27:18+00:00 ― 6 min ler

Politica sanitaria Avaliação de Chatbots de Saúde: Um Novo Quadro

Um framework de avaliação completo para chatbots na saúde é apresentado para melhorar a eficácia deles.

2025-06-20T05:12:00+00:00 ― 8 min ler

Engenharia de software Avaliando a Proficiência em JavaScript com Nova Ferramenta

Uma nova ferramenta ajuda a avaliar as habilidades de programação em JavaScript e os níveis de proficiência.

2025-06-20T03:45:42+00:00 ― 6 min ler

Inteligência Artificial Raciocínio Guiado: Um Caminho Claro pra Decisões Melhores

Esse sistema ajuda a pensar e tomar decisões através de um raciocínio estruturado.

2025-06-20T01:39:18+00:00 ― 7 min ler

Engenharia de software Recrutadores se adaptando à IA generativa na contratação

Este estudo analisa como os recrutadores veem as ferramentas de IA na contratação de engenheiros de software.

2025-06-19T02:36:48+00:00 ― 7 min ler

Computação e linguagem Um Novo Sistema de Avaliação para Modelos de Linguagem

Este artigo fala sobre um novo sistema de classificação pra avaliar modelos de linguagem de forma mais justa.

2025-06-18T21:36:36+00:00 ― 6 min ler

Computação e linguagem Avaliando Geração de Texto Longo em LLMs

O LongGenBench avalia modelos de linguagem grandes na geração de textos longos de alta qualidade.

2025-06-17T21:54:36+00:00 ― 7 min ler

Computação e linguagem Avaliação de Sistemas de Perguntas e Respostas Médicas com Assistência de IA

Modelos de Linguagem Grande melhoram a eficiência na avaliação de respostas médicas.

2025-06-17T19:40:18+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Comparando Modelos para Detecção de Poluição em Rios

Esse estudo avalia modelos de machine learning pra detectar lixo nos rios.

2025-06-16T17:44:00+00:00 ― 5 min ler

Computadores e sociedade Ética em Modelos de Linguagem para Saúde Mental

Analisando questões éticas no uso de modelos de linguagem para condições psiquiátricas.

2025-06-16T08:07:18+00:00 ― 10 min ler

Inteligência Artificial Novo Benchmark VisScience Avalia Aprendizado Multi-Modal

A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.

2025-06-15T07:37:54+00:00 ― 5 min ler

Bases de dados Avaliando Modelos de Linguagem Grande com SPARQL

Esse estudo avalia como os LLMs lidam com consultas SPARQL e Grafos de Conhecimento.

2025-06-15T03:25:06+00:00 ― 5 min ler

Recuperação de informação Avaliando Sistemas de Recuperação de Informação ao Longo do Tempo

Uma análise de como sistemas de recuperação funcionam em ambientes de dados em mudança.

2025-06-14T19:23:12+00:00 ― 6 min ler

Computação e linguagem Melhorando Modelos de Linguagem Através do Treinamento RNR

Um novo método melhora a forma como os modelos de linguagem seguem instruções complexas.

2025-06-14T16:29:24+00:00 ― 6 min ler

Computação e linguagem Um Novo Padrão para Avaliar Modelos de Linguagem de RPG

Apresentando uma estrutura inovadora para testar interações de modelos de linguagem em cenários de RPG.

2025-06-14T12:08:42+00:00 ― 10 min ler

Computação e linguagem Apresentando o TeXBLEU: Uma Nova Métrica para Avaliação em LaTeX

TeXBLEU oferece um jeito confiável de avaliar expressões LaTeX a partir de matemática falada.

2025-06-14T09:38:36+00:00 ― 6 min ler