Artigos mais recentes para Métodos de Avaliação

Física e sociedade Uma Abordagem Justa para Classificar Opções

Aprenda a classificar opiniões e escolhas de forma justa usando princípios estatísticos.

2025-08-13T13:14:24+00:00 ― 7 min ler

Informatica sanitaria Avaliação da Geração de Linguagem Natural na Medicina

Um estudo sobre como avaliar sistemas de NLG para diagnósticos médicos precisos.

2025-08-12T17:03:30+00:00 ― 7 min ler

Computação e linguagem Avaliação da Compreensão de Conhecimento do Mundo pela IA

Um olhar sobre como os modelos de IA entendem o conhecimento essencial do mundo.

2025-08-10T22:41:42+00:00 ― 7 min ler

Computação e linguagem Avaliação de NLG com o Framework AdvEval

AdvEval expõe fraquezas nas métricas de avaliação de Geração de Linguagem Natural.

2025-08-08T07:29:42+00:00 ― 8 min ler

Computação e linguagem Melhorando a Avaliação Humana de Modelos de Linguagem

Um novo framework pra avaliar modelos de linguagem grandes com a visão humana.

2025-08-06T00:03:48+00:00 ― 9 min ler

Inteligência Artificial Uma Nova Abordagem para Tomada de Decisões com Lógica de Sete Valores

Aprenda como a lógica de sete valores melhora a tomada de decisão com múltiplos critérios.

2025-08-04T05:00:30+00:00 ― 7 min ler

Inteligência Artificial Avaliando Favoritismo em Métricas de IA Generativa

Uma nova abordagem pra avaliar preconceitos em métricas de avaliação automatizadas de IA.

2025-08-02T22:04:00+00:00 ― 7 min ler

Computação e linguagem Avanços na Geração de Texto Controlável com LLMs

Avaliando métodos para controle preciso das características do texto nas saídas de LLM.

2025-08-01T15:23:18+00:00 ― 16 min ler

Computação e linguagem Avaliando Modelos de Linguagem Através da Colaboração

Um novo modelo avalia os modelos de linguagem em inteligência emocional e criatividade.

2025-07-30T00:50:48+00:00 ― 9 min ler

Aprendizagem de máquinas Avaliação de Fontes de Rotulagem com Valores WeShap

WeShap melhora a qualidade da rotulagem de dados para modelos de aprendizado de máquina.

2025-07-28T06:50:42+00:00 ― 8 min ler

Inteligência Artificial Estrutura STAR: Melhorando o Red Teaming para a Segurança da IA

Uma nova abordagem pra melhorar as avaliações de segurança dos sistemas de IA usando perspectivas diversas.

2025-07-27T19:47:06+00:00 ― 6 min ler

Computação e linguagem Uma Nova Maneira de Avaliar Modelos de Linguagem Grandes

A Taxonomia de Prompting Hierárquico melhora os métodos de avaliação para modelos de linguagem.

2025-07-27T05:10:12+00:00 ― 7 min ler

Computação e linguagem Avaliando Modelos de Linguagem: Uma Nova Abordagem

Um estudo sobre como usar LLMs pra avaliar outros LLMs e suas implicações.

2025-07-27T04:30:42+00:00 ― 8 min ler

Computação e linguagem Novo Padrão para Avaliar LLMs em Propriedade Intelectual

IPEval avalia a compreensão de conceitos de propriedade intelectual por modelos de linguagem.

2025-07-27T01:29:00+00:00 ― 6 min ler

Computação e linguagem Avaliando Modelos de Linguagem Multilíngues em Línguas Índicas

Um estudo completo sobre o desempenho de modelos de linguagem em 10 línguas do subcontinente indiano.

2025-07-25T17:37:12+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões ChronoMagic-Bench: Avanço na Avaliação de Vídeos em Time-Lapse

Novos benchmarks melhoram a forma como avaliamos vídeos em time-lapse gerados.

2025-07-24T00:40:18+00:00 ― 8 min ler

Computação e linguagem Avaliação de Métodos de Resumo de Texto com LLMs

Esse artigo examina métodos para avaliar resumos de texto usando modelos de linguagem grandes.

2025-07-22T04:41:42+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avaliando Geração de Vídeo: O Protocolo DEVIL

Um novo método pra avaliar modelos de texto pra vídeo foca na dinâmica.

2025-07-21T10:07:48+00:00 ― 8 min ler

Computação e linguagem M5 Benchmark: Avaliando Modelos Multimodais Através das Culturas

Um novo benchmark avalia o desempenho de modelos de linguagem em todo o mundo.

2025-07-19T04:40:24+00:00 ― 8 min ler

Computação e linguagem Avaliando Histórias Visuais Geradas por Máquinas

Uma nova método pra avaliar a qualidade das histórias contadas por máquinas foi apresentado.

2025-07-18T16:09:54+00:00 ― 9 min ler

Inteligência Artificial Avançando Agentes Interativos com Linguagem Fundamentada

Um estudo sobre como melhorar a habilidade da IA de seguir instruções em linguagem natural.

2025-07-15T11:00:30+00:00 ― 9 min ler

Inteligência Artificial Avaliação das Experiências de XAI com a Escala XEQ

Uma nova escala ajuda a medir as experiências dos usuários em sistemas de IA explicável.

2025-07-13T03:50:24+00:00 ― 6 min ler

Inteligência Artificial Avaliando Modelos de Linguagem em Programação Científica

Um novo benchmark avalia modelos de linguagem em desafios de codificação científica em várias áreas.

2025-07-10T17:22:48+00:00 ― 7 min ler

Aprendizagem de máquinas Novo Framework para Avaliar a Generalização de Modelos de IA

Apresentando um método pra avaliar modelos de IA em dados que nunca viram de forma mais eficaz.

2025-07-09T06:05:36+00:00 ― 7 min ler

Computação e linguagem Avaliando Modelos de Linguagem: Um Novo Conjunto de Ferramentas

Um kit de ferramentas feito pra avaliar melhor as interações entre humanos e bots.

2025-07-06T18:11:06+00:00 ― 6 min ler

Som Avaliando a Compreensão Musical com o Benchmark MuChoMusic

Um novo parâmetro pra avaliar modelos que analisam música e linguagem.

2025-07-06T05:29:45+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões E avaliando modelos de imagem pra entender gráficos

Novo framework avalia como modelos de imagem interpretam informações gráficas através da precisão do canal.

2025-07-04T23:23:36+00:00 ― 5 min ler

Aprendizagem de máquinas Avaliando Autoencoders Esparsos com Jogos de Tabuleiro

Uma nova estrutura pra avaliar autoencoders esparsos através do xadrez e do Othello.

2025-07-04T12:43:42+00:00 ― 6 min ler

Recuperação de informação Oficina sobre Modelos de Linguagem Grande em Recuperação de Informação

Pesquisadores discutem o impacto dos LLMs na avaliação de sistemas de recuperação de informação.

2025-06-30T04:26:54+00:00 ― 6 min ler

Aprendizagem de máquinas Avaliação de Modelos de Linguagem Grande para Uso no Mundo Real

Uma nova abordagem para avaliar LLMs com conjuntos de avaliação diversos.

2025-06-26T22:53:48+00:00 ― 7 min ler

Computação e linguagem Avaliando Modelos de Linguagem Grandes de Forma Justa

Uma nova forma de avaliar modelos de linguagem com diferentes instruções e tarefas.

2025-06-23T14:58:30+00:00 ― 7 min ler

Computadores e sociedade Avaliação de IA Confiável: Métodos e Desafios

Uma olhada na avaliação de sistemas de IA confiáveis e os métodos envolvidos.

2025-06-21T05:26:12+00:00 ― 7 min ler

Engenharia de software Avaliação de Resumos de Relatórios de Bugs com LLMs

Este estudo analisa como os LLMs avaliam resumos de relatórios de bugs em comparação com avaliadores humanos.

2025-06-18T20:41:18+00:00 ― 7 min ler

Computação e linguagem Avaliando Geração de Texto Longo em LLMs

O LongGenBench avalia modelos de linguagem grandes na geração de textos longos de alta qualidade.

2025-06-17T21:54:36+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliação de Modelos de Visão Computacional com Teoria da Resposta ao Item

Usando IRT pra avaliar melhor o desempenho do modelo de visão computacional.

2025-06-15T21:19:30+00:00 ― 6 min ler

Inteligência Artificial Novo Benchmark VisScience Avalia Aprendizado Multi-Modal

A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.

2025-06-15T07:37:54+00:00 ― 5 min ler

Computação e linguagem Avaliação de Perguntas e Respostas Grounded com GroUSE

Esse artigo fala sobre os desafios e soluções na avaliação de modelos de resposta a perguntas com base em contexto.

2025-06-14T07:48:00+00:00 ― 11 min ler

Computação e linguagem Avaliando Sistemas de Geração Aumentada por Recuperação: Um Novo Conjunto de Dados

Apresentando um conjunto de dados pra avaliar o desempenho dos sistemas RAG em situações do dia a dia.

2025-06-09T11:56:00+00:00 ― 6 min ler

Computação e linguagem Apresentando Michelangelo: Uma Nova Avaliação para Modelos de Linguagem

Michelangelo avalia modelos de linguagem pela capacidade deles de raciocinar em contextos longos.

2025-06-09T07:51:06+00:00 ― 4 min ler

Computação e linguagem Kalahi: Avaliando Modelos de Linguagem na Cultura Filipina

Uma ferramenta pra avaliar a relevância e adequação de modelos de linguagem em contextos filipinos.

2025-06-09T04:49:24+00:00 ― 6 min ler