Artigos mais recentes para Avaliação do Modelo

Aprendizagem de máquinas Comparando Similaridade Representacional em Redes Neurais

Um novo benchmark avalia métodos para medir a similaridade representacional em aprendizado de máquina.

2025-07-03T18:17:42+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Melhorando a Confiabilidade do Modelo com o DECIDER

Uma nova abordagem para detectar falhas em modelos de classificação de imagens.

2025-07-03T14:20:42+00:00 ― 6 min ler

Computação e linguagem Avaliando Modelos de Linguagem na Geração de Saídas Estruturadas

Avaliar como os LLMs produzem saídas em JSON através de testes StructuredRAG.

2025-07-01T07:34:18+00:00 ― 6 min ler

Aprendizagem de máquinas Navegando pelos Desafios da Adaptação de Domínio Não Supervisionada

Um estudo sobre como melhorar os métodos de UDA através da avaliação e compreensão de mudanças nos dados.

2025-06-29T22:46:28+00:00 ― 8 min ler

Computação e linguagem Melhorando a Fusão de Modelos com o ProFuser

Um novo método pra combinar modelos de linguagem de forma mais eficiente.

2025-06-29T22:23:30+00:00 ― 7 min ler

Aprendizagem de máquinas Melhorando a confiança com AOPC normalizado em redes neurais

Uma nova abordagem melhora a compreensão das previsões do modelo através da atribuição de características.

2025-06-27T09:25:48+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Novas Ideias sobre Avaliação de Modelos de Visão

Um método novo mostra como os modelos de visão organizam e entendem imagens.

2025-06-27T03:22:24+00:00 ― 7 min ler

Computação e linguagem Avaliando Atribuição em Modelos de Linguagem Autoregressivos

Nova técnica para entender melhor as previsões do modelo usando exemplos contrafactuais.

2025-06-25T10:01:48+00:00 ― 6 min ler

Aprendizagem de máquinas Melhorando a Previsão de Séries Temporais com VMD e Modelos Lineares

Um método que combina VMD e modelos lineares aumenta a precisão das previsões.

2025-06-23T03:19:25+00:00 ― 6 min ler

Computação e linguagem Uma Nova Estrutura para Avaliar Modelos de Linguagem

A estrutura PoEM avalia modelos de linguagem sem precisar de rótulos precisos.

2025-06-22T10:32:06+00:00 ― 6 min ler

Computação e linguagem Avaliando a Estabilidade do Modelo de Linguagem Através de Variações de Entrada

Este estudo avalia como pequenas mudanças impactam as respostas de modelos de linguagem.

2025-06-22T09:42:00+00:00 ― 4 min ler

Computação e linguagem Detectando Contaminação em Grandes Modelos de Linguagem

Um novo método ajuda a identificar a contaminação de dados de teste em LLMs usando probabilidades de tokens.

2025-06-22T01:19:06+00:00 ― 10 min ler

Aprendizagem de máquinas Uma Nova Medida para Avaliar Métodos de Seleção de Recursos

O FSDEM traz uma nova maneira de avaliar técnicas de seleção de características para análise de dados.

2025-06-21T23:12:42+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Analisando o MAPWise: Um Novo Conjunto de Dados para Modelos de Visão-Linguagem

O dataset MAPWise desafia modelos com perguntas baseadas em mapas e avalia suas habilidades de raciocínio.

2025-06-19T21:42:18+00:00 ― 8 min ler

Computação e linguagem Um Novo Sistema de Avaliação para Modelos de Linguagem

Este artigo fala sobre um novo sistema de classificação pra avaliar modelos de linguagem de forma mais justa.

2025-06-18T21:36:36+00:00 ― 6 min ler

Aprendizagem de máquinas Escalonamento Logit: Uma Nova Abordagem para Detecção de OOD

O Logit Scaling melhora a detecção de dados fora da distribuição sem precisar de dados de treino.

2025-06-18T10:17:12+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Comparando Modelos para Detecção de Poluição em Rios

Esse estudo avalia modelos de machine learning pra detectar lixo nos rios.

2025-06-16T17:44:00+00:00 ― 5 min ler

Aprendizagem de máquinas Avaliando a Distância Adversarial em Classificadores de Aprendizado de Máquina

Um novo método para avaliar a robustez em classificadores de ML usando distância adversarial.

2025-06-16T15:06:00+00:00 ― 7 min ler

Inteligência Artificial Avaliando as Habilidades Reais dos Modelos de Linguagem

Uma olhada mais de perto em como os grandes modelos de linguagem se saem em tarefas básicas.

2025-06-13T22:50:48+00:00 ― 8 min ler

Computação e linguagem Cross-Refinar: Melhorando Explicações de Modelos de Linguagem

Um novo método melhora as explicações da IA por meio da colaboração entre dois modelos de linguagem.

2025-06-13T13:29:54+00:00 ― 7 min ler

Aprendizagem de máquinas Avaliação de Autoencoders Variacionais através do Grau Topológico

Esta pesquisa explora como o grau topológico avalia a eficácia dos VAEs em capturar a estrutura dos dados.

2025-06-13T08:55:11+00:00 ― 5 min ler

Computação e linguagem Equilibrando Conhecimento Local e Global em LLMs

Estudo revela como os modelos de linguagem usam o contexto pra respostas precisas.

2025-06-13T08:06:00+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Enfrentando a Mudança de Distribuição em Aprendizado de Máquina

Novos métodos ajudam a entender como os modelos reagem a mudanças nos dados.

2025-06-13T00:12:00+00:00 ― 8 min ler

Computação e linguagem Desafios em Detectar Contaminação de Dados em LLMs

Esse artigo analisa métodos para detectar contaminação de dados em modelos de linguagem grandes.

2025-06-11T22:39:24+00:00 ― 7 min ler

Aprendizagem automática Aumentando a Estabilidade no SGD com Técnicas de Bootstrap

Este artigo explora como métodos bootstrap melhoram a estabilidade e a robustez em modelos SGD.

2025-06-11T04:10:28+00:00 ― 6 min ler

Aprendizagem de máquinas Medindo Incerteza em Modelos de Linguagem

Um novo padrão tem o objetivo de melhorar a avaliação de incerteza em modelos de linguagem.

2025-06-11T02:30:42+00:00 ― 6 min ler

Computação e linguagem Aprimorando Explicações de Machine Learning com Sugerir Traços de Programa

Um novo método melhora o raciocínio do modelo através de rastros de programação estruturada.

2025-06-11T00:16:24+00:00 ― 9 min ler

Computação e linguagem Avaliando a Segurança em Modelos de Linguagem Ajustados

Analisando como o ajuste fino afeta a segurança em modelos de linguagem em várias tarefas.

2025-06-10T08:04:42+00:00 ― 7 min ler

Aprendizagem de máquinas Melhorando a Avaliação de Modelos de Aprendizado de Máquina com a Teoria da Resposta ao Item

Uma nova abordagem para avaliar modelos de ML usando a Teoria da Resposta ao Item para obter insights melhores.

2025-06-10T02:18:24+00:00 ― 6 min ler

Aprendizagem de máquinas O Papel de Modelos Base Fortes em ML na Saúde

Modelos base fortes melhoram a avaliação de sistemas de ML na área da saúde.

2025-06-10T01:53:24+00:00 ― 7 min ler

Aprendizagem de máquinas Reavaliando Intervalos de Confiança em Aprendizado com Poucos Exemplos

Uma olhada nos intervalos de confiança em aprendizado com poucos exemplos e seu impacto na avaliação de modelos.

2025-06-09T22:58:08+00:00 ― 7 min ler

Computação e linguagem Avaliando a Verdade em Modelos de Linguagem

Analisando a compreensão e a precisão de saída dos modelos de linguagem.

2025-06-09T04:02:00+00:00 ― 6 min ler

Aprendizagem de máquinas Melhorando Redes Neurais Informadas por Física com Funções de Influência

Destaques da pesquisa usando funções de influência pra melhorar o desempenho de PINN em problemas de física.

2025-06-08T18:12:45+00:00 ― 7 min ler

Aprendizagem de máquinas Entendendo a Complexidade dos Modelos em Aprendizado de Máquina

Um olhar sobre a dimensão efetiva e seu impacto no treinamento de modelos.

2025-06-08T09:25:08+00:00 ― 7 min ler

Computação e linguagem Avaliando a Confiabilidade dos Modelos de Linguagem na Ciência

Este artigo avalia o quão bem modelos de linguagem explicam conceitos científicos.

2025-06-08T07:37:30+00:00 ― 5 min ler

Aprendizagem de máquinas Equilibrando Desempenho e Interpretabilidade com GAMs

Esse artigo analisa os GAMs como uma solução para desempenho preditivo e interpretabilidade.

2025-06-08T01:18:18+00:00 ― 8 min ler

Aprendizagem de máquinas Revisitando a Precisão dos Testes em AutoML: O Papel das Amostras Difíceis

Analisando como amostras difíceis afetam o desempenho do modelo e a confiabilidade da precisão do teste.

2025-06-08T00:30:54+00:00 ― 11 min ler

Computação e linguagem Importância das Camadas em Modelos de Linguagem Grandes

Esse artigo examina como diferentes camadas afetam o desempenho dos LLMs.

2025-06-08T00:07:12+00:00 ― 6 min ler

Aprendizagem de máquinas O Impacto do Aprendizado com Rótulos Amolecidos em Modelos de Classificação

Rótulos suaves podem melhorar o desempenho de modelos de aprendizado de máquina em cenários de dados incertos.

2025-06-06T18:21:48+00:00 ― 7 min ler

Engenharia de software Apresentando o RepairBench: Um Novo Padrão para Avaliação de Reparo de Programas com IA

O RepairBench define padrões pra comparar modelos de IA na correção de bugs de software.

2025-06-04T10:00:36+00:00 ― 6 min ler