Artigos mais recentes para Avaliação do Modelo

Computação e linguagem Avaliação da Veracidade em Modelos de Linguagem Grande

Um novo método pra avaliar a precisão das saídas de LLM usando dimensões intrínsecas locais.

2025-09-03T20:29:54+00:00 ― 5 min ler

Teoria Estatística Avanços no Fator de Bayes para Comparação de Modelos

Desenvolvimentos recentes no Fator de Bayes melhoram a avaliação de modelos em estatística.

2025-09-03T15:52:28+00:00 ― 5 min ler

Som A Melodia da Synthia: Uma Nova Ferramenta para Pesquisa de Áudio

A Melodia da Synthia ajuda os pesquisadores a testarem modelos de áudio com dados variados.

2025-09-03T14:36:25+00:00 ― 6 min ler

Computação e linguagem Abordando a Descalibração em Modelos de NLP Adversariais

Examinando o impacto da descalibração na resistência dos modelos de NLP a ataques adversariais.

2025-09-03T12:04:18+00:00 ― 8 min ler

Aprendizagem de máquinas Melhorando a Segurança em Modelos de Linguagem através de Red Teaming Motivado pela Curiosidade

Um novo método melhora a robustez dos testes de modelos de linguagem priorizando a novidade.

2025-09-02T23:33:48+00:00 ― 8 min ler

Aprendizagem automática Abordando Vulnerabilidades em Modelos de Aprendizado de Máquina

Analisando o treinamento adversarial para modelos de machine learning mais fortes contra ataques.

2025-09-02T23:11:08+00:00 ― 7 min ler

Computação e linguagem Desafios na Extração de Relações para Modelos de Linguagem

Modelos de linguagem grandes enfrentam problemas em extrair com precisão as relações entre entidades.

2025-09-02T19:21:00+00:00 ― 6 min ler

Computação e linguagem Abordando a Alucinação Numérica em Modelos de Visão-Linguagem

Esse artigo destaca os desafios relacionados à precisão na contagem em modelos de IA.

2025-09-02T06:03:06+00:00 ― 8 min ler

Computação e linguagem Novo Referencial para Avaliar as Habilidades de Raciocínio das MLLMs

NPHardEval4V avalia as capacidades de raciocínio de modelos de linguagem multimodais grandes.

2025-09-01T13:19:48+00:00 ― 9 min ler

Computação e linguagem Avaliação de Modelos de Linguagem com o Conjunto de Dados PARADISE

Um novo conjunto de dados pra avaliar as habilidades de planejamento de modelos de linguagem em tarefas do dia a dia.

2025-09-01T03:19:24+00:00 ― 8 min ler

Criptografia e segurança Nova Métrica para Avaliar a Resiliência do Modelo Contra Ataques

Introduzindo o hypervolume adversarial pra avaliar melhor o desempenho de modelos de deep learning.

2025-08-31T03:37:24+00:00 ― 8 min ler

Aprendizagem de máquinas Avaliação de Transformers Simplificados para Previsão de Séries Temporais

Esse trabalho analisa o desempenho de transformers simplificados em tarefas de previsão.

2025-08-30T16:44:52+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avaliando Modelos de Linguagem Multimodal com o Benchmark CoIN

Um novo benchmark avalia o aprendizado contínuo em modelos de linguagem multimodal.

2025-08-29T17:23:24+00:00 ― 7 min ler

Aprendizagem automática Entendendo a Estrutura PAC-Bayes para Generalização de Modelos

Um olhar sobre PAC-Bayes e seu impacto no desempenho do modelo.

2025-08-29T13:12:40+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões AVIBench: Nova Ferramenta para Avaliar LVLMs Contra Ataques Adversariais

AVIBench testa os LVLMs pra garantir que eles aguentam instruções visuais desafiadoras.

2025-08-29T08:26:12+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avaliando o VMamba: Um Novo Modelo em Visão Computacional

Este artigo analisa os pontos fortes e fracos do modelo VMamba.

2025-08-28T20:11:30+00:00 ― 6 min ler

Computação e linguagem Examinando a Fidelidade nas Explicações de Modelos de Linguagem

Um estudo comparando as explicações de modelos multilíngues e monolíngues e a fidelidade deles.

2025-08-27T21:16:54+00:00 ― 9 min ler

Aprendizagem de máquinas Avaliando a Criatividade em Modelos Generativos com a Pontuação KEN

Um novo método pra avaliar a novidade nas saídas de IA generativa.

2025-08-25T21:35:40+00:00 ― 6 min ler

Aprendizagem de máquinas Métodos para Classificar Dados e Estimar Incerteza

Explore vários modelos usados para classificação de dados e estimativa de incerteza.

2025-08-25T04:04:16+00:00 ― 6 min ler

Computação e linguagem GAHD: Enfrentando o Discurso de Ódio em Textos Alemães

Um novo conjunto de dados tem como objetivo melhorar os modelos de detecção de discurso de ódio para a língua alemã.

2025-08-24T16:39:06+00:00 ― 6 min ler

Computação e linguagem Avaliação de Modelos de PNL Através da Distribuição de Dados

Esse artigo analisa como os dados influenciam a avaliação de modelos de NLP.

2025-08-23T22:13:06+00:00 ― 6 min ler

Inteligência Artificial IsoBench: Uma Nova Ferramenta pra Avaliação de Modelos

O IsoBench avalia como os modelos lidam com texto e imagens pra identificar pontos fortes.

2025-08-23T16:57:06+00:00 ― 4 min ler

Aprendizagem de máquinas Ataques Adversariais em Aprendizado de Máquina: Uma Visão Geral

Aprenda sobre ataques adversariais e seu impacto nos modelos de aprendizado de máquina.

2025-08-20T13:14:36+00:00 ― 8 min ler

Computação e linguagem Avaliando a Segurança em Modelos de Linguagem

Um estudo comparando o desempenho de segurança de modelos de linguagem populares.

2025-08-19T13:40:30+00:00 ― 6 min ler

Aprendizagem de máquinas Analisando o impacto dos dados de treinamento nos modelos de IA

Um framework pra avaliar como os dados de treino influenciam o comportamento do modelo de IA.

2025-08-17T09:08:24+00:00 ― 11 min ler

Computação e linguagem Avaliando Modelos de Linguagem com o Benchmark VISLA

Um novo parâmetro avalia como os modelos de linguagem entendem os significados das palavras e suas relações.

2025-08-16T08:07:24+00:00 ― 6 min ler

Aprendizagem de máquinas Avaliando a Estabilidade de Aprendizado de Máquina com Robustez Harmônica

Um método pra verificar a confiabilidade do modelo sem rótulos verdadeiros.

2025-08-15T13:17:42+00:00 ― 7 min ler

Computação e linguagem Avaliando a Representação do Conhecimento em Modelos de Linguagem

Um estudo comparando métodos de Atribuição de Instância e Neurônio em modelos de linguagem.

2025-08-15T11:50:48+00:00 ― 9 min ler

Aprendizagem de máquinas Aprendizado por Transferência: Ideias sobre o Desempenho do Modelo

Explorando como o aprendizado por transferência impacta a eficácia do modelo em diferentes contextos de dados.

2025-08-15T11:15:40+00:00 ― 6 min ler

Cosmologia e Astrofísica Não Galáctica Uma Nova Abordagem para Comparação de Modelos em Cosmologia

Apresentando o método FB para uma avaliação melhor dos modelos na cosmologia.

2025-08-15T06:15:16+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avaliando a Confiança da IA na Estimativa de Incerteza

Um estudo revela problemas de excesso de confiança em modelos de linguagem e visão de IA.

2025-08-13T16:08:00+00:00 ― 7 min ler

Aprendizagem de máquinas Acelerando a Seleção de Modelos com Parada Antecipada

Esse artigo fala sobre como usar o early stopping pra melhorar a eficiência na seleção de modelos em machine learning.

2025-08-13T09:01:24+00:00 ― 8 min ler

Aprendizagem de máquinas Embeddings de Variáveis Compartilhadas em Aprendizado de Múltiplas Tarefas

Explorando os benefícios e desafios das embeddings de variáveis compartilhadas em machine learning.

2025-08-12T00:38:00+00:00 ― 8 min ler

Computação Neural e Evolutiva Melhorando a Programação Genética com Minimização Consciente de Nitidez

Novas técnicas melhoram a confiabilidade e a simplicidade nos modelos de programação genética.

2025-08-10T15:43:00+00:00 ― 9 min ler

Aprendizagem de máquinas AnyLoss: Uma Nova Abordagem para Avaliação de Modelos

Apresentando o AnyLoss, transformando métricas em funções de perda pra um treinamento de modelo melhor.

2025-08-08T09:12:24+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Melhorando a Transparência na Detecção de Objetos com IA

Este artigo fala sobre novos métodos para explicar as decisões da IA em detecção de objetos.

2025-08-06T11:23:12+00:00 ― 8 min ler

Aprendizagem de máquinas Navegando Vulnerabilidades em IA: Exemplos Adversariais

Uma olhada em como exemplos adversariais desafiam modelos de IA.

2025-08-06T05:43:30+00:00 ― 7 min ler

Econometria Escolhendo Parâmetros de Ajuste na Análise de Dados

Aprenda métodos chave para escolher parâmetros de ajuste na análise de dados pra fazer previsões melhores.

2025-08-04T12:24:40+00:00 ― 6 min ler

Criptografia e segurança Avaliando Grandes Modelos de Linguagem em Cibersegurança

Um novo padrão para avaliar LLMs em tarefas de cibersegurança.

2025-08-04T08:33:48+00:00 ― 9 min ler

Aprendizagem de máquinas Revisitando o Desentrelaçamento em Modelos de Aprendizado de Máquina

Esse trabalho propõe novos métodos pra avaliar a fragmentação da informação em aprendizado de máquina.

2025-08-04T01:50:54+00:00 ― 9 min ler