Artigos mais recentes para Avaliação

Inteligência Artificial Aproveitando Modelos de Linguagem para Geração de Hipóteses Científicas

Esse artigo explora como os LLMs geram e refinam hipóteses científicas a partir de dados existentes.

2025-08-22T06:43:06+00:00 ― 8 min ler

Inteligência Artificial Melhorando a Completação de Grafos de Conhecimento com KGExplainer

KGExplainer melhora a transparência na completude de gráficos de conhecimento com explicações significativas.

2025-08-22T01:42:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Novo Método para Criar Imagens Realistas de Humanos

Uma nova maneira de gerar imagens detalhadas de pessoas em cenas complexas.

2025-08-21T20:26:54+00:00 ― 7 min ler

Computação e linguagem Avaliando a Segurança de Modelos de Linguagem Grandes

Uma análise de conjuntos de dados focados em melhorar a segurança de LLMs.

2025-08-21T08:04:18+00:00 ― 8 min ler

Inteligência Artificial Uma Nova Abordagem para Aprendizado Multi-Agente

Revolucionando o desempenho dos agentes através da avaliação e acúmulo de experiências.

2025-08-21T05:42:06+00:00 ― 7 min ler

Inteligência Artificial Avaliação e Melhora de Agentes Digitais

Um foco em métodos pra avaliar e melhorar o desempenho de agentes digitais.

2025-08-21T02:24:36+00:00 ― 4 min ler

Engenharia de software Melhorando a Correção de Bugs com Modelos de Linguagem Grandes

Um novo método usa LLMs pra melhorar a eficiência da correção de programas.

2025-08-20T06:55:24+00:00 ― 6 min ler

Computação e linguagem Avaliando a Autorreflexão em Modelos de Linguagem

Pesquisas mostram como a autorreflexão impacta o desempenho do modelo de linguagem em diferentes tipos de perguntas.

2025-08-20T01:15:42+00:00 ― 6 min ler

Lógica O Papel da Substituição Esquemática e Unificação na Lógica

Explorando conceitos chave em lógica e ciência da computação pra um raciocínio eficaz.

2025-08-19T18:55:30+00:00 ― 8 min ler

Engenharia de software Avaliação de Requisitos de Software com Modelos de Linguagem

Uma análise de como usar modelos de linguagem pra avaliar a satisfação dos requisitos de software.

2025-08-18T13:50:36+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avaliando a Percepção Visual em Modelos de Linguagem

Um novo benchmark revela lacunas na compreensão visual de grandes modelos de linguagem.

2025-08-18T12:23:42+00:00 ― 8 min ler

Economia Teórica Mercados de Correspondência: O Impacto do Barulho nas Admissões Universitárias

Analisando como o barulho afeta a combinação de estudantes e faculdades nos processos de admissão.

2025-08-18T06:13:18+00:00 ― 8 min ler

Computação e linguagem Melhorando a Precisão em Resumos Científicos com Feedback

Usando mecanismos de feedback pra melhorar resumos científicos gerados por LLM.

2025-08-18T05:40:48+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avanços em Perguntas e Respostas Visuais Baseadas em Texto

Novo conjunto de dados Square-10M dá um baita upgrade nas capacidades de perguntas visuais em código aberto.

2025-08-18T02:31:12+00:00 ― 7 min ler

Engenharia de software Automatizando a Geração de Cenários de Teste no Desenvolvimento de Software

Esse artigo apresenta um método pra gerar cenários de teste a partir de requisitos em linguagem natural.

2025-08-18T02:15:24+00:00 ― 9 min ler

Computação e linguagem Um Novo Método para Automação na Web

Essa abordagem melhora a extração de dados de páginas da web usando regras estruturadas.

2025-08-18T01:59:36+00:00 ― 6 min ler

Computação e linguagem Avaliando a Precisão de Grandes Modelos de Visão-Linguagem

Um novo parâmetro melhora como a gente avalia os LVLMs e a precisão deles.

2025-08-17T06:46:12+00:00 ― 6 min ler

Lógica na Informática CHC-COMP 2023: Avaliando Solucionadores de Cláusulas Horn Constrangidas

A competição CHC mostrou os avanços nos solucionadores e suas aplicações na verificação de programas.

2025-08-17T00:50:42+00:00 ― 7 min ler

Computação e linguagem Feedback Automatizado: Uma Nova Abordagem para Escrever Redações

Esse estudo investiga sistemas automatizados para dar feedback em redações usando modelos de linguagem.

2025-08-16T18:31:30+00:00 ― 7 min ler

Aprendizagem de máquinas O Papel Crescente dos Dados Sintéticos na Pesquisa

Dados sintéticos oferecem soluções econômicas enquanto garantem privacidade e reduzem viés.

2025-08-16T18:07:48+00:00 ― 7 min ler

Computação e linguagem Avaliando Modelos de Linguagem com o Benchmark VISLA

Um novo parâmetro avalia como os modelos de linguagem entendem os significados das palavras e suas relações.

2025-08-16T08:07:24+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliação da Extração de Informações em Textos Manuscritos

Novas métricas melhoram a avaliação de sistemas de extração de informações em documentos manuscritos.

2025-08-15T11:58:42+00:00 ― 8 min ler

Sistemas Multiagentes Avaliação do Desempenho de IA em Sistemas Multiagente

Uma estrutura para avaliar estratégias de IA em ambientes competitivos e cooperativos.

2025-08-15T07:22:12+00:00 ― 8 min ler

Engenharia de software Medindo a Confiança em Resumos de Código Gerados por IA

Avaliando a confiabilidade dos resumos produzidos por IA pra melhorar a manutenção de software.

2025-08-15T02:53:36+00:00 ― 8 min ler

Informatica sanitaria O Papel do ChatGPT na Saúde

Analisando como o ChatGPT impacta a saúde e suas possíveis utilizações.

2025-08-14T23:39:30+00:00 ― 6 min ler

Computação e linguagem DynaMo: Avançando Modelos de Linguagem com Previsão de Múltiplos Tokens

Modelos DynaMo geram texto mais rápido e com melhor qualidade usando previsão de múltiplos tokens.

2025-08-14T23:04:30+00:00 ― 6 min ler

Computação e linguagem Aprimorando as Seções de Trabalhos Relacionados em Artigos de Pesquisa

Um novo conjunto de dados melhora a geração de seções de trabalhos relacionados em artigos científicos.

2025-08-14T00:33:36+00:00 ― 9 min ler

Recuperação de informação Avançando a Busca Conversacional com o TREC iKAT

O TREC iKAT tem como objetivo melhorar as interações com agentes de conversa por meio de diálogos personalizados.

2025-08-13T20:28:42+00:00 ― 8 min ler

Computação e linguagem Automatizando Respostas a Avaliações de Clientes

A SCRABLE oferece soluções automatizadas para uma gestão eficaz de avaliações de apps.

2025-08-13T13:53:42+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliando o Futuro dos Modelos Multimodais de Vídeo Grande

Avaliando as capacidades e desafios dos modelos avançados de entendimento de vídeo.

2025-08-13T12:42:36+00:00 ― 7 min ler

Computação e linguagem Avaliação de Explicações de IA: Uma Nova Abordagem

Esse estudo analisa a eficácia dos LLMs em avaliar explicações geradas por IA.

2025-08-12T12:36:54+00:00 ― 9 min ler

Computação e linguagem Avaliando Modelos de Linguagem: O Benchmark DoLoMiTes

Um novo framework avalia como modelos de linguagem ajudam especialistas com tarefas de escrita.

2025-08-12T08:39:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Apresentando o PEAVS: Uma Nova Maneira de Medir a Sincronização Áudio-Visual

PEAVS analisa como o áudio e o vídeo funcionam juntos pra melhorar a experiência do espectador.

2025-08-12T03:19:55+00:00 ― 8 min ler

Inteligência Artificial Avaliando o Impacto do Treinamento de DNN: Um Novo Método

Uma maneira rápida de avaliar o desempenho de DNN depois de um novo treinamento.

2025-08-12T00:22:12+00:00 ― 7 min ler

Aprendizagem de máquinas Melhorando a Transparência de Modelos de IA com Autoencoders Escassos

Autoencoders esparsos melhoram a interpretabilidade dos sistemas de IA e dos processos de tomada de decisão deles.

2025-08-11T02:07:06+00:00 ― 12 min ler

Computação e linguagem Avaliação da Compreensão de Conhecimento do Mundo pela IA

Um olhar sobre como os modelos de IA entendem o conhecimento essencial do mundo.

2025-08-10T22:41:42+00:00 ― 7 min ler

Computação e linguagem Avaliação de Toxicidade em Modelos de Linguagem Multilíngues

Novo benchmark avalia a toxicidade em modelos de linguagem grandes em vários idiomas.

2025-08-10T21:30:36+00:00 ― 9 min ler

Engenharia de software Melhorando as Avaliações de Fuzzing para Uma Qualidade de Software Melhor

Esse artigo fala sobre a necessidade de práticas de avaliação melhores na pesquisa de fuzzing.

2025-08-10T15:11:24+00:00 ― 7 min ler

Interação Homem-Computador Avaliação de Métodos de Saliência em PLN: Uma Perspectiva Humana

Este estudo avalia métodos de saliência em PLN através de avaliação humana.

2025-08-10T07:56:54+00:00 ― 10 min ler

Aprendizagem de máquinas Melhorando a Análise de Heatmap para Decisões de IA

Apresentando o PQAH pra entender melhor os heatmaps de IA e como avaliá-los.

2025-08-09T15:29:24+00:00 ― 9 min ler