Artigos mais recentes para Referência

Computação e linguagem Avaliação de Modelos de Linguagem Grande Multimodais

Novos benchmarks revelam desafios para MLLMs em tarefas do mundo real com contextos longos.

2025-08-15T10:16:00+00:00 ― 9 min ler

Engenharia de software Examinando o Viés Multilíngue em Modelos de Geração de Código

Este artigo explora o viés em modelos de geração de código em diferentes linguagens.

2025-08-15T03:25:12+00:00 ― 10 min ler

Computação e linguagem Entendendo Alucinações de Código em Modelos de Linguagem

Uma visão geral das alucinações de código em LLMs e seu impacto no desenvolvimento de software.

2025-08-15T01:58:18+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Apresentando o Wake Vision: Um Novo Conjunto de Dados para TinyML

A Wake Vision melhora a detecção de pessoas para TinyML com um baita conjunto de dados.

2025-08-14T17:24:48+00:00 ― 8 min ler

Computação e linguagem Desafios e Oportunidades na Explicabilidade da Geração de Texto de IA

Esse artigo fala sobre a necessidade de explicabilidade nos modelos de geração de texto em IA.

2025-08-11T02:54:30+00:00 ― 7 min ler

Computação e linguagem Avaliação de Toxicidade em Modelos de Linguagem Multilíngues

Novo benchmark avalia a toxicidade em modelos de linguagem grandes em vários idiomas.

2025-08-10T21:30:36+00:00 ― 9 min ler

Finanças computacionais Usando SSD pra Construir Portfólios Mais Fortes

Aprenda como a dominância estocástica de segunda ordem pode melhorar sua estratégia de investimento.

2025-08-09T19:12:57+00:00 ― 7 min ler

Inteligência Artificial Avaliando LLMs em Modelagem Matemática com Mamo

Um novo padrão avalia as habilidades dos LLMs em processos de modelagem matemática.

2025-08-09T14:10:24+00:00 ― 5 min ler

Computação Neural e Evolutiva Melhorando a Evolução Diferencial com GPUs

Explorando como as GPUs melhoram a eficiência dos algoritmos de Evolução Diferencial.

2025-08-06T19:01:24+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avanços em Raciocínio Multi-modal em Cadeia de Pensamentos

Novo padrão busca melhorar a compreensão de texto e imagens pela IA.

2025-08-06T17:50:18+00:00 ― 8 min ler

Aprendizagem de máquinas WeiPer: Um Novo Método para Detecção de OOD

WeiPer melhora a detecção de dados fora de distribuição em modelos de machine learning usando ajustes de peso.

2025-08-06T07:49:54+00:00 ― 9 min ler

Inteligência Artificial Avaliação de Modelos de Linguagem Grande em Interações Matemáticas de Várias Rodadas

Este estudo mede o desempenho dos LLMs em diálogos de matemática complexa.

2025-08-05T07:12:36+00:00 ― 9 min ler

Aprendizagem de máquinas Melhorando Previsões de Links com Explicações Claras

A LinkLogic traz clareza e confiabilidade pra previsão de links em gráficos de conhecimento.

2025-08-03T12:56:42+00:00 ― 8 min ler

Computação e linguagem Avançando a Autoformulação com Lean 4

Novos métodos e referências visam simplificar a formalização da matemática através do Lean 4.

2025-08-03T08:59:42+00:00 ― 7 min ler

Aprendizagem de máquinas Os LLMs Têm Dificuldade com Tarefas Básicas de Raciocínio

Testes recentes mostram que os LLMs têm fraquezas em raciocínio simples, apesar de terem boas notas nos benchmarks.

2025-08-02T09:01:54+00:00 ― 6 min ler

Aprendizagem de máquinas Benchmarks Dinâmicos para Avaliar Modelos de Linguagem

Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.

2025-08-02T01:23:42+00:00 ― 6 min ler

Aprendizagem de máquinas Abordando o Ruído de Rótulo em Redes Neurais de Grafos

Um novo ponto de referência ajuda a melhorar o desempenho de GNN em meio aos desafios de ruído nas etiquetas.

2025-08-01T13:01:06+00:00 ― 9 min ler

Robótica Bench2Drive: Um Novo Padrão para Testar Sistemas de Direção Autônoma

Bench2Drive oferece um método de avaliação justo para tecnologias de condução autônoma.

2025-08-01T06:02:24+00:00 ― 8 min ler

Inteligência Artificial Abordando Problemas Mal Definidos em Modelos de Linguagem

Novos métodos melhoram o desempenho dos modelos de linguagem em tarefas de raciocínio complexo.

2025-07-31T22:55:48+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avaliando o Desempenho de Prompt na Geração e Recuperação de Imagens

Um estudo apresenta um novo benchmark para o desempenho de prompts na criação e recuperação de imagens.

2025-07-31T18:43:00+00:00 ― 12 min ler

Aprendizagem de máquinas Novas Perspectivas sobre o Desempenho de Escalonamento de Modelos de Linguagem

Analisando os modelos que já existem dá pra ver como o desempenho dos modelos de linguagem muda conforme eles vão ficando maiores.

2025-07-31T14:57:12+00:00 ― 10 min ler

Aprendizagem de máquinas Avaliando as habilidades de programação em Java dos LLMs

Um novo teste pra avaliar LLMs em tarefas de programação em Java.

2025-07-31T06:52:00+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Melhorando a Legenda de Vídeos com Entendimento Causal

Um novo método cria legendas de vídeo melhores ao focar em narrativas e causalidade.

2025-07-31T02:39:12+00:00 ― 6 min ler

Criptografia e segurança Avaliando o Papel dos Grandes Modelos de Linguagem na Detecção de Vulnerabilidades

Um novo benchmark testa a capacidade dos LLMs de encontrar vulnerabilidades de software.

2025-07-30T14:48:12+00:00 ― 7 min ler

Computação e linguagem Novo Benchmark Avalia Modelos de Linguagem Multilíngues

Um novo benchmark avalia o desempenho de modelos multilíngues em tarefas de recuperação semântica.

2025-07-30T12:18:06+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões CMC-Bench: Um Novo Padrão em Compressão de Imagens

Descubra como o CMC-Bench tá transformando as técnicas de compressão de imagem.

2025-07-30T02:46:45+00:00 ― 7 min ler

Engenharia de software DafnyBench: Melhorando a Verificação de Software com Aprendizado de Máquina

DafnyBench avalia ferramentas de verificação de software, abrindo caminho para uma programação confiável.

2025-07-29T23:23:54+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avaliando a Compreensão de Vídeo em Modelos de Linguagem Multimodais

Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.

2025-07-29T22:20:42+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Desafiando os Limites dos Modelos de Visão-Linguagem

Um novo benchmark testa o raciocínio composicional em modelos avançados.

2025-07-29T19:42:42+00:00 ― 8 min ler

Aprendizagem de máquinas Apresentando o GuardAgents: Uma Nova Camada de Segurança para LLMs

Um framework pra melhorar a segurança em agentes LLM em várias aplicações.

2025-07-29T07:43:48+00:00 ― 9 min ler

Computação e linguagem Avaliando o Raciocínio Temporal em Modelos de Linguagem Grandes

Um novo benchmark avalia quão bem os modelos entendem o tempo e os eventos.

2025-07-29T07:20:06+00:00 ― 8 min ler

Aprendizagem de máquinas Medindo a Variância em Benchmarks de Modelos de Linguagem

Este artigo analisa métodos para avaliar a variância em benchmarks de avaliação de modelos de linguagem.

2025-07-28T23:26:06+00:00 ― 9 min ler

Computação e linguagem Avançando a IA para as Línguas do Sudeste Asiático

A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.

2025-07-28T21:03:54+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avanços na Detecção de Manipulação de Imagens

Um novo benchmark ajuda os pesquisadores a melhorar os métodos de detecção de integridade de imagem.

2025-07-28T11:35:06+00:00 ― 7 min ler

Inteligência Artificial Avaliando LLMs com um Novo Referencial para Problemas de Busca

Um estudo sobre como melhorar as habilidades de resolução de problemas dos LLMs usando uma nova estrutura.

2025-07-28T01:18:54+00:00 ― 8 min ler

Aprendizagem de máquinas Avançando os Padrões de Avaliação de Modelos de Linguagem

Um novo método melhora os testes para modelos de linguagem usando dados reais de usuários.

2025-07-27T21:06:06+00:00 ― 7 min ler

Computação e linguagem Avaliação do Desaprendizado em Modelos de Linguagem

Novos métodos revelam desafios em desaprender conhecimento de modelos de linguagem.

2025-07-27T17:24:54+00:00 ― 7 min ler

Computação e linguagem O Impacto dos Modelos de Linguagem de Longo Contexto

Modelos de linguagem de longo contexto facilitam tarefas complexas e melhoram a interação com a IA.

2025-07-27T08:59:18+00:00 ― 9 min ler

Computação e linguagem Avaliando o Raciocínio em Modelos de Linguagem

Um novo benchmark avalia as habilidades de raciocínio em modelos de linguagem.

2025-07-26T22:11:30+00:00 ― 9 min ler

Bases de dados A Evolução dos Bancos de Dados com GPU

Analisando os avanços na tecnologia de banco de dados em GPU e seu desempenho.

2025-07-26T19:49:18+00:00 ― 11 min ler