Novo padrão busca melhorar a compreensão de texto e imagens pela IA.
― 8 min ler
Ciência de ponta explicada de forma simples
Novo padrão busca melhorar a compreensão de texto e imagens pela IA.
― 8 min ler
WeiPer melhora a detecção de dados fora de distribuição em modelos de machine learning usando ajustes de peso.
― 9 min ler
Este estudo mede o desempenho dos LLMs em diálogos de matemática complexa.
― 9 min ler
A LinkLogic traz clareza e confiabilidade pra previsão de links em gráficos de conhecimento.
― 8 min ler
Novos métodos e referências visam simplificar a formalização da matemática através do Lean 4.
― 7 min ler
Testes recentes mostram que os LLMs têm fraquezas em raciocínio simples, apesar de terem boas notas nos benchmarks.
― 6 min ler
Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.
― 6 min ler
Um novo ponto de referência ajuda a melhorar o desempenho de GNN em meio aos desafios de ruído nas etiquetas.
― 9 min ler
Bench2Drive oferece um método de avaliação justo para tecnologias de condução autônoma.
― 8 min ler
Novos métodos melhoram o desempenho dos modelos de linguagem em tarefas de raciocínio complexo.
― 8 min ler
Um estudo apresenta um novo benchmark para o desempenho de prompts na criação e recuperação de imagens.
― 12 min ler
Analisando os modelos que já existem dá pra ver como o desempenho dos modelos de linguagem muda conforme eles vão ficando maiores.
― 10 min ler
Um novo teste pra avaliar LLMs em tarefas de programação em Java.
― 8 min ler
Um novo método cria legendas de vídeo melhores ao focar em narrativas e causalidade.
― 6 min ler
Um novo benchmark testa a capacidade dos LLMs de encontrar vulnerabilidades de software.
― 7 min ler
Um novo benchmark avalia o desempenho de modelos multilíngues em tarefas de recuperação semântica.
― 9 min ler
Descubra como o CMC-Bench tá transformando as técnicas de compressão de imagem.
― 7 min ler
DafnyBench avalia ferramentas de verificação de software, abrindo caminho para uma programação confiável.
― 6 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
Um framework pra melhorar a segurança em agentes LLM em várias aplicações.
― 9 min ler
Um novo benchmark avalia quão bem os modelos entendem o tempo e os eventos.
― 8 min ler
Este artigo analisa métodos para avaliar a variância em benchmarks de avaliação de modelos de linguagem.
― 9 min ler
A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.
― 8 min ler
Um novo benchmark ajuda os pesquisadores a melhorar os métodos de detecção de integridade de imagem.
― 7 min ler
Um estudo sobre como melhorar as habilidades de resolução de problemas dos LLMs usando uma nova estrutura.
― 8 min ler
Um novo método melhora os testes para modelos de linguagem usando dados reais de usuários.
― 7 min ler
Novos métodos revelam desafios em desaprender conhecimento de modelos de linguagem.
― 7 min ler
Modelos de linguagem de longo contexto facilitam tarefas complexas e melhoram a interação com a IA.
― 9 min ler
Um novo benchmark avalia as habilidades de raciocínio em modelos de linguagem.
― 9 min ler
Analisando os avanços na tecnologia de banco de dados em GPU e seu desempenho.
― 11 min ler
Um novo padrão para o desaprendizado de máquinas melhora a avaliação e a comparação de métodos.
― 9 min ler
Um novo método melhora a precisão da geração de código usando documentos externos.
― 9 min ler
O CEBench ajuda empresas e pesquisadores a avaliar LLMs enquanto gerenciam custos e desempenho.
― 7 min ler
Destaques da pesquisa mostram as habilidades de aprendizado em contexto em grandes modelos de linguagem.
― 7 min ler
Novo framework avalia o desempenho do SLAM em condições desafiadoras.
― 8 min ler
Novo benchmark avalia como modelos de vídeo-linguagem lidam com imprecisões de forma eficaz.
― 8 min ler
Avaliar como LLMs criam textos persuasivos sobre vários assuntos.
― 7 min ler
Este estudo compara o desempenho de Modelos de Linguagem usando testes INVALSI de italiano.
― 9 min ler
Uma ferramenta de referência avança estratégias de aprendizado ativo em aprendizado de máquina.
― 8 min ler