Novos modelos produzem descrições de vídeo de alta qualidade de forma eficiente.
― 5 min ler
Ciência de ponta explicada de forma simples
Novos modelos produzem descrições de vídeo de alta qualidade de forma eficiente.
― 5 min ler
Um marco abrangente melhora a avaliação de modelos de visão-linguagem para análise de imagens biológicas.
― 9 min ler
Um novo padrão pra avaliar grandes modelos de linguagem em testes de hipótese.
― 8 min ler
Um novo benchmark aborda os desafios na recuperação de código para desenvolvedores.
― 9 min ler
Essa pesquisa analisa como problemas visuais afetam modelos de Resposta a Perguntas Visuais.
― 8 min ler
A NFARD oferece métodos inovadores pra proteger os direitos autorais de modelos de aprendizado profundo.
― 8 min ler
Um novo modelo melhora o monitoramento de segurança para grandes modelos de linguagem contra conteúdos prejudiciais.
― 8 min ler
Uma olhada em como a otimização bayesiana enfrenta desafios de alta dimensão.
― 9 min ler
Um novo método pra avaliar agentes de análise de dados pra ter insights melhores nos negócios.
― 6 min ler
Apresentando o MaxCut-Bench para uma avaliação consistente de algoritmos em desafios de otimização.
― 8 min ler
Melhorar como os modelos lidam com evidências em documentos longos aumenta a confiança do usuário.
― 5 min ler
Avaliando as capacidades de LLM usando jogos em grade como Jogo da Velha e Conecta Quatro.
― 8 min ler
Um novo benchmark tem como objetivo avaliar os riscos de segurança da IA de forma eficaz.
― 9 min ler
Combinar visuais e linguagem melhora a precisão da geração de código de hardware.
― 7 min ler
Um novo benchmark aborda a necessidade de uma avaliação padrão na previsão espaço-temporal.
― 9 min ler
Novos métodos melhoram os testes para modelos de linguagem, focando em áreas chave de desempenho.
― 7 min ler
Um novo padrão para avaliar métodos de aprendizado de grafos que lidam com heterofilia e heterogeneidade.
― 7 min ler
Uma estrutura pra avaliar as habilidades dos LLMs em tarefas relacionadas a dados com interpretadores de código.
― 6 min ler
Um olhar sobre como o CLIP processa a negação na linguagem.
― 7 min ler
Estabelecendo um parâmetro pra avaliar a justiça em métodos de aprendizado de grafos.
― 9 min ler
Explorando como modelos de linguagem lidam com tarefas de raciocínio de forma eficaz.
― 6 min ler
Um novo benchmark avalia modelos de linguagem em desafios de codificação científica em várias áreas.
― 7 min ler
Um novo modelo melhora como as máquinas leem gráficos, mesmo sem rótulos.
― 6 min ler
Novos métodos melhoram o desempenho do CLIP em diferentes domínios visuais.
― 7 min ler
Um novo benchmark melhora a compreensão dos modelos sobre vídeos longos e linguagem.
― 6 min ler
Esse artigo avalia a eficácia dos agentes da web em gerenciar tarefas online complexas.
― 7 min ler
Um novo método aumenta a eficiência dos LLMs na criação de designs de hardware complexos.
― 6 min ler
Um novo parâmetro busca melhorar as avaliações dos sistemas OIE para ter melhores insights de desempenho.
― 6 min ler
O HyTAS facilita a busca por modelos de transformador em imagens hiperespectrais.
― 9 min ler
Um novo parâmetro avalia LLMs para precisão factual.
― 7 min ler
Novos métodos pra personalizar modelos de linguagem de IA são essenciais pra diversidade dos usuários.
― 7 min ler
Um novo conjunto de dados combina sequências de DNA e descrições de funções de enzimas pra melhorar os modelos preditivos.
― 9 min ler
Uma nova abordagem melhora as comparações de algoritmos de aprendizado por reforço em diferentes ambientes.
― 8 min ler
Um novo padrão tem como objetivo melhorar o treinamento de robôs em ambientes domésticos realistas.
― 8 min ler
Uma nova estrutura de benchmarking melhora a eficiência na avaliação de modelos de linguagem.
― 6 min ler
Uma nova abordagem pra melhorar as avaliações de tarefas de codificação para modelos de linguagem.
― 7 min ler
A pesquisa analisa a eficácia dos benchmarks atuais em tarefas de visualização.
― 5 min ler
Um novo framework avalia a dificuldade em tarefas de codificação para grandes modelos de linguagem.
― 9 min ler
Estudo avalia as habilidades de raciocínio de modelos de linguagem grandes com perguntas complexas.
― 6 min ler
Uma nova estrutura pra avaliar modelos de visão-linguagem de forma eficaz.
― 7 min ler