Um novo padrão para o desaprendizado de máquinas melhora a avaliação e a comparação de métodos.
― 9 min ler
Ciência de ponta explicada de forma simples
Um novo padrão para o desaprendizado de máquinas melhora a avaliação e a comparação de métodos.
― 9 min ler
Um novo método melhora a precisão da geração de código usando documentos externos.
― 9 min ler
O CEBench ajuda empresas e pesquisadores a avaliar LLMs enquanto gerenciam custos e desempenho.
― 7 min ler
Destaques da pesquisa mostram as habilidades de aprendizado em contexto em grandes modelos de linguagem.
― 7 min ler
Novo framework avalia o desempenho do SLAM em condições desafiadoras.
― 8 min ler
Novo benchmark avalia como modelos de vídeo-linguagem lidam com imprecisões de forma eficaz.
― 8 min ler
Avaliar como LLMs criam textos persuasivos sobre vários assuntos.
― 7 min ler
Este estudo compara o desempenho de Modelos de Linguagem usando testes INVALSI de italiano.
― 9 min ler
Uma ferramenta de referência avança estratégias de aprendizado ativo em aprendizado de máquina.
― 8 min ler
Este artigo avalia a eficácia de modelos de linguagem de grande escala na criação de asserções de hardware.
― 8 min ler
Um novo sistema de IA melhora a acessibilidade para usuários com deficiências visuais por meio de uma melhor leitura de tela.
― 6 min ler
Um benchmark de pares mínimos tem como objetivo melhorar a compreensão da gramática russa por modelos de linguagem.
― 7 min ler
Um novo modelo simplifica a análise de dados em grandes conjuntos de dados usando esboços.
― 8 min ler
Um novo padrão para melhorar os métodos de otimização de sequência biofísica.
― 6 min ler
Este estudo apresenta um novo método para detectar anomalias em diversos contextos.
― 8 min ler
Novo benchmark melhora a avaliação de modelos multimodais ao minimizar preconceitos.
― 7 min ler
Novo padrão ajuda a prever o comportamento de enzimas usando aprendizado de máquina.
― 8 min ler
Novos modelos produzem descrições de vídeo de alta qualidade de forma eficiente.
― 5 min ler
Um marco abrangente melhora a avaliação de modelos de visão-linguagem para análise de imagens biológicas.
― 9 min ler
Um novo padrão pra avaliar grandes modelos de linguagem em testes de hipótese.
― 8 min ler
Um novo benchmark aborda os desafios na recuperação de código para desenvolvedores.
― 9 min ler
Essa pesquisa analisa como problemas visuais afetam modelos de Resposta a Perguntas Visuais.
― 8 min ler
A NFARD oferece métodos inovadores pra proteger os direitos autorais de modelos de aprendizado profundo.
― 8 min ler
Um novo modelo melhora o monitoramento de segurança para grandes modelos de linguagem contra conteúdos prejudiciais.
― 8 min ler
Uma olhada em como a otimização bayesiana enfrenta desafios de alta dimensão.
― 9 min ler
Um novo método pra avaliar agentes de análise de dados pra ter insights melhores nos negócios.
― 6 min ler
Apresentando o MaxCut-Bench para uma avaliação consistente de algoritmos em desafios de otimização.
― 8 min ler
Melhorar como os modelos lidam com evidências em documentos longos aumenta a confiança do usuário.
― 5 min ler
Avaliando as capacidades de LLM usando jogos em grade como Jogo da Velha e Conecta Quatro.
― 8 min ler
Um novo benchmark tem como objetivo avaliar os riscos de segurança da IA de forma eficaz.
― 9 min ler
Combinar visuais e linguagem melhora a precisão da geração de código de hardware.
― 7 min ler
Um novo benchmark aborda a necessidade de uma avaliação padrão na previsão espaço-temporal.
― 9 min ler
Novos métodos melhoram os testes para modelos de linguagem, focando em áreas chave de desempenho.
― 7 min ler
Um novo padrão para avaliar métodos de aprendizado de grafos que lidam com heterofilia e heterogeneidade.
― 7 min ler
Uma estrutura pra avaliar as habilidades dos LLMs em tarefas relacionadas a dados com interpretadores de código.
― 6 min ler
Um olhar sobre como o CLIP processa a negação na linguagem.
― 7 min ler
Estabelecendo um parâmetro pra avaliar a justiça em métodos de aprendizado de grafos.
― 9 min ler
Explorando como modelos de linguagem lidam com tarefas de raciocínio de forma eficaz.
― 6 min ler
Um novo benchmark avalia modelos de linguagem em desafios de codificação científica em várias áreas.
― 7 min ler
Um novo modelo melhora como as máquinas leem gráficos, mesmo sem rótulos.
― 6 min ler