Bench2Drive oferece um método de avaliação justo para tecnologias de condução autônoma.
― 8 min ler
Ciência de ponta explicada de forma simples
Bench2Drive oferece um método de avaliação justo para tecnologias de condução autônoma.
― 8 min ler
Novos métodos melhoram o desempenho dos modelos de linguagem em tarefas de raciocínio complexo.
― 8 min ler
Um estudo apresenta um novo benchmark para o desempenho de prompts na criação e recuperação de imagens.
― 12 min ler
Analisando os modelos que já existem dá pra ver como o desempenho dos modelos de linguagem muda conforme eles vão ficando maiores.
― 10 min ler
Um novo teste pra avaliar LLMs em tarefas de programação em Java.
― 8 min ler
Um novo método cria legendas de vídeo melhores ao focar em narrativas e causalidade.
― 6 min ler
Um novo benchmark testa a capacidade dos LLMs de encontrar vulnerabilidades de software.
― 7 min ler
Um novo benchmark avalia o desempenho de modelos multilíngues em tarefas de recuperação semântica.
― 9 min ler
Descubra como o CMC-Bench tá transformando as técnicas de compressão de imagem.
― 7 min ler
DafnyBench avalia ferramentas de verificação de software, abrindo caminho para uma programação confiável.
― 6 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Um novo benchmark testa o raciocínio composicional em modelos avançados.
― 8 min ler
Um framework pra melhorar a segurança em agentes LLM em várias aplicações.
― 9 min ler
Um novo benchmark avalia quão bem os modelos entendem o tempo e os eventos.
― 8 min ler
Este artigo analisa métodos para avaliar a variância em benchmarks de avaliação de modelos de linguagem.
― 9 min ler
A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.
― 8 min ler
Um novo benchmark ajuda os pesquisadores a melhorar os métodos de detecção de integridade de imagem.
― 7 min ler
Um estudo sobre como melhorar as habilidades de resolução de problemas dos LLMs usando uma nova estrutura.
― 8 min ler
Um novo método melhora os testes para modelos de linguagem usando dados reais de usuários.
― 7 min ler
Novos métodos revelam desafios em desaprender conhecimento de modelos de linguagem.
― 7 min ler
Modelos de linguagem de longo contexto facilitam tarefas complexas e melhoram a interação com a IA.
― 9 min ler
Um novo benchmark avalia as habilidades de raciocínio em modelos de linguagem.
― 9 min ler
Analisando os avanços na tecnologia de banco de dados em GPU e seu desempenho.
― 11 min ler
Um novo padrão para o desaprendizado de máquinas melhora a avaliação e a comparação de métodos.
― 9 min ler
Um novo método melhora a precisão da geração de código usando documentos externos.
― 9 min ler
O CEBench ajuda empresas e pesquisadores a avaliar LLMs enquanto gerenciam custos e desempenho.
― 7 min ler
Destaques da pesquisa mostram as habilidades de aprendizado em contexto em grandes modelos de linguagem.
― 7 min ler
Novo framework avalia o desempenho do SLAM em condições desafiadoras.
― 8 min ler
Novo benchmark avalia como modelos de vídeo-linguagem lidam com imprecisões de forma eficaz.
― 8 min ler
Avaliar como LLMs criam textos persuasivos sobre vários assuntos.
― 7 min ler
Este estudo compara o desempenho de Modelos de Linguagem usando testes INVALSI de italiano.
― 9 min ler
Uma ferramenta de referência avança estratégias de aprendizado ativo em aprendizado de máquina.
― 8 min ler
Este artigo avalia a eficácia de modelos de linguagem de grande escala na criação de asserções de hardware.
― 8 min ler
Um novo sistema de IA melhora a acessibilidade para usuários com deficiências visuais por meio de uma melhor leitura de tela.
― 6 min ler
Um benchmark de pares mínimos tem como objetivo melhorar a compreensão da gramática russa por modelos de linguagem.
― 7 min ler
Um novo modelo simplifica a análise de dados em grandes conjuntos de dados usando esboços.
― 8 min ler
Um novo padrão para melhorar os métodos de otimização de sequência biofísica.
― 6 min ler
Este estudo apresenta um novo método para detectar anomalias em diversos contextos.
― 8 min ler
Novo benchmark melhora a avaliação de modelos multimodais ao minimizar preconceitos.
― 7 min ler
Novo padrão ajuda a prever o comportamento de enzimas usando aprendizado de máquina.
― 8 min ler