Uma nova abordagem melhora as comparações de algoritmos de aprendizado por reforço em diferentes ambientes.
― 8 min ler
Ciência de ponta explicada de forma simples
Uma nova abordagem melhora as comparações de algoritmos de aprendizado por reforço em diferentes ambientes.
― 8 min ler
Um novo padrão tem como objetivo melhorar o treinamento de robôs em ambientes domésticos realistas.
― 8 min ler
Uma nova estrutura de benchmarking melhora a eficiência na avaliação de modelos de linguagem.
― 6 min ler
Uma nova abordagem pra melhorar as avaliações de tarefas de codificação para modelos de linguagem.
― 7 min ler
A pesquisa analisa a eficácia dos benchmarks atuais em tarefas de visualização.
― 5 min ler
Um novo framework avalia a dificuldade em tarefas de codificação para grandes modelos de linguagem.
― 9 min ler
Estudo avalia as habilidades de raciocínio de modelos de linguagem grandes com perguntas complexas.
― 6 min ler
Uma nova estrutura pra avaliar modelos de visão-linguagem de forma eficaz.
― 7 min ler
Apresentando uma ferramenta pra avaliar métodos de detecção de anomalias não supervisionados em aprendizado federado.
― 8 min ler
Avaliar modelos de IA pela capacidade de seguir procedimentos de laboratório.
― 7 min ler
Uma revisão das melhorias recentes em ferramentas de contagem de modelos e suas aplicações práticas.
― 7 min ler
Um novo padrão melhora a avaliação de sistemas de reconhecimento de emoção na fala em diferentes idiomas e emoções.
― 7 min ler
Este artigo analisa a eficácia de modelos 3D baseados em imagem na estimativa de pose.
― 9 min ler
Novos testes de referência avaliam o raciocínio causal da IA usando só imagens.
― 8 min ler
Uma nova abordagem para avaliar LLMs com conjuntos de avaliação diversos.
― 7 min ler
Um novo benchmark avalia agentes de modelos de linguagem para lidar com análise de dados científicos.
― 9 min ler
Uma análise dos LLMs e suas diferenças em relação à aquisição de linguagem humana.
― 9 min ler
Estudando como cilindros em movimento criam ondas sonoras em fluidos para aplicações práticas.
― 6 min ler
Um novo benchmark avalia como os LLMs aprendem por meio de interações.
― 6 min ler
O-HuBERT melhora o reconhecimento de fala ao separar a informação do conteúdo e a informação expressiva.
― 6 min ler
Apresentando o PermitQA, um padrão para avaliar sistemas RAG em energia eólica.
― 8 min ler
Um novo método melhora o reconhecimento de fala em Hindi usando técnicas de pseudo-rotulagem.
― 5 min ler
Um benchmark de múltiplos domínios avalia as habilidades de geração de código dos LLMs em várias áreas.
― 8 min ler
Um novo método testa como a IA interpreta gráficos enganosos.
― 7 min ler
Um novo projeto de referência tem o objetivo de avaliar as capacidades de resolução de problemas em Java.
― 6 min ler
Uma nova abordagem simplifica a segurança e a utilidade no treinamento de modelos de linguagem.
― 11 min ler
Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.
― 6 min ler
Este estudo analisa a eficácia dos LLMs em musicologia e sua confiabilidade.
― 6 min ler
Uma ferramenta completa pra avaliar sistemas de computação de alto desempenho.
― 8 min ler
Um sistema pra gravar e reproduzir ações em apps de WebAssembly.
― 8 min ler
Explorando técnicas de machine learning pra uma partição eficiente de design VLSI.
― 7 min ler
A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.
― 5 min ler
O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.
― 6 min ler
Esforços pra melhorar a tecnologia de fala pro idioma Faetar, que é pouco recursos.
― 6 min ler
Esse artigo avalia a habilidade dos VLMs de raciocinar sobre tamanhos e distâncias.
― 6 min ler
Investigando como agentes de IA reproduzem resultados científicos através de um novo benchmark.
― 7 min ler
O TDC-2 melhora a pesquisa em desenvolvimento de medicamentos com um acesso de dados melhor e modelos multimodais.
― 6 min ler
LightSABRE melhora o desempenho de circuitos quânticos com melhorias de velocidade e qualidade.
― 5 min ler
Pesquisadores de física de alta energia estão otimizando software para diferentes recursos computacionais.
― 10 min ler
Essa abordagem facilita a escolha de conjuntos de dados de pré-treinamento eficazes para modelos de linguagem.
― 10 min ler