Este artigo analisa a eficácia de modelos 3D baseados em imagem na estimativa de pose.
― 9 min ler
Ciência de ponta explicada de forma simples
Este artigo analisa a eficácia de modelos 3D baseados em imagem na estimativa de pose.
― 9 min ler
Novos testes de referência avaliam o raciocínio causal da IA usando só imagens.
― 8 min ler
Uma nova abordagem para avaliar LLMs com conjuntos de avaliação diversos.
― 7 min ler
Um novo benchmark avalia agentes de modelos de linguagem para lidar com análise de dados científicos.
― 9 min ler
Uma análise dos LLMs e suas diferenças em relação à aquisição de linguagem humana.
― 9 min ler
Estudando como cilindros em movimento criam ondas sonoras em fluidos para aplicações práticas.
― 6 min ler
Um novo benchmark avalia como os LLMs aprendem por meio de interações.
― 6 min ler
O-HuBERT melhora o reconhecimento de fala ao separar a informação do conteúdo e a informação expressiva.
― 6 min ler
Apresentando o PermitQA, um padrão para avaliar sistemas RAG em energia eólica.
― 8 min ler
Um novo método melhora o reconhecimento de fala em Hindi usando técnicas de pseudo-rotulagem.
― 5 min ler
Um benchmark de múltiplos domínios avalia as habilidades de geração de código dos LLMs em várias áreas.
― 8 min ler
Um novo método testa como a IA interpreta gráficos enganosos.
― 7 min ler
Um novo projeto de referência tem o objetivo de avaliar as capacidades de resolução de problemas em Java.
― 6 min ler
Uma nova abordagem simplifica a segurança e a utilidade no treinamento de modelos de linguagem.
― 11 min ler
Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.
― 6 min ler
Este estudo analisa a eficácia dos LLMs em musicologia e sua confiabilidade.
― 6 min ler
Uma ferramenta completa pra avaliar sistemas de computação de alto desempenho.
― 8 min ler
Um sistema pra gravar e reproduzir ações em apps de WebAssembly.
― 8 min ler
Explorando técnicas de machine learning pra uma partição eficiente de design VLSI.
― 7 min ler
A VisScience testa grandes modelos em raciocínio científico usando texto e imagens.
― 5 min ler
O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.
― 6 min ler
Esforços pra melhorar a tecnologia de fala pro idioma Faetar, que é pouco recursos.
― 6 min ler
Esse artigo avalia a habilidade dos VLMs de raciocinar sobre tamanhos e distâncias.
― 6 min ler
Investigando como agentes de IA reproduzem resultados científicos através de um novo benchmark.
― 7 min ler
O TDC-2 melhora a pesquisa em desenvolvimento de medicamentos com um acesso de dados melhor e modelos multimodais.
― 6 min ler
LightSABRE melhora o desempenho de circuitos quânticos com melhorias de velocidade e qualidade.
― 5 min ler
Pesquisadores de física de alta energia estão otimizando software para diferentes recursos computacionais.
― 10 min ler
Essa abordagem facilita a escolha de conjuntos de dados de pré-treinamento eficazes para modelos de linguagem.
― 10 min ler
Uma nova abordagem pra avaliar benchmarks de IA pra compreensão cultural.
― 9 min ler
Novo método gera simulações completas em código a partir de entradas em linguagem natural.
― 10 min ler
Esse artigo avalia quão bem os LLMs geram casos de teste para programas em Java.
― 8 min ler
Pesquisas mostram fraquezas na detecção de toxicidade online usando técnicas de arte ASCII.
― 7 min ler
Explorando a diferença de desempenho de modelos gerais em tarefas financeiras.
― 7 min ler
Descubra as últimas melhoras na tecnologia de processamento da língua árabe e seu impacto.
― 7 min ler
Aprenda como a tecnologia ajuda a editar detalhes minúsculos em imagens de forma eficaz.
― 5 min ler
Um novo benchmark testa agentes de IA em tarefas realistas de CRM.
― 8 min ler
A contaminação de dados afeta o desempenho dos modelos de linguagem e dos métodos de avaliação.
― 6 min ler
Este artigo fala sobre a necessidade de transparência nos benchmarks de modelos de linguagem.
― 8 min ler
Máquinas aprendem a conectar som e visuais em espaços 3D.
― 8 min ler
Transformando dados complexos de benchmark em insights visuais claros.
― 8 min ler