Pesquisas mostram que os modelos têm dificuldade com as dependências de etapas em receitas de cozinha.
― 6 min ler
Ciência de ponta explicada de forma simples
Pesquisas mostram que os modelos têm dificuldade com as dependências de etapas em receitas de cozinha.
― 6 min ler
Esse artigo apresenta um método pra avaliar modelos de linguagem em vários prompts.
― 7 min ler
Novo método aborda diferenças regionais na avaliação de preconceito de gênero.
― 7 min ler
O dataset M2Lingual melhora as habilidades de seguir instruções em várias línguas.
― 7 min ler
Esse artigo apresenta um novo método pra avaliar modelos de texto pra imagem de forma eficaz.
― 7 min ler
Este estudo compara o desempenho de Modelos de Linguagem usando testes INVALSI de italiano.
― 9 min ler
O RAGBench apresenta um conjunto de dados completo pra avaliar sistemas de Geração Aumentada por Recuperação.
― 8 min ler
A Dysca apresenta uma nova forma de avaliar o desempenho do LVLM usando dados sintéticos.
― 8 min ler
Um olhar sobre métodos modernos em design de engenharia para eficiência e desempenho.
― 9 min ler
Uma nova abordagem melhora a extração de eventos causais usando avaliação centrada no ser humano.
― 6 min ler
Avaliar como confiar em especialistas humanos afeta a precisão das previsões em modelos de ML.
― 9 min ler
Apresentando um novo método para melhores soluções em tarefas complexas de engenharia e robótica.
― 7 min ler
Um estudo avaliando a qualidade dos conjuntos de dados para identificar discurso de ódio online.
― 9 min ler
Um novo método mede como os modelos de linguagem adaptam suas crenças com novas evidências.
― 11 min ler
Novo benchmark melhora a avaliação de modelos multimodais ao minimizar preconceitos.
― 7 min ler
O GraphArena avalia o desempenho de LLM em problemas de gráfico usando dados do mundo real.
― 7 min ler
Explore um jeito justo de dividir os créditos em projetos em grupo.
― 7 min ler
Um novo padrão pra avaliar grandes modelos de linguagem em testes de hipótese.
― 8 min ler
O CRAB melhora os testes para modelos de linguagem em ambientes do dia a dia.
― 8 min ler
Esse artigo analisa o impacto das mudanças temporais nas avaliações de sistemas de recuperação de informação.
― 7 min ler
Apresentando o FairMedFM pra avaliar a justiça dos modelos de fundação na área da saúde.
― 7 min ler
Novo conjunto de dados melhora o desempenho do modelo de linguagem árabe e ajuda na comunicação eficaz.
― 7 min ler
Estudando como a quantização afeta o desempenho em diferentes línguas.
― 6 min ler
Explorando modelos de aprendizado de máquina e novos conjuntos de dados pra melhorar a segurança.
― 9 min ler
Um novo benchmark aborda os desafios na recuperação de código para desenvolvedores.
― 9 min ler
Novas maneiras aumentam a confiabilidade do texto gerado por modelos de linguagem.
― 5 min ler
Uma ferramenta pra identificar respostas enganosas de grandes modelos de linguagem.
― 7 min ler
Descubra a importância e os desafios de avaliar o desempenho de LLM de forma eficaz.
― 6 min ler
Uma olhada nas classificações de modelos de fundação e seus problemas de avaliação.
― 8 min ler
O estudo mostra que as ferramentas de avaliação de IA têm um viés a favor de respostas mais longas.
― 6 min ler
Uma nova abordagem melhora a precisão das avaliações de modelos de linguagem.
― 8 min ler
Um novo método pra selecionar línguas diversas na pesquisa de processamento de linguagem natural.
― 8 min ler
Um novo padrão avalia as habilidades de raciocínio temporal de grandes modelos de linguagem.
― 6 min ler
Abordagem inovadora pra criar funções de aquisição eficazes pra otimização Bayesiana.
― 7 min ler
Um novo conjunto de dados melhora a precisão na avaliação de resumos de histórias gerados por modelos de linguagem.
― 6 min ler
Um novo método pra avaliar agentes de análise de dados pra ter insights melhores nos negócios.
― 6 min ler
Um desafio pra melhorar a compreensão dos robôs sobre as interações humanas.
― 7 min ler
Uma nova estrutura tem como objetivo automatizar as revisões de artigos para um feedback de melhor qualidade.
― 8 min ler
Apresentando o DictaLM 2.0 e o DictaLM 2.0-Instruct pra melhorar o processamento da língua hebraica.
― 7 min ler
Este estudo analisa como os modelos representam bem culturas diversas.
― 9 min ler