Novo benchmark melhora a avaliação de modelos multimodais ao minimizar preconceitos.
― 7 min ler
Ciência de ponta explicada de forma simples
Novo benchmark melhora a avaliação de modelos multimodais ao minimizar preconceitos.
― 7 min ler
O GraphArena avalia o desempenho de LLM em problemas de gráfico usando dados do mundo real.
― 7 min ler
Explore um jeito justo de dividir os créditos em projetos em grupo.
― 7 min ler
Um novo padrão pra avaliar grandes modelos de linguagem em testes de hipótese.
― 8 min ler
O CRAB melhora os testes para modelos de linguagem em ambientes do dia a dia.
― 8 min ler
Esse artigo analisa o impacto das mudanças temporais nas avaliações de sistemas de recuperação de informação.
― 7 min ler
Apresentando o FairMedFM pra avaliar a justiça dos modelos de fundação na área da saúde.
― 7 min ler
Novo conjunto de dados melhora o desempenho do modelo de linguagem árabe e ajuda na comunicação eficaz.
― 7 min ler
Estudando como a quantização afeta o desempenho em diferentes línguas.
― 6 min ler
Explorando modelos de aprendizado de máquina e novos conjuntos de dados pra melhorar a segurança.
― 9 min ler
Um novo benchmark aborda os desafios na recuperação de código para desenvolvedores.
― 9 min ler
Novas maneiras aumentam a confiabilidade do texto gerado por modelos de linguagem.
― 5 min ler
Uma ferramenta pra identificar respostas enganosas de grandes modelos de linguagem.
― 7 min ler
Descubra a importância e os desafios de avaliar o desempenho de LLM de forma eficaz.
― 6 min ler
Uma olhada nas classificações de modelos de fundação e seus problemas de avaliação.
― 8 min ler
O estudo mostra que as ferramentas de avaliação de IA têm um viés a favor de respostas mais longas.
― 6 min ler
Uma nova abordagem melhora a precisão das avaliações de modelos de linguagem.
― 8 min ler
Um novo método pra selecionar línguas diversas na pesquisa de processamento de linguagem natural.
― 8 min ler
Um novo padrão avalia as habilidades de raciocínio temporal de grandes modelos de linguagem.
― 6 min ler
Abordagem inovadora pra criar funções de aquisição eficazes pra otimização Bayesiana.
― 7 min ler
Um novo conjunto de dados melhora a precisão na avaliação de resumos de histórias gerados por modelos de linguagem.
― 6 min ler
Um novo método pra avaliar agentes de análise de dados pra ter insights melhores nos negócios.
― 6 min ler
Um desafio pra melhorar a compreensão dos robôs sobre as interações humanas.
― 7 min ler
Uma nova estrutura tem como objetivo automatizar as revisões de artigos para um feedback de melhor qualidade.
― 8 min ler
Apresentando o DictaLM 2.0 e o DictaLM 2.0-Instruct pra melhorar o processamento da língua hebraica.
― 7 min ler
Este estudo analisa como os modelos representam bem culturas diversas.
― 9 min ler
Um projeto focado em melhorar a geração de histórias em árabe usando modelos avançados.
― 8 min ler
Uma nova abordagem para avaliar grandes modelos de linguagem para obter insights de desempenho melhores.
― 6 min ler
A pesquisa apresenta novos métodos para avaliar sistemas de reconhecimento de fala em polonês.
― 7 min ler
Descubra como dados sintéticos ajudam os varejistas a proteger a privacidade dos clientes enquanto ganham insights.
― 8 min ler
O DocBench faz testes em sistemas baseados em LLM para ler e responder a vários formatos de documentos.
― 5 min ler
Uma estrutura pra avaliar as habilidades dos LLMs em tarefas relacionadas a dados com interpretadores de código.
― 6 min ler
Analisando o impacto dos LLMs nos estereótipos sociais e formas de melhorar os resultados.
― 6 min ler
Esse estudo propõe um método novo de avaliação pra entender vídeo e texto.
― 7 min ler
Analisando a importância e as dificuldades de avaliar modelos de IA multimodal.
― 7 min ler
Um novo conjunto de dados pra melhorar o desempenho em perguntas e respostas usando respostas longas, feitas por humanos.
― 7 min ler
Os modelos Phi-3 se concentram na segurança e em alinhar com os valores humanos.
― 7 min ler
Analisando problemas com modelos de linguagem grandes em prever itens faltando na lista.
― 7 min ler
Um estudo comparando modelos de IA e avaliações humanas de resumos científicos.
― 6 min ler
Um novo benchmark avalia modelos de linguagem em desafios de codificação científica em várias áreas.
― 7 min ler