A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.
― 8 min ler
Ciência de ponta explicada de forma simples
A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.
― 8 min ler
Um estudo avalia modelos de linguagem sobre como lidar com várias tarefas ao mesmo tempo.
― 9 min ler
Um novo teste de referência avalia as habilidades dos LLMs com formatos de dados estruturados.
― 7 min ler
O VCEval oferece uma maneira automatizada de avaliar a eficácia de cursos online.
― 6 min ler
Um novo benchmark foca na composicionalidade na compreensão de vídeos e em modelos de linguagem.
― 7 min ler
Um novo método melhora os testes para modelos de linguagem usando dados reais de usuários.
― 7 min ler
A família Nemotron-4 340B oferece modelos poderosos para aplicações diversas e geração de dados sintéticos.
― 8 min ler
Avaliar como modelos de linguagem lidam com pistas culturais em tarefas reais.
― 9 min ler
A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.
― 7 min ler
Esse artigo explora métodos pra melhorar a confiabilidade dos artefatos de pesquisa em computação.
― 9 min ler
Os modelos GLM-4 mostram melhorias nas capacidades de entender e gerar linguagem.
― 10 min ler
Um estudo sobre como usar LLMs pra avaliar outros LLMs e suas implicações.
― 8 min ler
Um estudo sobre como modelos de linguagem geram justificativas persuasivas para avaliação de argumentos.
― 6 min ler
Dois novos modelos têm como objetivo melhorar o acesso à tecnologia para falantes de galego.
― 6 min ler
Analisando as dificuldades de traduzir linguagem metafórica na tradução automática.
― 7 min ler
DF40 oferece uma abordagem completa para melhorar os métodos de detecção de deepfake.
― 7 min ler
Esse estudo avalia a honestidade dos LLMs em três áreas principais.
― 6 min ler
Descubra como as empresas melhoram seus sistemas de perguntas e respostas pra dar um suporte ao usuário melhor.
― 5 min ler
Um estudo sobre como a IA entende algoritmos e suas implicações.
― 8 min ler
Uma nova métrica melhora a avaliação de modelos de classificação de texto em diferentes áreas.
― 8 min ler
A contaminação de dados afeta bastante a avaliação de modelos de linguagem grandes.
― 6 min ler
Um novo método pra avaliar LLMs tá alinhado com os valores humanos.
― 8 min ler
Uma nova ferramenta pra avaliar os preconceitos em grandes modelos de visão-linguagem.
― 7 min ler
Um estudo avalia como as máquinas criam poesias variadas e criativas em comparação com os humanos.
― 7 min ler
Um novo método melhora como a gente avalia contra-narrativas ao discurso de ódio.
― 7 min ler
O InternLM-Law melhora as respostas a diversas perguntas legais chinesas com um treinamento avançado.
― 8 min ler
Explorando como perfis de usuário melhoram a personalização em modelos de linguagem.
― 7 min ler
Pesquisas mostram que os modelos têm dificuldade com as dependências de etapas em receitas de cozinha.
― 6 min ler
Esse artigo apresenta um método pra avaliar modelos de linguagem em vários prompts.
― 7 min ler
Novo método aborda diferenças regionais na avaliação de preconceito de gênero.
― 7 min ler
O dataset M2Lingual melhora as habilidades de seguir instruções em várias línguas.
― 7 min ler
Esse artigo apresenta um novo método pra avaliar modelos de texto pra imagem de forma eficaz.
― 7 min ler
Este estudo compara o desempenho de Modelos de Linguagem usando testes INVALSI de italiano.
― 9 min ler
O RAGBench apresenta um conjunto de dados completo pra avaliar sistemas de Geração Aumentada por Recuperação.
― 8 min ler
A Dysca apresenta uma nova forma de avaliar o desempenho do LVLM usando dados sintéticos.
― 8 min ler
Um olhar sobre métodos modernos em design de engenharia para eficiência e desempenho.
― 9 min ler
Uma nova abordagem melhora a extração de eventos causais usando avaliação centrada no ser humano.
― 6 min ler
Avaliar como confiar em especialistas humanos afeta a precisão das previsões em modelos de ML.
― 9 min ler
Apresentando um novo método para melhores soluções em tarefas complexas de engenharia e robótica.
― 7 min ler
Um estudo avaliando a qualidade dos conjuntos de dados para identificar discurso de ódio online.
― 9 min ler