Novos métodos visam melhorar as habilidades de raciocínio em modelos de linguagem.
― 7 min ler
Ciência de ponta explicada de forma simples
Novos métodos visam melhorar as habilidades de raciocínio em modelos de linguagem.
― 7 min ler
Novas métricas esclarecem as limitações dos modelos de linguagem em representar a realidade.
― 8 min ler
Um novo sistema pra avaliar modelos de linguagem usando fluxos de dados do mundo real.
― 6 min ler
Apresentando o IrokoBench pra melhorar a avaliação de LLM em línguas africanas.
― 8 min ler
O Desafio ULS23 tem como objetivo melhorar a segmentação de tumores em exames de TC pra um tratamento de câncer mais eficiente.
― 6 min ler
Uma abordagem nova melhora a detecção de imagens falsas criadas por IA.
― 7 min ler
Um novo padrão pretende avaliar MLLMs na compreensão de vídeos sobre vários temas.
― 7 min ler
Esse estudo apresenta um novo método pra identificar as imagens de treinamento chave em visuais gerados por IA.
― 9 min ler
Explorando a importância de desaprender métodos no aprendizado de máquina moderno.
― 6 min ler
Analisando as principais questões no MARL offline e propondo soluções padronizadas.
― 7 min ler
Aprenda sobre CGP, sua função, vantagens, aplicações e desafios na programação.
― 6 min ler
Um novo conjunto de dados melhora a coerência em sequências de imagem-texto para uma criação de conteúdo mais eficaz.
― 6 min ler
A SciEx revela os pontos fortes e os desafios dos LLMs na avaliação científica.
― 8 min ler
A SEACrowd tem como objetivo melhorar a representação da IA para as línguas e culturas do Sudeste Asiático.
― 8 min ler
Um estudo avalia modelos de linguagem sobre como lidar com várias tarefas ao mesmo tempo.
― 9 min ler
Um novo teste de referência avalia as habilidades dos LLMs com formatos de dados estruturados.
― 7 min ler
O VCEval oferece uma maneira automatizada de avaliar a eficácia de cursos online.
― 6 min ler
Um novo benchmark foca na composicionalidade na compreensão de vídeos e em modelos de linguagem.
― 7 min ler
Um novo método melhora os testes para modelos de linguagem usando dados reais de usuários.
― 7 min ler
A família Nemotron-4 340B oferece modelos poderosos para aplicações diversas e geração de dados sintéticos.
― 8 min ler
Avaliar como modelos de linguagem lidam com pistas culturais em tarefas reais.
― 9 min ler
A VideoVista oferece uma avaliação completa para modelos de perguntas e respostas em vídeo.
― 7 min ler
Esse artigo explora métodos pra melhorar a confiabilidade dos artefatos de pesquisa em computação.
― 9 min ler
Os modelos GLM-4 mostram melhorias nas capacidades de entender e gerar linguagem.
― 10 min ler
Um estudo sobre como usar LLMs pra avaliar outros LLMs e suas implicações.
― 8 min ler
Um estudo sobre como modelos de linguagem geram justificativas persuasivas para avaliação de argumentos.
― 6 min ler
Dois novos modelos têm como objetivo melhorar o acesso à tecnologia para falantes de galego.
― 6 min ler
Analisando as dificuldades de traduzir linguagem metafórica na tradução automática.
― 7 min ler
DF40 oferece uma abordagem completa para melhorar os métodos de detecção de deepfake.
― 7 min ler
Esse estudo avalia a honestidade dos LLMs em três áreas principais.
― 6 min ler
Descubra como as empresas melhoram seus sistemas de perguntas e respostas pra dar um suporte ao usuário melhor.
― 5 min ler
Um estudo sobre como a IA entende algoritmos e suas implicações.
― 8 min ler
Uma nova métrica melhora a avaliação de modelos de classificação de texto em diferentes áreas.
― 8 min ler
A contaminação de dados afeta bastante a avaliação de modelos de linguagem grandes.
― 6 min ler
Um novo método pra avaliar LLMs tá alinhado com os valores humanos.
― 8 min ler
Uma nova ferramenta pra avaliar os preconceitos em grandes modelos de visão-linguagem.
― 7 min ler
Um estudo avalia como as máquinas criam poesias variadas e criativas em comparação com os humanos.
― 7 min ler
Um novo método melhora como a gente avalia contra-narrativas ao discurso de ódio.
― 7 min ler
O InternLM-Law melhora as respostas a diversas perguntas legais chinesas com um treinamento avançado.
― 8 min ler
Explorando como perfis de usuário melhoram a personalização em modelos de linguagem.
― 7 min ler