Novo conjunto de dados melhora a avaliação de modelos multilíngues em várias línguas.
― 9 min ler
Ciência de ponta explicada de forma simples
Novo conjunto de dados melhora a avaliação de modelos multilíngues em várias línguas.
― 9 min ler
A métrica SQuArE melhora a avaliação de sistemas de QA através de múltiplas referências de resposta.
― 6 min ler
Novos métodos melhoram a avaliação de desempenho de pequenos objetos em WSSS.
― 7 min ler
Uma nova estrutura para avaliar sistemas RAG sem referências humanas.
― 7 min ler
Apresentando um método que mede a qualidade das respostas em diferentes níveis de detalhe.
― 7 min ler
Este estudo propõe novos métodos para avaliar as respostas em sistemas de perguntas e respostas de máquina.
― 8 min ler
Novos métodos melhoram a avaliação das explicações de modelos de IA.
― 8 min ler
Um novo conjunto de dados e método melhoram a geração de perguntas em modelos de linguagem.
― 7 min ler
Novo conjunto de dados melhora a verificação dos passos de raciocínio em modelos de IA.
― 8 min ler
Esse artigo apresenta um benchmark pra avaliar modelos de linguagem grandes com tarefas complexas.
― 7 min ler
Um estudo sobre como o ChatGPT usa linguagem e características de vocabulário.
― 12 min ler
Um olhar detalhado sobre a avaliação da CyberMetric de especialistas em IA e humanos em cibersegurança.
― 10 min ler
Um novo método avalia a eficácia da edição de modelos na geração de textos mais longos.
― 10 min ler
Uma nova estrutura pra avaliar a correção das respostas da IA com um julgamento parecido com o humano.
― 8 min ler
Novo conjunto de dados melhora os métodos de avaliação para desaprendizado de máquina na geração de imagens.
― 7 min ler
O FanOutQA ajuda a avaliar modelos de linguagem em perguntas difíceis de múltiplos passos usando dados estruturados.
― 6 min ler
Uma nova ferramenta gera várias instâncias de alucinações visuais para melhorar a precisão da IA.
― 6 min ler
Esse artigo fala sobre uma nova estrutura pra avaliar alucinações em LVLMs.
― 8 min ler
Um método para avaliação contínua de modelos em machine learning pra evitar overfitting.
― 6 min ler
Um novo método melhora a checagem de fatos em sistemas de geração aumentada por recuperação.
― 9 min ler
Aprimorando a compreensão das intenções dos usuários através da negação e implicatura.
― 6 min ler
Uma análise da compreensão dos modelos de linguagem sobre as regras de reconhecimento de entidades.
― 7 min ler
Essa pesquisa avalia o uso de LLMs pra cenários realistas de carros autônomos.
― 9 min ler
Um framework pra melhorar o desempenho de NLP em vários dialetos de linguagem.
― 5 min ler
Avaliar LLMs na habilidade de processar textos longos na literatura.
― 6 min ler
Uma nova estrutura avalia quão confiáveis são os LLMs como assistentes biomédicos.
― 5 min ler
Um estudo destaca o impacto da contaminação de dados nas avaliações de modelos de código.
― 7 min ler
Um novo conjunto de dados melhora a avaliação do conhecimento molecular em modelos de linguagem.
― 8 min ler
O SPHINX-V melhora a capacidade da IA de interpretar imagens através da interação do usuário.
― 7 min ler
O BEAR melhora a avaliação do conhecimento relacional em modelos de linguagem.
― 9 min ler
Esse estudo examina como os modelos de linguagem lidam com diferentes expressões dos mesmos problemas de raciocínio.
― 5 min ler
Um novo conjunto de dados avalia como os modelos de linguagem lidam com conteúdo prejudicial em diferentes culturas.
― 6 min ler
Um novo parâmetro melhora como a gente avalia os LVLMs e a precisão deles.
― 6 min ler
Uma avaliação de quão bem os LLMs lembram informações factuais e os fatores envolvidos.
― 6 min ler
Este estudo oferece métodos melhores para avaliar modelos de texto para imagem.
― 7 min ler
Um estudo avaliando métodos de aprendizado com poucos exemplos para classificação da língua polonesa.
― 5 min ler
Novas métricas melhoram a avaliação de sistemas de extração de informações em documentos manuscritos.
― 8 min ler
O WorkBench testa a habilidade dos agentes de realizar tarefas de escritório realistas com um método de avaliação único.
― 7 min ler
Avaliando como os LLMs se adaptam a novas informações e preconceitos.
― 9 min ler
Um novo método pra avaliar como os modelos de linguagem tão alinhados com os valores humanos.
― 8 min ler