Um novo benchmark avalia métodos para medir a similaridade representacional em aprendizado de máquina.
― 7 min ler
Ciência de ponta explicada de forma simples
Um novo benchmark avalia métodos para medir a similaridade representacional em aprendizado de máquina.
― 7 min ler
Uma nova abordagem para detectar falhas em modelos de classificação de imagens.
― 6 min ler
Avaliar como os LLMs produzem saídas em JSON através de testes StructuredRAG.
― 6 min ler
Um estudo sobre como melhorar os métodos de UDA através da avaliação e compreensão de mudanças nos dados.
― 8 min ler
Um novo método pra combinar modelos de linguagem de forma mais eficiente.
― 7 min ler
Uma nova abordagem melhora a compreensão das previsões do modelo através da atribuição de características.
― 6 min ler
Um método novo mostra como os modelos de visão organizam e entendem imagens.
― 7 min ler
Nova técnica para entender melhor as previsões do modelo usando exemplos contrafactuais.
― 6 min ler
Um método que combina VMD e modelos lineares aumenta a precisão das previsões.
― 6 min ler
A estrutura PoEM avalia modelos de linguagem sem precisar de rótulos precisos.
― 6 min ler
Este estudo avalia como pequenas mudanças impactam as respostas de modelos de linguagem.
― 4 min ler
Um novo método ajuda a identificar a contaminação de dados de teste em LLMs usando probabilidades de tokens.
― 10 min ler
O FSDEM traz uma nova maneira de avaliar técnicas de seleção de características para análise de dados.
― 7 min ler
O dataset MAPWise desafia modelos com perguntas baseadas em mapas e avalia suas habilidades de raciocínio.
― 8 min ler
Este artigo fala sobre um novo sistema de classificação pra avaliar modelos de linguagem de forma mais justa.
― 6 min ler
O Logit Scaling melhora a detecção de dados fora da distribuição sem precisar de dados de treino.
― 7 min ler
Esse estudo avalia modelos de machine learning pra detectar lixo nos rios.
― 5 min ler
Um novo método para avaliar a robustez em classificadores de ML usando distância adversarial.
― 7 min ler
Uma olhada mais de perto em como os grandes modelos de linguagem se saem em tarefas básicas.
― 8 min ler
Um novo método melhora as explicações da IA por meio da colaboração entre dois modelos de linguagem.
― 7 min ler
Esta pesquisa explora como o grau topológico avalia a eficácia dos VAEs em capturar a estrutura dos dados.
― 5 min ler
Estudo revela como os modelos de linguagem usam o contexto pra respostas precisas.
― 7 min ler
Novos métodos ajudam a entender como os modelos reagem a mudanças nos dados.
― 8 min ler
Esse artigo analisa métodos para detectar contaminação de dados em modelos de linguagem grandes.
― 7 min ler
Este artigo explora como métodos bootstrap melhoram a estabilidade e a robustez em modelos SGD.
― 6 min ler
Um novo padrão tem o objetivo de melhorar a avaliação de incerteza em modelos de linguagem.
― 6 min ler
Um novo método melhora o raciocínio do modelo através de rastros de programação estruturada.
― 9 min ler
Analisando como o ajuste fino afeta a segurança em modelos de linguagem em várias tarefas.
― 7 min ler
Uma nova abordagem para avaliar modelos de ML usando a Teoria da Resposta ao Item para obter insights melhores.
― 6 min ler
Modelos base fortes melhoram a avaliação de sistemas de ML na área da saúde.
― 7 min ler
Uma olhada nos intervalos de confiança em aprendizado com poucos exemplos e seu impacto na avaliação de modelos.
― 7 min ler
Analisando a compreensão e a precisão de saída dos modelos de linguagem.
― 6 min ler
Destaques da pesquisa usando funções de influência pra melhorar o desempenho de PINN em problemas de física.
― 7 min ler
Um olhar sobre a dimensão efetiva e seu impacto no treinamento de modelos.
― 7 min ler
Este artigo avalia o quão bem modelos de linguagem explicam conceitos científicos.
― 5 min ler
Esse artigo analisa os GAMs como uma solução para desempenho preditivo e interpretabilidade.
― 8 min ler
Analisando como amostras difíceis afetam o desempenho do modelo e a confiabilidade da precisão do teste.
― 11 min ler
Esse artigo examina como diferentes camadas afetam o desempenho dos LLMs.
― 6 min ler
Rótulos suaves podem melhorar o desempenho de modelos de aprendizado de máquina em cenários de dados incertos.
― 7 min ler
O RepairBench define padrões pra comparar modelos de IA na correção de bugs de software.
― 6 min ler