MathBench valuta le capacità matematiche degli LLM in vari livelli educativi.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
MathBench valuta le capacità matematiche degli LLM in vari livelli educativi.
― 5 leggere min
DiveR-CT migliora il red teaming automatico per valutazioni di sicurezza migliori.
― 7 leggere min
Un nuovo approccio migliora i modelli Transformer per una migliore elaborazione dei testi lunghi.
― 6 leggere min
Un nuovo benchmark valuta come i modelli video-linguistici gestiscono efficacemente le imprecisioni.
― 7 leggere min
Un nuovo metodo aiuta i robot a orientarsi e muoversi correttamente per i compiti.
― 7 leggere min
Questo metodo migliora il ragionamento visivo implementando una verifica a ogni passo del ragionamento.
― 7 leggere min
Un framework che usa token di memoria migliora la comprensione e l'interazione con i video.
― 7 leggere min