SEACrowd punta a migliorare la rappresentanza dell'IA per le lingue e le culture del Sud-Est asiatico.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
SEACrowd punta a migliorare la rappresentanza dell'IA per le lingue e le culture del Sud-Est asiatico.
― 7 leggere min
Uno studio valuta i modelli linguistici nel gestire più compiti contemporaneamente.
― 8 leggere min
Un nuovo benchmark testa le capacità dei LLM con formati di dati strutturati.
― 6 leggere min
VCEval offre un modo automatico per valutare l'efficacia dei corsi online.
― 5 leggere min
Un nuovo benchmark punta sulla composizionalità nella comprensione dei video e nei modelli linguistici.
― 6 leggere min
Un nuovo metodo migliora i test per i modelli linguistici usando dati reali degli utenti.
― 6 leggere min
La famiglia Nemotron-4 340B offre modelli potenti per applicazioni diverse e generazione di dati sintetici.
― 8 leggere min
Valutare come i modelli linguistici gestiscono i segnali culturali in compiti reali.
― 8 leggere min
VideoVista offre una valutazione completa per i modelli di domanda-risposta su video.
― 6 leggere min
Questo articolo esplora metodi per migliorare l'affidabilità degli artefatti di ricerca in informatica.
― 8 leggere min
I modelli GLM-4 mostrano capacità migliorate nella comprensione e generazione del linguaggio.
― 9 leggere min
Uno studio sull'uso dei LLM per giudicare altri LLM e le sue implicazioni.
― 7 leggere min
Uno studio su come i modelli linguistici generano ragionamenti persuasivi per la valutazione degli argomenti.
― 6 leggere min
Due nuovi modelli puntano a migliorare l'accesso alla tecnologia per i parlanti galiziani.
― 6 leggere min
Esaminando le difficoltà di tradurre il linguaggio metaforico nella traduzione automatica.
― 6 leggere min
DF40 offre un approccio completo per migliorare i metodi di rilevamento dei deepfake.
― 6 leggere min
Questo studio valuta l'onestà dei LLM in tre aree chiave.
― 6 leggere min
Scopri come le aziende migliorano i loro sistemi di domande e risposte per un supporto utenti migliore.
― 4 leggere min
Uno studio su come l'IA comprende gli algoritmi e le loro implicazioni.
― 7 leggere min
Una nuova metrica migliora la valutazione dei modelli di classificazione del testo in diversi ambiti.
― 7 leggere min
La contaminazione dei dati influisce parecchio sulla valutazione dei modelli di linguaggio grandi.
― 6 leggere min
Un nuovo metodo per valutare i LLM si allinea con i valori umani.
― 7 leggere min
Un nuovo strumento per valutare i pregiudizi nei grandi modelli di visione-linguaggio.
― 6 leggere min
Uno studio valuta come le macchine creano poesia varia e creativa rispetto agli umani.
― 6 leggere min
Un nuovo metodo migliora il modo in cui valutiamo le contro-narrazioni all'odio.
― 6 leggere min
InternLM-Law migliora le risposte a diverse domande legali cinesi con un addestramento avanzato.
― 8 leggere min
Esplorare come i profili utente migliorano la personalizzazione nei modelli di linguaggio.
― 6 leggere min
Le ricerche mostrano che i modelli fanno fatica con le dipendenze tra i passaggi nelle ricette di cucina.
― 6 leggere min
Questo paper presenta un metodo per valutare i modelli di linguaggio attraverso vari prompt.
― 7 leggere min
Nuovo metodo affronta le differenze regionali nella valutazione del bias di genere.
― 6 leggere min
Il dataset M2Lingual migliora le capacità di seguire le istruzioni in diverse lingue.
― 6 leggere min
Questo articolo presenta un nuovo metodo per valutare in modo efficace i modelli da testo a immagine.
― 6 leggere min
Questo studio valuta le prestazioni dei modelli linguistici utilizzando i test INVALSI italiani.
― 8 leggere min
RAGBench presenta un dataset completo per valutare i sistemi di Generazione Augmentata da Recupero.
― 7 leggere min
Dysca introduce un nuovo modo per valutare le prestazioni LVLM utilizzando dati sintetici.
― 7 leggere min
Uno sguardo ai metodi moderni nel design ingegneristico per efficienza e prestazioni.
― 8 leggere min
Un nuovo approccio migliora l'estrazione degli eventi causali utilizzando una valutazione incentrata sull'uomo.
― 6 leggere min
Valutare come il deferire agli esperti umani influisca sulla precisione delle previsioni nei modelli di ML.
― 8 leggere min
Introducendo un nuovo metodo per soluzioni migliori in compiti complessi di ingegneria e robotica.
― 6 leggere min
Uno studio che valuta la qualità dei dataset per identificare l'odio online.
― 8 leggere min