Presentiamo RePrompt per migliorare le prestazioni del modello linguistico attraverso prompt ottimizzati.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Presentiamo RePrompt per migliorare le prestazioni del modello linguistico attraverso prompt ottimizzati.
― 6 leggere min
Un nuovo benchmark valuta come i modelli linguistici gestiscono le modifiche al testo.
― 6 leggere min
I tratti degli utenti influenzano le risposte dei modelli di linguaggio e la loro sicurezza.
― 7 leggere min
Un toolkit per valutare le performance dei modelli potenziati dal recupero in specifici settori.
― 10 leggere min
Questo studio rivela come i modelli di linguaggio cambiano comportamento durante l'allenamento.
― 7 leggere min
Questo articolo esamina modi per migliorare le capacità di pianificazione nei grandi modelli linguistici.
― 8 leggere min
DetectBench valuta i LLM sulla loro capacità di individuare prove nascoste nei compiti di ragionamento.
― 6 leggere min
Esaminando come l'attivazione dei neuroni migliora il ragionamento aritmetico nei grandi modelli linguistici.
― 9 leggere min
Un nuovo modello genera poesia ceca con rime e ritmi migliorati.
― 6 leggere min
Un nuovo benchmark valuta le capacità di ragionamento nei modelli linguistici.
― 8 leggere min
Uno studio su come i modelli linguistici generano ragionamenti persuasivi per la valutazione degli argomenti.
― 6 leggere min
Questo studio valuta l'onestà dei LLM in tre aree chiave.
― 6 leggere min
Quest'articolo esplora come gli avversari influenzano il lavoro di squadra tra i modelli linguistici.
― 12 leggere min
Uno studio completo sulle performance dei modelli linguistici in 10 lingue indiche.
― 8 leggere min
Un nuovo metodo migliora la riparazione del codice per linguaggi di programmazione poco usati.
― 7 leggere min
Esplorando come i sink di attenzione influenzano le prestazioni dei modelli linguistici e introducendo una tecnica di calibrazione.
― 6 leggere min
RankAdaptor ottimizza il fine-tuning per i modelli AI potati, migliorando le prestazioni in modo efficiente.
― 8 leggere min
Uno studio su PlagBench e il suo ruolo nel rilevare il plagio nei risultati delle LLM.
― 4 leggere min
Nuovo dataset valuta la capacità dei LLM di affrontare compiti di ragionamento logico complesso.
― 7 leggere min
Questa ricerca esplora come le abilità di ragionamento si trasferiscono tra le lingue nei modelli linguistici.
― 8 leggere min
Questo articolo parla di come i modelli di intelligenza artificiale imparano dagli errori attraverso l’autocorrezione.
― 6 leggere min
Questo studio valuta quanto bene i LLM ragionano sulle direzioni cardinali.
― 5 leggere min
Questo studio valuta quanto bene i LLM gestiscono il processo decisionale in un contesto di gioco.
― 8 leggere min
Uno studio rivela come le caratteristiche degli utenti influenzano le risposte e l'accuratezza dei LLM.
― 8 leggere min
CharED combina modelli linguistici per prestazioni migliori senza vocabolari condivisi.
― 5 leggere min
RAGBench presenta un dataset completo per valutare i sistemi di Generazione Augmentata da Recupero.
― 7 leggere min
Esplorando i problemi di equità nei modelli di linguaggio AI e le loro implicazioni.
― 9 leggere min
Introduzione di uno strumento per migliorare la sicurezza nelle interazioni con i modelli linguistici.
― 6 leggere min
Questo articolo esplora la rilevazione degli errori negli strumenti utilizzati dai modelli linguistici.
― 6 leggere min
Quest'articolo analizza le strutture ripetitive nei testi generati dai modelli di linguaggio.
― 8 leggere min
Un nuovo benchmark valuta quanto bene i modelli linguistici seguono più istruzioni in sequenza.
― 4 leggere min
Il dataset MalAlgoQA valuta il ragionamento dei Grandi Modelli Linguistici in scenari controfattuali.
― 6 leggere min
MathCAMPS offre un modo nuovo per valutare il ragionamento matematico nei modelli linguistici.
― 10 leggere min
Questo lavoro si concentra su una migliore rappresentazione dei numeri usando embedding dei digit per previsioni più accurate.
― 8 leggere min
Esplorare l'efficacia dei LLM nella presa di decisioni attraverso scenari di Dueling Bandits.
― 8 leggere min
Un nuovo benchmark per valutare i modelli linguistici di grandi dimensioni nei test di ipotesi.
― 7 leggere min
CRAB migliora i test per i modelli linguistici in ambienti reali.
― 7 leggere min
Ottimizzazione di grandi modelli di linguaggio direttamente sugli smartphone, proteggendo i dati degli utenti.
― 6 leggere min
Una panoramica dell'interpretabilità meccanicistica nei modelli linguistici basati su trasformatori.
― 8 leggere min
Esplorando come il riformulare cambia le opinioni attraverso discussioni di comunità.
― 5 leggere min