I ricercatori analizzano quanto sia prevedibile il rendimento dei modelli di linguaggio man mano che aumenta la potenza di calcolo per l'addestramento.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
I ricercatori analizzano quanto sia prevedibile il rendimento dei modelli di linguaggio man mano che aumenta la potenza di calcolo per l'addestramento.
― 7 leggere min
Uno sguardo agli attacchi backdoor e alle difese nei modelli di deep learning.
― 6 leggere min
Questo documento valuta l'efficienza del codice generato da vari modelli.
― 7 leggere min
Quest'articolo presenta un benchmark per valutare modelli di linguaggio grandi con compiti complessi.
― 7 leggere min
Questo studio valuta le capacità dei grandi modelli linguistici in scenari di pianificazione complessi.
― 7 leggere min
La ricerca esamina l'uso dei VLM per valutare le azioni dei robot.
― 7 leggere min
Esplorare il ruolo dei grandi modelli linguistici nella scienza molecolare.
― 8 leggere min
Esplorando metodi per migliorare le performance dei robot in ambienti imprevedibili.
― 5 leggere min
AV-SUPERB valuta modelli audio e visivi su vari task per migliorare le prestazioni.
― 6 leggere min
Nuovi strumenti migliorano come i sistemi recuperano informazioni da documenti lunghi.
― 5 leggere min
Questo benchmark valuta le performance dei modelli di linguaggio medico nella sanità.
― 8 leggere min
Un metodo per tenere i modelli di IA aggiornati in base agli eventi del mondo reale.
― 7 leggere min
Nuovi test di benchmark MLLM sui compiti dei social media come disinformazione e discorsi d'odio.
― 11 leggere min
RobotScript migliora il modo in cui i robot eseguono compiti a partire dal linguaggio naturale.
― 7 leggere min
Una nuova prospettiva per scoprire minacce nascoste nel design dell'hardware.
― 6 leggere min
Nuovi metodi mirano a valutare meglio le abilità di ragionamento nei modelli linguistici AI.
― 7 leggere min
DyPyBench offre un insieme vario di progetti per l'analisi dinamica in Python.
― 7 leggere min
La capacità dell'IA di trasformare i design in codice sta cambiando il modo di fare sviluppo web.
― 8 leggere min
Uno studio rivela un'importante sovrapposizione di dati che influisce sulle valutazioni dei modelli linguistici nella generazione di codice.
― 6 leggere min
Valutare le prestazioni degli LLM tramite un benchmark dedicato all'analisi delle bio-immagini.
― 6 leggere min
Un nuovo metodo per valutare gli strumenti di elaborazione del linguaggio sembra promettere miglioramenti.
― 6 leggere min
Un metodo per valutare la trasferibilità dei modelli pre-addestrati per il rilevamento degli oggetti.
― 5 leggere min
Una risorsa pensata per aiutare i robot a imparare in modo efficace le attività quotidiane.
― 7 leggere min
Uno sguardo alla valutazione delle capacità decisionali dei grandi modelli di linguaggio.
― 8 leggere min
Un framework per migliorare le performance del NLP attraverso vari dialetti linguistici.
― 4 leggere min
Un nuovo benchmark rivela punti di forza e debolezza dei VLLM nei compiti multimodali.
― 6 leggere min
Gli esperti si riuniscono per parlare delle simulazioni di Monte Carlo e dei miglioramenti delle GPU.
― 7 leggere min
Nuovi benchmark rivelano i punti di forza e di debolezza dei modelli di linguaggio di codice.
― 4 leggere min
Meerkat-7B stabilisce un nuovo standard per i modelli di linguaggio medico open-source.
― 6 leggere min
Nuovi metodi migliorano la sintesi video usando grandi set di dati e modelli avanzati.
― 7 leggere min
La ricerca rivela le sfide che i LLM affrontano nel capire testi lunghi e propone nuovi benchmark.
― 6 leggere min
Esplorare il design e i benefici di un PMU per processori RISC-V usati nello spazio.
― 5 leggere min
Questo studio esamina i problemi di qualità nei prompt per i modelli di generazione di codice.
― 5 leggere min
Un nuovo benchmark rivela lacune nella comprensione visiva dei modelli di linguaggio grandi.
― 7 leggere min
Un nuovo benchmark migliora il modo in cui valutiamo gli LVLM e la loro precisione.
― 5 leggere min
La competizione CHC ha messo in mostra i progressi nei solver e le loro applicazioni nella verifica dei programmi.
― 6 leggere min
Questo articolo esplora come migliorare la comprensione delle risposte indirette.
― 6 leggere min
Uno studio che valuta i metodi di few-shot learning per la classificazione della lingua polacca.
― 5 leggere min
I modelli di PatentGPT sono progettati per affrontare sfide uniche nella Proprietà Intellettuale.
― 4 leggere min
Uno studio sull'efficacia degli strumenti SAST per i contratti intelligenti.
― 8 leggere min