Articoli più recenti per Benchmark

Apprendimento automatico Prevedere le performance dei modelli linguistici sui benchmark

I ricercatori analizzano quanto sia prevedibile il rendimento dei modelli di linguaggio man mano che aumenta la potenza di calcolo per l'addestramento.

2025-09-18T05:27:54+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Esaminando il Backdoor Learning nei Reti Neurali Profonde

Uno sguardo agli attacchi backdoor e alle difese nei modelli di deep learning.

2025-09-14T06:00:24+00:00 ― 6 leggere min

Ingegneria del software Valutare i modelli di generazione di codice per l'efficienza

Questo documento valuta l'efficienza del codice generato da vari modelli.

2025-09-11T17:42:12+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i modelli di linguaggio con nuovi benchmark

Quest'articolo presenta un benchmark per valutare modelli di linguaggio grandi con compiti complessi.

2025-09-11T04:55:54+00:00 ― 7 leggere min

Intelligenza artificiale Valutare i LLM in compiti di pianificazione asincrona

Questo studio valuta le capacità dei grandi modelli linguistici in scenari di pianificazione complessi.

2025-09-10T23:16:12+00:00 ― 7 leggere min

Intelligenza artificiale Valutare il Comportamento dei Robot Usando Modelli Video-Linguaggio

La ricerca esamina l'uso dei VLM per valutare le azioni dei robot.

2025-09-10T19:19:12+00:00 ― 7 leggere min

Apprendimento automatico Sviluppi nella Modellazione e Design Molecolare

Esplorare il ruolo dei grandi modelli linguistici nella scienza molecolare.

2025-09-10T18:55:30+00:00 ― 8 leggere min

Robotica Testare i robot per sfide inaspettate

Esplorando metodi per migliorare le performance dei robot in ambienti imprevedibili.

2025-09-09T02:53:54+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Presentiamo AV-SUPERB: un nuovo punto di riferimento per i modelli audio-visivi

AV-SUPERB valuta modelli audio e visivi su vari task per migliorare le prestazioni.

2025-09-08T22:32:35+00:00 ― 6 leggere min

Recupero delle informazioni Progressi nei Modelli di Recupero di Documenti Lunghi

Nuovi strumenti migliorano come i sistemi recuperano informazioni da documenti lunghi.

2025-09-08T20:26:48+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare l'AI Medica: Un Nuovo Riferimento per i Med-MLLMs

Questo benchmark valuta le performance dei modelli di linguaggio medico nella sanità.

2025-09-07T01:47:12+00:00 ― 8 leggere min

Calcolo e linguaggio Editing della Conoscenza a Livello Evento: Un Nuovo Approccio

Un metodo per tenere i modelli di IA aggiornati in base agli eventi del mondo reale.

2025-09-06T00:54:06+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i modelli linguistici multimodali sui compiti dei social media

Nuovi test di benchmark MLLM sui compiti dei social media come disinformazione e discorsi d'odio.

2025-09-05T16:28:30+00:00 ― 11 leggere min

Robotica Avanzando la generazione di codice per robot con RobotScript

RobotScript migliora il modo in cui i robot eseguono compiti a partire dal linguaggio naturale.

2025-09-05T03:58:00+00:00 ― 7 leggere min

Crittografia e sicurezza Rilevamento di Trojan Hardware: Nuovi Approcci

Una nuova prospettiva per scoprire minacce nascoste nel design dell'hardware.

2025-09-03T18:55:06+00:00 ― 6 leggere min

Intelligenza artificiale Migliorare la valutazione del ragionamento nei modelli linguistici

Nuovi metodi mirano a valutare meglio le abilità di ragionamento nei modelli linguistici AI.

2025-09-02T23:25:54+00:00 ― 7 leggere min

Ingegneria del software Presentiamo DyPyBench: Un Nuovo Strumento di Benchmark per Python

DyPyBench offre un insieme vario di progetti per l'analisi dinamica in Python.

2025-09-02T10:15:54+00:00 ― 7 leggere min

Calcolo e linguaggio L'IA che trasforma lo sviluppo web attraverso il design visivo

La capacità dell'IA di trasformare i design in codice sta cambiando il modo di fare sviluppo web.

2025-09-01T08:03:48+00:00 ― 8 leggere min

Ingegneria del software Valutare i modelli linguistici: la sfida della contaminazione dei dati

Uno studio rivela un'importante sovrapposizione di dati che influisce sulle valutazioni dei modelli linguistici nella generazione di codice.

2025-09-01T02:16:12+00:00 ― 6 leggere min

Bioinformatica Valutare i Grandi Modelli Linguistici per l'Analisi delle Bio-Immagini

Valutare le prestazioni degli LLM tramite un benchmark dedicato all'analisi delle bio-immagini.

2025-08-31T18:04:57+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare gli strumenti di elaborazione del linguaggio per migliori prestazioni

Un nuovo metodo per valutare gli strumenti di elaborazione del linguaggio sembra promettere miglioramenti.

2025-08-31T11:31:24+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutazione Efficiente di Rilevatori di Oggetti Pre-addestrati

Un metodo per valutare la trasferibilità dei modelli pre-addestrati per il rilevamento degli oggetti.

2025-08-29T09:37:18+00:00 ― 5 leggere min

Robotica Nuovo benchmark per l'apprendimento dei robot nelle attività quotidiane

Una risorsa pensata per aiutare i robot a imparare in modo efficace le attività quotidiane.

2025-08-29T07:46:42+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i grandi modelli linguistici nella presa di decisioni

Uno sguardo alla valutazione delle capacità decisionali dei grandi modelli di linguaggio.

2025-08-29T02:44:12+00:00 ― 8 leggere min

Calcolo e linguaggio Migliorare l'NLP per dialetti diversi

Un framework per migliorare le performance del NLP attraverso vari dialetti linguistici.

2025-08-28T20:51:00+00:00 ― 4 leggere min

Apprendimento automatico Nuovo benchmark rivela i limiti dei modelli di linguaggio visivo

Un nuovo benchmark rivela punti di forza e debolezza dei VLLM nei compiti multimodali.

2025-08-28T00:50:12+00:00 ― 6 leggere min

Fisica computazionale Monte Carlo Computational Summit: Avanzare le Tecniche di Simulazione

Gli esperti si riuniscono per parlare delle simulazioni di Monte Carlo e dei miglioramenti delle GPU.

2025-08-27T20:09:15+00:00 ― 7 leggere min

Ingegneria del software Sfida ai modelli di generazione di codice con nuovi benchmark

Nuovi benchmark rivelano i punti di forza e di debolezza dei modelli di linguaggio di codice.

2025-08-25T06:36:30+00:00 ― 4 leggere min

Calcolo e linguaggio Presentiamo Meerkat-7B: Una Nuova Era nell'AI Medica

Meerkat-7B stabilisce un nuovo standard per i modelli di linguaggio medico open-source.

2025-08-24T01:22:42+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nelle tecniche di riepilogo video

Nuovi metodi migliorano la sintesi video usando grandi set di dati e modelli avanzati.

2025-08-22T11:11:42+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare la comprensione di testi lunghi nei modelli di linguaggio

La ricerca rivela le sfide che i LLM affrontano nel capire testi lunghi e propone nuovi benchmark.

2025-08-21T09:07:30+00:00 ― 6 leggere min

Architettura hardware Unità di Monitoraggio delle Prestazioni per RISC-V nelle Applicazioni Spaziali

Esplorare il design e i benefici di un PMU per processori RISC-V usati nello spazio.

2025-08-21T07:56:24+00:00 ― 5 leggere min

Ingegneria del software Analizzando i benchmark di generazione del codice per problemi di qualità

Questo studio esamina i problemi di qualità nei prompt per i modelli di generazione di codice.

2025-08-19T17:45:24+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutare la percezione visiva nei modelli di linguaggio

Un nuovo benchmark rivela lacune nella comprensione visiva dei modelli di linguaggio grandi.

2025-08-18T12:23:42+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare l'accuratezza dei grandi modelli vision-linguaggio

Un nuovo benchmark migliora il modo in cui valutiamo gli LVLM e la loro precisione.

2025-08-17T06:46:12+00:00 ― 5 leggere min

Logica nell'informatica CHC-COMP 2023: Valutazione dei risolutori di Clausi Horn con vincoli

La competizione CHC ha messo in mostra i progressi nei solver e le loro applicazioni nella verifica dei programmi.

2025-08-17T00:50:42+00:00 ― 6 leggere min

Calcolo e linguaggio Sfide nell'interpretare risposte indirette

Questo articolo esplora come migliorare la comprensione delle risposte indirette.

2025-08-16T21:56:54+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzare nel Few-Shot Learning per i compiti di lingua polacca

Uno studio che valuta i metodi di few-shot learning per la classificazione della lingua polacca.

2025-08-15T22:38:36+00:00 ― 5 leggere min

Calcolo e linguaggio Presentiamo PatentGPT: LLM specializzati per la Proprietà Intellettuale

I modelli di PatentGPT sono progettati per affrontare sfide uniche nella Proprietà Intellettuale.

2025-08-15T17:38:24+00:00 ― 4 leggere min

Ingegneria del software Valutazione degli Strumenti di Sicurezza per Smart Contract

Uno studio sull'efficacia degli strumenti SAST per i contratti intelligenti.

2025-08-15T17:30:30+00:00 ― 8 leggere min