Articoli più recenti per Benchmark

Calcolo e linguaggio Valutare modelli di linguaggio multimodali grandi

Nuovi benchmark rivelano le sfide per i MLLM nei compiti reali con contesti lunghi.

2025-08-15T10:16:00+00:00 ― 8 leggere min

Ingegneria del software Esaminare il bias multilingue nei modelli di generazione di codice

Questo articolo esplora il bias nei modelli di generazione di codice in diverse lingue.

2025-08-15T03:25:12+00:00 ― 8 leggere min

Calcolo e linguaggio Capire le allucinazioni di codice nei modelli di linguaggio

Una panoramica delle allucinazioni di codice nei LLM e il loro impatto sullo sviluppo software.

2025-08-15T01:58:18+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo Wake Vision: un nuovo dataset per TinyML

Wake Vision migliora il rilevamento delle persone per TinyML con un vasto dataset.

2025-08-14T17:24:48+00:00 ― 7 leggere min

Calcolo e linguaggio Sfide e Opportunità nell'Spiegabilità della Generazione di Testi AI

Questo documento parla della necessità di spiegabilità nei modelli di generazione di testo AI.

2025-08-11T02:54:30+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la Tossicità nei Modelli Linguistici Multilingue

Nuovo benchmark valuta la tossicità nei modelli di linguaggio grandi in diverse lingue.

2025-08-10T21:30:36+00:00 ― 8 leggere min

Finanza computazionale Utilizzare SSD per costruire portafogli più forti

Scopri come il secondo ordine di dominanza stocastica può migliorare la tua strategia d'investimento.

2025-08-09T19:12:57+00:00 ― 6 leggere min

Intelligenza artificiale Valutando i LLM nei modelli matematici con Mamo

Un nuovo benchmark valuta le capacità dei LLM nei processi di modellazione matematica.

2025-08-09T14:10:24+00:00 ― 5 leggere min

Informatica neurale ed evolutiva Migliorare l'Evoluzione Differenziale con le GPU

Esplorare come le GPU migliorano l'efficienza degli algoritmi di Evoluzione Differenziale.

2025-08-06T19:01:24+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Avanzamenti nel ragionamento multi-modale a catena di pensieri

Un nuovo benchmark punta a migliorare la comprensione dell'IA di testi e immagini.

2025-08-06T17:50:18+00:00 ― 7 leggere min

Apprendimento automatico WeiPer: Un Nuovo Metodo per il Riconoscimento di OOD

WeiPer migliora il rilevamento di dati fuori distribuzione nei modelli di machine learning usando aggiustamenti dei pesi.

2025-08-06T07:49:54+00:00 ― 8 leggere min

Intelligenza artificiale Valutare i modelli di linguaggio di grandi dimensioni nelle interazioni matematiche multi-turno

Questo studio misura le performance dei LLM in dialoghi matematici complessi.

2025-08-05T07:12:36+00:00 ― 8 leggere min

Apprendimento automatico Migliorare le Previsioni dei Link con Spiegazioni Chiare

LinkLogic offre chiarezza e affidabilità per la previsione dei link nei grafi di conoscenza.

2025-08-03T12:56:42+00:00 ― 7 leggere min

Calcolo e linguaggio Avanzare nell'Autoformalizzazione con Lean 4

Nuovi metodi e standard puntano a semplificare la formalizzazione della matematica tramite Lean 4.

2025-08-03T08:59:42+00:00 ― 6 leggere min

Apprendimento automatico I LLM fanno fatica con i compiti di ragionamento di base

Test recenti rivelano le debolezze dei LLM in ragionamenti semplici nonostante punteggi elevati nei benchmark.

2025-08-02T09:01:54+00:00 ― 5 leggere min

Apprendimento automatico Benchmark dinamici per valutare i modelli di linguaggio

Un nuovo sistema per valutare i modelli linguistici usando flussi di dati reali.

2025-08-02T01:23:42+00:00 ― 6 leggere min

Apprendimento automatico Affrontare il rumore nelle etichette nelle reti neurali grafiche

Un nuovo benchmark aiuta a migliorare le prestazioni dei GNN nonostante le sfide del rumore nelle etichette.

2025-08-01T13:01:06+00:00 ― 8 leggere min

Robotica Bench2Drive: Un Nuovo Standard per Testare i Sistemi di Guida Autonoma

Bench2Drive offre un metodo di valutazione equo per le tecnologie di guida autonoma.

2025-08-01T06:02:24+00:00 ― 7 leggere min

Intelligenza artificiale Affrontare problemi poco definiti nei modelli di linguaggio

Nuovi metodi migliorano le performance dei modelli linguistici su compiti di ragionamento complesso.

2025-07-31T22:55:48+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Valutare le prestazioni dei prompt nella generazione e nel recupero delle immagini

Uno studio presenta un nuovo riferimento per le prestazioni dei prompt nella creazione e recupero di immagini.

2025-07-31T18:43:00+00:00 ― 11 leggere min

Apprendimento automatico Nuove intuizioni sulle prestazioni di scaling dei modelli linguistici

Analizzando i modelli esistenti si scoprono delle informazioni sulle tendenze delle prestazioni dei modelli linguistici man mano che la dimensione aumenta.

2025-07-31T14:57:12+00:00 ― 9 leggere min

Apprendimento automatico Valutare le abilità di programmazione Java dei LLM

Un nuovo benchmark per valutare i LLM per i compiti di programmazione in Java.

2025-07-31T06:52:00+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Migliorare i sottotitoli dei video con una comprensione causale

Un nuovo metodo crea didascalie per i video migliori concentrandosi sulle narrazioni e sulla causalità.

2025-07-31T02:39:12+00:00 ― 5 leggere min

Crittografia e sicurezza Valutare il Ruolo dei Grandi Modelli Linguistici nella Rilevazione delle Vulnerabilità

Un nuovo benchmark testa la capacità dei LLM di trovare vulnerabilità nel software.

2025-07-30T14:48:12+00:00 ― 6 leggere min

Calcolo e linguaggio Nuovo benchmark valuta modelli di linguaggio multilingue

Un nuovo benchmark valuta le performance dei modelli multilingue nei compiti di recupero semantico.

2025-07-30T12:18:06+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli CMC-Bench: Un Nuovo Standard nella Compressione delle Immagini

Scopri come CMC-Bench sta rivoluzionando le tecniche di compressione delle immagini.

2025-07-30T02:46:45+00:00 ― 6 leggere min

Ingegneria del software DafnyBench: Migliorare la Verifica del Software con il Machine Learning

DafnyBench fa il benchmark degli strumenti di verifica del software, aprendo la strada a una programmazione affidabile.

2025-07-29T23:23:54+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutare la comprensione dei video nei modelli linguistici multimodali

Un nuovo benchmark mira a valutare gli MLLM nella comprensione dei video su più argomenti.

2025-07-29T22:20:42+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sfidare i limiti dei modelli visione-lingua

Un nuovo benchmark testa il ragionamento composizionale nei modelli avanzati.

2025-07-29T19:42:42+00:00 ― 7 leggere min

Apprendimento automatico Presentiamo GuardAgents: Un nuovo strato di sicurezza per i LLM

Un framework per migliorare la sicurezza negli agenti LLM in diverse applicazioni.

2025-07-29T07:43:48+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare il ragionamento temporale nei grandi modelli linguistici

Un nuovo benchmark valuta quanto bene i modelli capiscono il tempo e gli eventi.

2025-07-29T07:20:06+00:00 ― 7 leggere min

Apprendimento automatico Misurare la Varianza nei Benchmark dei Modelli Linguistici

Questo articolo esamina metodi per valutare la varianza nei benchmark di valutazione dei modelli linguistici.

2025-07-28T23:26:06+00:00 ― 8 leggere min

Calcolo e linguaggio Avanzare l'IA per le lingue del sud-est asiatico

SEACrowd punta a migliorare la rappresentanza dell'IA per le lingue e le culture del Sud-Est asiatico.

2025-07-28T21:03:54+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nel rilevamento della manipolazione delle immagini

Un nuovo benchmark aiuta i ricercatori a migliorare i metodi di rilevamento dell'integrità delle immagini.

2025-07-28T11:35:06+00:00 ― 6 leggere min

Intelligenza artificiale Valutare i LLM con un nuovo benchmark per i problemi di ricerca

Uno studio su come migliorare le capacità di problem-solving dei LLM usando un nuovo framework.

2025-07-28T01:18:54+00:00 ― 8 leggere min

Apprendimento automatico Migliorare gli standard di valutazione dei modelli linguistici

Un nuovo metodo migliora i test per i modelli linguistici usando dati reali degli utenti.

2025-07-27T21:06:06+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare il disimparare nei modelli di linguaggio

Nuovi metodi rivelano le difficoltà nel disimparare conoscenze dai modelli linguistici.

2025-07-27T17:24:54+00:00 ― 6 leggere min

Calcolo e linguaggio L'impatto dei modelli linguistici a lungo contesto

I modelli di linguaggio a lungo contesto semplificano compiti complessi e migliorano l'interazione con l'IA.

2025-07-27T08:59:18+00:00 ― 8 leggere min

Calcolo e linguaggio Valutare il ragionamento nei modelli di linguaggio

Un nuovo benchmark valuta le capacità di ragionamento nei modelli linguistici.

2025-07-26T22:11:30+00:00 ― 8 leggere min

Basi di dati L'evoluzione dei database GPU

Esaminando i progressi nella tecnologia dei database GPU e le loro prestazioni.

2025-07-26T19:49:18+00:00 ― 9 leggere min