Ming Yan

Un nuovo metodo migliora l'efficienza nei compiti di pre-addestramento Vision-Language.

2025-10-11T17:07:48+00:00 ― 6 leggere min

Un nuovo metodo migliora il rilevamento delle posizioni per modelli di linguaggio più piccoli usando conoscenze esterne.

2025-10-02T00:28:30+00:00 ― 5 leggere min

Un nuovo modello migliora il recupero di segnali sparsi in ambienti rumorosi.

2025-09-27T17:32:57+00:00 ― 7 leggere min

TRIPS migliora l'efficienza nei compiti visione-lingua selezionando le parti di immagine più rilevanti.

2025-09-17T20:38:36+00:00 ― 7 leggere min

Un nuovo approccio che usa sistemi multi-agente per potenziare modelli linguistici più piccoli.

2025-09-17T04:26:54+00:00 ― 7 leggere min

Questo articolo parla di un nuovo framework per valutare le allucinazioni nei LVLM.

2025-09-04T12:02:06+00:00 ― 7 leggere min

Un nuovo benchmark valuta come gli agenti di ruolo interagiscono socialmente.

2025-08-27T12:43:24+00:00 ― 7 leggere min

Un nuovo framework migliora il modo in cui gli agenti linguistici imparano e svolgono compiti.

2025-08-27T05:28:54+00:00 ― 6 leggere min

Un nuovo framework migliora l'efficienza e la precisione nella risoluzione di problemi fisici complessi.

2025-08-01T22:06:12+00:00 ― 7 leggere min

MIBench testa le performance dei modelli multimodali su più immagini.

2025-07-09T14:23:18+00:00 ― 6 leggere min

mPLUG-Owl3 migliora la comprensione delle immagini e dei video per risposte migliori.

2025-06-30T17:13:12+00:00 ― 7 leggere min

Un nuovo metodo per combinare i modelli linguistici in modo più efficace.

2025-06-29T22:23:30+00:00 ― 6 leggere min

MaVEn migliora la capacità dell'AI di elaborare più immagini per un ragionamento migliore.

2025-06-23T15:38:00+00:00 ― 6 leggere min