Informatica - Multimedia

RSS

Suono BandControlNet: Un Nuovo Approccio alla Creazione Musicale

Scopri come l'IA sta trasformando la generazione musicale con BandControlNet.

2025-07-15T19:27:25+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo metodo per rilevare i deepfake

Un nuovo approccio migliora il rilevamento dei deepfake usando analisi audio-visiva.

2025-07-15T12:10:10+00:00 ― 6 leggere min

Suono Migliorare il riconoscimento della balbuzie con MMSD-Net

Un nuovo metodo migliora il rilevamento della balbuzie combinando dati audio, video e testo.

2025-07-15T07:18:40+00:00 ― 6 leggere min

Multimedia Avanzare nella localizzazione delle fonti sonore attraverso l'integrazione audio-visiva

Uno studio su come migliorare la localizzazione delle sorgenti sonore sfruttando meglio le informazioni audio e visive.

2025-07-14T06:12:35+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Avanzamenti nella visualizzazione delle storie con TemporalStory

TemporalStory migliora la generazione di immagini per il racconto di storie rendendo tutto più coerente e contestualizzato.

2025-07-13T23:59:06+00:00 ― 5 leggere min

Suono Valutare l'impatto dell'IA sull'originalità della musica

Un nuovo strumento per valutare la replicazione nella musica creata dall'IA.

2025-07-13T12:23:45+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Migliorare la chiarezza delle immagini tramite tecniche di dehazing

Uno sguardo ai metodi per migliorare la qualità delle immagini colpite dalla foschia.

2025-07-12T23:26:25+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo dataset affronta le sfide della contraffazione delle immagini

Il dataset TGIF aiuta a rilevare tecniche avanzate di manipolazione delle immagini.

2025-07-12T07:49:36+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Trasformare la diffusione con tecnologia IP e tagging audio

Scopri come la trasmissione IP e il tagging audio stanno ridefinendo la distribuzione dei contenuti.

2025-07-12T05:37:35+00:00 ― 5 leggere min

Computer e società Ottimizzare il marketing online con le intuizioni dell'IA

Integrare l'IA per migliorare le strategie di marketing e l'efficacia delle campagne.

2025-07-12T01:38:18+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Migliorare la comprensione visiva nei modelli linguistici

X-Former migliora come i modelli combinano la comprensione di immagini e testo.

2025-07-11T06:40:42+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Affrontare la disinformazione fuori contesto nell'era digitale

Contrastare le informazioni fuorvianti con nuovi metodi e tecnologie.

2025-07-10T22:46:42+00:00 ― 5 leggere min

Calcolo e linguaggio Tecniche avanzate per la rilevazione della disinformazione

Un nuovo sistema che combina analisi del testo e delle immagini per combattere la disinformazione.

2025-07-10T07:30:18+00:00 ― 5 leggere min

Multimedia Migliorare l'efficienza nei modelli multi-modali con RoE

Il nuovo metodo RoE migliora l'efficienza dei modelli di linguaggio multi-modali con un routing dinamico.

2025-07-10T02:38:00+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nella generazione di fotogrammi video a 360 gradi

Presentiamo 360VFI per una qualità e un'esperienza video a 360 gradi migliorate.

2025-07-10T01:42:42+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Integrazione di input audio e visivi nei modelli di machine learning

Un nuovo modello combina audio e video per una comprensione migliore.

2025-07-09T23:36:18+00:00 ― 6 leggere min

Suono Progressi nelle tecniche di separazione del parlato audio-visivo

Un nuovo metodo migliora la separazione delle voci in ambienti rumorosi con più parlanti.

2025-07-09T16:53:50+00:00 ― 5 leggere min

Multimedia Valutazione delle tecniche di campionamento dei fotogrammi video per un recupero migliorato

Questo studio esamina i metodi di campionamento dei fotogrammi per migliorare il recupero dei contenuti video.

2025-07-09T09:07:18+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Automatizzare la creazione di highlights calcistici con tecnologia avanzata

Un nuovo framework semplifica la creazione di clip evidenziate specifiche per i giocatori dai video di calcio.

2025-07-09T06:29:18+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli HaloQuest: Un Nuovo Approccio all'Allucinazione nei VLMs

HaloQuest affronta i problemi di allucinazione nei modelli vision-linguistici con un nuovo dataset.

2025-07-08T23:14:48+00:00 ― 10 leggere min

Multimedia Avanzando nel recupero cross-modale 3D per categorie mai viste

Un nuovo framework migliora il recupero di oggetti 3D da diversi tipi di dati.

2025-07-08T16:31:54+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Rilevare Fake News in Brevi Video

Esaminando il processo creativo dietro la produzione di video di notizie false.

2025-07-08T09:33:12+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Avanzamenti nel punteggio visivo con QPT V2

QPT V2 migliora la valutazione visiva usando il modeling di immagini mascherate e dati di alta qualità.

2025-07-08T07:26:48+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli MMTrail: Un Dataset Video Completo per Modelli Linguistici

MMTrail combina descrizioni visive e audio per modelli video-linguistici migliori.

2025-07-08T06:53:20+00:00 ― 5 leggere min

Multimedia Proteggere la privacy nella comunicazione multimodale

Nuovo metodo rinforza la privacy per immagini e testi condivisi.

2025-07-08T03:14:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo Framework Migliora il Question Answering Audio-Visivo

Un nuovo metodo migliora le prestazioni dell'AVQA quando mancano input audio o visivi.

2025-07-07T23:40:42+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Generare Audio Sincronizzato per Video Silenziosi

Un metodo per creare audio che si abbina ai video in prima persona.

2025-07-07T23:36:05+00:00 ― 7 leggere min

Multimedia Nuova collezione di modelli 3D per la ricerca

Una collezione varia di modelli 3D per opportunità di ricerca migliorate.

2025-07-07T13:24:30+00:00 ― 6 leggere min

Suono Valutare i Grandi Modelli Linguistici nella Creazione Musicale

Questo studio esamina quanto bene i LLM comprendano e generino musica.

2025-07-07T10:38:45+00:00 ― 5 leggere min

Suono ChordSync: Allineare gli accordi musicali con l'audio

Un nuovo modello che sincronizza le annotazioni degli accordi con l'audio musicale senza problemi.

2025-07-06T22:30:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo metodo migliora la compressione delle nuvole di punti

Un modello unificato migliora la compressione delle nuvole di punti per una qualità e un'efficienza migliori.

2025-07-06T19:15:40+00:00 ― 7 leggere min

Crittografia e sicurezza Un nuovo approccio alla verifica delle immagini

Un metodo innovativo aggiunge messaggi nascosti per garantire l'autenticità delle immagini.

2025-07-06T15:01:30+00:00 ― 5 leggere min

Suono Nuovo metodo per rilevare i deepfake usando audio e video

Un framework che identifica efficacemente i contenuti deepfake attraverso l'analisi combinata di audio e video.

2025-07-06T08:44:05+00:00 ― 5 leggere min

Suono Valutare la comprensione musicale con il benchmark MuChoMusic

Un nuovo parametro per valutare i modelli che analizzano musica e linguaggio.

2025-07-06T05:29:45+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Modello Innovativo per Diagnosi della Depressione

Un nuovo approccio unisce dati audio, video e testuali per una diagnosi efficace della depressione.

2025-07-06T04:53:12+00:00 ― 8 leggere min

Multimedia Avanzando l'Apprendimento Zero-Shot Generalizzato Audio-Visivo

Un nuovo framework migliora la classificazione in compiti audio-visivi mai visti.

2025-07-06T04:41:10+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nella Segmentazione della Silhouette Umana

Un nuovo modello migliora la segmentazione della silhouette usando segnali RF per una cattura del movimento migliore.

2025-07-06T03:34:12+00:00 ― 6 leggere min

Multimedia Affrontare l'odio nei video con il dataset MultiHateClip

Nuovo dataset fornisce spunti sul linguaggio d'odio in diverse lingue e formati.

2025-07-06T02:31:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Migliorare la compressione delle immagini per modelli multimodali

Nuovo framework migliora l'elaborazione delle immagini nei modelli di linguaggio multimodali.

2025-07-06T00:56:12+00:00 ― 4 leggere min

Multimedia AxiomVision: Trasformare l'Analisi Video per Ambienti Dinamici

AxiomVision offre un nuovo modo di analizzare i video, migliorando le prestazioni in condizioni che cambiano.

2025-07-05T14:40:00+00:00 ― 6 leggere min