Avanzamenti nei modelli di linguaggio multi-modali
Un nuovo modello migliora i collegamenti tra testo, immagini e audio.
― 6 leggere min
Indice
Recentemente, i grandi modelli di linguaggio (LLM) hanno mostrato abilità amazing nel comunicare con le persone usando il linguaggio. Possono seguire istruzioni e generare testi chiari e dettagliati. Nuovi modelli come MiniGPT-4 e altri hanno aggiunto funzionalità che permettono loro di lavorare con diversi tipi di input come immagini, video e suoni.
Tuttavia, mentre questi modelli sono bravi a capire il linguaggio legato a questi input, spesso mancano della capacità di collegare insieme parti specifiche dell'input. Questo significa che la loro comprensione può essere troppo ampia e non abbastanza dettagliata. Un miglior collegamento tra testo e altri tipi di informazioni può migliorare come gli utenti interagiscono con questi modelli e allargare il loro utilizzo in diverse applicazioni.
Per affrontare questo problema, presentiamo un nuovo LLM multi-modale progettato per connettere testo, immagini e suoni in modo più efficace. Questo modello può identificare oggetti specifici nelle immagini e fornire risposte dettagliate su quegli oggetti.
Contributi Chiave
Abbiamo fatto due contributi principali:
Abbiamo sviluppato un modulo di grounding visivo che funziona con modelli esistenti. Questo modulo può riconoscere elementi nelle frasi e trovare la loro rappresentazione visiva nelle immagini.
Abbiamo creato un metodo di allenamento e un dataset che migliorano la capacità del modello di comprendere testo, immagini e audio insieme. I nostri test mostrano che il nostro modello può capire e collegare in modo efficace diversi tipi di informazioni durante una conversazione.
Contesto
I grandi modelli di linguaggio sono migliorati molto grazie a più dati e migliori tecniche di allenamento. Sono capaci di apprendere da pochi esempi e rispondere con precisione alle richieste. Alcuni studi hanno integrato con successo LLM con diversi tipi di input come suono e visivi, portando alla creazione di chatbot avanzati. Tuttavia, molti di questi modelli non approfondiscono abbastanza le relazioni tra ciò che viene visto e ciò che viene sentito o detto.
Ad esempio, se viene fornita un'immagine, un modello tipico potrebbe generare una risposta descrittiva basata sull'immagine, ma non indicherebbe a quale parte dell'immagine si riferisce. Il nostro obiettivo è sviluppare un modello che colmi questa lacuna ancorando l'informazione visiva in modo più efficace.
Il Nostro Approccio
Presentiamo un modello che incorpora il grounding visivo negli LLM. Il nostro modello può lavorare simultaneamente con testo, immagini e audio e apprendere efficacemente come relazionare questi tipi di informazioni.
Per raggiungere questo obiettivo, abbiamo prima creato una pipeline di grounding visivo usando uno strumento noto come SAM. Questa pipeline aiuta a identificare la relazione tra oggetti visivi e altri tipi di input. È composta da tre parti principali:
Modulo di Tagging: Questa parte genera etichette testuali rilevanti basate su un'immagine di input.
Modulo di Grounding: Questo modulo trova le posizioni specifiche di queste etichette nell'immagine.
Modulo di Matching delle Entità: Questo componente collega gli elementi visivi identificati con le informazioni testuali.
Utilizzando questa pipeline, possiamo collegare informazioni attraverso diversi tipi di input.
Per permettere al nostro modello di comprendere varie combinazioni di input, abbiamo usato uno schema di addestramento a due fasi. Nella prima fase, abbiamo allineato le caratteristiche visive e audio con il testo. Nella seconda fase, ci siamo concentrati sul fine-tuning del modello usando un dataset di istruzioni diverse che include diverse combinazioni di testo, immagini e audio.
Abbiamo attentamente progettato questo dataset per assicurarci che il modello possa distinguere tra input correlati e non correlati. Questo passaggio è cruciale per aiutare il modello a fornire risposte accurate in base all'input fornito.
Pipeline di Grounding Visivo
Per capire come il nostro modello collega diversi tipi di informazioni, abbiamo costruito una pipeline di grounding visivo. Questo include un modulo di tagging, un modulo di grounding e un modulo di matching delle entità.
Per qualsiasi immagine fornita, il modulo di tagging identifica le etichette rilevanti in base al contenuto dell'immagine. Il modulo di grounding poi localizza queste etichette all'interno dell'immagine, identificando diversi oggetti o caratteristiche. Infine, il modulo di matching delle entità utilizza le etichette riconosciute per recuperare collegamenti rilevanti tra il testo e gli elementi visivi.
Questo approccio strutturato ci aiuta a collegare elementi visivi con il testo in modo efficace, aprendo la strada a una migliore comprensione multi-modale.
Allenamento del Modello
Il modello è addestrato per considerare testo, immagini e audio come modalità interconnesse. Per l'allenamento, ci siamo assicurati che le capacità di comprensione visiva e audio fossero allineate con il modello di linguaggio per creare un'interazione senza soluzione di continuità.
Il processo di allenamento consiste in due fasi principali:
Pre-allenamento Singolo-Modale: In questa fase, ci concentriamo sull'addestramento del modello per comprendere input visivi e audio separatamente prima di combinarli. Gli output del modello sono allineati con il modello di linguaggio per sviluppare una comprensione più profonda.
Ottimizzazione Multi-Modale: Questa fase migliora la capacità del modello di seguire istruzioni umane basate su input misti. Utilizziamo un dataset progettato con cura che incoraggia il modello a riconoscere e rispondere con precisione a diverse combinazioni di input.
Esporre il modello a vari tipi di dati e insegnargli a riconoscere coppie correlate e non correlate, ci assicura che possa generare risposte accurate e contestualmente rilevanti.
Dataset
Nel nostro lavoro, abbiamo utilizzato una combinazione di dataset esistenti e nuovi creati appositamente per il nostro modello.
Dataset Immagine-Testo: Abbiamo utilizzato coppie di testo e immagine di alta qualità per l'ottimizzazione. Questo aiuta il modello a imparare a generare descrizioni testuali accurate basate su input visivi.
Dataset Audio-Testo: Abbiamo anche creato un dataset audio per addestrare il modello sulla comprensione audio. Questo dataset include descrizioni scritte con cura che riflettono il contenuto audio.
Dataset Audio-Immagine-Testo: Per migliorare la capacità del modello di relazionare informazioni audio e visive, abbiamo raccolto set di coppie audio-immagine. Questi aiutano il modello a imparare a identificare quali suoni corrispondono a specifici oggetti nelle immagini.
Con coppie sia positive che negative incluse nei dati di addestramento, il modello impara a distinguere meglio quando gli input audio e visivi sono correlati o meno.
Risultati Sperimentali
Abbiamo condotto vari esperimenti per valutare quanto bene il nostro modello performa con input multi-modali. I nostri risultati indicano che il modello può ancorare accuratamente il testo a specifiche aree nelle immagini e fornire informazioni basate su input audio.
Quando presentato con un'unica immagine, il modello riesce ad associare termini descrittivi a parti dell'immagine. Quando viene fornito un clip audio, produce descrizioni perspicaci che catturano gran parte del contenuto sonoro.
Durante i test che coinvolgono abbinamenti audio e immagine, il modello può generare una descrizione coesa, indicando quali oggetti nell'immagine sono associati a suoni specifici.
Inoltre, quando utilizziamo coppie negative nell'addestramento, il modello migliora notevolmente la sua capacità di determinare se l'audio e l'immagine sono non correlati, portando a risposte più accurate.
Conclusione
In questo lavoro, abbiamo presentato un modello di linguaggio multi-modale capace di collegare testo, immagini e audio in modo più efficace. Il nostro approccio consente una comprensione più profonda di come questi diversi tipi di informazioni si relazionano tra loro.
Grazie alla nostra pipeline di grounding visivo e a un processo di allenamento attentamente progettato, miglioriamo la capacità del modello di generare risposte accurate e informative durante interazioni multi-modali. Anche se ci sono ancora sfide da affrontare, come affinare la comprensione di oggetti specifici e ridurre le imprecisioni, i nostri risultati dimostrano il potenziale per applicazioni espanse degli LLM multi-modali.
Titolo: BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
Estratto: LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .
Autori: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
Ultimo aggiornamento: 2023-07-17 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.08581
Fonte PDF: https://arxiv.org/pdf/2307.08581
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://bubo-gpt.github.io
- https://sound-effects.bbcrewind.co.uk/
- https://soundbible.com/
- https://research.google.com/audioset/download
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Clotho-detail-annotation.json
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/vggss-instruction-tuning.json
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-1-chime-bird-breeze.wav
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-2-music-box-melody.mp3
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-3-People-Talking.flac
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-4-keyboard-typing.mp3
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-5-heavy-rain-sound.mp3
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-6-breaking-glass.mp3
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-7-dork-bark.wav
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-8-bicycle_bell.wav
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-9-hair-dryer.mp3
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-10-cat-meow.wav
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-11-six-oclock.wav
- https://huggingface.co/datasets/magicr/BuboGPT/blob/main/Audios/Audio-12-children-playing.mp3