Avancées dans les jeux de données audio-langue
Un aperçu complet des ensembles de données utilisés dans les modèles audio-langue et de leur importance.
― 14 min lire
Table des matières
- Apprentissage Audio-Langage
- Contexte
- Audio-vers-Langage
- (Automatisé) Légende Audio (AAC)
- Récupération Audio-Texte (ATR)
- Réponse à des Questions Audio (AQA)
- Légende de Différence Audio (ADC)
- Langage-vers-Audio
- Vue d'ensemble des Modèles de Légende Audio
- Un Modèle Encodeur-Décodeur
- Entraînement Conjoint avec Préfixes Audio
- Modèles Prêts à l'Emploi
- Ensembles de Données Audio-Langage
- Travaux Connexes dans la Recherche Audio-Langage
- Méthodologie pour l'Identification des Ensembles de Données
- Vue d'ensemble des Ensembles de Données Identifiés
- Ensembles de Données Basés sur YouTube
- Ensembles de Données Basés sur Freesound
- Ensembles de Données d'Effets Sonores
- Autres Ensembles de Données Audio-Langage
- Ensembles de Données de Réponse à des Questions Audio
- Ensembles de Données de Légende de Différence Audio
- Ensembles de Données Audio-Langage Rassemblés
- Qualité des Données et Biais dans les Ensembles de Données Audio
- Conclusion
- Source originale
- Liens de référence
Les modèles audio-langage, ou ALMs, sont conçus pour traiter les sons et fournir des descriptions de ce qui se passe autour d'eux. Les récentes avancées technologiques et la création de nouveaux ensembles de données ont aidé ce domaine à progresser rapidement. Cet article examine les ensembles de données existants utilisés pour former ces modèles. Il met en avant une tendance vers l'utilisation d'ensembles de données plus grands et plus variés pour améliorer la performance. Les principales sources de ces ensembles de données incluent la plateforme Freesound et AudioSet, qui ont beaucoup contribué à la croissance de ce domaine. Contrairement aux enquêtes précédentes qui se concentraient principalement sur les méthodes et les détails de formation, cet article catégorise et évalue une large gamme d'ensembles de données, en regardant d'où ils viennent, leurs caractéristiques et leurs cas d'utilisation. Une analyse des fuites de données est également réalisée pour vérifier la qualité des ensembles de données et réduire les biais qui les affectent. L'analyse couvre les articles de recherche jusqu'en décembre 2023.
Apprentissage Audio-Langage
L'apprentissage audio-langage, également appelé apprentissage audio-texte, se concentre sur la manière dont les sons sont traités et décrits. Cela repose sur les avancées en apprentissage automatique et la disponibilité croissante d'ensembles de données qui combinent sons et descriptions textuelles. Ces modèles font partie de modèles plus larges capables de gérer plusieurs types de données. Récemment, ce domaine a connu une croissance significative grâce aux modèles de langage de grande taille (LLMs), ce qui a ouvert de nouvelles opportunités de recherche. Les modèles Transformer, qui ont changé notre façon de traiter le langage naturel, ont été adaptés pour des tâches audio-langage.
L'augmentation des ensembles de données vient principalement de deux sources : le lancement de la plateforme Freesound en 2013 et AudioSet en 2017. Ces collections ont été utilisées pour entraîner des modèles sur divers sons. De nombreuses études de recherche ont suivi, affinant les ensembles de données pour répondre aux besoins de modèles audio-langage spécifiques.
Des études récentes montrent que des ensembles de données plus importants sont essentiels pour développer des modèles fondamentaux. L'entraînement de ces modèles révèle un lien entre leur performance et la quantité de données et de puissance de calcul utilisées. Par exemple, l'ensemble de données de classification audio ESC-50 nécessite environ 2 millions de paires audio-texte pour qu'un modèle fonctionne à un niveau similaire aux humains. Un défi dans la récupération de données audio-langage est qu'il y a généralement moins de données audio de formation disponibles par rapport aux tâches de traitement du langage naturel. Les ensembles de données audio actuels s'appuient souvent sur des bases de données d'effets sonores, YouTube ou Freesound, tandis que les LLMs utilisent des sources de données beaucoup plus larges. Cette limitation des données d'entraînement peut causer un décalage entre ce sur quoi le modèle a été formé et les données du monde réel, le rendant moins efficace. Les modèles qui utilisent des techniques d'apprentissage contrastif, comme CLAP, fonctionnent mieux lorsqu'ils sont formés sur des ensembles de données larges et variés.
Cet article sert de ressource importante pour les chercheurs intéressés par les ensembles de données audio-langage. À notre connaissance, c'est l'enquête la plus complète disponible sur ce sujet. Elle offre deux contributions principales :
Un aperçu détaillé des ensembles de données utilisés dans les modèles audio-langage, y compris des statistiques pertinentes sur les longueurs moyennes et le nombre total d'heures d'audio.
Une analyse des fuites de données est réalisée pour évaluer le degré de fuite de données et le recoupement entre les ensembles de données, offrant des perspectives bénéfiques pour fusionner des ensembles de données et en créer de nouveaux.
Étant donné l'ampleur de la recherche audio-langage, cet article se concentre sur deux domaines spécifiques. D'abord, il examine l'écoute machine des sons et événements, en excluant la modélisation de la parole et de la musique. Ensuite, il différencie divers types de tâches d'apprentissage automatique. Des tâches traditionnelles telles que la détection d'événements sonores (SED) et le balisage audio (AT) s'appuient sur des prédictions dans les limites des données étiquetées. Un modèle formé sur l'ensemble de données AudioSet ne peut prédire que des étiquettes parmi 527 classes basées sur l'entrée audio. En revanche, des approches plus récentes utilisent une configuration encodeur-décodeur, où un modèle traite la compréhension audio et un autre gère le texte.
Cette enquête inclut des tâches comme la Légende audio automatisée (AAC), la récupération audio-texte (ATR), la génération audio automatisée (AAG) et la récupération texte-audio (TAR). L'article explique brièvement toutes ces tâches.
Contexte
Cette section donne un aperçu de l'apprentissage audio-langage, en le divisant en deux grandes catégories : Audio-vers-Langage et Langage-vers-Audio. Dans ces catégories, les principales tâches sont décrites, ainsi que quelques méthodes d'entraînement notables.
Audio-vers-Langage
Cette catégorie inclut des modèles qui convertissent l'audio en texte, soit en générant des descriptions, soit en les récupérant à partir d'ensembles de données. Elle comprend plusieurs sous-domaines :
- Légende Audio : Cette tâche génère des descriptions en langage naturel pour des événements audio.
- Récupération Audio-Texte : Cela se concentre sur l'utilisation d'une base de données de paires audio-langage pour trouver du texte correspondant à l'audio.
- Réponse à des questions audio : Cela implique de répondre à des questions posées en langage naturel sur le contenu audio.
- Légende de Différence Audio : Cela génère des descriptions qui soulignent les différences entre des paires de clips audio similaires.
(Automatisé) Légende Audio (AAC)
L'AAC concerne la transformation des signaux audio en descriptions en langage naturel. Les ensembles de données dans ce domaine incluent Clotho et AudioCaps. Les modèles AAC utilisent principalement une configuration encodeur-décodeur. L'encodeur traite l'audio pour créer une représentation machine, tandis que le décodeur traduit cela en texte. Les architectures courantes incluent des réseaux de neurones convolutionnels (CNN) et des encodeurs Transformer. L'AAC peut également s'étendre à la journalisation audio (AL), qui implique des descriptions plus longues.
Récupération Audio-Texte (ATR)
L'ATR vise à trouver des descriptions textuelles pertinentes basées sur des requêtes audio. Cette tâche est difficile en raison des différences entre audio et texte. Les études récentes se concentrent sur des méthodes qui alignent efficacement le contenu audio et textuel pour combler ces modalités.
Réponse à des Questions Audio (AQA)
L'AQA est une tâche où un système reçoit à la fois de l'audio et une question, visant à fournir des réponses précises concernant l'audio. Cela nécessite de combiner le traitement du signal audio et la compréhension du langage naturel. Les modèles basés sur l'attention ont fait progresser ce domaine, permettant une meilleure intégration des caractéristiques audio avec les questions textuelles.
Légende de Différence Audio (ADC)
L'ADC traite d'une limitation dans la légende audio traditionnelle, où les modèles ont du mal à distinguer des sons similaires. En utilisant des annotations qui mettent en évidence les différences entre des paires de clips similaires, l'ADC permet une meilleure différenciation. Il existe des ensembles de données comme MIMII-Change qui se concentrent sur les anomalies sonores machine et AudioDiffCaps pour les sons de fond variés.
Langage-vers-Audio
La catégorie Langage-vers-Audio inclut des tâches où le langage est utilisé pour produire ou trouver de l'audio.
Génération Audio (AG)
L'AG implique de créer de l'audio synthétique basé sur des entrées ou des prompts textuels. Il existe deux types principaux :
- Méthodes basées sur des modèles de langage, comme AudioGen, utilisant des paires texte-audio pour générer de l'audio.
- Méthodes basées sur des modèles de diffusion, comme Diffsound, qui peuvent créer de l'audio à partir de zéro ou le conditionner sur une entrée.
Récupération Texte-Audio (TAR)
Le TAR cherche à récupérer des clips audio qui correspondent à une requête textuelle donnée. Comme l'ATR, cette tâche nécessite de mapper l'audio et le texte dans un espace unifié pour une récupération efficace.
Séparation de Sources Audio Interrogées par le Langage (LASS)
Le LASS utilise des descriptions en langage naturel pour isoler des sources sonores spécifiques à partir d'audio mixte. On l'appelle aussi ancrage texte-audio et séparation sonore basée sur une requête. Les modèles clés incluent LASSNet et AudioSep.
Vue d'ensemble des Modèles de Légende Audio
Les modèles de légende audio apprennent à partir d'ensembles de données qui associent audio et texte. Ils utilisent généralement une structure encodeur-décodeur, avec l'encodeur traitant un type de données pour produire des embeddings qui sont ensuite interprétés par un décodeur de texte. Il existe diverses approches actuelles, y compris la fusion multimodale avec attention croisée et l'intégration de l'audio et de la langue à l'aide de préfixes.
Un Modèle Encodeur-Décodeur
Cette configuration de modèle se compose d'un encodeur qui traite l'audio pour créer des caractéristiques qui servent de clés et de requêtes pour les mécanismes d'attention, alignant l'audio avec le texte.
Entraînement Conjoint avec Préfixes Audio
Dans les modèles basés sur des préfixes, la sortie d'un encodeur audio s'aligne avec le début de la séquence du décodeur de texte. Cette méthode utilise souvent l'auto-attention pour intégrer l'audio dans le modèle de langage, maintenant la stabilité pendant l'entraînement.
Modèles Prêts à l'Emploi
Ce sont des modèles qui n'ont pas été spécifiquement entraînés pour la légende audio mais ont été adaptés à partir de modèles pré-entraînés. Ils utilisent des réseaux multimodaux pour générer des légendes basées sur des descriptions textuelles existantes.
Ensembles de Données Audio-Langage
Les ensembles de données jouent un rôle essentiel dans la formation des modèles de légende audio. Cependant, la plupart des ensembles de données audio existants sont limités en taille ou concentrés sur des domaines spécifiques. Des défis se posent car les annotateurs humains peuvent négliger des détails de fond ou des relations de bon sens lors du processus de collecte de données. Certains ensembles de données, en particulier ceux provenant de plateformes comme YouTube, contiennent souvent du contenu bruyant ou peu fiable. Les chercheurs font face à un compromis entre la taille de l'ensemble de données et sa qualité.
Cette section met en lumière comment les ensembles de données visuelles antérieurs ont été adaptés pour les modèles audio-langage, entraînant des biais potentiels dans l'entraînement. Pour atténuer cela, des ensembles de données explicitement conçus pour des tâches audio-langage ont été choisis.
Travaux Connexes dans la Recherche Audio-Langage
Ce domaine a vu plusieurs enquêtes axées sur des tâches telles que la légende audio automatisée et la récupération audio. Contrairement à ces travaux, cet article met l'accent sur les ensembles de données eux-mêmes, montrant leur importance pour l'entraînement et la performance des modèles.
Méthodologie pour l'Identification des Ensembles de Données
Les ensembles de données mentionnés dans cette enquête ont été trouvés grâce à une revue manuelle de diverses publications. La recherche a inclus plusieurs mots-clés liés aux tâches et ensembles de données audio-langage.
Vue d'ensemble des Ensembles de Données Identifiés
Les ensembles de données identifiés sont catégorisés en fonction de leurs sources, y compris diverses plateformes propriétaires et genres qui ne correspondent pas à des sources communes. Des informations sur leurs caractéristiques et applications sont fournies.
Ensembles de Données Basés sur YouTube
Ces ensembles de données ont offert des contributions significatives mais présentent des défis en raison des politiques de YouTube sur les téléchargements de contenu, rendant difficile le partage direct de fichiers audio.
Ensembles de Données Basés sur Freesound
Freesound héberge des sons téléchargés par les utilisateurs et est une ressource importante pour les données audio. Les ensembles de données dérivés de Freesound incluent Clotho, un ensemble de données notable dans la légende audio.
Ensembles de Données d'Effets Sonores
Ces ensembles sont inestimables pour ajouter des couches audio aux médias et pour leurs légendes structurées, permettant une récupération rapide de types de sons spécifiques.
Autres Ensembles de Données Audio-Langage
Cette section explore des ensembles de données provenant de plateformes et d'environnements uniques, soulignant leur rôle dans l'enrichissement de la recherche audio-langage.
Ensembles de Données de Réponse à des Questions Audio
Les ensembles de données AQA sont structurés en triplets composés d'un fichier audio, d'une question sur cet audio et d'une réponse correspondante. Cette structure permet aux modèles de non seulement comprendre l'audio mais aussi de répondre aux questions qui y sont liées.
Ensembles de Données de Légende de Différence Audio
Ces ensembles de données se concentrent sur l'identification des différences dans les clips audio, fournissant des annotations pertinentes qui aident à distinguer les sons.
Ensembles de Données Audio-Langage Rassemblés
Ces ensembles compilent des ensembles de données plus petits en une ressource, enrichissant la richesse et la variété des entrées de données disponibles pour l'entraînement.
Qualité des Données et Biais dans les Ensembles de Données Audio
La qualité des ensembles de données influence considérablement la performance des modèles. Des défis surgissent à cause du bruit et du potentiel de biais pouvant affecter les résultats, en particulier pour les groupes sous-représentés. Cet article discute des moyens de minimiser ces biais et d'améliorer la qualité des données d'entraînement.
Conclusion
Cette enquête sur les ensembles de données audio-langage offre un aperçu approfondi de l'état actuel des modèles audio-langage, soulignant l'importance des ensembles de données utilisés pour former ces modèles. Elle met en lumière les avancées grâce à la puissance de calcul et à la création de grands ensembles de données, qui ont contribué au progrès de ce domaine.
En fournissant un aperçu complet des diverses tâches audio-langage et des modèles utilisés, l'enquête vise à guider les chercheurs dans la compréhension de la signification des ensembles de données. De plus, elle identifie les lacunes et les domaines qui nécessitent une exploration plus approfondie, servant de ressource précieuse pour quiconque impliqué dans la modélisation audio-langage.
Titre: Audio-Language Datasets of Scenes and Events: A Survey
Résumé: Audio-language models (ALMs) process sounds to provide a linguistic description of sound-producing events and scenes. Recent advances in computing power and dataset creation have led to significant progress in this domain. This paper surveys existing datasets used for training audio-language models, emphasizing the recent trend towards using large, diverse datasets to enhance model performance. Key sources of these datasets include the Freesound platform and AudioSet that have contributed to the field's rapid growth. Although prior surveys primarily address techniques and training details, this survey categorizes and evaluates a wide array of datasets, addressing their origins, characteristics, and use cases. It also performs a data leak analysis to ensure dataset integrity and mitigate bias between datasets. This survey was conducted by analyzing research papers up to and including December 2023, and does not contain any papers after that period.
Auteurs: Gijs Wijngaard, Elia Formisano, Michele Esposito, Michel Dumontier
Dernière mise à jour: 2024-07-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06947
Source PDF: https://arxiv.org/pdf/2407.06947
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dcase.community/challenge2024/task-language-queried-audio-source-separation
- https://llama.meta.com/llama3/
- https://dcase.community/challenge2024/task-automated-audio-captioning
- https://github.com/GlJS/audio-datasets
- https://harzing.com/resources/publish-or-perish
- https://support.google.com/youtube/answer/2797468?hl=en
- https://www.youtube.com/static?template=terms
- https://www.mturk.com/
- https://freesound.org/
- https://bigsoundbank.com
- https://soundbible.com
- https://sound-effects.bbcrewind.co.uk/
- https://www.prosoundeffects.com/
- https://www.inaturalist.org/
- https://xeno-canto.org/
- https://go.whoi.edu/marine-mammal-sounds
- https://www.animalsoundarchive.org/
- https://aporee.org/
- https://hearbenchmark.com/