Nouveau système d'empreinte audio pour les télés
Technologie de reconnaissance audio efficace conçue pour les téléviseurs à faible consommation d'énergie.
― 6 min lire
Table des matières
La reconnaissance audio est une techno qui aide à identifier le contenu audio sans avoir besoin du fichier audio réel. C’est super utilisé dans plein d'applis, comme pour reconnaître des chansons, des séries TV, et des films. Cet article parle d'un nouveau système de reconnaissance audio conçu pour la Reconnaissance Automatique de Contenu (ACR), spécifiquement construit pour bien fonctionner sur des télés à faible consommation.
C'est quoi la Reconnaissance Audio ?
La reconnaissance audio crée un code unique ou un "empreinte" pour les segments audio. Cette empreinte est ensuite comparée à une base de données pour reconnaître le contenu audio. Au lieu de comparer de gros fichiers audio, ce qui peut être long et demander beaucoup de ressources, la reconnaissance audio utilise ces représentations compactes pour trouver rapidement des correspondances.
Pourquoi utiliser des empreintes ?
Utiliser des empreintes a plein d'avantages :
Moins de mémoire utilisée : Les empreintes prennent moins de mémoire que l'audio brut, donc c'est plus facile à stocker et traiter.
Transmission plus simple : Envoyer des empreintes demande moins de bande passante, donc ça peut être transmis plus vite depuis les appareils.
Moins de calcul nécessaire : Chercher du contenu avec des empreintes demande moins d'efforts aux appareils, surtout ceux avec moins de puissance de traitement.
Résilience au bruit : Les empreintes fonctionnent encore bien même quand l'audio est mélangé avec des sons de fond ou d'autres distorsions.
Le nouveau système
Le nouveau système de reconnaissance vise à offrir un moyen compact et efficace de reconnaître l'audio sur les appareils TV. Il est conçu pour gérer des millions d'empreintes venant de différentes sources tout en restant efficace et fiable.
Scalabilité
Une des caractéristiques clés de ce système est sa capacité à évoluer efficacement. Il peut identifier une énorme quantité de contenu en générant des empreintes depuis des millions d'appareils. Le système fonctionne sur le principe que les empreintes de segments audio similaires seront proches dans leur représentation codée, permettant une récupération plus rapide et précise.
Design léger
Vu les capacités limitées de nombreuses télés, le processus de génération d'empreintes est conçu pour être léger. Au lieu d'utiliser des réseaux neuronaux complexes, qui demandent beaucoup de traitement, le système applique des techniques de traitement du signal plus simples. Ça lui permet de bien performer sans nécessiter des ressources extensives.
Comment ça marche, la reconnaissance ?
Le système suit une série d'étapes pour générer l'Empreinte audio :
Étape 1 : Rééchantillonnage et réduction de mixage
Le processus commence avec de l'audio stéréo, qui est réduit à un format mono. Cette réduction et rééchantillonnage réduisent considérablement la quantité de données tout en conservant les caractéristiques clés nécessaires à l'identification.
Étape 2 : Représentation Spectrale
La Transformée de Fourier à Court Terme (STFT) est appliquée à l'audio réduit pour créer une représentation visuelle connue sous le nom de spectrogramme. Ce spectrogramme montre comment les fréquences de l'audio changent dans le temps. Pour rendre le spectrogramme plus gérable, il utilise des banques de filtres qui groupent les fréquences en bandes plus larges, réduisant ainsi la taille globale.
Étape 3 : Création de [Mel-Spectrogrammes](/fr/keywords/mel-spectrogrammes--kk5jr2m)
Avec le spectrogramme en place, le système utilise une méthode de fenêtre glissante pour créer ce qu'on appelle un mel-spectrogramme. Cette méthode implique des segments qui se chevauchent, garantissant que les régions audio similaires créeront des empreintes similaires.
Étape 4 : Moyennage Temporel
Pour créer une empreinte plus robuste, le système fait la moyenne des amplitudes des bandes mel dans le temps. Cela donne un tableau unidimensionnel de valeurs qui représente le segment audio.
Étape 5 : Standardisation
Ensuite, les valeurs d'amplitude sont standardisées, ce qui signifie qu'elles sont ajustées pour s'assurer qu'elles correspondent à des plages similaires. Cette étape aide à améliorer la résistance de l'empreinte au bruit et à d'autres perturbations.
Étape 6 : Ajout des différences d'amplitude
Pour améliorer encore la précision des empreintes, le système calcule les différences d'amplitudes entre les bandes de fréquences consécutives. Ces données supplémentaires fournissent plus de contexte et améliorent la performance des correspondances.
Étape 7 : Réduction des dimensions
Enfin, la dimensionnalité de l'empreinte est encore réduite grâce à une méthode appelée Analyse en Composantes Principales (PCA). Cela donne une sortie finale d'une empreinte compacte à la fois petite et efficace pour le matching.
Résultats expérimentaux
Pour évaluer l’efficacité du nouveau système de reconnaissance, des comparaisons ont été faites avec une méthode plus ancienne appelée min-hash. La comparaison a examiné divers facteurs, y compris la performance de chaque méthode sous différents types de bruit.
Test contre le bruit
Le système a été testé avec à la fois des Bruits artificiels et réels pour voir à quel point il pouvait encore reconnaître l'audio. Les résultats ont montré que la nouvelle méthode de reconnaissance fonctionnait bien, surpassant souvent l'ancienne méthode, surtout dans des scénarios réalistes où le bruit est susceptible de se produire.
Vitesse de récupération
Un autre aspect important du système était sa vitesse. En comparant les vitesses de récupération, le nouveau système de reconnaissance a été trouvé environ 30 fois plus rapide que la méthode min-hash. Cet avantage de vitesse est crucial pour des applis comme l'ACR, où une identification rapide est nécessaire.
Conclusion
En résumé, ce nouveau système de reconnaissance audio offre un moyen compact et efficace de reconnaître du contenu audio, surtout sur des appareils à faible puissance comme les télés. Son design privilégie la vitesse et la robustesse contre le bruit, ce qui le rend adapté aux applications réelles. Les futures recherches se concentreront sur l'amélioration de ses performances dans des conditions de bruit encore plus difficiles et sur l'exploration de cas d'utilisation supplémentaires dans la technologie de reconnaissance audio.
Titre: Robust and lightweight audio fingerprint for Automatic Content Recognition
Résumé: This research paper presents a novel audio fingerprinting system for Automatic Content Recognition (ACR). By using signal processing techniques and statistical transformations, our proposed method generates compact fingerprints of audio segments that are robust to noise degradations present in real-world audio. The system is designed to be highly scalable, with the ability to identify thousands of hours of content using fingerprints generated from millions of TVs. The fingerprint's high temporal correlation and utilization of existing GPU-compatible Approximate Nearest Neighbour (ANN) search algorithms make this possible. Furthermore, the fingerprint generation can run on low-power devices with limited compute, making it accessible to a wide range of applications. Experimental results show improvements in our proposed system compared to a min-hash based audio fingerprint on all evaluated metrics, including accuracy on proprietary ACR datasets, retrieval speed, memory usage, and robustness to various noises. For similar retrieval accuracy, our system is 30x faster and uses 6x fewer fingerprints than the min-hash method.
Auteurs: Anoubhav Agarwaal, Prabhat Kanaujia, Sartaki Sinha Roy, Susmita Ghose
Dernière mise à jour: 2023-05-17 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.09559
Source PDF: https://arxiv.org/pdf/2305.09559
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.