OpenACE : Un Nouveau Standard pour l’Évaluation des Codecs Audio
OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
― 6 min lire
Table des matières
- Défis dans l'évaluation des codecs audio neuronaux
- Besoin d'un benchmark complet
- Ce qu'OpenACE inclut
- Évaluation des codecs : Exemples d'utilisation
- Évaluation objective de la qualité audio
- Évaluation subjective de la parole émotionnelle
- Résultats clés
- Améliorations futures
- Conclusion
- Source originale
- Liens de référence
Le codage audio et de la parole est super important pour la communication et les services de streaming utilisés partout dans le monde. Depuis des années, les entreprises bossent sur des méthodes pour compresser les données audio afin de les rendre plus petites et faciles à transmettre. Mais récemment, on a vu un changement vers l'utilisation de l'apprentissage automatique, ce qui fait évoluer notre façon de voir ces méthodes de compression.
Ces dernières années, de petites équipes de recherche et des startups ont développé de nouveaux codecs neuronaux. Ce sont des outils qui aident à compresser les données audio et de parole, rendant tout ça plus facile à gérer et à transmettre. Par contre, évaluer combien ces nouveaux codecs fonctionnent, c'est pas simple. En fait, les comparaisons s'appuient souvent sur des données propriétaires qui ne sont pas accessibles à tout le monde, ce qui empêche de faire des tests équitables.
Défis dans l'évaluation des codecs audio neuronaux
Il y a plusieurs défis clés pour évaluer la performance des nouveaux codecs audio neuronaux :
- Comparaison standard : Beaucoup de codecs bien connus ont été testés avec des données privées que d'autres chercheurs ne peuvent pas accéder. Du coup, c'est difficile de comparer les nouveaux codecs avec ceux déjà établis.
- Équipes diversifiées : Différentes équipes de recherche créent leurs codecs avec leurs propres méthodes, ce qui complique leur évaluation les uns par rapport aux autres.
- Focalisation sur différentes métriques : Certains codecs sont évalués sur la Qualité audio, tandis que d'autres se concentrent sur la rapidité de traitement de l'audio, ce qui donne des résultats variés.
La situation se complique encore plus parce que la plupart des nouveaux codecs ne sont pas testés sur une variété de jeux de données, contrairement aux méthodes traditionnelles qui fonctionnent bien sur des données jamais vues.
Besoin d'un benchmark complet
Pour répondre à ces problèmes, un nouveau benchmark open-source appelé OpenACE est proposé. Cet outil vise à évaluer la performance de codage audio et de la parole avec un large éventail de contenus, en incluant à la fois des jeux de données traditionnels et récents. L'idée est de créer une manière équitable et unifiée pour évaluer différents codecs.
OpenACE combine différents types audio, comme la parole et la musique, pour tester comment divers codecs fonctionnent. Ça donne aux chercheurs une méthode d'évaluation cohérente et des données à utiliser.
Ce qu'OpenACE inclut
OpenACE comprend un riche jeu de données avec plus de cinq heures d'audio de plusieurs intervenants dans différentes langues. Ce contenu varié permet une évaluation plus approfondie des codecs.
Le benchmark couvre divers aspects, notamment :
- Fréquence d'échantillonnage : L'audio peut être échantillonné à différentes fréquences pour voir comment les codecs gèrent la qualité audio.
- Types d'audio : Il prend en compte différents contenus audio, comme la parole typique et la musique, ce qui le rend adapté à diverses applications.
- Disponibilité des données : Contrairement à certaines données propriétaires, OpenACE inclut des données open-source que tout le monde peut reproduire, ce qui favorise l'équité dans l'évaluation.
Évaluation des codecs : Exemples d'utilisation
Deux exemples principaux de la façon dont OpenACE peut être utilisé pour évaluer les codecs sont :
- Comparaison des codecs audio : Le premier exemple compare plusieurs codecs, y compris des populaires comme Opus et LC3, pour voir comment ils fonctionnent à différents réglages de qualité audio.
- Codage de la parole émotionnelle : Le deuxième exemple se concentre sur la capacité des codecs à capturer la parole émotionnelle à un Débit binaire plus faible, révélant comment les différentes émotions affectent la qualité audio.
Grâce à ces exemples, les chercheurs peuvent mieux comprendre les forces et les faiblesses de divers codecs.
Évaluation objective de la qualité audio
Dans le premier exemple, les chercheurs ont examiné comment différents codecs fonctionnaient à divers débits binaires. À bas débit, LC3+ montrait moins de performance par rapport à d'autres comme Opus et EVS. À mesure que le débit augmentait, tous les codecs s'amélioraient, mais les codecs basés sur LC3 excellaient à des réglages plus élevés.
Les tests objectifs ont été réalisés en utilisant des métriques qui mesurent la qualité audio. Les résultats ont montré qu'Opus performait toujours bien, surtout à bas débits, tandis que LC3 et LC3+ avaient des lacunes notables en termes de qualité.
Évaluation subjective de la parole émotionnelle
Dans le deuxième exemple, les chercheurs voulaient explorer comment différents codecs géraient la parole émotionnelle. Ils ont pris des enregistrements exprimant cinq émotions de base et les ont analysés à l'aide de tests d'écoute. Cette méthode a permis aux évaluateurs de noter la qualité de l'audio selon leur perception.
Les résultats ont indiqué que la qualité de la parole émotionnelle souffrait à bas débits. Bien qu'EVS ait généralement fourni une meilleure qualité qu'Opus, les deux LC3 et LC3+ avaient du mal à 16 kbps.
Résultats clés
Les évaluations utilisant OpenACE mettent en lumière certains aspects importants du codage audio. Par exemple :
- Le débit binaire compte : Plus le débit binaire est bas, plus les différences de qualité entre les codecs deviennent évidentes.
- La parole émotionnelle est un défi : Les codecs traditionnels et ceux basés sur l'apprentissage automatique ont du mal à encoder efficacement la parole émotionnelle, surtout à bas débits.
- Les approches basées sur les données gagnent du terrain : Le développement continu de nouveaux codecs suggère que l'avenir du codage audio et de la parole incorporera de plus en plus des techniques d'apprentissage automatique.
Améliorations futures
À l'avenir, il y a des plans pour améliorer encore le benchmark OpenACE en :
- Ajoutant plus de jeux de données qui incluent des bruits de fond et d'autres facteurs environnementaux.
- Simulant des conditions du monde réel, comme des erreurs de transmission, pour avoir une meilleure idée de la performance des codecs dans la vie quotidienne.
- Explorant l'audio multi-canal pour évaluer comment les codecs fonctionnent avec des arrangements audio plus complexes.
Ces améliorations aideront à créer une évaluation plus complète de la performance des codecs et contribueront au développement de meilleures solutions de codage audio et de la parole.
Conclusion
En résumé, OpenACE est bien placé pour jouer un rôle important dans l'évaluation du codage audio et de la parole. En fournissant un benchmark open-source, il permet aux chercheurs de comparer équitablement différents codecs dans diverses conditions. Alors que le domaine du codage audio continue d'évoluer, les insights tirés de l'utilisation d'OpenACE seront essentiels pour comprendre les capacités et les limites des codecs traditionnels et modernes. L'avenir semble prometteur alors que la recherche et le développement continuent de viser une meilleure qualité audio et des méthodes de codage plus efficaces pour diverses applications.
Titre: OpenACE: An Open Benchmark for Evaluating Audio Coding Performance
Résumé: Audio and speech coding lack unified evaluation and open-source testing. Many candidate systems were evaluated on proprietary, non-reproducible, or small data, and machine learning-based codecs are often tested on datasets with similar distributions as trained on, which is unfairly compared to digital signal processing-based codecs that usually work well with unseen data. This paper presents a full-band audio and speech coding quality benchmark with more variable content types, including traditional open test vectors. An example use case of audio coding quality assessment is presented with open-source Opus, 3GPP's EVS, and recent ETSI's LC3 with LC3+ used in Bluetooth LE Audio profiles. Besides, quality variations of emotional speech encoding at 16 kbps are shown. The proposed open-source benchmark contributes to audio and speech coding democratization and is available at https://github.com/JozefColdenhoff/OpenACE.
Auteurs: Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
Dernière mise à jour: 2024-09-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.08374
Source PDF: https://arxiv.org/pdf/2409.08374
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/JozefColdenhoff/OpenACE
- https://listening-test.coresv.net/results.htm
- https://hydrogenaud.io/index.php/topic,122575.0.html
- https://opus-codec.org/testvectors
- https://tech.ebu.ch/docs/tech/tech3253.pdf
- https://tech.ebu.ch/publications/sqamcd
- https://opus-codec.org/testvectors/
- https://github.com/xiph/opus
- https://github.com/vipchengrui/EVS-codec/tree/master/source_code
- https://www.iis.fraunhofer.de/en/ff/amm/communication/lc3.html
- https://www.etsi.org/deliver/etsi_ts/103600_103699/103634/01.02.01_60/ts_103634v010201p0.zip
- https://docs.google.com/spreadsheets/d/1RAFl4Hl4Soailo6XLiys-ELc0ELQ2hAbndYzxJYZriI/edit?pli=1#gid=0
- https://github.com/google/liblc3
- https://www.etsi.org/deliver/etsi_ts/103600_103699/103634/01.03.01_60/ts_103634v010301p0.zip
- https://arxiv.org/pdf/2303.12984.pdf
- https://github.com/google/lyra
- https://github.com/facebookresearch/encodec
- https://www.soundonsound.com/techniques/sos-audio-test-files-downloads
- https://senselabonline.com/