Problèmes d'accès dans le Million Song Dataset
Les défis pour accéder aux données audio freinent les opportunités de recherche.
― 6 min lire
Table des matières
L'accès aux données académiques est super important pour des Opportunités de recherche équitables. Par contre, certaines données sont hard à obtenir à cause de systèmes et de règles compliqués. C'est particulièrement vrai pour les Données audio du Million Song Dataset (MSD). Depuis 2016, c'est devenu compliqué pour beaucoup de chercheurs d'accéder à ces données. Dans cet article, on parle des défis auxquels les gens font face pour accéder à ces données et comment ça impacte leur recherche.
Le Million Song Dataset
Le Million Song Dataset, c'est une grosse collection d'infos sur des chansons populaires. C'est utile pour plein d'études en technologie musicale, comme pour étiqueter de la musique. Bien que le dataset inclut des détails sur un million de chansons, il ne contient pas les fichiers audio. Pour obtenir ces fichiers, les chercheurs doivent se fier à un autre service, ce qui rend l'accès un peu galère.
Défis pour accéder à l'audio MSD
Avant 2016, les chercheurs pouvaient accéder aux données audio via un service appelé 7digital.com. Mais ce service a été arrêté, et l'accès aux fichiers audio est devenu limité. Maintenant, les chercheurs peuvent surtout obtenir les fichiers audio par le partage entre pairs, ce qui crée une barrière pour beaucoup.
Ceux qui sont connectés à des organisations possédant les fichiers audio ont un net avantage. Ça a créé une situation où seulement quelques organisations bien connectées peuvent facilement accéder aux données. Pour les autres, surtout ceux dans des institutions plus petites ou moins connues, c'est vraiment tough d'obtenir ces données. Beaucoup de chercheurs disent être frustrés quand ils essaient d'accéder aux fichiers mais tombent sur des obstacles.
Expériences réelles
On a recueilli des histoires de 22 personnes qui ont soit travaillé sur le dataset soit essayé d'accéder aux fichiers audio. Leurs réponses montrent à quel point les expériences sont variées. Certains n'avaient aucune idée à qui s'adresser pour obtenir l'accès, tandis que d'autres ont réussi à obtenir les données qu'ils voulaient après plusieurs essais.
Par exemple, un répondant a dit qu'il n'avait pas accès parce qu'il "ne sait pas à qui demander". Ça met en lumière la confusion dans le système, laissant beaucoup de chercheurs sans guide. De plus, ceux qui ont réussi à accéder aux données l'ont souvent fait parce qu'ils faisaient partie d'une organisation avec des connexions.
Partage entre pairs
Le partage entre pairs est devenu un moyen courant d'obtenir les données audio. Cependant, ça ne marche bien que pour ceux qui sont déjà connectés à des organisations qui ont les fichiers audio. La taille des données audio, qui pèse environ 700 Go, rend le partage compliqué. Ça veut dire que la proximité géographique joue un rôle important dans qui peut accéder aux données.
Étonnamment, les gens qui ont réussi à obtenir les fichiers audio affirment souvent qu'ils les ont acquis par web scraping plutôt que par partage. Ça a créé de la désinformation, rendant encore plus difficile l'accès pour ceux en dehors de ces réseaux connectés.
Inégalité d'accès
L'accès inégal à ces données audio a creusé les écarts d'opportunités de recherche entre différents groupes dans la communauté de la recherche en récupération d'information musicale (MIR). Les chercheurs des institutions bien connectées ont beaucoup plus de facilité à obtenir les données que ceux des institutions moins connectées.
On a remarqué que beaucoup de ceux qui ont galéré pour accéder aux fichiers audio étaient affiliés à des petites organisations ou avaient moins d'expérience en recherche. Par exemple, un étudiant de premier cycle d'une organisation a trouvé ça difficile d'obtenir les fichiers audio, tandis qu'un membre du corps professoral de la même organisation a eu du succès. Ça montre que l'expérience individuelle et le prestige institutionnel impactent beaucoup l'accès.
Impact sur la recherche
Le manque d'accès équitable aux données audio du MSD a de réelles conséquences pour la recherche. Quand seuls quelques chercheurs peuvent accéder à des données cruciales, ça freine le développement de nouvelles idées et projets. Cette situation peut empêcher l'innovation et limiter le potentiel de nouvelles contributions dans le domaine de la MIR.
Beaucoup de chercheurs ont abandonné leurs projets à cause des complications pour accéder aux données, ce qui signifie que des opportunités de recherche précieuses sont perdues. En conséquence, des études potentiellement importantes ne voient jamais le jour, impactant la croissance des connaissances dans le domaine.
Avancer
La situation actuelle demande un meilleur accès à des ensembles de données importants comme l'audio MSD. Pour avancer, on doit reconnaître et adresser les inégalités dans l'accès aux données au sein de la communauté de recherche. Ça veut dire créer des systèmes plus transparents et inclusifs qui permettent aux chercheurs de tous horizons et institutions d'obtenir les données dont ils ont besoin.
Encourager la communication ouverte entre chercheurs et propriétaires de données peut aider. En partageant infos et ressources, on peut créer un paysage de recherche plus équitable. Cette approche inclusive ne bénéficiera pas seulement aux chercheurs individuels mais enrichira aussi toute la communauté, menant à des résultats de recherche plus diversifiés et innovants.
Conclusion
L'accès aux données académiques, surtout dans le domaine de la récupération d'information musicale, est un problème majeur qui affecte beaucoup de chercheurs. Les fichiers audio du Million Song Dataset illustrent bien ce défi, où seuls quelques individus bien connectés peuvent accéder à des données cruciales. Les conséquences de cette inégalité peuvent freiner la recherche et entraver la croissance dans le domaine.
En créant un accès plus équitable aux ensembles de données importants, on peut aider à construire un environnement de recherche plus inclusif. Ça permettra aux chercheurs de divers horizons de contribuer leurs idées et découvertes, enrichissant finalement le monde de la recherche académique. C'est essentiel d'adresser ces défis pour que tout le monde ait la chance de participer et de réussir dans ses projets de recherche.
Titre: The Biased Journey of MSD_AUDIO.ZIP
Résumé: The equitable distribution of academic data is crucial for ensuring equal research opportunities, and ultimately further progress. Yet, due to the complexity of using the API for audio data that corresponds to the Million Song Dataset along with its misreporting (before 2016) and the discontinuation of this API (after 2016), access to this data has become restricted to those within certain affiliations that are connected peer-to-peer. In this paper, we delve into this issue, drawing insights from the experiences of 22 individuals who either attempted to access the data or played a role in its creation. With this, we hope to initiate more critical dialogue and more thoughtful consideration with regard to access privilege in the MIR community.
Auteurs: Haven Kim, Keunwoo Choi, Mateusz Modrzejewski, Cynthia C. S. Liem
Dernière mise à jour: 2023-12-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.16389
Source PDF: https://arxiv.org/pdf/2308.16389
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.