Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

S'attaquer aux défis clés dans la recherche en PNL

Une enquête révèle des inquiétudes majeures dans la recherche en NLP concernant la durabilité et l'accès aux ressources.

― 7 min lire


Recherche en NLP : DéfisRecherche en NLP : Défisclés à venirrecherche en NLP et l'accès auxurgents dans la durabilité de laUne enquête révèle des problèmes
Table des matières

Les avancées récentes en traitement du langage naturel (NLP) viennent en grande partie de l'utilisation de gros modèles de langage avec des millions ou des milliards de paramètres. Bien que ces avancées soient impressionnantes, elles entraînent des coûts computationnels élevés qui soulèvent des questions importantes sur la durabilité, la reproductibilité et l'équité dans la recherche.

Cette enquête visait à comprendre ces préoccupations de manière plus approfondie en recueillant des réponses de membres de la communauté NLP. Nous avons axé notre étude sur trois principaux domaines : l'Impact Environnemental de la recherche NLP, l'équité d'accès aux ressources computationnelles, et comment ces facteurs influencent le processus d'évaluation par les pairs.

Aperçu de l'enquête

L'enquête a duré 17 jours et a recueilli des réponses de 312 participants dans divers rôles dans le domaine du NLP, y compris des étudiants, des chercheurs et des professionnels de l'industrie. L'objectif principal était de collecter des points de vue et des expériences, nous permettant de quantifier les préoccupations et les différences entre les différents groupes de chercheurs.

Résultats clés

  1. Impact environnemental : Un nombre significatif de participants a exprimé des inquiétudes concernant l'empreinte écologique de la recherche NLP. Plus de la moitié des répondants étaient modérément ou très préoccupés par les émissions de gaz à effet de serre liées à leur travail, surtout en ce qui concerne l'entraînement et la sélection des modèles.

  2. Accès aux ressources : Beaucoup de participants ont rapporté un accès limité aux ressources computationnelles. Une grande partie d'entre eux avait accès à moins de dix GPU, avec 62 % ayant accès à moins de huit. Cette limitation les empêche souvent de réaliser des expériences nécessaires et de reproduire les résultats.

  3. Problèmes de révision par les pairs : Les participants ont également commenté comment le besoin de ressources computationnelles considérables impacte le processus de révision par les pairs. Certains ont rapporté avoir été invités par des examinateurs à réaliser des expériences trop coûteuses pour eux, entraînant des sentiments de frustration et d'inégalité.

Préoccupations environnementales

Quand nous avons demandé des préoccupations concernant l'impact environnemental du NLP, il était clair que beaucoup de chercheurs ressentent une urgence à aborder cette question. L'entraînement de grands modèles nécessite souvent beaucoup d'énergie, ce qui peut contribuer aux émissions de gaz à effet de serre.

Les participants ont identifié deux facteurs principaux associés aux préoccupations environnementales :

  • Entraînement des modèles : La phase d'entraînement consomme une quantité significative d'énergie. Beaucoup de modèles subissent un réglage et un développement approfondis, nécessitant de mener de nombreuses expériences sur de longues périodes.

  • Sélection des modèles : Le processus de choix du bon modèle peut aussi être gourmand en ressources. Les chercheurs essaient souvent plusieurs approches différentes avant de se fixer sur la plus efficace.

Fait intéressant, certains participants pensaient que l'impact environnemental du NLP était plus faible comparé à d'autres facteurs liés au changement climatique, comme les voyages aériens et les opérations des grandes entreprises technologiques.

Équité d'accès

L'équité, ou l'équité d'accès aux ressources computationnelles, est une autre grande préoccupation dans la communauté NLP. L'enquête a révélé que l'accès à du matériel puissant n'est pas réparti de manière égale.

Distribution des GPU

Les résultats ont montré qu'un grand nombre de participants (87,8 %) avaient accès à moins de 10 % du nombre total de GPU disponibles dans le groupe de l'enquête. Cette disparité soulève des questions sur qui peut se permettre de travailler avec des technologies de pointe.

  • Étudiants : Beaucoup d'étudiants ont signalé des défis significatifs pour réaliser des expériences en raison de ressources limitées.
  • Chercheurs industriels : Ceux qui travaillent dans de plus petites entreprises ont aussi noté des difficultés, bien que les plus grandes entreprises aient généralement un meilleur accès à la puissance computationnelle.

En analysant les disparités selon les secteurs d'emploi, il semble que les chercheurs dans de grandes entreprises industrielles avaient plus d'accès aux GPU par rapport à ceux dans le milieu académique ou les petites industries.

Conséquences de l'accès limité

Un accès limité aux ressources peut freiner le progrès de la recherche. Beaucoup de participants ont déclaré ne pas pouvoir réaliser des expériences importantes en raison d'une puissance de calcul insuffisante. Cette situation crée une barrière pour de nombreux chercheurs, surtout pour les étudiants et ceux dans de petites entreprises, rendant plus difficile la réalisation de résultats conformes aux normes de la communauté.

Impact sur la révision par les pairs

L'enquête a également abordé comment ces problèmes affectent le processus de révision par les pairs. Beaucoup de répondants ont indiqué avoir été invités par des examinateurs à réaliser des expériences qui n'étaient pas réalisables pour eux en raison de contraintes financières ou de ressources.

Attentes des examinateurs

Environ 30 % des participants ont rapporté avoir reçu des demandes pour des expériences coûteuses durant la révision par les pairs. Pour beaucoup, ces demandes semblaient injustifiées, contribuant à un sentiment d'inéquité dans le processus de révision.

Les retours des examinateurs peuvent parfois ignorer le fait que tous les chercheurs n'ont pas le même niveau d'accès aux ressources. Cela peut entraîner le rejet de travaux précieux simplement parce que les auteurs ne pouvaient pas se permettre de répondre aux exigences de révision.

Suggestions d'amélioration

Les participants ont partagé plusieurs recommandations pour améliorer le processus de révision par les pairs :

  • Demandes de justification : Beaucoup ont suggéré que les examinateurs devraient être tenus de justifier leurs demandes d'expériences supplémentaires en fonction des ressources disponibles rapportées par les auteurs. Cela favoriserait l'équité et la compréhension.

  • Pistes d'efficacité : Une part significative des répondants a soutenu l'idée de pistes dédiées pour des méthodes efficaces, encourageant les soumissions qui mettent l'accent sur une utilisation minimale des ressources tout en fournissant des résultats de qualité.

  • Versions de modèles plus petits : Un appel fort a été lancé pour la publication de modèles préentraînés plus petits aux côtés de versions plus grandes, facilitant la tâche des chercheurs avec des ressources limitées pour produire un travail précieux.

Conclusion

L'enquête a mis en lumière des préoccupations critiques concernant l'impact environnemental, l'équité d'accès et la révision par les pairs dans la recherche NLP. Beaucoup de participants estiment qu'il est essentiel de traiter ces questions pour favoriser un environnement de recherche juste et durable.

Recommandations

Pour faire face aux défis exposés dans l'enquête, nous proposons les recommandations suivantes :

  1. Encourager la transparence : Les chercheurs devraient être encouragés à rapporter clairement leurs ressources computationnelles lors de la soumission de papiers. Cela permettrait aux examinateurs de mieux comprendre le contexte de la recherche et sa reproductibilité.

  2. Promouvoir le partage des ressources : La communauté pourrait bénéficier d'initiatives encourageant la collaboration et le partage de ressources computationnelles, surtout pour les étudiants et les petites entreprises.

  3. Soutien institutionnel : Les universités et les institutions de recherche devraient envisager de fournir davantage de soutien et de ressources aux étudiants et aux chercheurs juniors pour niveler le terrain de jeu.

  4. Engagement communautaire : La communauté NLP devrait continuer à s'engager dans des discussions sur les impacts environnementaux et travailler collectivement pour trouver des solutions.

En mettant en œuvre ces recommandations, nous pouvons aller vers un avenir plus équitable et durable dans la recherche NLP, permettant à tout le monde de contribuer de manière significative au domaine.

Source originale

Titre: Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research

Résumé: Many recent improvements in NLP stem from the development and use of large pre-trained language models (PLMs) with billions of parameters. Large model sizes makes computational cost one of the main limiting factors for training and evaluating such models; and has raised severe concerns about the sustainability, reproducibility, and inclusiveness for researching PLMs. These concerns are often based on personal experiences and observations. However, there had not been any large-scale surveys that investigate them. In this work, we provide a first attempt to quantify these concerns regarding three topics, namely, environmental impact, equity, and impact on peer reviewing. By conducting a survey with 312 participants from the NLP community, we capture existing (dis)parities between different and within groups with respect to seniority, academia, and industry; and their impact on the peer reviewing process. For each topic, we provide an analysis and devise recommendations to mitigate found disparities, some of which already successfully implemented. Finally, we discuss additional concerns raised by many participants in free-text responses.

Auteurs: Ji-Ung Lee, Haritz Puerto, Betty van Aken, Yuki Arase, Jessica Zosa Forde, Leon Derczynski, Andreas Rücklé, Iryna Gurevych, Roy Schwartz, Emma Strubell, Jesse Dodge

Dernière mise à jour: 2023-11-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.16900

Source PDF: https://arxiv.org/pdf/2306.16900

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires