# Informatique # Génie logiciel # Intelligence artificielle # Bases de données # Apprentissage automatique

Le rôle des modèles pré-entraînés dans le développement logiciel

Un nouveau jeu de données révèle des infos sur l'utilisation des modèles pré-entraînés dans les projets logiciels.

2025-09-12T12:24:00+00:00 ― 9 min lire

Table des matières

Modèles Pré-Entraînés et Leur Importance
Le Besoin d'un Ensemble de Données Complet
Aperçu de l'Ensemble de Données
Méthodologie de Collecte de Données
Extraction de Métadonnées avec des Grands Modèles de Langage
Analyse Initiale de l'Ensemble de Données
Directions de Recherche Futures
Conclusion
Source originale
Liens de référence

Les modèles de deep learning sont devenus des outils indispensables dans le développement de logiciels, aidant dans des tâches comme le traitement du langage naturel et la vision par ordinateur. Cependant, construire ces modèles depuis zéro demande des ressources considérables, ce qui rend plus attrayant pour les développeurs de logiciels d'utiliser des Modèles pré-entraînés. Ces modèles, souvent appelés modèles pré-entraînés (PTM), ont déjà été formés sur de grands ensembles de données, permettant aux développeurs de les implémenter dans leurs projets avec moins d'efforts.

Malgré leur popularité, il y a peu d'infos sur comment les PTM sont intégrés dans les applications logicielles. Ce manque d'infos souligne le besoin de meilleurs ensembles de données qui peuvent fournir des aperçus sur l'utilisation et l'efficacité des PTM. Cet article présente un nouvel ensemble de données conçu pour éclairer le paysage des PTM, y compris des détails sur les modèles eux-mêmes et les projets open-source qui les utilisent.

Modèles Pré-Entraînés et Leur Importance

Ces dernières années, les PTM ont gagné en popularité grâce à leur capacité à réduire le temps et les ressources nécessaires pour développer des systèmes logiciels complexes. Ces modèles sont disponibles via des dépôts en ligne où les développeurs peuvent y accéder et les utiliser dans leurs projets. La capacité d'adapter ces modèles pour des tâches spécifiques en a fait une ressource significative en ingénierie logicielle.

Cependant, même si beaucoup de développeurs utilisent des PTM, comprendre les détails de leur intégration et de leur performance reste limité. Les chercheurs et praticiens ont besoin d'ensembles de données complets qui incluent les Métadonnées des modèles, les Métriques de performance et les relations entre modèles et applications.

Le Besoin d'un Ensemble de Données Complet

L'un des problèmes pressants dans le domaine est la rareté d'ensembles de données structurés qui documentent les PTM et leurs applications. Les ensembles de données actuels manquent souvent de détails essentiels, comme les conditions de formation, les métriques d'évaluation et les infos de licence. Ces lacunes rendent difficile la réalisation d'analyses et de comparaisons significatives, ce qui nuit au développement de meilleures pratiques dans l'utilisation des PTM.

Pour combler cette lacune, nous avons créé un nouvel ensemble de données qui inclut des métadonnées pour les PTM et leur utilisation dans diverses applications logicielles. Cet ensemble de données capture non seulement les modèles eux-mêmes, mais aussi les connexions entre les PTM et les projets open-source hébergés sur des plateformes comme GitHub.

Aperçu de l'Ensemble de Données

L'ensemble de données présenté englobe un large éventail d'infos, y compris :

Métadonnées pour les PTM : Cela inclut des détails sur l'architecture du modèle, les données d'entraînement et les métriques de performance.
Projets en aval : Nous nous sommes concentrés sur les dépôts GitHub qui utilisent ces PTM, fournissant un contexte sur leur application.
Mappages : L'ensemble de données inclut des liens entre les PTM et les projets GitHub qui les utilisent.

En combinant ces éléments, nous visons à créer une ressource qui informe les chercheurs et développeurs sur les tendances et défis de l'utilisation des PTM.

Méthodologie de Collecte de Données

Pour compiler l'ensemble de données, nous avons mis en place une approche en plusieurs étapes axée sur la collecte des PTM et de leurs projets GitHub associés.

Collecte des Modèles Pré-Entraînés

La première étape a consisté à identifier des registres de modèles populaires pour rassembler les PTM. Nous avons sélectionné Hugging Face, connu pour sa vaste collection de PTM, et PyTorch Hub, qui héberge également une gamme de modèles. Nous avons accès aux PTM avec un certain nombre de téléchargements pour garantir que nous collectons des modèles largement utilisés.

Ensuite, nous avons rassemblé les métadonnées associées à ces modèles via leurs API respectives, en veillant à capturer un large aperçu des PTM disponibles. Ce processus était crucial pour établir un instantané complet de l'état actuel des PTM.

Liaison des PTM aux Dépôts GitHub

Après avoir compilé une liste de PTM, nous avons tourné notre attention vers l'identification des dépôts GitHub qui utilisent ces modèles. Nous avons développé une approche systématique pour rechercher dans les projets publics GitHub des signatures d'utilisation associées aux PTM. Cet effort a impliqué :

Identification des Modèles d'Utilisation : Nous avons défini des modèles qui indiquent l'utilisation des PTM, comme des appels de fonctions spécifiques dans le code.
Recherche et Collecte : Nous avons utilisé des outils de recherche pour localiser les dépôts pertinents et collecté des métadonnées sur leur structure et leur contenu.
Vérification : Nous avons effectué une analyse statique pour confirmer que les dépôts identifiés utilisaient effectivement les PTM, garantissant l'exactitude de nos mappages.

À travers ce processus, nous avons établi des connexions entre les PTM et plus de 7 000 dépôts GitHub, fournissant une vue claire de comment ces modèles sont utilisés en pratique.

Extraction de Métadonnées avec des Grands Modèles de Langage

Pour enrichir notre ensemble de données, nous avons exploité des modèles de langage avancés pour extraire des métadonnées supplémentaires à partir de sources non structurées. Cette approche visait à résoudre le problème de données incomplètes et difficiles à analyser présentes dans de nombreuses fiches de modèles existantes.

Le Rôle des Modèles de Langage

Les modèles de langage ont montré leur potentiel dans diverses tâches d'extraction d'infos. En utilisant ces modèles, nous pouvons analyser les fiches de modèles-des documents associés aux PTM qui détaillent leurs spécifications-et extraire des métadonnées structurées comme les ensembles de données d'entraînement, les hyperparamètres et les métriques d'évaluation.

Pour exécuter cette extraction, nous avons développé un pipeline automatisé qui utilise les capacités des modèles de langage pour interpréter et catégoriser les infos des fiches de modèles. Ce processus non seulement enrichit notre ensemble de données, mais permet aussi d’identifier les éventuels manques dans la documentation des modèles.

Avantages des Métadonnées Améliorées

En incorporant des métadonnées structurées dans notre ensemble de données, nous augmentons son utilité globale. Ces métadonnées complètes permettent aux chercheurs et développeurs d'analyser plus efficacement la performance des PTM et soutiennent le développement de pratiques d'utilisation plus éclairées.

Analyse Initiale de l'Ensemble de Données

Avec l'ensemble de données compilé, nous avons réalisé une analyse initiale pour identifier des tendances et des aperçus concernant l'adoption et l'utilisation des PTM.

Tendances dans le Développement des PTM

Notre analyse a mis en évidence une augmentation significative de la disponibilité des PTM au fil du temps. Cette tendance est particulièrement notable dans le domaine du traitement du langage naturel, où de nombreux modèles sont développés et partagés. Nous avons observé que Hugging Face est devenu une source majeure pour ces modèles, avec de nombreux nouveaux PTM ajoutés régulièrement.

Problèmes Courants

En analysant l'ensemble de données, nous avons également identifié des problèmes courants liés à la documentation des PTM. Beaucoup de modèles manquent de descriptions adéquates de leurs Conditions d'entraînement ou de leurs métriques d'évaluation, ce qui entraîne des risques potentiels lorsque les développeurs tentent d'intégrer ces modèles dans leurs projets.

Incohérences de Licence

Un autre aspect crucial évalué était la cohérence des licences logicielles entre les PTM et leurs applications correspondantes. Nos résultats ont indiqué qu'une proportion notable de projets ne s'alignait pas en termes de licence, créant des barrières pour les développeurs qui cherchent à garantir leur conformité avec les exigences légales.

Directions de Recherche Futures

L'ensemble de données ouvre de nombreuses pistes pour de futures recherches. Voici plusieurs directions prometteuses qui peuvent être explorées :

Comprendre l'Intégration des PTM : Des études futures pourraient se concentrer sur comment les développeurs intègrent les PTM dans leurs applications et les défis qu'ils rencontrent.
Analyser la Compatibilité des Licences : Les chercheurs pourraient approfondir les questions de compatibilité des licences pour fournir des conseils aux développeurs naviguant dans ces complexités.
Examiner la Performance des Modèles : En utilisant les métadonnées liées aux métriques de performance, les chercheurs peuvent évaluer quels facteurs contribuent à l'application réussie des PTM.

Conclusion

Cet ensemble de données représente un pas en avant significatif dans la compréhension du paysage des modèles pré-entraînés dans le développement de logiciels. En capturant des métadonnées détaillées et en mappant les relations entre les PTM et les applications, nous fournissons des ressources précieuses pour les chercheurs et développeurs.

Les résultats de notre analyse initiale soulignent le besoin critique d'améliorer la documentation et la clarté des licences dans l'écosystème des PTM. À travers des recherches continues et un affinage de l'ensemble de données, nous espérons favoriser de meilleures pratiques dans l'adoption et l'utilisation des modèles pré-entraînés, faisant ainsi avancer le domaine de l'ingénierie logicielle.

Source originale

Titre: PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in Open-Source Software

Résumé: The development and training of deep learning models have become increasingly costly and complex. Consequently, software engineers are adopting pre-trained models (PTMs) for their downstream applications. The dynamics of the PTM supply chain remain largely unexplored, signaling a clear need for structured datasets that document not only the metadata but also the subsequent applications of these models. Without such data, the MSR community cannot comprehensively understand the impact of PTM adoption and reuse. This paper presents the PeaTMOSS dataset, which comprises metadata for 281,638 PTMs and detailed snapshots for all PTMs with over 50 monthly downloads (14,296 PTMs), along with 28,575 open-source software repositories from GitHub that utilize these models. Additionally, the dataset includes 44,337 mappings from 15,129 downstream GitHub repositories to the 2,530 PTMs they use. To enhance the dataset's comprehensiveness, we developed prompts for a large language model to automatically extract model metadata, including the model's training datasets, parameters, and evaluation metrics. Our analysis of this dataset provides the first summary statistics for the PTM supply chain, showing the trend of PTM development and common shortcomings of PTM package documentation. Our example application reveals inconsistencies in software licenses across PTMs and their dependent projects. PeaTMOSS lays the foundation for future research, offering rich opportunities to investigate the PTM supply chain. We outline mining opportunities on PTMs, their downstream usage, and cross-cutting questions.

Auteurs: Wenxin Jiang, Jerin Yasmin, Jason Jones, Nicholas Synovic, Jiashen Kuo, Nathaniel Bielanski, Yuan Tian, George K. Thiruvathukal, James C. Davis

Dernière mise à jour: 2024-02-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.00699

Source PDF: https://arxiv.org/pdf/2402.00699

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Sujets référencés

Plus d'auteurs

Génie logiciel Étapes clés dans le développement de modèles d'apprentissage profond

Un aperçu des étapes de développement des modèles de deep learning et des activités de réingénierie.

2025-12-10T01:37:54+00:00 ― 8 min lire

Génie logiciel PTMTorrent : Une ressource pour les modèles pré-entraînés

PTMTorrent facilite l'accès aux modèles pré-entraînés pour les ingés et les chercheurs.

2025-12-09T01:48:00+00:00 ― 7 min lire

Génie logiciel Le Rôle des Commentaires de Demande de Mise à Jour sur Stack Overflow

Enquête sur comment les demandes de mise à jour influence la qualité des réponses sur Stack Overflow.

2025-11-27T00:39:36+00:00 ― 7 min lire

Génie logiciel Un nouvel outil pour suivre la dette technique

Présentation d'un outil pour suivre la dette technique à travers différents langages de programmation.

2025-11-27T00:23:48+00:00 ― 8 min lire

Génie logiciel L'impact des temps de réponse sur les pull requests

Des réponses rapides aux pull requests sont super importantes pour le succès des projets open-source.

2025-11-26T17:25:06+00:00 ― 7 min lire

Apprentissage automatique Nouveau cadre pour combattre les attaques par porte dérobée dans les DNN

Présentation d'une méthode pour effacer les portes dérobées sans avoir besoin de données propres.

2025-10-31T19:33:24+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Défis du Deep Learning : Explication des attaques à classe unique

Examiner comment les attaques à classe unique peuvent tromper les modèles d'apprentissage profond.

2025-10-21T00:42:00+00:00 ― 9 min lire

Génie logiciel Améliorer la sécurité dans les piles réseau intégrées

Un nouveau cadre améliore la détection des vulnérabilités dans la communication réseau embarquée.

2025-10-06T07:02:36+00:00 ― 6 min lire

Le rôle des modèles pré-entraînés dans le développement logiciel

Un nouveau jeu de données révèle des infos sur l'utilisation des modèles pré-entraînés dans les projets logiciels.

#Modèles Pré-Entraînés et Leur Importance

#Le Besoin d'un Ensemble de Données Complet

#Aperçu de l'Ensemble de Données

#Méthodologie de Collecte de Données

#Collecte des Modèles Pré-Entraînés

#Liaison des PTM aux Dépôts GitHub

#Extraction de Métadonnées avec des Grands Modèles de Langage

#Le Rôle des Modèles de Langage

#Avantages des Métadonnées Améliorées

#Analyse Initiale de l'Ensemble de Données

#Tendances dans le Développement des PTM

#Problèmes Courants

#Incohérences de Licence

#Directions de Recherche Futures

#Conclusion