Tracer les origines des modèles de langage ajustés
Une étude sur le lien entre les modèles ajustés et leurs versions de base.
― 9 min lire
Table des matières
L'utilisation des grands modèles de langage (LLMs) a explosé dans divers domaines. Ces modèles peuvent générer du texte et accomplir plein de tâches différentes. Mais souvent, ils sont Ajustés, ou affinés, pour des objectifs spécifiques. Ça leur permet de mieux fonctionner dans certaines situations. Mais ça soulève aussi des soucis concernant la propriété et le risque de mauvaise utilisation. Par exemple, les modèles affinés peuvent, par accident, utiliser du contenu sous copyright ou créer des infos trompeuses.
Ce problème met en avant la nécessité de comprendre d'où vient un modèle affiné et quel était son modèle d'entraînement d'origine. Il nous faut un moyen de retracer ces modèles jusqu'à leurs versions de base. Cet article se concentre sur comment on peut identifier les modèles d'origine pour ces LLMs affinés.
Contexte
Les modèles génératifs, comme les LLMs, produisent du texte qui peut être difficile à distinguer de ce qu'écrit un humain. Ils peuvent accomplir des tâches sans avoir besoin d'être spécifiquement formés pour chacune. Bien que les modèles Pré-entraînés soient polyvalents, ils nécessitent souvent des ajustements pour être pleinement efficaces pour des tâches spécifiques.
Actuellement, il existe de nombreux modèles disponibles pour la génération de texte. Beaucoup de ces modèles sont des versions affinées de modèles pré-entraînés qui nécessitaient d'énormes ressources informatiques pour être créés. La popularité de ces modèles a augmenté, mais ils ont aussi montré qu'ils aident à diffuser de fausses infos et à manipuler les opinions.
Pour résoudre ces problèmes, des lois comme le Digital Services Act de l'UE visent à garantir la responsabilité et la transparence dans l'utilisation des technologies d'IA. Cela a créé une demande pour des méthodes qui peuvent retracer et vérifier la propriété des modèles et de leurs sorties.
Le problème de l'Attribution
L'attribution, c'est déterminer d'où vient quelque chose. Dans notre cas, on veut savoir comment relier un modèle affiné à sa version pré-entraînée. C'est un nouveau terrain, et il n'y a pas eu d'étude systématique sur la tâche jusqu'à maintenant. Le défi vient du fait que les modèles pré-entraînés peuvent se ressembler énormément, rendant difficile l'identification de celui qui a été utilisé pour créer une version affinée.
De plus, les données d'entraînement peuvent se chevaucher, compliquant encore plus la tâche. Il y a de gros ensembles de données utilisés pour l'entraînement, comme ThePile, qui incluent divers ensembles de données plus petits. Comme plusieurs modèles partagent ces données, ils peuvent produire des sorties similaires, ce qui rend leur origine difficile à déterminer.
En abordant ce problème, on considère différents niveaux de connaissance sur les modèles et diverses stratégies pour les identifier.
Méthodologie
On aborde le problème de l'attribution comme une tâche de classification. L'objectif est de concevoir un système qui peut relier un modèle affiné à son modèle de base. Cela nécessite d'identifier des caractéristiques spécifiques du modèle de base qui peuvent encore être présentes dans la version affinée.
Pour cela, on doit collecter des réponses des modèles affiné et de base en utilisant des invites similaires. En analysant le texte généré, on peut trouver des motifs ou des attributs uniques qui peuvent nous aider à déterminer de quel modèle de base provient un modèle affiné.
Collecte de données
Pour notre étude, on utilise divers modèles pré-entraînés et ensuite on les affine sur différents ensembles de données. On examine comment le choix des données d'entraînement affecte la sortie du modèle et, finalement, notre capacité à le retracer jusqu'à son modèle de base.
Les modèles qu'on étudie proviennent d'ensembles de données populaires comme IMDB, le BigScience ROOTS Corpus, et d'autres. On puise dans une large gamme de tâches pour montrer différents comportements dans les sorties des modèles.
Stratégies d'attribution
On examine plusieurs méthodes pour attribuer les modèles affinés à leurs origines. Chaque méthode a ses forces et faiblesses selon les données et les modèles utilisés.
- Caractérisation des modèles de base : On commence par analyser les modèles de base pour comprendre leurs caractéristiques uniques. Cela peut inclure la longueur de séquence qu'ils peuvent traiter, leurs caractéristiques d'entraînement, ou tout vocabulaire spécifique qu'ils sont susceptibles de générer. 
- Représentation des entrées : On prépare les entrées pour nos Classificateurs en combinant des invites et des réponses des deux modèles, affiné et de base. Ça nous permet d'entraîner un système sur la concordance entre la sortie d'un modèle affiné et son modèle de base. 
- Sélection des invites : Choisir les bonnes invites est crucial. On vise à identifier des invites qui mettent en avant les aspects uniques des modèles de base. Ça aide à créer des classificateurs plus efficaces. 
- Architecture du classificateur : On construit des classificateurs capables de déterminer quel modèle de base un modèle affiné ressemble le plus. Ça peut se faire en utilisant diverses méthodes, y compris des classificateurs simples ou des plus complexes comme TripletNet. 
- Mise en place des expériences : On réalise de nombreuses expériences en utilisant différentes tailles d'invite et ensembles de données pour évaluer l'efficacité de nos méthodes d'attribution. Notre but est de trouver les meilleures approches pour identifier les modèles de base à partir des modèles affinés. 
Résultats
Nos trouvailles montrent qu'il est bel et bien possible de retracer les modèles affinés jusqu'à leurs versions pré-entraînées. On a réussi à identifier les modèles de base pour la majorité des modèles affinés testés. Cependant, les résultats variaient considérablement selon les architectures de modèles et les données d'entraînement utilisées.
Performance des différentes méthodes
Certaines méthodes, comme la correspondance exacte, se sont révélées efficaces quand les réponses des modèles affinés et de base étaient étroitement alignées. Mais cette approche a ses limites parce que les sorties des modèles peuvent varier même légèrement, rendant les correspondances exactes difficiles.
D'un autre côté, nos classificateurs basés sur BERT ont bien fonctionné. Ils ont pu attribuer des modèles affinés à leurs modèles de base avec une précision raisonnable. Cependant, la performance a diminué à mesure que les similitudes entre les ensembles de données augmentaient.
Le rôle de la quantité d'invites
Lors de nos expériences, on a remarqué que le nombre d'invites utilisées affectait la performance d'attribution. Bien qu'augmenter le nombre d'invites améliore généralement les résultats, ça n'a pas toujours conduit à un succès constant à travers tous les modèles. Certains modèles ont montré des rendements décroissants après un certain point.
Effets de l'affinage
En plus, l'affinage des modèles sur différents ensembles de données a impacté les résultats d'attribution. Quand les ensembles de données étaient très liés aux données de pré-entraînement, la précision d'attribution était plus élevée. En revanche, des ensembles de données complètement différents ont conduit à une performance moins bonne.
Discussion
L'attribution dans le contexte des modèles affinés est une tâche complexe. Notre recherche révèle à la fois les défis et les stratégies potentielles pour améliorer la précision d'attribution. Il y a des avantages clairs à utiliser des classificateurs qui analysent les réponses générées par les modèles, surtout quand ces réponses sont issues d'une sélection d'invites efficace.
Cependant, les résultats mettent aussi en avant la nécessité de méthodes d'entraînement et d'évaluation plus complètes. Notre étude actuelle ne fait qu'effleurer la surface en termes de diversité des modèles et du potentiel de recherche future.
Conclusion
On a fait des premiers pas pour s'attaquer au problème de relier les LLMs affinés à leurs modèles de base. En étudiant différents modèles, ensembles de données et stratégies d'attribution, on a posé les bases pour une exploration future dans ce domaine. Nos résultats montrent du potentiel pour aborder des questions liées à la propriété des modèles et à la responsabilité.
De futures recherches peuvent aller au-delà du petit échantillon de modèles qu'on a examinés. Il y a de la place pour explorer une gamme plus large de LLMs, des ensembles de données plus complexes, et diverses méthodes d'attribution. Ce travail est un pas important vers une meilleure compréhension des origines des modèles et des implications de leur utilisation.
Considérations éthiques
Alors que les LLMs deviennent de plus en plus sophistiqués, les dilemmes éthiques liés à leur utilisation croissent. Des problèmes comme le plagiat, la propriété du contenu, et le risque de mauvaise utilisation deviennent de plus en plus pertinents. Assurer une attribution correcte du contenu généré par l'IA est crucial pour naviguer ces défis et favoriser l'utilisation responsable de ces technologies.
Les méthodologies qu'on a explorées pour attribuer les modèles fournissent un cadre pour aborder ces implications éthiques. En développant des systèmes capables d'identifier les origines du contenu généré, on peut mieux protéger la propriété intellectuelle et promouvoir la transparence dans l'utilisation des systèmes d'IA.
Ce travail contribue non seulement aux aspects techniques de l'attribution des LLMs mais aussi à la conversation plus large sur la responsabilité dans les technologies d'IA. Ça nous rappelle qu'avec de grands avancements viennent de grandes responsabilités dans la manière dont on utilise et gère ces puissants outils.
Titre: Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models
Résumé: The wide applicability and adaptability of generative large language models (LLMs) has enabled their rapid adoption. While the pre-trained models can perform many tasks, such models are often fine-tuned to improve their performance on various downstream applications. However, this leads to issues over violation of model licenses, model theft, and copyright infringement. Moreover, recent advances show that generative technology is capable of producing harmful content which exacerbates the problems of accountability within model supply chains. Thus, we need a method to investigate how a model was trained or a piece of text was generated and what their pre-trained base model was. In this paper we take the first step to address this open problem by tracing back the origin of a given fine-tuned LLM to its corresponding pre-trained base model. We consider different knowledge levels and attribution strategies, and find that we can correctly trace back 8 out of the 10 fine tuned models with our best method.
Auteurs: Myles Foley, Ambrish Rawat, Taesung Lee, Yufang Hou, Gabriele Picco, Giulio Zizzo
Dernière mise à jour: 2023-06-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.09308
Source PDF: https://arxiv.org/pdf/2306.09308
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://arxiv.org/abs/2206.08474
- https://gluebenchmark.com/
- https://oscar-corpus.com/
- https://www.kaggle.com/datasets/stefanoleone992/rotten-tomatoes-movies-and-critic-reviews-dataset
- https://www.kaggle.com/datasets/stefanoleone992
- https://www.tensorflow.org/datasets/catalog/wikipedia#wikipedia20200301bn
- https://www.tensorflow.org/datasets/catalog/wikipedia
- https://josephtlucas.github.io/blog/content/mlmac.html
- https://www.nltk.org/api/nltk.metrics.distance.html#nltk.metrics.distance.jaro_similarity
- https://jordine.github.io
- https://pranjal2041.medium.com/identifying-pretrained-models-from-finetuned-lms-32ceb878898f
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/models
- https://doi.org/10.48550/arxiv.2112.04359
- https://eur-lex.europa.eu/eli/reg/2022/2065/oj
- https://mlmac.io/
- https://github.com/IBM/model-attribution-in-machine-learning
- https://huggingface.co/bert-base-multilingual-cased
- https://huggingface.co/harish/PT-STS-bert-base-multilingual-cased-4-BEST
- https://huggingface.co/mrm8488/bloom-560m-finetuned-common_gen
- https://huggingface.co/KoboldAI/OPT-350M-Nerys-v2
- https://huggingface.co/LACAI/DialoGPT-large-PFG
- https://huggingface.co/arminmehrabian/distilgpt2-finetuned-wikitext2-agu
- https://huggingface.co/ethzanalytics/ai-msgbot-gpt2-XL
- https://huggingface.co/dbmdz/german-gpt2
- https://huggingface.co/wvangils/GPT-Neo-125m-Beatles-Lyrics-finetuned-newlyrics
- https://huggingface.co/datasets/cmotions/Beatles_lyrics
- https://huggingface.co/textattack/xlnet-base-cased-imdb
- https://huggingface.co/veddm/paraphrase-multilingual-MiniLM-L12-v2-finetuned-DIT-10_epochs
- https://huggingface.co/docs/transformers/model_doc/dit
- https://huggingface.co/docs/transformers/model
- https://huggingface.co/giulio98/codegen-350M-multi-xlcost
- https://www.nbcnews.com/tech/chatgpt-can-generate-essay-generate-rcna60362
- https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers
- https://www.theverge.com/2023/1/5/23540291/chatgpt-ai-writing-tool-banned-writing-academic-icml-paper
- https://huggingface.co/wvangils/BLOOM-350m-Beatles-Lyrics-finetuned-newlyrics
- https://huggingface.co/Tianyi98/opt-350m-finetuned-cola
- https://huggingface.co/mdc1616/DialoGPT-large-sherlock
- https://huggingface.co/noelmathewisaac/inspirational-quotes-distilgpt2
- https://huggingface.co/malteos/gpt2-xl-wechsel-german
- https://huggingface.co/lvwerra/gpt2-imdb
- https://huggingface.co/flax-community/gpt-neo-125M-code-clippy
- https://huggingface.co/textattack/xlnet-base-cased-rotten-tomatoes
- https://huggingface.co/jegormeister/Multilingual-MiniLM-L12-H384-mmarco-finetuned
- https://huggingface.co/Salesforce/codegen-350M-mono