HIGHT : Une nouvelle méthode pour les données graphiques et les LLMs
HIGHT améliore les modèles de langage en utilisant des infos hiérarchiques provenant de données graphiques.
― 9 min lire
Table des matières
Il y a un intérêt grandissant pour appliquer des grands modèles de langage (LLMs) aux données ayant une structure graphique, comme les réseaux sociaux et les molécules. Les LLMs fonctionnent généralement bien avec des données textuelles, qui sont unidimensionnelles. Beaucoup de méthodes actuelles utilisent des réseaux de neurones graphiques (GNNs) pour transformer les graphiques en tokens que les LLMs peuvent traiter. Cependant, ces méthodes ne prennent souvent pas en compte la structure hiérarchique qui existe dans les données graphiques. Par exemple, dans les graphiques Moléculaires, les infos sur l'arrangement des atomes peuvent nous en dire beaucoup sur les Propriétés de la molécule. Ignorer cette info peut mener à des résultats médiocres et à des sorties incorrectes des LLMs.
Le Problème avec les Méthodes Actuelles
Les méthodes actuelles tokenisent souvent les données graphiques en les décomposant en nœuds ou atomes individuels sans tenir compte de la façon dont ces nœuds sont liés les uns aux autres dans une structure plus complexe. Ça peut mener à des erreurs, surtout quand les LLMs produisent des sorties qui ne correspondent pas au sens voulu. Par exemple, si les LLMs ne voient que des atomes individuels, ils doivent comprendre comment regrouper ces atomes pour former des groupes fonctionnels, ce qui peut poser des défis supplémentaires pendant l'entraînement.
Pour démontrer ce problème, des chercheurs ont créé un benchmark qui testait les LLMs sur la reconnaissance des groupes fonctionnels courants dans des structures moléculaires. Les résultats ont montré que beaucoup de LLMs affirmaient incorrectement la présence de ces groupes, soulignant à quel point il est crucial d'incorporer l'information hiérarchique dans les graphiques pendant le processus de Tokenisation.
Introduction d'une Nouvelle Approche
Pour résoudre ces défis, une nouvelle méthode appelée HIGHT a été proposée. Cette méthode utilise un tokeniseur graphique hiérarchique qui peut capturer la complexité des graphiques, en se concentrant sur les relations entre les nœuds et comment ils forment des motifs ou des groupes. En utilisant ce tokeniseur, le modèle peut mieux comprendre la structure des données, ce qui améliore les performances dans les tâches impliquant à la fois des données graphiques et du langage.
HIGHT inclut aussi un ensemble de données spécial pour le réglage des instructions, qui est conçu pour fournir aux LLMs des infos sur les relations entre les molécules et leurs descriptions en langage. Cet ensemble de données inclut à la fois des exemples positifs, où certains groupes fonctionnels sont présents, et des exemples négatifs où ils ne le sont pas. Cette construction réfléchie aide à guider les LLMs pour apprendre les connexions entre les données graphiques et le langage plus efficacement.
Hiérarchiques
L'Importance des InformationsDans les graphiques moléculaires, les arrangements d'atomes ne sont pas juste aléatoires ; ils forment des groupes fonctionnels qui ont des significations importantes en termes de propriétés d'une molécule. Par exemple, certains arrangements peuvent indiquer combien une molécule pourrait être soluble dans l'eau. Donc, il est important que les LLMs reconnaissent ces groupes fonctionnels pour produire des sorties correctes.
En utilisant l'information hiérarchique, HIGHT permet une meilleure compréhension de comment les groupes fonctionnels se forment à partir d'atomes individuels. De cette façon, quand les LLMs sont entraînés, ils peuvent reconnaître ces groupes plus facilement et réduire l'incidence des sorties incorrectes.
Méthodologie de HIGHT
HIGHT fonctionne en transformant le graphique moléculaire original en un graphique hiérarchique. Il identifie des motifs, qui sont des structures récurrentes dans le graphique. Le modèle traite ensuite à la fois les atomes et les motifs comme des caractéristiques séparées, permettant une compréhension plus nuancée des données.
Le modèle utilise un autoencodeur variationnel quantifié par vecteur pour encoder ces caractéristiques, en s'assurant de préserver l'info structurelle importante. En ajoutant des encodages de position, le modèle ajoute une autre couche d'information qui aide à distinguer entre différents types de tokens.
Réglage des Instructions avec HIGHT
Avec le tokeniseur hiérarchique de HIGHT en place, la prochaine étape est d'ajuster le modèle en utilisant le nouvel ensemble de données créé. Cela implique deux étapes principales.
Dans la première étape, le modèle subit un pré-entraînement d'alignement, où il apprend à catégoriser les structures moléculaires en relation avec leurs descriptions en langage. Cette étape est cruciale pour préparer le modèle à connecter les infos graphiques qu'il rencontrera plus tard avec les données linguistiques.
Dans la deuxième étape, un réglage spécifique à la tâche a lieu. Le modèle sera affiné en utilisant des ensembles de données spécifiques qui se concentrent sur diverses propriétés chimiques et tâches. Cette approche en deux étapes garantit que le modèle développe une base solide de connaissances avant de s'attaquer à des tâches plus complexes.
Évaluation Expérimentale
De nombreuses expériences ont été menées pour évaluer les performances de HIGHT en utilisant diverses tâches du monde réel, comme la prédiction de propriétés, la génération de descriptions moléculaires et la prédiction de réactions chimiques. Les résultats indiquent que HIGHT surpasse significativement d'autres modèles qui s'appuient sur la tokenisation centrée sur les nœuds traditionnelle.
Dans les tâches de prédiction de propriétés, HIGHT a affiché une meilleure précision et des taux d'erreur plus bas par rapport à d'autres méthodes. Lors de la génération de descriptions moléculaires, le langage produit était plus cohérent et informatif aussi.
Dans les prédictions de réactions chimiques, HIGHT a démontré des résultats à la pointe de la technologie dans plusieurs domaines, comblant un vide laissé par des modèles généralistes qui ne se concentraient pas sur les complexités structurelles des molécules. Ces expériences confirment l'importance de l'information hiérarchique pour comprendre les structures moléculaires et produire des résultats précis.
Conclusion
HIGHT représente une avancée prometteuse dans l'intégration des données graphiques avec de grands modèles de langage. En se concentrant sur la nature hiérarchique des graphiques, notamment dans les structures moléculaires, il atteint un meilleur alignement entre les données graphiques et les représentations linguistiques. Cela réduit non seulement les erreurs dans les sorties, mais améliore aussi la performance globale du modèle dans diverses tâches liées à la chimie et à la découverte de médicaments.
Le succès de HIGHT sert de base pour de futures études. Bien que cette recherche traite principalement des graphiques moléculaires, une enquête supplémentaire est nécessaire pour voir comment cette approche peut être appliquée à d'autres types de données graphiques, comme celles trouvées dans les réseaux sociaux. Dans l'ensemble, HIGHT présente un saut significatif en avant dans les capacités des modèles de langage à comprendre et interagir avec des informations graphiques complexes.
Impacts Plus Larges
Les méthodes discutées pourraient avoir des implications considérables dans divers domaines, y compris la découverte de médicaments assistée par IA et les interactions homme-machine avancées en biomédecine. En fournissant aux modèles de langage une meilleure compréhension des structures moléculaires et de leurs propriétés, le potentiel pour des percées en médecine et en chimie augmente considérablement.
De plus, il n'y a pas de préoccupations éthiques associées à cette recherche, car elle n'implique aucune donnée sensible ou sujet humain. Elle vise à améliorer les capacités des technologies existantes sans soulever de problèmes de confidentialité, de discrimination ou d'équité.
Directions Futures
HIGHT ouvre de nombreuses voies excitantes pour la recherche future. Son application réussie dans les graphiques moléculaires soulève des questions sur la façon de développer des techniques similaires pour d'autres types de graphiques. Les chercheurs pourraient également vouloir examiner des moyens d'améliorer le processus de réglage des instructions ou comment intégrer des types de données plus complexes dans ces modèles pour des expériences d'apprentissage encore plus riches.
À mesure que la technologie continue d'évoluer, la capacité à intégrer divers types de données deviendra de plus en plus importante. HIGHT établit une base solide pour relever ces défis et contribue à une compréhension plus large de la façon de fusionner efficacement les données linguistiques et graphiques.
Embrasser les complexités des structures hiérarchiques ne fera qu'améliorer nos capacités à traiter et comprendre le monde qui nous entoure. Cette recherche représente non seulement une avancée technique, mais s'aligne également sur une tendance croissante en intelligence artificielle à adopter des représentations de données plus complètes et sophistiquées.
Grâce à une exploration et un affinage continus, nous pouvons nous attendre à voir des avancées encore plus grandes dans la façon dont les modèles de langage peuvent être utilisés pour interpréter et agir sur des structures de données complexes, conduisant à une prise de décision plus éclairée et à des solutions innovantes dans divers domaines.
En résumé, HIGHT est un effort marquant pour combler le fossé entre la science moléculaire et le traitement du langage, montrant le rôle inestimable que la hiérarchie joue dans l'interprétation des données. À mesure que la recherche et l'application continuent, son impact sera sans aucun doute ressenti dans de nombreux domaines bien au-delà de la portée initiale, ouvrant la voie à des systèmes d'IA de prochaine génération capables de comprendre et d'utiliser des données complexes de manière que nous commençons à peine à imaginer.
Titre: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment
Résumé: Recently there has been a surge of interest in extending the success of large language models (LLMs) to graph modality, such as social networks and molecules. As LLMs are predominantly trained with 1D text data, most existing approaches adopt a graph neural network to represent a graph as a series of node tokens and feed these tokens to LLMs for graph-language alignment. Despite achieving some successes, existing approaches have overlooked the hierarchical structures that are inherent in graph data. Especially, in molecular graphs, the high-order structural information contains rich semantics of molecular functional groups, which encode crucial biochemical functionalities of the molecules. We establish a simple benchmark showing that neglecting the hierarchical information in graph tokenization will lead to subpar graph-language alignment and severe hallucination in generated outputs. To address this problem, we propose a novel strategy called HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that extracts and encodes the hierarchy of node, motif, and graph levels of informative tokens to improve the graph perception of LLMs. HIGHT also adopts an augmented graph-language supervised fine-tuning dataset, enriched with the hierarchical graph information, to further enhance the graph-language alignment. Extensive experiments on 7 molecule-centric benchmarks confirm the effectiveness of HIGHT in reducing hallucination by 40%, as well as significant improvements in various molecule-language downstream tasks.
Auteurs: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian
Dernière mise à jour: 2024-06-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.14021
Source PDF: https://arxiv.org/pdf/2406.14021
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.nlm.nih.gov/web_policies.html
- https://www.uspto.gov/learning-and-resources/open-data-and-mobility
- https://opensource.org/license/mit/
- https://creativecommons.org/licenses/by/4.0/
- https://pubchem.ncbi.nlm.nih.gov
- https://developer.uspto.gov/data
- https://github.com/rdkit/rdkit/blob/master/Data/FunctionalGroups.txt
- https://github.com/junxia97/Mole-BERT
- https://github.com/ZangXuan/HiMol
- https://higraphllm.github.io
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines