Die Effizienz von AutoML mit binären Diskriminatoren verbessern
Eine neue Methode für schnellere und bessere Suchanfragen von Machine-Learning-Programmen.
― 10 min Lesedauer
Inhaltsverzeichnis
- Der Vorschlag
- Verständnis der Neuronalen Architektur-Suche
- Aktuelle Suchmethoden
- Die Rolle der Leistungsprognose
- Herausforderungen bei Regressionsmodellen
- Neuer Mutationsalgorithmus
- Bedeutung der Arbeit
- Verwandte Forschung
- Suche nach allgemeinen ML-Komponenten
- Lernen in der Programmsynthese
- Suchdarstellung
- Training des Prognostikers
- Kombination von binären Modellen mit Evolution
- Experimentelles Setup
- Ergebnisse und Beobachtungen
- Bedeutung der Modellgenauigkeit
- Entwurfsentscheidungen im Prognostiker
- Fazit
- Zukünftige Richtungen
- Originalquelle
- Referenz Links
Im Bereich Machine Learning gibt's einen Prozess namens AutoML, der das Design von Machine Learning-Programmen automatisiert. Eine Herausforderung in diesem Bereich ist, wie man bessere Machine Learning-Programme automatisch erstellen kann. Traditionell wurden Methoden wie Evolution genutzt, um bessere Programme zu finden. Aber ein anderer Ansatz – Lernen, um diese Suche zu leiten – war bei schwierigen Problemen nicht so effektiv oder gut verstanden. Das Ziel ist, die Suche schneller zu machen und die Leistung der resultierenden Programme zu verbessern.
Der Vorschlag
Wir schlagen einen neuen Weg vor, um die Evolution von Machine Learning-Programmen mithilfe eines binären Diskriminators zu leiten. Dieses Tool wird trainiert, um zu entscheiden, welches Programm besser ist, wenn man ihm zwei Optionen gibt. Mit diesem Diskriminator können wir teure Bewertungen vermeiden und den Prozess, gute Programme zu finden, beschleunigen.
Unsere Methode ist flexibel genug, um verschiedene Machine Learning-Komponenten einzuschliessen, wie symbolische Optimierer, neuronale Netzwerkarchitekturen, Verlustfunktionen im Reinforcement Learning und symbolische Regressionsgleichungen. All diese Komponenten können mit einer ähnlichen Struktur dargestellt werden, die als gerichteter azyklischer Graph (DAG) bekannt ist. Durch die Kombination dieser Darstellung mit fortgeschrittenen Techniken können wir die Suche nach verbesserten Machine Learning-Programmen erheblich beschleunigen.
Verständnis der Neuronalen Architektur-Suche
Die neuronale Architektur-Suche (NAS) ist ein zentraler Fokus in AutoML, bei dem es darum geht, das beste Design für neuronale Netzwerke zu finden. Aber es gibt auch zunehmendes Interesse daran, nach breiteren Machine Learning-Komponenten jenseits von Netzwerkarchitekturen zu suchen. Dazu gehört das Finden ganzer Lernprogramme, Verlustfunktionen, die im Reinforcement Learning verwendet werden, und Optimierungsmethoden. Die Suchräume für diese Komponenten sind normalerweise grösser und weniger eingeschränkt, was den Suchprozess komplizierter macht.
Gute Programme in diesen breiteren Räumen zu erstellen, ist eine Herausforderung. Die sehr grosse Grösse des Suchraums bedeutet, dass es schwierig sein kann, effektive Kandidaten zu finden. Kleinste Änderungen führen oft zu einem signifikanten Leistungsabfall, was die Identifizierung hochqualitativer Programme komplizierter macht.
Aktuelle Suchmethoden
Seit vielen Jahren ist regularisierte Evolution eine beliebte Suchmethode in diesen Bereichen wegen ihrer Einfachheit und Effektivität. Eine gängige Taktik, die dabei verwendet wird, nennt man funktionale Äquivalenz-Caching (FEC). Dieser Ansatz hilft, indem er wiederholte Bewertungen ähnlicher Kandidaten vermeidet, was Zeit sparen kann.
Doch FEC berücksichtigt keine gelernten Einsichten aus zuvor bewerteten Kandidaten. Unsere Frage ist, ob wir Lernmethoden entwickeln können, die das breitere Wissen all der Programme, die bisher gesehen wurden, erfassen und damit die Sucheffizienz verbessern.
Die Rolle der Leistungsprognose
Leistungsprognosen waren nützlich, um die Suche in vielen NAS-Szenarien zu beschleunigen. Diese Prognosen nutzen typischerweise Regressionsmodelle, die trainiert werden, um die Leistung einer bestimmten Architektur basierend auf ihrer einzigartigen Darstellung zu schätzen. Die besten Kandidaten können dann basierend auf diesen Vorhersagen eingestuft werden, was hilft, die Verschwendung von Rechenressourcen für weniger vielversprechende Optionen zu verhindern.
Eine weitere Idee ist, binäre Beziehungsprognostiker zu trainieren, die bestimmen, welcher von zwei Kandidaten besser ist. Forschungen haben gezeigt, dass diese binären Modelle Regressionsmodelle in der effektiven Einstufung von Kandidaten übertreffen können. Unser Ziel ist es, die Anwendung dieser Leistungsprognosen in grösseren, primitiveren Suchräumen zu erkunden.
Herausforderungen bei Regressionsmodellen
Vorangegangene Arbeiten zur NAS verwenden oft nur eine kleine Anzahl zufällig ausgewählter Kandidaten, um Leistungsprognostiker zu trainieren. Das kann zu starker Leistung bei bekannten Kandidaten führen, macht es aber schwierig, auf unbekannte Kandidaten zu generalisieren. In komplexeren Suchräumen scheitern zufällige Suchtechniken oft, weil sie nicht genügend repräsentative Daten erfassen, die für eine effektive Generalisierung notwendig sind.
Im Gegensatz dazu schlagen wir einen Online-Trainingsansatz für binäre Beziehungsprognostiker vor. Das bedeutet, dass das Modell während des Suchprozesses kontinuierlich sein Verständnis darüber aktualisiert, welche Programme besser sind, basierend auf Paaren von entdeckten Kandidaten.
Neuer Mutationsalgorithmus
Wir führen einen neuartigen Ansatz ein, der unsere binären Prognostiker mit Evolution kombiniert, um den Suchprozess zu optimieren. Die Grundidee ist, Mutationen kontinuierlich zu bewerten und nur die vielversprechenden im Vergleich zu ihren Elternkandidaten zu behalten. So können wir minderwertige Optionen überspringen und uns auf die konzentrieren, die wahrscheinlich bessere Ergebnisse liefern.
Unsere Methode führt zu einer schnelleren Konvergenz im Evolutionsprozess, wodurch wir höhere Leistungsniveaus über eine Vielzahl von Aufgaben erreichen können. Zum Beispiel haben wir in einem Bereich der Machine Learning-Optimierung eine 3,7-fache Beschleunigung und in einem anderen Kontext eine vierfache Beschleunigung nachgewiesen.
Bedeutung der Arbeit
Die Bedeutung dieser Forschung liegt in ihrer Fähigkeit, schnellere und effizientere Suchen nach einer breiten Palette von Machine Learning-Komponenten bereitzustellen. Durch das Training unserer binären Prognostiker mithilfe einer graphbasierten Architektur können wir diesen Ansatz effektiv über verschiedene Arten von Komponenten anwenden.
Durch eine Reihe von Experimenten zeigen wir, wie unsere vorgeschlagene Methode in herausfordernden Kontexten besser abschneidet als traditionelle Methoden. Wir legen besonderen Wert auf die neuartigen Mutationsstrategien und die Effektivität binärer Prognostiker im Vergleich zu Regressionsmodellen.
Verwandte Forschung
Mehrere Studien haben sich mit der Nutzung von Leistungsprognostikern in NAS beschäftigt, um die Sucheffizienz zu verbessern. Die effektivsten Ansätze beinhalten das Training von Modellen, die die vielversprechendsten Architektur-Kandidaten für eine weitere Bewertung auswählen. Einige Methoden verlassen sich auf Regressionsmodelle, die trainiert sind, um die Leistung basierend auf codierten Daten vorherzusagen, während andere sich auf paarweise binäre Modelle konzentrieren, die die relative Leistung bewerten.
Allerdings ist die Forschung zur Kombination dieser Prognosemodelle mit Evolution noch begrenzt. Unsere Arbeit trägt dazu bei, diese Lücke zu schliessen, indem wir binäre Prognostiker verwenden, um Nachkommen-Kandidaten mit ihren Eltern zu vergleichen. Dieser spezifische Vergleich fördert eine Suche, die Verbesserung priorisiert.
Suche nach allgemeinen ML-Komponenten
Es gibt einen merklichen Fokuswechsel hin zur Suche nach verschiedenen Machine Learning-Komponenten über neuronale Architekturen hinaus. Dazu gehören die Suchräume, die aus primitiveren Operatoren bestehen, die nicht auf starken, vom Menschen entworfenen Einschränkungen beruhen. Diese Situation schafft viel grössere und herausforderndere Suchräume, in denen die Belohnungen spärlicher sind. Traditionelle Suchtechniken sind möglicherweise nicht effektiv, was die Notwendigkeit von Prognosemodellen hervorhebt.
Wir zeigen, dass Prognosemodelle die Sucheffizienz in diesen grösseren, primitiven Suchräumen verbessern können, was einen erheblichen komplementären Schub zu bestehenden Techniken bietet.
Lernen in der Programmsynthese
Viele Strategien zielen darauf ab, Modelle zu lernen, die über diskrete Objekte optimieren. Einige Arbeiten nutzen Reinforcement Learning, um dies zu erreichen, während andere generative Modelle mit evolutionären Prozessen kombinieren. Die Entwicklung generativer Modelle innerhalb grosser kombinatorischer Räume ist schwierig, weshalb unser binärer Diskriminatoransatz eine einfachere und effektivere Lösung bietet.
Suchdarstellung
Ein Schlüsselelement unseres Ansatzes ist, wie wir verschiedene Machine Learning-Komponenten darstellen. Wir verwandeln diese Komponenten in eine Struktur eines gerichteten azyklischen Graphen (DAG). Dieser Graph enthält Eingangs-, Betriebs- und Ausgangsknoten, was uns erlaubt, ein einheitliches Framework zu entwickeln.
Sobald wir eine Machine Learning-Aufgabe in einen DAG kodieren, berechnen wir Einbettungen für jeden Knoten und jede Kante gemäss seiner Identität. Durch diese Darstellung können wir fortgeschrittene graphbasierte Techniken nutzen, um unser Modell des binären Prognostikers zu verbessern.
Training des Prognostikers
Das Training unseres binären Prognostikers umfasst ein zweischichtiges neuronales Netzwerk, das Paare von Kandidaten verarbeitet, um herauszufinden, welches besser ist. Dieses Modell wird kontinuierlich trainiert, sodass es sich im Laufe der Zeit verbessert, wenn neue Kandidaten eingeführt werden. Mit einem definierten Stoppunkt im Trainingsprozess können wir unser Modell effizient trainieren und es für laufende Suchen nützlich halten.
Kombination von binären Modellen mit Evolution
Der Prozess, den wir verwendet haben, um den binären Prognostiker mit Evolution zu kombinieren, ist entscheidend zur Leistungssteigerung. Regularisierte Evolution besteht aus zwei Hauptphasen: der Initialisierung einer Population von Kandidaten und der wiederholten Auswahl und Mutation der leistungsstärksten Kandidaten.
Anstatt einfach eine Liste von Kandidaten zu generieren und sie nachträglich zu bewerten, vergleichen wir neu generierte Nachkommen direkt mit ihren Eltern. Diese Strategie fördert eine gezieltere Suche, verbessert die Gesamteffizienz des Evolutionsprozesses.
Experimentelles Setup
In unserer experimentellen Arbeit haben wir unsere Methode über verschiedene Benchmark-Aufgaben getestet, die jeweils darauf ausgelegt sind, die Geschwindigkeit und Effizienz unserer evolutionären Suche zu bewerten. Verschiedene Populationen und Turniergrössen wurden in speziellen Experimenten eingesetzt, und wir haben unsere Methode gegen etablierte Baselines bewertet.
Wir haben festgestellt, dass unser binärer Prognostiker den Evolutionsprozess erheblich beschleunigen kann, was zu einer schnelleren Konvergenz auf leistungsstarke Kandidaten führt. Dies war über mehrere Aufgaben hinweg konsistent und zeigt die Flexibilität und Stärke der Methode.
Ergebnisse und Beobachtungen
Durch unsere Experimente haben wir beobachtet, dass unsere vorgeschlagene Methode traditionelle Techniken im Allgemeinen übertrifft. In allen Aufgaben zeigte unsere Methode konsequent schnellere Konvergenz und eine bessere Gesamtleistung im Vergleich zu den gängigen regularisierten Evolutionsmethoden.
Insbesondere haben wir signifikante Verbesserungen bei komplexeren Aufgaben festgestellt, bei denen traditionelle Methoden Schwierigkeiten hatten, optimale Kandidaten zu finden. Das deutet darauf hin, dass unser Ansatz besonders gut geeignet ist, um herausfordernde Suchräume zu bewältigen.
Bedeutung der Modellgenauigkeit
Während der Einsatz eines guten Prognostikers lokale Suchanstrengungen verbessern kann, garantiert er keine langfristig bessere Leistung. Wir haben die Auswirkungen der Genauigkeit des Prognostikers auf die Effizienz des Evolutionsprozesses untersucht.
In unseren Ergebnissen haben wir hervorgehoben, wie ein perfekter Prognostiker zur schnellsten Konvergenz führen würde. Umgekehrt würde ein ungenauer Prognostiker die Suche verlangsamen und insgesamt zu schlechterer Leistung führen. Das verstärkt die Notwendigkeit, ein zuverlässiges und effektives Prognosemodell zu haben.
Entwurfsentscheidungen im Prognostiker
Wir haben verschiedene Entwurfsentscheidungen analysiert, die die Leistung des binären Prognostikers beeinflussen. Zum Beispiel haben wir die Effektivität von binären Prognostikern mit Regressionsmodellen verglichen. Die Ergebnisse zeigen, dass binäre Prognostiker Regressionsmodelle in verschiedenen Aufgaben signifikant übertreffen.
Wir haben auch verschiedene Architekturen von graphbasierten neuronalen Netzwerken untersucht, um herauszufinden, welche in diesem Kontext die besten Ergebnisse erzielt. Unsere Ergebnisse deuten darauf hin, dass einige Architekturen effektiver sind, um schnellere Konvergenz zu erreichen als andere.
Fazit
Wir haben eine neue Methode vorgeschlagen, um den Evolutionsprozess beim Finden von Machine Learning-Komponenten zu beschleunigen. Durch die Kombination gelernter binärer Diskriminatoren mit evolutionären Techniken können wir effizient nach einer Reihe von Komponenten suchen, einschliesslich Verlustfunktionen und Optimierungsmethoden.
Unser Ansatz zeigt signifikante Vorteile gegenüber traditionellen Methoden und erweist sich als besonders effektiv in komplexen Suchszenarien. Wenn wir voranschreiten, gibt es sicherlich Chancen, das Lernen von Darstellungen zu verbessern und alternative Optimierungsmethoden zu erkunden.
Das Potenzial, Lernen zu nutzen, um die Suche nach Machine Learning-Komponenten zu verbessern, ist vielversprechend. Der Ansatz könnte einen Zyklus kontinuierlicher Verbesserung schaffen, der zu immer besseren automatisierten Machine Learning-Lösungen führt.
Zukünftige Richtungen
In Zukunft könnte die Forschung darauf abzielen, die Techniken des Lernens von Darstellungen zu verfeinern, um eine bessere Generalisierung über verschiedene Aufgaben hinweg sicherzustellen. Wir könnten auch untersuchen, wie generative Modelle eingesetzt werden könnten, um vielversprechende Kandidaten bei der Suche nach Machine Learning-Komponenten vorzuschlagen.
Mit der ständigen Weiterentwicklung von Technologien und Methoden ist die Schnittstelle zwischen Machine Learning und automatisierten Prozessen reif für die Erforschung. Die Methode, die wir vorgeschlagen haben, eröffnet viele Möglichkeiten für weitere Forschung, insbesondere im Kontext der Verbesserung der Automatisierung im Machine Learning-Design.
Durch den Einsatz fortschrittlicher Techniken im Lernen und in der Evolution können wir helfen, effizientere Systeme für automatisiertes Machine Learning zu schaffen, was letztendlich zu besseren Leistungen über verschiedene Anwendungen hinweg führt.
Titel: Guided Evolution with Binary Discriminators for ML Program Search
Zusammenfassung: How to automatically design better machine learning programs is an open problem within AutoML. While evolution has been a popular tool to search for better ML programs, using learning itself to guide the search has been less successful and less understood on harder problems but has the promise to dramatically increase the speed and final performance of the optimization process. We propose guiding evolution with a binary discriminator, trained online to distinguish which program is better given a pair of programs. The discriminator selects better programs without having to perform a costly evaluation and thus speed up the convergence of evolution. Our method can encode a wide variety of ML components including symbolic optimizers, neural architectures, RL loss functions, and symbolic regression equations with the same directed acyclic graph representation. By combining this representation with modern GNNs and an adaptive mutation strategy, we demonstrate our method can speed up evolution across a set of diverse problems including a 3.7x speedup on the symbolic search for ML optimizers and a 4x speedup for RL loss functions.
Autoren: John D. Co-Reyes, Yingjie Miao, George Tucker, Aleksandra Faust, Esteban Real
Letzte Aktualisierung: 2024-02-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.05821
Quell-PDF: https://arxiv.org/pdf/2402.05821
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.