Web-Agenten mit selbstgenerierten Daten verbessern
Sprachmodelle verbessern die Web-Aufgabenleistung durch Selbstverbesserungstechniken.
― 6 min Lesedauer
Inhaltsverzeichnis
- Herausforderungen beim Trainieren von Web-Agenten
- Was sind grosse Sprachmodelle?
- Selbstverbesserung in Sprachmodellen
- WebArena als Benchmark
- Erforschung von Selbstverbesserungstechniken
- Synthetische Daten
- Evaluierung der Leistung
- Ergebnisse der Selbstverbesserung
- Funktioniert Selbstverbesserung?
- Erwerb neuer Fähigkeiten
- Robustheit der Leistung
- Qualität der generierten Trajektorien
- Iterative Selbstverbesserung
- Verwandte Forschung
- Fazit
- Zukünftige Richtungen
- Danksagungen
- Originalquelle
- Referenz Links
Grosse Sprachmodelle (LLMs) sind mächtige Werkzeuge, um menschliche Sprache zu verstehen und zu erzeugen. Allerdings kann es schwierig sein, sie als Web-Agenten für komplexe Aufgaben einzusetzen. Dieser Artikel spricht darüber, wie diese Modelle sich selbst beibringen können, in diesen herausfordernden Situationen besser zu werden, indem sie ihre eigenen Trainingsdaten generieren und daraus lernen.
Herausforderungen beim Trainieren von Web-Agenten
Agenten zu trainieren, die mit Web-Umgebungen interagieren können, stösst oft auf mehrere Hindernisse. Ein grosses Problem ist der Mangel an Trainingsdaten, die für die spezifischen Aktionen beim Surfen im Internet geeignet sind. Daten für Aufgaben zu sammeln, die mehrere Entscheidungen erfordern, dauert viel Zeit und kann teuer sein. Ausserdem ist es schwierig zu beurteilen, wie gut ein Agent abschneidet, da die automatische Bewertung der durchgeführten Aktionen nicht einfach ist.
Was sind grosse Sprachmodelle?
Grosse Sprachmodelle verwenden riesige Mengen an Textdaten, um Muster in der Sprache zu lernen. Dieses Wissen ermöglicht es ihnen, Antworten zu generieren, Fragen zu beantworten und Informationen zusammenzufassen. Obwohl sie bei einfachen Aufgaben vielversprechend sind, haben sie oft Schwierigkeiten mit Aufgaben, die eine Abfolge von Aktionen oder ein tiefes Verständnis eines Kontexts erfordern.
Selbstverbesserung in Sprachmodellen
Neueste Studien zeigen, dass LLMs ihre Leistung im Laufe der Zeit verbessern können. Eine Möglichkeit, wie sie das tun, ist, ihre eigenen Ausgaben zu nutzen, um mehr Beispiele zu erstellen, die ihr Training verbessern. Diese Methode, genannt Selbstverbesserung, hilft ihnen, sich an neue Aufgaben anzupassen, ohne dass weitere überwachte Trainingsdaten benötigt werden.
WebArena als Benchmark
WebArena ist ein Benchmark, der verwendet wird, um die Fähigkeiten von LLM-Agenten in realistischen Web-Umgebungen zu testen. In diesem Setting müssen Agenten Aufgaben erledigen, indem sie direkt mit Webseiten interagieren. Zum Beispiel könnte ein Agent die Reisezeit zwischen zwei Orten mithilfe einer Online-Karte ermitteln müssen. Um diese Aufgaben erfolgreich abzuschliessen, müssen Agenten eine Reihe von Aktionen ausführen, oft als Trajektorie bezeichnet.
Erforschung von Selbstverbesserungstechniken
Wir untersuchen, wie effektiv LLMs darin sein können, ihre Leistung bei langen und komplexen Web-Aufgaben zu verbessern. Durch das Feintuning dieser Modelle auf synthetischen Daten, die aus ihren eigenen Ausgaben generiert wurden, erreichen wir signifikante Verbesserungen bei den Abschlussraten von Aufgaben.
Synthetische Daten
Synthetische Daten beziehen sich auf Beispiele, die von den Modellen selbst erstellt werden. Diese Daten können als qualitativ hochwertiges Trainingsmaterial dienen, um die Leistung weiter zu verbessern. Wir konzentrieren uns auf die Sammlung von zwei Arten synthetischer Daten: In-Domain und Out-of-Domain Beispiele.
In-Domain synthetische Daten
In-Domain-Daten werden aus Aufgaben generiert, mit denen das Modell bereits konfrontiert wurde. Wenn das Modell beispielsweise versucht, Fragen zu Reisezeiten zu beantworten und eine Reihe plausibler Aktionen generiert, können diese Aktionen auf Qualität gefiltert und für weiteres Training genutzt werden.
Out-of-Domain synthetische Daten
Out-of-Domain-Daten sind komplett neu und unterscheiden sich von dem, was das Modell zuvor gesehen hat. Indem wir das Modell auffordern, völlig neue Aufgaben und Lösungen zu erstellen, können wir seine Fähigkeiten über den ursprünglichen Trainingsrahmen hinaus erweitern.
Evaluierung der Leistung
Die Bewertung, wie gut diese Agenten abschneiden, ist entscheidend. Wir führen mehrere Metriken ein, um ihre Effektivität, Robustheit und die allgemeine Qualität ihrer Aktionen zu bewerten. Besonders schauen wir uns zwei neue Metriken an: Fähigkeitsscores und eine modifizierte Version des VERTEX-Scores zur Verfolgung der Qualität von Aktionssequenzen.
Ergebnisse der Selbstverbesserung
Funktioniert Selbstverbesserung?
Durch unsere Experimente sehen wir, dass das Feintuning auf synthetischen Datensätzen tatsächlich die Leistung erheblich verbessern kann. Das am besten abschneidende Modell, das eine Kombination aus In-Domain und Out-of-Domain Beispielen verwendet hat, zeigte einen Anstieg von 31% bei erfolgreich abgeschlossenen Aufgaben.
Erwerb neuer Fähigkeiten
Unsere Ergebnisse zeigen, dass Selbstverbesserung es Agenten ermöglicht, neue Fähigkeiten zu erwerben, während sie bestehende Fähigkeiten beibehalten. Dabei können jedoch einige Fähigkeiten im Prozess verloren gehen. Insgesamt haben die getesteten Agenten mehr Fähigkeiten gewonnen, als sie verloren haben, was auf ein nettes positives Ergebnis hinweist.
Robustheit der Leistung
Robustheit bezieht sich auf die Fähigkeit eines Agenten, in verschiedenen Szenarien konsistent zu arbeiten. In unseren Ergebnissen fanden wir heraus, dass selbstverbesserte Modelle eine grössere Konsistenz beim Abschluss von Aufgaben aufwiesen im Vergleich zu ihren Basisversionen. Diese Konsistenz kann entscheidend für reale Anwendungen sein, bei denen Zuverlässigkeit wichtig ist.
Qualität der generierten Trajektorien
Ein wichtiger Aspekt der Leistung ist die Qualität und Länge der Aktionssequenzen, die die Agenten generieren. Unsere Analysen deuten darauf hin, dass Selbstverbesserung zwar bei der Leistung helfen kann, in einigen Fällen aber auch zu längeren Aktionssequenzen und einer erhöhten Anzahl ungültiger Aktionen führen kann. Ein Gleichgewicht zwischen der Komplexität und Qualität dieser Aktionen ist für effektive Web-Interaktionen entscheidend.
Iterative Selbstverbesserung
Wir haben auch untersucht, ob die mehrfache Durchführung von Selbstverbesserung zu weiteren Vorteilen führt. Während wir einige Gewinne aus einer zweiten Runde des Feintunings beobachteten, waren die Verbesserungen weniger signifikant als in der ersten Runde. Das deutet darauf hin, dass Selbstverbesserung zwar vorteilhaft ist, aber bei wiederholter Anwendung abnehmende Erträge hat.
Verwandte Forschung
Selbstverbesserung in LLMs ist ein Bereich von wachsendem Interesse. Verschiedene Techniken werden erforscht, einschliesslich der Verwendung der eigenen Ausgaben der Modelle für weiteres Training. Andere Forschungen konzentrieren sich auf Aufforderungsstrategien, die die Leistung bei spezifischen Aufgaben verbessern können.
Fazit
Zusammenfassend zeigt unsere Arbeit, dass grosse Sprachmodelle in der Lage sind, sich im Kontext von langen, komplexen Web-Aufgaben selbst zu verbessern. Durch die Nutzung synthetischer Trainingsdaten verbessern diese Modelle nicht nur ihre Leistung, sondern erwerben auch neue Fähigkeiten mit minimaler Abnahme der Aktionsqualität. Dieser Ansatz hat das Potenzial, die Effektivität von LLMs in dynamischen und komplexen Umgebungen erheblich zu steigern. Während diese Modelle weiterhin evolvieren, können sie immer besser darin werden, die Herausforderungen von Interaktionen im realen Web zu navigieren.
Zukünftige Richtungen
Zukünftige Arbeiten können sich darauf konzentrieren, die Metriken zur Bewertung der Agentenleistung zu verfeinern und ein breiteres Spektrum an Web-Aufgaben zu erforschen. Zudem könnte die Einbeziehung menschlicher Bewertungen in den Prozess die Zuverlässigkeit unserer Erkenntnisse verbessern. Das ultimative Ziel ist es, robuste Sprachagenten zu entwickeln, die eine Vielzahl von Aufgaben mit Leichtigkeit und Effizienz bewältigen können.
Danksagungen
Wir möchten die Finanzierung und Unterstützung von verschiedenen Organisationen und Institutionen anerkennen, die zu dieser Forschung beigetragen haben. Ihre Ressourcen waren von unschätzbarem Wert für die Durchführung unserer Experimente und Analysen.
Titel: Large Language Models Can Self-Improve At Web Agent Tasks
Zusammenfassung: Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.
Autoren: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter
Letzte Aktualisierung: 2024-10-01 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.20309
Quell-PDF: https://arxiv.org/pdf/2405.20309
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://chat.lmsys.org/?leaderboard
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://tex.stackexchange.com/a/122329
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://store.economist.com/
- https://www.chilis.com/
- https://www.couponcabin.com/
- https://www.grammarly.com/
- https://www.grammarly.com/plans