KI-Agenten: Können sie Menschen bei der Arbeit ersetzen?
Untersuchen der Fähigkeiten und Grenzen von KI-Agenten bei der Automatisierung von Aufgaben.
Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
― 5 min Lesedauer
Inhaltsverzeichnis
In der heutigen Welt verlassen wir uns stark auf Computer, egal ob für die Arbeit oder persönliche Aufgaben. Diese Abhängigkeit ist parallel zu den Fortschritten in der künstlichen Intelligenz gewachsen, besonders mit dem Aufkommen grosser Sprachmodelle (LLMs). Diese KI-Systeme sind schlauer geworden und können uns bei einer Vielzahl von Aufgaben unterstützen, die normalerweise menschliches Eingreifen erfordern. Aber wie gut sind diese KI-Agenten wirklich darin, arbeitsbezogene Aufgaben zu erledigen? Und können sie das ohne unsere Hilfe?
Die Bedeutung der Aufgabenautomatisierung
Zu verstehen, wie gut KI-Agenten Aufgaben erledigen können, ist wichtig für Branchen, die darüber nachdenken, diese Technologien zu nutzen. Während einige Leute glauben, dass KI bald die meisten Jobs übernehmen kann, sind andere skeptisch. Sie argumentieren, dass die Unfähigkeit von KI, tief zu denken und zu schlussfolgern, bedeutet, dass sie nur einen begrenzten Einfluss auf den Arbeitsmarkt haben könnte. Um Licht in dieses Thema zu bringen, haben Forscher einen Benchmark erstellt, der bewertet, wie effektiv KI-Agenten reale Aufgaben bewältigen können.
Der Benchmark
Dieser neue Benchmark, der speziell für KI-Agenten entwickelt wurde, dient als Testfeld, um zu sehen, wie gut sie Aufgaben bewältigen können, die Menschen am Arbeitsplatz gegenüberstehen. Es simuliert ein kleines Softwareentwicklungsunternehmen, komplett mit Webseiten und Daten, die eine echte Arbeitsumgebung nachstellen. Die Aufgaben reichen vom Programmieren und Projektmanagement bis zum Surfen im Internet und Kommunizieren mit Kollegen.
Aufgabenumgebung
Die Benchmark-Umgebung ist so aufgebaut, dass sie eigenständig ist, was bedeutet, dass sie nicht auf externe Software angewiesen ist und leicht für zukünftige Tests reproduziert werden kann. Das gewährleistet, dass jedes Testszenario konstant bleibt und faire Vergleiche ermöglicht. Wichtige Komponenten dieser Umgebung sind:
- Interne Webseiten, die Code, Dokumente und Verwaltungstools hosten
- Simulierte Kollegen, die mit der KI interagieren, um reale Gespräche am Arbeitsplatz nachzuahmen
Aufgabentypen
Die Aufgaben innerhalb dieses Benchmarks sind vielfältig und decken verschiedene Jobrollen in einem Softwareengineering-Unternehmen ab. Sie haben klare Ziele, die es den KI-Agenten ermöglichen, ihre Fähigkeiten in unterschiedlichen Szenarien zu zeigen. Jede Aufgabe ist in Checkpoints unterteilt, die helfen, den Erfolg und den Fortschritt des Agenten zu messen.
Die Aufgaben sind mit echtem Weltbezug im Hinterkopf entworfen. Sie reichen von einfachen Aufgaben, mit denen ein typischer Softwareentwickler konfrontiert wird, bis hin zu komplexeren Projektmanagement-Aufgaben. Die Erstellung dieser Aufgaben erfordert jedoch erheblichen Aufwand, um sicherzustellen, dass sie echte Anforderungen am Arbeitsplatz widerspiegeln.
Leistungskennzahlen
Um zu bewerten, wie gut KI-Agenten arbeiten, verwendet der Benchmark mehrere Kennzahlen. Diese Kennzahlen bewerten nicht nur, ob eine Aufgabe abgeschlossen wurde, sondern auch, wie gut der Agent Herausforderungen bewältigt hat. Dazu gehört die Anzahl der Schritte, die der Agent unternommen hat, die Genauigkeit seiner Arbeit und ob er effektiv mit den simulierten Kollegen kommuniziert hat.
Experimentieren mit KI-Agenten
Der Benchmark testet verschiedene KI-Modelle, darunter sowohl Open-Source- als auch proprietäre Systeme. Diese Modelle müssen eine Reihe von Aufgaben bewältigen, die sie dazu zwingen, mit verschiedenen Plattformen und Diensten zu interagieren, wie z. B. web-basierten Anwendungen und Programmierumgebungen. Das Ziel ist zu verstehen, wie fähig diese Modelle sind, wenn es darum geht, Aufgaben zu erledigen, die reale Arbeitsszenarien nachahmen.
Ergebnisse im Überblick
Die ersten Ergebnisse aus den Tests der KI-Agenten zeigen einige interessante Einblicke. Während das am besten abschneidende Modell 24 % der Aufgaben erfolgreich erledigen konnte, benötigte es dafür im Durchschnitt fast 30 Schritte. Das zeigt, dass selbst die besten KI-Modelle Einschränkungen haben, wenn es um die Automatisierung komplexer Aufgaben geht.
Interessanterweise waren einige Aufgaben, die für Menschen einfach schienen, viel kniffliger für die KI-Agenten. Zum Beispiel stellten Aufgaben, die soziale Interaktion oder das Navigieren durch komplexe Schnittstellen beinhalteten, erhebliche Herausforderungen für die KI dar. Dies hob eine Kluft zwischen den menschlichen Fähigkeiten und denen der aktuellen KI-Modelle hervor.
Herausforderungen für KI-Agenten
Während der Experimente traten bestimmte häufige Herausforderungen auf. Dazu gehörten:
-
Gesunder Menschenverstand: KI hat Probleme mit Aufgaben, die auf grundlegenden Alltagswissen oder fachspezifischem Wissen basieren. Zum Beispiel könnte eine KI bei einer Aufgabe scheitern, weil sie nicht erahnen konnte, dass ein bestimmtes Dateiformat benötigt wird.
-
Soziale Fähigkeiten: Kommunikation ist der Schlüssel in jedem Arbeitsumfeld. KI-Agenten verstehen oft nicht die Nuancen sozialer Interaktionen, was dazu führt, dass sie Gelegenheiten verpassen, um notwendige Informationen zu sammeln.
-
Surfen im Internet: Viele Web-UIs sind komplex und haben ablenkende Elemente, die KI-Agenten verwirren können. Dies kann ihre Fähigkeit beeinträchtigen, Aufgaben zu erledigen, die effektives Navigieren erfordern.
-
Kreativitätsdefizite: Aufgaben, die kreatives Denken oder unkonventionelle Ansätze erfordern, liegen weit über den derzeitigen Fähigkeiten von KI. Während Menschen in der Lage sind, bei Unklarheiten zu improvisieren, hat KI oft Schwierigkeiten, die Lücken zu füllen.
Die Zukunft der KI in Arbeitsplätzen
In die Zukunft blicken, zielt der Benchmark darauf ab, den Weg für umfassendere Bewertungen der KI-Leistung bei realen Aufgaben zu ebnen. Er kann Forschern helfen zu verstehen, welche Aufgaben für die Automatisierung geeignet sind und wo KI sich verbessern muss. Dieses Wissen könnte zukünftige Entwicklungen in der KI-Technologie und deren Integration in Arbeitsumgebungen leiten.
Während KI weiterhin evolviert, gibt es Optimismus, dass sie immer besser darin wird, komplexe Aufgaben zu bewältigen und die Feinheiten menschlicher Kommunikation zu navigieren. Mit fortlaufender Forschung und Verbesserungen könnten wir schliesslich sehen, dass KI-Agenten noch mehr Verantwortung im Arbeitsumfeld übernehmen.
Fazit
KI-Agenten machen Fortschritte bei der Automatisierung von Aufgaben, die traditionell menschlichen Aufwand erforderten, aber sie haben noch einen langen Weg vor sich. Der neu entwickelte Benchmark dient als Werkzeug, um ihren Fortschritt zu messen, ihre Einschränkungen aufzudecken und Verbesserungsbereiche zu finden. Während wir vorankommen, ist es wichtig zu verstehen, wie KI helfen kann, anstatt menschliche Arbeiter zu ersetzen, um die Zukunft der Arbeit zu gestalten. Und wer weiss? Vielleicht werden KI-Agenten eines Tages deinen Job übernehmen, während du dich zurücklehnst und eine wohlverdiente Auszeit geniesst.
Originalquelle
Titel: TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
Zusammenfassung: We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents' performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents -- in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.
Autoren: Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Z. Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Maben, Raj Mehta, Wayne Chi, Lawrence Jang, Yiqing Xie, Shuyan Zhou, Graham Neubig
Letzte Aktualisierung: 2024-12-18 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2412.14161
Quell-PDF: https://arxiv.org/pdf/2412.14161
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/OpenDevin/OpenDevin/graphs/contributors
- https://github.com/OpenDevin/OpenDevin/stargazers
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://github.com/goodfeli/dlbook_notation
- https://the-agent-company.com
- https://github.com/TheAgentCompany/TheAgentCompany
- https://github.com/TheAgentCompany/experiments
- https://github.com/All-Hands-AI/OpenHands
- https://docs.all-hands.dev/modules/usage/how-to/custom-sandbox-guide
- https://about.gitlab.com/install/
- https://doc.owncloud.com/
- https://github.com/makeplane/plane
- https://www.rocket.chat/install
- https://the-agent-company.com:8929/root/janusgraph
- https://the-agent-company.com:8092
- https://the-agent-company.com:3000/home
- https://the-agent-company.com:8091/tac/
- https://github.com/All-Hands-AI/OpenHands/tree/main/openhands/agenthub/codeact_agent
- https://github.com/ServiceNow/BrowserGym/blob/main/browsergym/core/src/browsergym/core/action/functions.py
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont