Bewertung der Rolle von KI bei automatisierter Textanpassung
Eine Studie zur Bewertung der Effektivität von KI bei der Textannotation in sozialen Medien.
― 10 min Lesedauer
Inhaltsverzeichnis
Automatisierte Textannotation ist wichtig, um soziale Medien zu studieren. Neueste Erkenntnisse zeigen, dass KI-Modelle bei Annotation-Aufgaben gut abschneiden können, aber diese Studien verwenden oft nur eine begrenzte Anzahl von Aufgaben und Datensätzen, die möglicherweise nicht die realen Szenarien widerspiegeln. Das kann zu Problemen führen, weil sich die Datensätze mit den Daten überschneiden könnten, die verwendet wurden, um diese KI-Modelle zu trainieren, was die Ergebnisse verzerren kann.
In diesem Kontext schlagen wir eine Strategie vor, um KI-Tools zur automatisierten Annotation besser zu bewerten. Wir nutzen das KI-Modell GPT-4, um Annotation-Aufgaben aus verschiedenen Forschungsartikeln zu replizieren, die in privaten Datensätzen von angesehenen Fachzeitschriften zu finden sind. Indem wir die Annotationen der KI mit denen von Menschen vergleichen, können wir beurteilen, wie gut die KI abschneidet.
Obwohl die Gesamtqualität der KI hoch sein kann, bemerken wir erhebliche Unterschiede in der Leistung, je nach spezifischer Aufgabe. Das hebt hervor, wie wichtig es ist, Menschen in den Prozess einzubeziehen und darauf zu achten, wie wir die Leistung der KI bewerten. In vielen Fällen stimmen die Ergebnisse der KI nicht mit den menschlichen Urteilen überein, selbst wenn wir ihre Eingaben optimieren. Es ist wichtig, dass automatisierte Annotation auf Validierungsdaten basiert, die von Menschen erstellt wurden, um eine verantwortungsvolle Bewertung sicherzustellen.
Menschzentrierter Workflow für Annotation mit KI
Forscher, die soziale Medien analysieren, verwenden oft Sprachverarbeitungs-Tools, um grosse Mengen an Text zu untersuchen. Klassifikation ist eine Schlüsselaufgabe, die es Forschern ermöglicht, Social-Media-Beiträge im grossen Stil zu kategorisieren. Viele haben begonnen, generative KI-Modelle für wichtige Aufgaben zu nutzen, zum Beispiel um Hassrede zu finden, die öffentliche Meinung zu Impfstoffen zu messen und die Glaubwürdigkeit von Nachrichtenquellen zu bewerten.
Hochwertige, manuell beschriftete Textdaten sind entscheidend, um Sprachmodelle für diese Klassifikationsaufgaben zu trainieren. Sozialwissenschaftler verwenden diese Labels normalerweise, um Daten zu verstehen oder als Teil statistischer Studien.
Wir schauen uns an, wie generative KI-Modelle den Prozess der manuellen Annotation automatisieren können. Diese KI-Modelle arbeiten schneller und günstiger als Menschen und leiden nicht unter Problemen wie Müdigkeit. Daher können sie für Annotation-Aufgaben wertvoll sein.
Wir schlagen einen menschzentrierten Workflow für automatisierte Annotation vor. Auch wenn menschliche Annotatoren Fehler machen können, sollten KI-Tools immer noch auf menschliches Urteil vertrauen. Ein menschzentrierter Ansatz ist entscheidend für die Entwicklung von KI-Technologien, die zuverlässig und sicher sind. Forscher können keine Bias in der KI-Leistung erkennen, ohne dieses menschzentrierte Framework.
Eine wachsende Menge an Forschungsergebnissen behauptet, dass generative KI die menschliche Leistung bei Annotation-Aufgaben erreichen oder sogar übertreffen kann. Einige Studien konzentrieren sich jedoch darauf, ob KI einfach besser ist als Menschen, anstatt zu untersuchen, wie gut KI menschliche Urteile nachahmen kann.
Trotz der Behauptungen, dass KI besser sein könnte als menschliche Annotatoren, ist unklar, ob frühere Forschungsergebnisse auf andere Datensätze und Aufgaben anwendbar sind. Die meisten früheren Studien untersuchen nur einige spezifische Aufgaben und Datensätze, und dies geschieht oft mit öffentlich verfügbaren Benchmark-Datensätzen. Diese Datensätze können Teil der Daten sein, die verwendet wurden, um die KI zu trainieren, was zu überzogenen Leistungsmetriken führen kann, die möglicherweise nicht zuverlässig für andere Aufgaben sind.
Fehler in der automatisierten Annotation können auch Muster zeigen, die zu Vorurteilen in den Labels der KI führen. Inkonsistenzen in den KI-Annotationen haben Bedenken hinsichtlich ihrer Zuverlässigkeit geweckt. Daher ist eine sorgfältige Validierung auf einer Aufgabenbasis notwendig für diejenigen, die auf KI für Annotation angewiesen sind.
Wenn die starke Leistung, die in Studien berichtet wird, über verschiedene Textannotationsaufgaben repliziert werden kann, könnte die Validierung weniger besorgniserregend sein. Wenn diese Leistung jedoch nicht auf eine breite Palette von Aufgaben anwendbar ist, könnten Forscher voreingenommene Labels erstellen, die ihre Analysen beeinflussen. Zu glauben, dass KI-Annotationen menschliche Kategorisierungen widerspiegeln, ist riskant, wenn es keine Ground-Truth-Labeling gibt, um sie zu überprüfen.
Wir betonen die Notwendigkeit menschlicher Aufsicht bei automatisierter Annotation, indem wir die KI-Leistung bei Aufgaben testen, die weniger wahrscheinlich kontaminiert sind. Unsere Arbeit umfasst die Replikation von 27 manuellen Annotation-Aufgaben aus 11 nicht-öffentlichen Datensätzen, die aus hochwertigen sozialwissenschaftlichen Studien stammen. Die ursprünglichen Datensätze enthalten von Menschen generierte Annotationen, die wir als Wahrheit betrachten.
Statt uns darauf zu konzentrieren, ob KI besser abschneidet als Menschen, untersuchen wir, wie gut sie ihre Ausgaben mit menschlichem Urteil in Einklang bringen kann. Unsere zentrale Frage ist, ob generative KI menschliche Annotationen in der sozialwissenschaftlichen Forschung angemessen nachahmen kann.
Für jede Aufgabe geben wir GPT-4 detaillierte Anweisungen, um Textproben gemäss den Kategorien aus der ursprünglichen Studie zu kennzeichnen. Dann vergleichen wir die KI-Annotationen mit menschlichen Annotationen sowie mit beaufsichtigten Klassifikationsmodellen, die mit menschlichen Labels trainiert wurden. Nach unseren Hauptanalysen führen wir auch weitere Tests durch, um Wege zu finden, die Leistung der KI-Annotation zu verbessern.
Wichtige Ergebnisse aus unseren Analysen
KI-Leistung ist inkonsistent: Die Leistung von GPT-4 bei der Annotation von Text variiert erheblich zwischen verschiedenen Aufgaben und Datensätzen. Während die Leistung bei einigen Aufgaben gut ist, stimmen die Ergebnisse in vielen Fällen möglicherweise nicht mit menschlichen Urteilen überein. Unsere Gesamtergebnisse zeigen, dass GPT-4 eine mediane Genauigkeit von etwa 85 % erzielt, aber einige Aufgaben liegen deutlich darunter und schaffen es oft nicht, mehr als die Hälfte der relevanten Instanzen korrekt zu kennzeichnen.
Recall vs. Precision: GPT-4 zeigt tendenziell einen stärkeren Recall als eine hohe Präzision. Das bedeutet, dass es besser darin ist, relevante Instanzen zu erfassen, als falsche zu vermeiden. Die Automatisierung von Annotation könnte am besten als erster Schritt in einer mehrstufigen Pipeline funktionieren, bei der menschliche Prüfer die ersten Ausgaben überprüfen.
Eingeschränkte Verbesserung durch Optimierungstechniken: Techniken wie das manuelle Anpassen von Eingaben oder das Abstimmen von KI-Parametern führten nur zu geringfügigen Leistungsverbesserungen. Diese Methoden werden wahrscheinlich nicht die Probleme mit inkonsistenten KI-Ausgaben vollständig beheben.
Überwachte Klassifizierer können KI übertreffen: Mit ausreichend Trainingsdaten übertreffen überwachte Modelle oft die Leistung von GPT-4, insbesondere wenn grössere Datensätze zum Training verfügbar sind.
Daten und wie wir unsere Analysen durchgeführt haben
Um zu verstehen, wie gut die KI abschneidet, haben wir 27 manuelle Annotation-Aufgaben aus 11 aktuellen sozialwissenschaftlichen Artikeln analysiert. Diese Aufgaben wurden ausgewählt, um eine Vielzahl realer Annotation-Herausforderungen widerzuspiegeln. Wir betrachten jedes Label in den ursprünglichen Datensätzen als separate binäre Klassifikationsaufgabe und zerlegen Multiklass-Aufgaben in binäre. Dies ermöglicht eine detailliertere Leistungsbewertung.
Über alle Aufgaben hinweg sehen wir unterschiedliche Grade von Klassenungleichgewichten. Während die meisten Annotation-Verfahren von einer Mischung aus Crowdworkern und Fachleuten durchgeführt wurden, stellen wir sicher, dass unsere replizierten Aufgaben aus respektierten, peer-reviewed Studien stammen, um Bedenken hinsichtlich der Datenqualität zu minimieren.
Indem wir nur Datensätze verwenden, die sicher gespeichert sind, sind unsere Ergebnisse weniger wahrscheinlich von Datenlecks oder -kontamination betroffen, was häufige Herausforderungen bei der Bewertung der KI-Leistung sind.
Zur Bewertung der KI-Leistung folgen wir einem vierstufigen menschzentrierten Workflow:
Anweisungen erstellen: Wir beginnen mit einem klaren Satz von Anweisungen für jede Aufgabe, in denen die wichtigsten Kategorien definiert werden, die annotiert werden sollen.
Beispiele kennzeichnen: Wir lassen die KI eine ausgewählte Probe von Text kennzeichnen, die bereits von Menschen beschriftet wurde, unter Verwendung der Anweisungen, die wir erstellt haben.
Überprüfen und Anpassen: Wir verfeinern unsere Anweisungen basierend auf der Leistung und den Fehlern der KI, um sicherzustellen, dass sie besser mit menschlichen Urteilen übereinstimmt.
Endgültige Leistungsprüfung: Wir nutzen die KI, um einen weiteren Satz von Textproben unter Verwendung der überarbeiteten Anweisungen zu kennzeichnen und bewerten ihre endgültige Leistung.
Insgesamt beinhalten unsere Analysen über 75.000 Textproben, wobei der gesamte Prozess weniger als 500 Dollar kostet. Im Durchschnitt benötigt die KI etwa eine Stunde, um 1.000 Proben zu kennzeichnen, was ihre Effizienz zeigt.
Um die Leistung der KI zu vergleichen, haben wir auch verschiedene überwachte Klassifizierer trainiert, um zu bewerten, wie gut sie im Vergleich zur KI bei verschiedenen Aufgaben abschneiden. Wir haben diese Modelle mit unterschiedlichen Stichprobengrössen optimiert und jene ausgewählt, die die besten Ergebnisse erzielten.
Leistungsmetriken und Beobachtungen
Unsere Ergebnisse zeigen, dass die Leistung von GPT-4 eine mediane F1-Score von etwa 0.707 erreicht hat. Im Vergleich von Präzision und Recall über die Aufgaben hinweg stellen wir fest, dass, während mehrere Aufgaben hochwertige Annotationen produzieren, andere erheblich kämpfen. Ein erheblicher Teil der Aufgaben wies ungenaue Labels auf, was Fragen zur Zuverlässigkeit der KI für spezifische Anwendungen aufwirft.
In bestimmten Aufgaben ist die Leistung der KI bemerkenswert niedriger, insbesondere bei Aufgaben, die kulturelles Verständnis oder kontextuelle Schlussfolgerungen erfordern. Trotz vielversprechender Ergebnisse bei einigen einfachen Aufgaben hat die KI Schwierigkeiten mit komplexeren.
Es ist wichtig zu erkennen, dass die Leistung über verschiedene Aufgaben hinweg nicht einheitlich ist. Einige Aufgaben erzielten eine starke Leistung, während andere kürzer abschnitten, was auf Variabilität hinweist, die Forscher berücksichtigen müssen, wenn sie KI für Annotation verwenden.
Strategien zur Verbesserung und zukünftige Richtungen
Um die Leistung der KI zu steigern, haben wir verschiedene Methoden untersucht, einschliesslich der Optimierung von Eingaben und der Feinabstimmung anderer Parameter. Obwohl diese Strategien zu leichten Verbesserungen führten, wurden die grundlegenden Leistungsprobleme nicht ausreichend behandelt.
Die Erforschung, wie man Unsicherheiten in den KI-Ausgaben messen kann, zeigte sich ebenfalls als nützliches Werkzeug. Durch die Bewertung der Konsistenz der KI bei der Kennzeichnung konnten wir besser Sonderfälle identifizieren, die möglicherweise eine weitere menschliche Überprüfung rechtfertigen.
Während wir unsere Analysen durchführten, schauten wir auch darauf, ob sich die Leistung der KI im Laufe der Zeit verändert. Erste Ergebnisse zeigen minimale Veränderungen in der Leistung zwischen verschiedenen Bewertungszeiträumen, was die Notwendigkeit fortlaufender Validierung anzeigt.
Letztendlich, während KI-Werkzeuge wie GPT-4 für viele Aufgaben hochwertige Annotationen bieten können, müssen Forscher bei der automatisierten Annotation vorsichtig vorgehen. Es ist entscheidend, die Ausgaben der KI gegen von Menschen erstellte Validierungsdaten zu validieren, insbesondere angesichts bestehender Bedenken hinsichtlich Bias.
Für die Zukunft fordern wir mehr Arbeiten zur Verbesserung der Bewertungen automatisierter Annotation in Fällen, in denen die menschliche Validierung Herausforderungen darstellt. Es wird immer komplexe Kategorien geben, die sorgfältige menschliche Eingaben und klare Richtlinien erfordern.
Fazit
Zusammenfassend lässt sich sagen, dass, während generative KI wertvolle Möglichkeiten zur Automatisierung der Textannotation bietet, Forscher einen menschzentrierten Ansatz beibehalten müssen. Unsere Ergebnisse unterstreichen die Bedeutung robuster Validierungsmethoden, um sicherzustellen, dass die Ausgaben der KI mit dem menschlichen Verständnis übereinstimmen.
Automatisierte Annotation kann Forschungsprozesse streamline, aber ohne sorgfältige Bewertung und Aufsicht besteht ein erhebliches Risiko für ungenaue oder voreingenommene Ergebnisse. Forscher werden ermutigt, strenge Validierungspraktiken zu übernehmen, um die Stärken von KI zu nutzen und ihre Schwächen effektiv anzugehen.
Durch die Förderung einer Zusammenarbeit zwischen Menschen und KI können wir das Potenzial der automatisierten Annotation in der sozialwissenschaftlichen Forschung und darüber hinaus besser ausschöpfen. Der Weg nach vorne liegt darin, unsere Methoden zu verfeinern und kontinuierliche Validierung sicherzustellen, während wir KI-Tools in unsere Arbeitsabläufe integrieren.
Titel: Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI
Zusammenfassung: Automated text annotation is a compelling use case for generative large language models (LLMs) in social media research. Recent work suggests that LLMs can achieve strong performance on annotation tasks; however, these studies evaluate LLMs on a small number of tasks and likely suffer from contamination due to a reliance on public benchmark datasets. Here, we test a human-centered framework for responsibly evaluating artificial intelligence tools used in automated annotation. We use GPT-4 to replicate 27 annotation tasks across 11 password-protected datasets from recently published computational social science articles in high-impact journals. For each task, we compare GPT-4 annotations against human-annotated ground-truth labels and against annotations from separate supervised classification models fine-tuned on human-generated labels. Although the quality of LLM labels is generally high, we find significant variation in LLM performance across tasks, even within datasets. Our findings underscore the importance of a human-centered workflow and careful evaluation standards: Automated annotations significantly diverge from human judgment in numerous scenarios, despite various optimization strategies such as prompt tuning. Grounding automated annotation in validation labels generated by humans is essential for responsible evaluation.
Autoren: Nicholas Pangakis, Samuel Wolken
Letzte Aktualisierung: 2024-09-21 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.09467
Quell-PDF: https://arxiv.org/pdf/2409.09467
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.