Identifizierung von KI-generierten Texten in der Bildung
In diesem Artikel wird untersucht, wie man menschliches und KI-Schreiben auseinanderhalten kann.
― 7 min Lesedauer
Inhaltsverzeichnis
Kürzlich sind Tools, die Texte mit künstlicher Intelligenz (KI) erstellen, wie ChatGPT, total angesagt geworden. Diese Tools können Schülern helfen, indem sie Aufsätze oder andere schriftliche Arbeiten generieren. Das wirft für Lehrer die Frage auf: Wie können sie feststellen, ob ein Text von einem Schüler oder einer KI erstellt wurde? Dieser Artikel geht diesem Thema nach. Wir wollen Wege finden, um Texte, die von KI geschrieben wurden, zu erkennen und sie von menschlichem Schreiben zu unterscheiden.
Die Notwendigkeit der Unterscheidung
Da KI-Tools immer häufiger eingesetzt werden, ist es wirklich wichtig, zwischen Inhalten, die von Menschen erstellt wurden, und denen, die von Maschinen generiert wurden, zu unterscheiden. Während beide Schreibarten Informationen vermitteln können, tun sie das oft mit unterschiedlichen Absichten. Menschliches Schreiben kommt normalerweise aus persönlichen Erfahrungen und Kreativität, während KI-generierte Texte auf Mustern und Daten basieren, die in das System eingespeist wurden. KI könnte Phrasen wiederholen oder bestimmten Formeln folgen, während menschliches Schreiben tendenziell abwechslungsreicher und einzigartiger ist.
Die Herausforderung wird grösser, je besser die KI-Modelle werden. Sie können Texte produzieren, die realistisch und originell erscheinen, was zu Problemen wie Plagiaten oder der Verbreitung falscher Informationen führen kann. Deshalb gibt es einen dringenden Bedarf an Tools, die helfen können zu erkennen, ob ein Text von einer Person oder KI erstellt wurde.
Forschungsziele
In unserer Studie konzentrieren wir uns auf die Unterschiede zwischen menschlichem Schreiben und KI-generierten Texten. Indem wir diese Unterschiede untersuchen, hoffen wir, die Erkennungsmethoden für KI-generierte Texte zu verbessern. Ausserdem wollen wir eine wertvolle Ressource für zukünftige Studien in diesem Bereich schaffen. Wir haben einen neuen Satz von Texten zu zehn Schulfachbereichen gesammelt, um unsere Recherche zu unterstützen.
Um unsere Arbeit zu erleichtern, haben wir uns entschieden, Texte mit ChatGPT zu generieren, weil es eines der am häufigsten verwendeten Tools zurzeit ist. Sein Training mit grossen Datensätzen macht es zu einem starken Kandidaten für die Generierung von Texten, die menschlichem Schreiben ähnlich sehen.
Verwandte Arbeiten
Chatbots wie ChatGPT nutzen fortschrittliche Sprachverarbeitung, um Texte basierend auf Nutzeranfragen zu produzieren. ChatGPT ist besonders darauf ausgelegt, auf Anfragen mit relevantem Text zu reagieren. Obwohl die genauen Details seines Trainings nicht öffentlich sind, ist bekannt, dass die vorherige Version dieses Modells auf einer riesigen Menge von Daten trainiert wurde, was es ihm ermöglicht, Texte zu erstellen, die oft schwer von menschlichem Schreiben zu unterscheiden sind.
Mit der wachsenden Nutzung von KI-Tools wird es immer wichtiger, zu erkennen, ob ein Text menschlich oder KI-generiert ist. Es gibt viele Tools, die dabei helfen, darunter GPTZero, das sich auf die Analyse von Mustern im Schreiben konzentriert. Während diese Tools vielversprechend sind, haben sie dennoch Herausforderungen in Bezug auf ihre Genauigkeit. Neueste Studien haben verschiedene Methoden zur Verbesserung der Erkennung untersucht, aber viele haben nur einfache Anfragen an die KI betrachtet.
Unsere neue Datensammlung
Für unsere Forschung haben wir eine neue Sammlung von etwa 500 Artikeln erstellt. Diese Sammlung umfasst Texte zu zehn verschiedenen Schulfachbereichen, wie Biologie, Geschichte und Sport. Für jedes Fach haben wir zehn spezifische Themen ausgewählt. Wir haben Texte auf zwei Arten generiert: zuerst mit einfachen Anfragen, die die KI einfach bitten, über ein Thema zu schreiben, und zweitens mit fortgeschritteneren Anfragen, die der KI sagen, sie solle so schreiben, als wäre sie ein Mensch.
Wir haben auch Beispiele für KI-generiertes Umformulieren menschlicher Texte erstellt. Für unser Umformulieren haben wir Texte verwendet, die aus Wikipedia-Artikeln stammen und vor der Veröffentlichung von ChatGPT veröffentlicht wurden, um sicherzustellen, dass die menschlichen Texte originell sind.
Arten von KI-Texten
Wir haben uns auf zwei Hauptbereiche von KI-generierten Texten konzentriert:
Einfache KI-generierte Texte: Das sind Texte, die komplett von der KI mit einfachen Anfragen erstellt wurden. Zum Beispiel, die KI zu bitten, Informationen über eine bestimmte Stadt zu generieren.
Fortgeschrittene KI-generierte Texte: Diese Texte werden mit Anweisungen erstellt, dass die KI so schreiben soll, dass es menschlichem Schreiben ähnlicher ist. Zum Beispiel die KI anweisen, über ein Thema zu schreiben, als ob es ein Mensch wäre.
Neben der Generierung neuer Texte haben wir auch menschlich verfasste Texte zur Vergleichsanalyse gesammelt. Dadurch konnten wir analysieren, wie sich die verschiedenen Merkmale von KI-generierten Texten von denen unterscheiden, die von Menschen verfasst wurden.
Merkmale zur Textklassifikation
Um zu erkennen, ob ein Text menschlich oder KI-generiert ist, haben wir mehrere Merkmale betrachtet:
Perplexitätsmerkmale
Perplexität ist ein Mass dafür, wie gut ein Sprachmodell das nächste Wort in einer Sequenz vorhersagt. Ein niedriger Perplexitätswert deutet in der Regel darauf hin, dass der Text vorhersehbarer ist, was darauf hindeutet, dass er KI-generiert sein könnte. Im Gegensatz dazu ist menschliches Schreiben tendenziell überraschender und abwechslungsreicher.
Semantische Merkmale
Diese Merkmale beziehen sich auf die Bedeutung des Textes. Wir haben zum Beispiel die Stimmung des Textes untersucht, um zu sehen, ob sie positiv, neutral oder negativ war. Ausserdem haben wir bewertet, ob der Text objektiv oder subjektiv war.
Listenlookup-Merkmale
Diese beinhalten das Überprüfen spezifischer Wortarten. Zum Beispiel, Stopwörter zu zählen oder nach wiederholten Phrasen zu suchen. Wir haben festgestellt, dass KI-generierte Texte oft vorhersehbare Muster oder wiederholte Schlüsselwörter enthalten.
Dokumentmerkmale
Diese Merkmale beziehen sich auf die Gesamtstruktur des Textes. Dazu gehört die Betrachtung von Wortfrequenzen und wie Interpunktion verwendet wird, da KI-generierte Texte oft andere Muster aufweisen als menschliches Schreiben.
Fehlerbasierte Merkmale
Menschliches Schreiben hat eher Rechtschreib- oder Grammatikfehler im Vergleich zu KI-generierten Texten, die typischerweise weniger Fehler aufweisen. Wir haben nach häufigen Fehlern gesucht, um zu erkennen, ob ein Text von einer Person oder von einer KI erstellt wurde.
Lesbarkeitseigenschaften
Wir haben gemessen, wie einfach oder schwierig der Text zu lesen ist. KI-generierte Texte haben oft andere Lesbarkeitsskoren als menschlich verfasste Texte.
KI-Feedback-Merkmale
In einem einzigartigen Ansatz haben wir ChatGPT direkt gefragt, ob es einen bestimmten Text generiert hat. Seine Antworten gaben uns zusätzliche Datenpunkte zur Klassifikation.
Textvektor-Merkmale
Diese Merkmale betrachteten die Beziehung zwischen Wörtern und ihren Bedeutungen. Durch die Analyse der Nähe ähnlicher Phrasen konnten wir mögliche Wiederholungen in KI-generierten Texten identifizieren.
Experimente und Ergebnisse
Wir haben verschiedene Merkmale mit drei unterschiedlichen Ansätzen getestet: XGBoost, Entscheidungsbäume und mehrschichtige Perzeptronen. Jede Methode lieferte Genauigkeit und F1-Scores, um zu bewerten, wie gut sie zwischen menschlichen und KI-Texten unterscheiden konnten.
Wir haben eine Reihe von Tests durchgeführt, um unsere Systeme mit den von uns erstellten Texten zu bewerten. Diese Tests wurden so gestaltet, dass wir stabile und zuverlässige Ergebnisse hatten.
Die Ergebnisse zeigten, dass unsere Modelle gut abgeschnitten haben. Zum Beispiel haben wir bei der Erkennung einfacher KI-generierter Texte einen F1-Score von über 96% erreicht. Bei komplexeren Fällen konnten wir immer noch eine hohe Genauigkeit beibehalten, was zeigt, dass unsere Methoden auch dann funktionieren, wenn die KI menschliches Schreiben genau nachahmt.
Fazit und zukünftige Richtungen
In dieser Forschung haben wir verschiedene Merkmale untersucht, die bei der Erkennung von KI-generierten Texten helfen können. Unsere Ergebnisse zeigen, dass die Kombination traditioneller Massnahmen mit neuen Merkmalen die Klassifikationsleistung erheblich verbessern kann. Mit der zunehmenden Zugänglichkeit von KI-Tools wächst das Risiko des Missbrauchs im Bildungsbereich. Unsere Erkenntnisse können Lehrern helfen, den Einsatz von KI bei schriftlichen Aufgaben zu erkennen.
Für die Zukunft planen wir, unsere Arbeit auszubauen, indem wir Texte in anderen Sprachen untersuchen und zusätzliche Arten von Anfragen an die KI erkunden. Wir glauben, dass kontinuierliche Forschung in diesem Bereich entscheidend ist, während sich die KI-Technologie weiterentwickelt. Insgesamt trägt unsere Studie wertvolle Einblicke in die anhaltende Herausforderung bei, zwischen menschlichem und KI-generiertem Schreiben zu unterscheiden.
Titel: Classification of Human- and AI-Generated Texts: Investigating Features for ChatGPT
Zusammenfassung: Recently, generative AIs like ChatGPT have become available to the wide public. These tools can for instance be used by students to generate essays or whole theses. But how does a teacher know whether a text is written by a student or an AI? In our work, we explore traditional and new features to (1) detect text generated by AI from scratch and (2) text rephrased by AI. Since we found that classification is more difficult when the AI has been instructed to create the text in a way that a human would not recognize that it was generated by an AI, we also investigate this more advanced case. For our experiments, we produced a new text corpus covering 10 school topics. Our best systems to classify basic and advanced human-generated/AI-generated texts have F1-scores of over 96%. Our best systems for classifying basic and advanced human-generated/AI-rephrased texts have F1-scores of more than 78%. The systems use a combination of perplexity, semantic, list lookup, error-based, readability, AI feedback, and text vector features. Our results show that the new features substantially help to improve the performance of many classifiers. Our best basic text rephrasing detection system even outperforms GPTZero by 183.8% relative in F1-score.
Autoren: Lorenz Mindner, Tim Schlippe, Kristina Schaaff
Letzte Aktualisierung: 2023-08-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.05341
Quell-PDF: https://arxiv.org/pdf/2308.05341
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/LorenzM97/human-AI-generatedTextCorpus
- https://gptzero.me
- https://writer.com/ai-content-detector
- https://openai-openai-detector.hf.space
- https://www.overleaf.com/project/643d3bee50ed5bb9b6d70a5cgltr
- https://www.overleaf.com/project/643d3bee50ed5bb9b6d70a5c
- https://github.com/openai/gpt-2
- https://textblob.readthedocs.io/en/dev/quickstart.html
- https://github.com/jxmorris12/language