Auslösen von Inhalten in Fanfiction erkennen

Inhaltsverzeichnis

Was sind auslösende Inhalte?
Unser Ansatz
Umgang mit Klassenungleichgewicht
Validierung unseres Ansatzes
Ergebnisse
Fazit
Originalquelle
Referenz Links

Fanfiction ist eine kreative Möglichkeit für Fans, ihre eigenen Geschichten mit Charakteren und Settings aus bestehenden fiktiven Werken zu schreiben. Diese Art des Schreibens hat online richtig an Popularität gewonnen. Allerdings, mit dem Wachstum der Community sind auch die Bedenken über die Sicherheit und das Wohlbefinden ihrer Mitglieder gestiegen. Ein grosses Problem ist das Vorhandensein von auslösenden Inhalten, die für manche Leser belastend oder traumatisch sein können. Unser Ziel ist es, Wege zu finden, um diese auslösenden Inhalte in Fanfiction-Geschichten zu erkennen.

Was sind auslösende Inhalte?

Auslösende Inhalte beziehen sich auf Material, das starke emotionale Reaktionen hervorrufen kann und manchmal zu Stress oder Trauma führt. Diese Art von Inhalten kann Themen wie Missbrauch, Gewalt, psychische Gesundheitsprobleme oder andere sensible Themen umfassen. Es ist wichtig, dass Fanfiction-Autoren und -Leser Systeme haben, die diese Art von Inhalten effektiv identifizieren und verwalten können, angesichts der Vielzahl von Erfahrungen und Emotionen, die Leser haben können.

Unser Ansatz

In unserer Studie haben wir uns darauf konzentriert, Trigger in langen Fanfiction-Texten mithilfe von natürlicher Sprachverarbeitung (NLP) und Techniken des maschinellen Lernens zu erkennen. Das Ziel war, einen Algorithmus zu entwickeln, der mehrere Instanzen von auslösenden Inhalten genau identifizieren kann. Wir haben eine Methode entworfen, bei der lange Fanfiction-Dokumente in kleinere Abschnitte zerlegt werden, was eine bessere Analyse ermöglicht. Dann haben wir einen spezifischen Sprachmodelltyp feinabgestimmt, um unser Verständnis und die Klassifizierung dieser Texte zu verbessern.

Segmentierung des Textes

Um unsere Analyse zu erleichtern, haben wir zuerst lange Fanfiction-Geschichten in kleinere Textsegmente unterteilt. Jedes Segment enthielt 200 Wörter, mit einer 50-Wörter-Überlappung, um den Kontext zu erfassen. Das bedeutete, dass das Ende eines Segments mit dem Anfang des nächsten Segments überlappte, was uns half, wichtige Informationen zu behalten, die verloren gehen könnten, wenn wir den Text zu scharf schneiden.

Tokenisierung

Nach der Segmentierung des Textes haben wir mit einem Schritt namens Tokenisierung fortgefahren. Dabei wurde unser gewähltes Sprachmodell, ein auf Transformern basierendes Modell namens RoBERTa, mit den kleinen Segmenten, die wir erstellt hatten, feinabgestimmt. Tokenisierung wandelt den Text in ein Format um, mit dem das Modell arbeiten kann. Wir haben eine Version des RoBERTa-Modells verwendet, die leicht verfügbar ist, und die Parameter wie Lernrate und Batch-Grösse angepasst, um das Training zu optimieren.

Merkmals-Extraktion

Nachdem die Tokenisierung abgeschlossen war, haben wir Merkmals-Embeddings aus jedem Segment extrahiert. Diese Embeddings sind Sammlungen von numerischen Werten, die die Bedeutung des Textsegments repräsentieren, sodass unser Modell informierte Entscheidungen treffen kann. Wir haben uns speziell die Embeddings eines Klassifikationstokens angeschaut, das zur Kategorisierung des Inhalts verwendet wird.

Modelltraining

Der nächste Schritt in unserem Ansatz war das Training eines Modells mit einem neuronalen Netzwerk, das als LSTM (Long Short-Term Memory Netzwerk) bekannt ist. Dieses Netzwerk wurde entwickelt, um unsere extrahierten Merkmale zu verarbeiten und Muster zu identifizieren, die auf auslösende Inhalte hindeuten. Wir haben eine Reihe von Techniken verwendet, um das Training zu optimieren und sicherzustellen, dass unser Modell effektiv lernt.

Umgang mit Klassenungleichgewicht

Eine der Herausforderungen, vor denen wir standen, war, dass bestimmte auslösende Themen häufiger vorkommen als andere. Zum Beispiel könnten Inhalte im Zusammenhang mit Gewalt häufiger vorkommen als Themen wie Tierquälerei. Das schafft ein Ungleichgewicht in unserem Datensatz. Um dieses Problem anzugehen, haben wir die Wichtigkeit verschiedener Labels beim Training unseres Modells angepasst. Indem wir das Gewicht für weniger häufige Themen erhöhten, wurde unser Modell besser darin, sie zu erkennen.

Validierung unseres Ansatzes

Nachdem wir unser Modell trainiert hatten, mussten wir dessen Leistung validieren. Wir haben unsere Ergebnisse mit traditionellen Methoden verglichen, wie zum Beispiel die Verwendung von BERT, einem anderen auf Transformern basierenden Sprachmodell, und einem Modell, das auf TF-IDF-Dokumentvektoren basierte, kombiniert mit XGBoost, einer Boosting-Technik. Unser Modell zeigte eine bessere Genauigkeit und Effektivität bei der Identifizierung von auslösenden Inhalten im Vergleich zu diesen Basisverfahren.

Ergebnisse

Wir haben unser Modell mit einem Multi-Label-Klassifikationsansatz bewertet, bei dem jedem Fanfiction-Dokument mehrere Trigger-Labels zugewiesen werden konnten. Die Leistung unseres Modells wurde anhand von Metriken wie F1-Macro und F1-Micro Scores gemessen, die uns helfen zu verstehen, wie gut unser Modell insgesamt abschneidet. Unser Ansatz erzielte höhere Punktzahlen als die anderen getesteten Methoden, insbesondere bei der Erkennung einer breiten Palette von auslösenden Inhalten.

Klassenleistung

Wir haben analysiert, wie gut unser Modell mit verschiedenen Trigger-Klassen abschnitt. Durch das Anwenden von Gewichten auf die Verlustfunktion während des Trainings konnten wir die Sensitivität des Modells bei der Erkennung seltenerer Trigger-Klassen verbessern. Dadurch verbesserte sich die Gesamtleistung des Modells erheblich.

Testergebnisse

Als wir unser Modell zur externen Prüfung einreichten, wurde es auf einer bestimmten Hardware-Konfiguration evaluiert. Der Prozess dauerte etwa 150 Minuten. Unser Modell erzielte beeindruckende Ergebnisse und belegte den ersten Platz für den Makro-F1-Score und den zweiten Platz für den Mikro-F1-Score unter allen Teilnehmern des Wettbewerbs.

Fazit

Diese Studie präsentiert einen systematischen Ansatz zur Identifizierung von auslösenden Inhalten in Fanfiction, indem natürliche Sprachverarbeitung und Techniken des maschinellen Lernens eingesetzt werden. Durch die Segmentierung langer Dokumente, das Feintuning eines auf Transformern basierenden Modells und die Verwendung von LSTMs zur Klassifizierung haben wir die Fähigkeit unseres Modells gezeigt, mehrere Instanzen von auslösenden Inhalten genau zu erkennen. Die Ergebnisse zeigen, dass unsere Methode traditionelle Modelle in Genauigkeit und Effektivität übertrifft. Unsere Erkenntnisse unterstreichen die Bedeutung der Weiterentwicklung von Techniken zur Verbesserung der Erkennung sensibler Inhalte in Texten, insbesondere in dynamischen und kreativen Gemeinschaften wie Fanfiction.

Während die Gemeinschaften weiterhin wachsen und sich entwickeln, ist es entscheidend, die Sicherheit und das Wohlbefinden ihrer Mitglieder zu gewährleisten. Die Werkzeuge und Methoden, die wir entwickeln, werden entscheidend sein, um ein unterstützendes Umfeld zu fördern, in dem Kreativität gedeihen kann, ohne die emotionale Gesundheit der Teilnehmer zu gefährden. Unsere laufende Forschung wird sich darauf konzentrieren, diese Techniken weiter zu verfeinern und ihre Anwendung über verschiedene Arten von Inhalten hinaus zu erkunden, nicht nur in Fanfiction.

Auslösen von Inhalten in Fanfiction erkennen

Wir haben eine Methode entwickelt, um auslösende Inhalte in Fanfiction mit maschinellem Lernen zu identifizieren.

Was sind auslösende Inhalte?

Unser Ansatz

Segmentierung des Textes

Tokenisierung

Merkmals-Extraktion

Modelltraining

Umgang mit Klassenungleichgewicht

Validierung unseres Ansatzes

Ergebnisse

Klassenleistung

Testergebnisse

Fazit

Referenz Links

Referenzierte Themen

Auslösen von Inhalten in Fanfiction erkennen

Wir haben eine Methode entwickelt, um auslösende Inhalte in Fanfiction mit maschinellem Lernen zu identifizieren.

#Was sind auslösende Inhalte?

#Unser Ansatz

#Segmentierung des Textes

#Tokenisierung

#Merkmals-Extraktion

#Modelltraining

#Umgang mit Klassenungleichgewicht

#Validierung unseres Ansatzes

#Ergebnisse

#Klassenleistung

#Testergebnisse

#Fazit

Referenz Links

Referenzierte Themen

Was sind auslösende Inhalte?

Unser Ansatz

Segmentierung des Textes

Tokenisierung

Merkmals-Extraktion

Modelltraining

Umgang mit Klassenungleichgewicht

Validierung unseres Ansatzes

Ergebnisse

Klassenleistung

Testergebnisse

Fazit