Suchmaschinenoptimierung mit Rechtschreibkorrektur in Marktplätzen
Eine neue Methode verbessert die Suchgenauigkeit, indem sie Tippfehler der Nutzer korrigiert.
― 6 min Lesedauer
Inhaltsverzeichnis
Tippfehler sind häufige Fehler, die Leute beim Tippen machen. In Online-Marktplätzen können diese Fehler es den Nutzern schwer machen, das zu finden, was sie suchen. Wenn zum Beispiel jemand ein bestimmtes Produkt sucht, aber es falsch eintippt, helfen traditionelle Rechtschreibprüfungen oft nicht, weil sie nicht für spezifische und einzigartige Produktnamen gedacht sind. Das führt zu Frustration bei den Nutzern und kann dazu führen, dass sie die Seite verlassen, ohne etwas zu kaufen.
Um dieses Problem zu lösen, haben wir eine neue Methode entwickelt, die Suchmaschinen hilft, Tippfehler in Online-Marktplätzen zu verstehen und zu korrigieren. Unser Ansatz nutzt Synthetische Daten, um ein Computer-Modell zu trainieren, das den Kontext von kurzen und einzigartigen Produktanfragen verstehen kann. Dieses Modell hilft dann, die nächstgelegene korrekte Übereinstimmung für die Eingabe des Nutzers zu finden.
Warum Tippfehler wichtig sind
Wenn Leute Suchanfragen eintippen, kann selbst ein kleiner Fehler zu ganz anderen Ergebnissen führen. Ein einfacher Schreibfehler kann dazu führen, dass es keine Suchergebnisse gibt oder die Nutzer zu völlig unrelated Produkten geleitet werden. In einer schnelllebigen Online-Shopping-Umgebung können diese Probleme dazu führen, dass die Nutzer frustriert sind und die Seite verlassen, ohne das zu finden, was sie brauchen.
In Online-Marktplätzen tippen die Nutzer oft kurze Anfragen, normalerweise nur den Produktnamen. Diese spezifischen und meist kurzen Suchen können eine Herausforderung für Standard-Rechtschreibprüfungswerkzeuge darstellen, die auf grösseren, allgemeineren Wörterbüchern basieren.
Unser Ansatz
Unser Verfahren konzentriert sich darauf, Tippfehler zu verstehen und zu korrigieren, die beim Produktsuchen auftreten. Wir teilen unseren Ansatz in drei Hauptschritte auf:
Analyse der Tippfehler: Zuerst betrachten wir echte Tippfehler von anderen Plattformen. Durch das Studieren dieser Fehler gewinnen wir Einblicke in die häufigsten Tippfehler, die Leute machen. Diese Analyse hilft uns, Muster zu identifizieren, die uns bei der Erstellung von Trainingsdaten für unser Modell informieren.
Erstellung synthetischer Daten: Da es nicht viele reale, annotierte Daten zu Tippfehlern in fachspezifischen Bereichen gibt, generieren wir synthetische Datensätze. Diese Datensätze beinhalten die häufigen Tippfehler-Muster, die wir in unserer Analyse identifiziert haben. Wir stellen sicher, dass die generierten Daten die Arten von Produkten im Marktplatz genau repräsentieren.
Modelltraining: Wir trainieren ein neuronales Netzwerk-Modell mit den synthetischen Daten. Das Modell lernt, Repräsentationen von Produktnamen zu erstellen, die ihm helfen, ähnliche Namen zu erkennen, selbst wenn der Nutzer einen Tippfehler macht.
Tippfehler und ihre Typen
Tippfehler können viele Formen annehmen. Sie können zusätzliche Buchstaben, fehlende Buchstaben oder Buchstaben an der falschen Stelle enthalten. Durch die Kategorisierung dieser Fehler können wir besser verstehen, wie wir sie korrigieren können. Einige häufige Arten von Tippfehlern sind:
- Fehlende Zeichen: Ein Buchstabe, der versehentlich weggelassen wurde.
- Zusätzliche Zeichen: Ein zusätzlicher Buchstabe, der versehentlich eingegeben wurde.
- Ersatz: Ein Buchstabe wird durch einen anderen ersetzt.
Durch die Analyse verschiedener Datensätze, einschliesslich der von sozialen Medien und Programmierplattformen, können wir sehen, wie häufig jede Art von Fehler vorkommt.
Datensammlung und Analyse
Um unser Modell zu trainieren, haben wir Daten aus mehreren Quellen gesammelt, einschliesslich sozialer Medien und Programmierseiten. Jeder Datensatz enthält Beispiele für Tippfehler zusammen mit den richtigen Wörtern. Das gibt uns ein breiteres Verständnis davon, wie Tippfehler in verschiedenen Kontexten auftreten.
Wir haben auch untersucht, wie oft bestimmte Arten von Tippfehlern auftreten und wo in einem Wort diese Fehler am wahrscheinlichsten vorkommen. Einige Fehler tendieren dazu, eher am Ende eines Wortes als am Anfang aufzutreten. Das Verständnis dieser Verhaltensweisen hilft uns, realistischere Trainingsdaten zu erstellen.
Modelltraining
Das von uns entwickelte Modell ist darauf trainiert, verschiedene Produktnamen zu erkennen und häufige Tippfehler zu korrigieren. Es ist als ein Mehrklassen-Klassifikationsproblem strukturiert, wobei jede Klasse einem Produktnamen im Marktplatz entspricht. Das Modell ist darauf ausgelegt, aus den synthetischen Datensätzen zu lernen, die wir erstellt haben.
Mit diesem Trainingsansatz kann unser Modell Benutzeranfragen effektiv erkennen, selbst wenn es Fehler gibt. Wenn ein Nutzer eine Anfrage eintippt, vergleicht das Modell diese Eingabe mit den Produktnamen in seiner Datenbank und findet die nächstgelegene Übereinstimmung.
Ergebnisse und Verbesserungen
Nach der Implementierung des Modells haben wir signifikante Verbesserungen in der Nutzererfahrung auf dem Marktplatz beobachtet. Wir haben Kennzahlen wie die Click-Through-Rate (CTR) und die Anzahl der Suchen, die zu keinen Ergebnissen geführt haben, verfolgt. Nach der Verwendung unseres Tippfehlerkorrekturwerkzeugs verbesserte sich die CTR um 4% und die Suchen, die keine Ergebnisse lieferten, sanken um 8%.
Diese Zahlen zeigen, dass Nutzer öfter das finden, wonach sie suchen, und häufiger auf Produkte klicken, die von der Suchmaschine vorgeschlagen werden. Das hilft nicht nur den Nutzern, sondern kommt auch dem Marktplatz zugute, da es die Wahrscheinlichkeit von Verkäufen erhöht.
Echtzeit-API-Bereitstellung
Unser Modell funktioniert als Echtzeit-API. Das bedeutet, dass immer wenn ein Nutzer eine Suchanfrage eintippt, das Modell diese Eingabe schnell verarbeitet und Ergebnisse basierend auf seinem Training zurückgibt. Die API erhält täglich viele Anfragen und ist so gestaltet, dass sie schnell antwortet, damit die Nutzer beim Suchen nach Produkten keine Verzögerungen erfahren.
Insgesamt hat das Modell die Suchgenauigkeit verbessert und die Frustration der Nutzer minimiert, indem es relevante Ergebnisse anbietet, selbst wenn sie Tippfehler machen.
Zukünftige Richtungen
Für die Zukunft wollen wir die Fähigkeiten des Modells erweitern. Wir möchten mehr Arten von Fehlern einbeziehen, wie Fehler mit mehreren Buchstaben, und berücksichtigen, wie Laute Tippfehler beeinflussen. Durch die kontinuierliche Verbesserung unserer Daten und des Modells können wir noch besseren Support für Nutzer in spezifischen Bereichen bieten.
Wir planen auch, fortschrittlichere neuronale Netzwerkarchitekturen zu erkunden, die die Fähigkeit des Modells verbessern könnten, Fehler zu verstehen und zu korrigieren. Unser ultimatives Ziel ist es zu zeigen, dass synthetische Datensätze in realen Szenarien effektiv sein können, was weiterhin Verbesserungen in der Tippfehlerkorrektur und der Nutzererfahrung ermöglicht.
Fazit
Tippfehler können erhebliche Herausforderungen für Online-Marktplätze darstellen, aber mit unserem synthetisch trainierten Modell machen wir Fortschritte, um diese Probleme zu überwinden. Indem wir Tippfehler, die spezifisch für Produktsuchen sind, verstehen und einen gezielten Ansatz zur Korrektur entwickeln, haben wir die Sucherfahrung für Nutzer verbessert.
Der Erfolg unseres Tippfehlerkorrekturmodells unterstreicht den Wert synthetischer Daten beim Training von Machine-Learning-Modellen. Während wir weitere Verbesserungen und zusätzliche Fehlerarten erkunden, freuen wir uns darauf, die Nützlichkeit von Online-Marktplätzen weiter zu verbessern und die Suchen für die Nutzer einfacher und effektiver zu gestalten.
Titel: Domain specificity and data efficiency in typo tolerant spell checkers: the case of search in online marketplaces
Zusammenfassung: Typographical errors are a major source of frustration for visitors of online marketplaces. Because of the domain-specific nature of these marketplaces and the very short queries users tend to search for, traditional spell cheking solutions do not perform well in correcting typos. We present a data augmentation method to address the lack of annotated typo data and train a recurrent neural network to learn context-limited domain-specific embeddings. Those embeddings are deployed in a real-time inferencing API for the Microsoft AppSource marketplace to find the closest match between a misspelled user query and the available product names. Our data efficient solution shows that controlled high quality synthetic data may be a powerful tool especially considering the current climate of large language models which rely on prohibitively huge and often uncontrolled datasets.
Autoren: Dayananda Ubrangala, Juhi Sharma, Ravi Prasad Kondapalli, Kiran R, Amit Agarwala, Laurent Boué
Letzte Aktualisierung: 2023-08-03 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.01976
Quell-PDF: https://arxiv.org/pdf/2308.01976
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.