Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Informationsbeschaffung# Künstliche Intelligenz# Maschinelles Lernen

Pinterest verbessert die Suche mit einheitlichen Embeddings

Pinterest verbessert die Suchrelevanz mit einem neuen einheitlichen Einbettungssystem.

― 7 min Lesedauer


Pinterest verbessert dasPinterest verbessert dasSuchsystemdie Sucheffizienz erheblich.Das neue Modell von Pinterest steigert
Inhaltsverzeichnis

Pinterest ist eine beliebte Plattform, wo Nutzer nach Inspiration zu verschiedenen Themen suchen, wie zum Beispiel Wohnkultur, Hochzeiten und Mode. Mit über einer Milliarde Suchanfragen pro Monat ist es wichtig, dass Pinterest den Nutzern schnell relevante Inhalte liefert. Das wird durch ein komplexes Suchsystem erreicht, das Benutzeranfragen verstehen und Pins, Produkte und andere Inhalte effektiv abrufen kann.

Um zu verbessern, wie Pinterest mit Suchanfragen umgeht, wurde ein neues System entwickelt. Dieses System lernt, Benutzer-Suchen mit relevanten Pins und Produkten auf eine einheitlichere Weise zu verbinden. Indem es lernt, wie man Abfragen, Pins und Produkte zusammen darstellt, verbessert es das Sucherlebnis für die Nutzer erheblich.

Die Herausforderung der Suche

Nutzer kommen mit unterschiedlichen Interessen zu Pinterest, und jede Suche kann verschiedene Arten von Inhalten wie Bilder, Einkaufsartikel und Videos beinhalten. Das Ziel ist es, jede Sucherfahrung inspirierend und relevant zu gestalten. Allerdings hat Pinterest Herausforderungen, da es mit Milliarden von Pins und Produkten umgehen muss und Suchen in mehreren Sprachen unterstützt.

Separate Darstellungen für jede Art von Inhalt zu erstellen, könnte zu einer ineffizienten Nutzung von Ressourcen führen. Stattdessen zielt das neue System darauf ab, eine einheitliche Darstellung für verschiedene Inhaltstypen zu nutzen, um den Abrufprozess zu vereinfachen.

Was sind Embeddings?

Embeddings sind eine Möglichkeit, Elemente wie Pins und Produkte in einem numerischen Format darzustellen. Das ermöglicht es dem System, die Beziehungen zwischen verschiedenen Elementen zu verstehen. Embeddings können helfen, wie Elemente abgerufen und in Suchergebnissen eingestuft werden. Wenn jedoch jeder Anwendungsfall sein eigenes Embedding hat, kann das zu zu vielen Modellen führen, die schwer zu verwalten sind.

Das neue System konzentriert sich darauf, ein einziges Embedding für Suchanfragen zu lernen, während es auch mit bestehenden Embeddings kompatibel ist. Das reduziert die Komplexität und verbessert die Leistung.

Verbesserung der Entitätsdarstellungen

Um die Qualität der Embeddings zu verbessern, werden verschiedene Textquellen genutzt. Pins und Produkte auf Pinterest kommen mit Bildern, Titeln, Beschreibungen und zusätzlichen Informationen wie Markendetails. Durch die Anreicherung der Embeddings mit vielfältigem Text erhält das System ein besseres Verständnis davon, was jeder Pin oder jedes Produkt darstellt.

Synthetische Beschreibungen

Viele Pins haben keine nützlichen Titel oder Beschreibungen. Um dieses Problem anzugehen, generiert das System synthetische Beschreibungen für diese Pins. Mit Hilfe fortschrittlicher Bildbeschreibungsmodelle erstellt es relevante Beschreibungen für Bilder. Diese zusätzlichen Beschreibungen helfen dem Modell, den Inhalt besser zu verstehen, was zu verbesserten Empfehlungen führt.

Board-Titel

Nutzer erstellen Boards, um ihre Lieblings-Pins zu speichern, und jedes Board hat einen Titel, der sein Thema widerspiegelt. Indem das System die Titel der Boards nutzt, in denen Pins gespeichert sind, kann es eine weitere Kontextschicht hinzufügen. Diese nutzergenerierten Informationen dienen als Leitfaden, um den Inhalt besser zu verstehen.

Interaktive Anfragen

Wenn Nutzer mit bestimmten Pins für eine bestimmte Anfrage interagieren, zeigt das, dass diese Pins relevant für diese Anfrage sind. Das System verfolgt diese interaktiven Anfragen, um das Verständnis jedes Pins oder Produkts zu verbessern. Durch die Analyse von Nutzerinteraktionen kann das Modell relevante Anfragen identifizieren und in den Embedding-Prozess einbeziehen.

Das einheitliche Modell

Das System verwendet ein Einheitliches Modell, um Suchanfragen, Pins und Produkte zu verarbeiten. Statt separate Modelle für jede Art von Inhalt zu haben, nutzt es einen einzigen Rahmen, um deren Embeddings gemeinsam zu lernen. Dieses gemeinsame Lernen ermöglicht es dem Modell, ein kohärentes Verständnis aller Entitäten im Suchprozess zu erstellen.

Abfrageencoder

Der Abfrageencoder ist so konzipiert, dass er Suchanfragen effizient verarbeitet. Er projiziert die Ausgabe in einen niederdimensionalen Raum, um Vergleiche zu vereinfachen. Das hilft dem Modell, schnell zu beurteilen, wie relevant ein Pin oder Produkt für eine bestimmte Anfrage ist.

Einheitlicher Pin- und Produktencoder

Ein einziger Encoder wird sowohl für Pins als auch für Produkte verwendet. Dieser Encoder verarbeitet verschiedene Merkmale gemeinsam, was es einfacher macht zu verstehen, wie sie mit Benutzeranfragen zusammenhängen. Er verwendet verschiedene Tokenizer, um Texmerkmale effektiv zu erfassen und sicherzustellen, dass keine wichtigen Details übersehen werden.

Kompatibilitätseencoder

Kompatibilitätseencoder sind sowohl für Pins als auch für Produkte enthalten, um sicherzustellen, dass die neuen Embeddings gut mit bestehenden Modellen übereinstimmen. Diese Encoder lernen, die neuen Abfrage-Embeddings auf die bereits verwendeten Embeddings für Pins und Produkte abzubilden, was einen reibungslosen Übergang und eine Integration erleichtert.

Training des Modells

Der Trainingsprozess umfasst die Nutzung mehrerer Aufgaben, um sicherzustellen, dass das Modell effektiv lernt. Durch das Training mit Abfrage-Entität-Paaren und die Nutzung von Multitasking kann das System seine Leistung in verschiedenen Bereichen optimieren.

Datensammlung

Um das Modell zu trainieren, sammelt das System einen Datensatz aus Suchprotokollen, der verschiedene Interaktionen wie Speichern und Klicken umfasst. Durch die Begrenzung der Anzahl der Paare mit demselben Pin wird ein Popularitätsbias vermieden, und es wird sichergestellt, dass der Datensatz echtes Nutzerinteresse widerspiegelt.

Offline-Bewertung

Nach dem Training wird das Modell sowohl mit Nutzerdaten als auch mit menschlichen Bewertungen evaluiert. Die Relevanz durch Nutzerinteraktionen zu messen gibt Einblicke in die Leistung des Modells in realen Szenarien.

Ergebnisse des Modells

Das vorgeschlagene System hat in mehreren Schlüsselbereichen im Vergleich zu früheren Modellen signifikante Verbesserungen gezeigt.

Vergleich mit Baselines

Das neue Modell hat frühere Versionen konstant in der Vorhersage der Nutzerinteraktion über verschiedene Aufgaben hinweg übertroffen. Mit Verbesserungen in Rückruf und Relevanz hat es sich als effektiver erwiesen, Anfragen zu verstehen und die richtigen Pins und Produkte abzurufen.

Bedeutung der Inhaltsanreicherung

Die Integration synthetischer Beschreibungen, Board-Titel und interaktiver Anfragen in den Embedding-Prozess hat erhebliche Verbesserungen in der Leistung bewirkt. Jede dieser Anreicherungen hat einzigartig zur Verbesserung beigetragen, wie gut das Modell relevante Artikel empfehlen und abrufen konnte.

Einfluss von Multitasking

Die Verwendung eines Multitasking-Ansatzes im Training erlaubte es dem Modell, gemeinsame Informationen über die Aufgaben hinweg zu nutzen. Obwohl es einen leichten Leistungsabfall bei Pin-Aufgaben gab, überwogen die Gesamtvorteile von verbesserter Effizienz und besseren Lernergebnissen jede negative Auswirkung.

Einfluss von Kompatibilitätseencodern

Durch die Einbeziehung von Kompatibilitätseencodern hat das System erfolgreich gelernt, neue Embeddings mit bereits bestehenden abzugleichen, ohne signifikante Verluste in der Leistung. Dies stellt sicher, dass der Übergang zum neuen Modell reibungslos und effizient verläuft.

Anwendungen in der Pinterest-Suche

Die neuen Embeddings werden im gesamten Pinterest-Suchstapel in Aufgaben wie Abruf und Ranking eingesetzt. Sie verbessern, wie Pins und Produkte als Antwort auf Benutzeranfragen abgerufen werden.

Verbesserung der organischen Suche

In Live-Tests führte der Austausch der alten Embeddings gegen die neuen zu Verbesserungen in der Nutzerinteraktion und Relevanz. Die Kennzahlen für Sucherfüllungsraten und Gesamtrelevanz zeigten positive Veränderungen, was darauf hinweist, dass die Nutzer mehr von dem fanden, wonach sie suchten.

Verbesserung von Anzeigen in der Suche

Das neue System erweitert seine Vorteile auch auf Werbung. Durch den Einsatz besserer Embeddings wurde die Relevanz des Anzeigentexts verbessert, was zu höheren Interaktionsraten führte. Der Übergang zum neuen Modell zeigte merkliche Leistungsgewinne in verschiedenen werbebezogenen Anwendungsfällen.

Fazit

Der neue Ansatz zu Embeddings für Anfragen, Pins und Produkte stellt einen bedeutenden Fortschritt für die Suchfähigkeiten von Pinterest dar. Durch die Nutzung eines einheitlichen Modells und die Anreicherung der Entitätsdarstellungen verbessert das System nicht nur das Benutzererlebnis, sondern stärkt auch die Gesamtleistung der Suchmaschine. Mit fortlaufenden Bewertungen und Updates wird dieses Modell dazu beitragen, wie Nutzer Inspiration auf Pinterest finden, und es zu einem unverzichtbaren Tool für viele machen.

Originalquelle

Titel: OmniSearchSage: Multi-Task Multi-Entity Embeddings for Pinterest Search

Zusammenfassung: In this paper, we present OmniSearchSage, a versatile and scalable system for understanding search queries, pins, and products for Pinterest search. We jointly learn a unified query embedding coupled with pin and product embeddings, leading to an improvement of $>8\%$ relevance, $>7\%$ engagement, and $>5\%$ ads CTR in Pinterest's production search system. The main contributors to these gains are improved content understanding, better multi-task learning, and real-time serving. We enrich our entity representations using diverse text derived from image captions from a generative LLM, historical engagement, and user-curated boards. Our multitask learning setup produces a single search query embedding in the same space as pin and product embeddings and compatible with pre-existing pin and product embeddings. We show the value of each feature through ablation studies, and show the effectiveness of a unified model compared to standalone counterparts. Finally, we share how these embeddings have been deployed across the Pinterest search stack, from retrieval to ranking, scaling to serve $300k$ requests per second at low latency. Our implementation of this work is available at https://github.com/pinterest/atg-research/tree/main/omnisearchsage.

Autoren: Prabhat Agarwal, Minhazul Islam Sk, Nikil Pancha, Kurchi Subhra Hazra, Jiajing Xu, Chuck Rosenberg

Letzte Aktualisierung: 2024-04-24 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2404.16260

Quell-PDF: https://arxiv.org/pdf/2404.16260

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel