Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Apprentissage automatique

Transformer les données de recherche Google en prévisions

Utiliser les données de recherche pour prédire les ventes de voitures et les taux de grippe.

― 11 min lire


Prédictions de donnéesPrédictions de donnéesGoogledonnées de recherche Google.Modèles prédictifs utilisant les
Table des matières

Chaque jour, des millions de gens se tournent vers Google Search pour trouver des infos sur divers sujets, des nouvelles voitures aux symptômes de la grippe. Les mots qu’ils tapent dans la barre de recherche contiennent des infos importantes sur ce qu’ils cherchent et ce qu’ils font. Mais comprendre ces termes de recherche, c’est pas si simple. D'habitude, les utilisateurs utilisent des catégories pour filtrer les données de recherche, mais cette méthode passe souvent à côté de beaucoup de détails.

Dans cette étude, on propose une nouvelle façon de condenser les données de recherche en une taille plus petite tout en gardant les infos essentielles des termes individuels, sans dépendre des catégories définies par les utilisateurs. Notre approche inclut deux idées principales : d’abord, on propose une méthode appelée SLaM Compression, qui utilise des modèles de langue pré-entraînés pour créer un résumé des données de recherche. Ensuite, on présente un modèle appelé CoSMo, qui estime des événements du monde réel en utilisant seulement des données de recherche. On montre que nos méthodes peuvent prédire avec précision les ventes de voitures aux États-Unis et les taux de grippe en utilisant seulement des données de recherche Google.

L'importance des données de recherche Google

Google Search est le moteur de recherche numéro un dans le monde, offrant une mine d’infos sur les termes que les utilisateurs recherchent et leur lien avec des événements réels, comme le comportement d'achat, l'activité économique ou les tendances de santé. Des études ont déjà montré que les données de recherche Google peuvent améliorer les prédictions et les modèles. Les méthodes actuelles utilisent principalement deux types de données : Google Trends et les journaux de recherche.

Google Trends organise les termes de recherche en catégories et donne une valeur d'indice pour le volume de recherche selon la catégorie pour des jours et régions spécifiques. Bien que ça soit utile, cette méthode traite des requêtes diverses comme si elles appartenaient au même groupe, ce qui limite la profondeur de l'analyse. Par exemple, elle regroupe toutes les recherches liées aux voitures sans distinguer les types de voitures. Des chercheurs ont utilisé ces données pour prédire des activités économiques et d'autres tendances, mais ils s'appuient généralement sur des infos supplémentaires, comme les données de ventes historiques.

D'un autre côté, les journaux de recherche contiennent des paires de termes de recherche et la fréquence à laquelle ils ont été recherchés sur une certaine période. Bien que les journaux de recherche offrent des données plus détaillées, ils présentent aussi des défis à cause du nombre énorme de termes uniques, rendant difficile la conversion de ces données en caractéristiques gérables pour les modèles. Certains chercheurs ont filtré les termes ou utilisé un encodage one-hot pour des recherches spécifiques pour rendre ça plus digeste.

Dans notre travail, on vise à résumer les journaux de recherche de manière plus efficace, nous permettant de les utiliser pour des tâches de prédiction sans avoir besoin de filtrage extensif.

Notre approche

On divise notre stratégie de modélisation utilisant les données de recherche en deux parties principales : 1) condenser les données de recherche en caractéristiques utiles et 2) sélectionner un modèle qui s'adapte à ces caractéristiques.

On exploite des modèles de langue pour réduire la complexité des données de recherche tout en conservant des infos significatives. Au lieu de mapper les termes de recherche à des vecteurs binaires, on utilise des modèles de langue pour représenter les termes comme des points dans un espace haute dimension. On combine ensuite ces termes de recherche en un seul vecteur représentatif, qu’on appelle un embedding de recherche.

Avec ce cadre, on peut créer automatiquement des embeddings de recherche sans avoir besoin de filtres définis par l'utilisateur, ce qui permet une flexibilité dans la période utilisée pour l'analyse. Notre méthode fournit une représentation efficace en mémoire des données de recherche qui reste très efficace pour la prédiction.

SLaM Compression

La SLaM Compression fonctionne en prenant toutes les recherches dans une période spécifique et en les condensant en un vecteur de longueur fixe qui résume tous les termes de recherche. Chaque terme de recherche est transformé en un vecteur de longueur fixe par un modèle de langue, ce qui nous permet de regrouper des termes similaires ensemble selon leur signification.

Ce processus nous aide à capturer les nuances des termes de recherche sans générer une quantité écrasante de données. Notre méthode de compression ne nécessite pas de filtrage préalable des termes de recherche, ce qui nous permet de travailler avec des ensembles de données plus importants sans perdre d'infos importantes.

On divise notre représentation en deux parties : le volume total des recherches et l'embedding de recherche normalisé. En tirant parti des données de volume de recherche ainsi que de nos embeddings de recherche, on peut établir des connexions entre des termes de recherche individuels et des tendances plus larges.

Modèle CoSMo

Le modèle CoSMo est conçu pour prédire des événements réels en utilisant les embeddings de recherche qu’on génère. Au lieu de s'appuyer sur un filtrage complexe ou une catégorisation, CoSMo utilise une approche plus simple qui permet une flexibilité dans les données analysées.

Utilisant les embeddings de recherche, CoSMo sort un score indiquant la probabilité qu'un événement donné se produise en fonction des termes de recherche des utilisateurs. La flexibilité de notre modèle lui permet de s'adapter à différentes régions et périodes, ce qui conduit à des prédictions plus précises.

Applications dans le monde réel

On teste nos méthodes avec deux exemples du monde réel : la prédiction des taux de grippe et des ventes de voitures aux États-Unis. À travers ces études de cas, on montre comment notre approche peut améliorer significativement la précision des prédictions basées uniquement sur des données de recherche.

Prédiction des ventes de voitures aux États-Unis

Pour prédire les ventes de voitures, on compare nos résultats avec des méthodes existantes. En utilisant nos embeddings de recherche, on améliore la précision d'environ 58 % à 75 %. Ça veut dire que notre modèle peut mieux capturer le lien entre les requêtes de recherche et les chiffres de ventes réels.

Notre modèle peut tenir compte des différences régionales dans le comportement de recherche et l'adoption, ce qui le rend plus adaptable et précis dans divers contextes. Avec notre méthode, on a réussi à prédire les tendances de vente sans dépendre des données historiques ou des variables externes, ce qui suggère que notre approche peut avoir du potentiel pour des prédictions économiques plus larges.

Prédiction des taux de grippe

Pour la prédiction de la grippe, on modélise les taux de maladies semblables à la grippe (ILI) au niveau national. On utilise des données de recherche Google liées aux symptômes de la grippe pour prévoir les taux de grippe sur plusieurs années.

Notre modèle performe également bien, estimant de près les taux réels de grippe et montrant le potentiel des données de recherche pour fournir des infos sur les tendances de santé publique. Contrairement aux méthodes traditionnelles qui souvent dépendent des données historiques et des facteurs externes, notre modèle utilise uniquement des motifs de recherche, mettant en avant l'efficacité de notre approche dans le suivi de la santé publique.

Performance et tests du modèle

On évalue nos méthodes de manière extensive en utilisant divers setups expérimentaux. Pour les ventes automobiles et les prédictions de grippe, on compare notre performance avec celle de modèles et méthodes précédentes pour montrer les améliorations que notre approche apporte.

Expérimentations sur les ventes automobiles

On évalue notre modèle par rapport à des modèles existants en prédisant les ventes de véhicules. On observe un boost considérable dans la précision prédictive en utilisant nos embeddings de recherche comparé aux méthodes de classification traditionnelles. Même avec une structure de modèle simple, notre méthode arrive à capturer les relations complexes entre le comportement de recherche et les résultats de vente.

Expérimentations sur les taux de grippe

Pour les prédictions de taux de grippe, on mène des expériences similaires. Notre méthode obtient de meilleurs résultats que d'autres modèles qui n'utilisent que des données de recherche. On explore aussi différentes variations de notre modèle pour identifier les configurations optimales, optimisant les performances pour différentes saisons de grippe.

Insights du modèle

Un aspect précieux de notre approche est l'interprétabilité du modèle. On peut analyser comment les termes de recherche individuels contribuent aux prédictions globales, ce qui nous permet de comprendre les facteurs qui influencent le comportement de recherche et leurs implications pour des événements réels.

En examinant les termes de recherche associés à des scores élevés, on révèle comment les utilisateurs interagissent avec les moteurs de recherche en lien avec les symptômes de la grippe. Cet insight aide non seulement à affiner notre modèle mais aussi à informer des stratégies de santé publique et des approches marketing.

Gestion des fautes d'orthographe et de la variabilité

Notre méthode prouve qu'elle peut gérer des tâches comme les fautes d'orthographe et les synonymes efficacement. Les modèles de langue qu'on utilise peuvent comprendre les variations des termes de recherche, renforçant la robustesse et la fiabilité de notre modèle.

Perspectives futures

Bien qu'on ait démontré le potentiel de nos méthodes, il y a encore des opportunités pour explorer et affiner davantage. On espère appliquer notre approche à d'autres domaines et peaufiner nos modèles pour atteindre une précision et une flexibilité encore plus grandes.

Extension à d'autres domaines

On pense que les méthodes qu'on a développées peuvent être bénéfiques dans de nombreux autres domaines au-delà des prévisions de grippe et des ventes automobiles. Notre approche pourrait s'étendre à diverses industries, y compris le retail, le sport, et plus, en exploitant les riches insights que fournissent les données de recherche Google.

Améliorations et adaptations

À mesure que la technologie évolue, nous continuerons d'adapter nos méthodes pour tirer parti des avancées en modélisation de langage et en apprentissage machine. En intégrant de nouveaux outils et techniques, on peut peaufiner nos modèles, améliorer leurs capacités prédictives, et offrir des insights plus justes sur le comportement des consommateurs et les tendances.

Conclusion

Notre étude illustre la valeur significative des données de recherche Google pour créer des modèles prédictifs. En développant la SLaM Compression et CoSMo, on a trouvé des moyens de résumer efficacement les données de recherche tout en conservant des infos essentielles. Ces méthodes améliorent non seulement la puissance prédictive dans divers contextes mais fournissent également des insights interprétables qui peuvent informer la prise de décision.

En avançant, on vise à étendre l'applicabilité de notre approche, démontrant la polyvalence et la force de l'utilisation des modèles de langue pour comprendre et prédire des événements du monde réel à travers les données de recherche. Avec des milliards de recherches qui se produisent chaque jour, il y a d'innombrables opportunités de tirer parti de ces informations pour de meilleures prédictions et insights dans plusieurs domaines.

Source originale

Titre: Compressing Search with Language Models

Résumé: Millions of people turn to Google Search each day for information on things as diverse as new cars or flu symptoms. The terms that they enter contain valuable information on their daily intent and activities, but the information in these search terms has been difficult to fully leverage. User-defined categorical filters have been the most common way to shrink the dimensionality of search data to a tractable size for analysis and modeling. In this paper we present a new approach to reducing the dimensionality of search data while retaining much of the information in the individual terms without user-defined rules. Our contributions are two-fold: 1) we introduce SLaM Compression, a way to quantify search terms using pre-trained language models and create a representation of search data that has low dimensionality, is memory efficient, and effectively acts as a summary of search, and 2) we present CoSMo, a Constrained Search Model for estimating real world events using only search data. We demonstrate the efficacy of our contributions by estimating with high accuracy U.S. automobile sales and U.S. flu rates using only Google Search data.

Auteurs: Thomas Mulc, Jennifer L. Steele

Dernière mise à jour: 2024-06-24 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.00085

Source PDF: https://arxiv.org/pdf/2407.00085

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires