Convirtiendo los datos de búsqueda de Google en predicciones
Usando datos de búsqueda para predecir las ventas de autos y las tasas de gripe.
― 10 minilectura
Tabla de contenidos
- La importancia de los datos de búsqueda de Google
- Nuestro enfoque
- Compresión SLaM
- Modelo CoSMo
- Aplicaciones en el mundo real
- Predicción de ventas de autos en EE. UU.
- Predicción de tasas de gripe
- Rendimiento y pruebas del modelo
- Experimentos de ventas de autos
- Experimentos de tasas de gripe
- Perspectivas del modelo
- Manejo de errores y variabilidad
- Direcciones futuras
- Expansión a otras áreas
- Mejoras y adaptaciones
- Conclusión
- Fuente original
Todos los días, millones de personas usan Google para buscar información sobre un montón de temas, desde coches nuevos hasta síntomas de la gripe. Las palabras que escriben en la barra de búsqueda contienen información importante sobre lo que buscan y lo que están haciendo. Sin embargo, entender estos términos de búsqueda no ha sido fácil. Normalmente, los usuarios han utilizado categorías para filtrar los datos de búsqueda, pero este método a menudo se pierde muchos detalles.
En este estudio, presentamos una nueva forma de condensar los datos de búsqueda en un tamaño más pequeño mientras mantenemos la información esencial de los términos individuales, sin depender de categorías definidas por los usuarios. Nuestro enfoque incluye dos ideas principales: primero, proponemos un método llamado Compresión SLaM, que utiliza modelos de lenguaje preentrenados para crear un resumen de los datos de búsqueda. Segundo, presentamos un modelo llamado CoSMo, que estima eventos del mundo real usando solo datos de búsqueda. Demostramos que nuestros métodos pueden predecir con precisión las ventas de coches en EE. UU. y las tasas de gripe usando solo datos de Google Search.
La importancia de los datos de búsqueda de Google
Google Search es el motor de búsqueda más grande del mundo, proporcionando un montón de información sobre los términos que buscan los usuarios y su conexión con eventos del mundo real, como comportamientos de compra, actividad económica o tendencias de salud. La investigación ya ha demostrado que los datos de búsqueda de Google pueden mejorar predicciones y modelos. Los métodos actuales utilizan principalmente dos tipos de datos: Google Trends y registros de búsqueda.
Google Trends organiza los términos de búsqueda en categorías y da un valor de índice para el volumen de búsqueda basado en la categoría para días y regiones específicas. Aunque es útil, este método trata consultas diversas como si pertenecieran al mismo grupo, limitando la profundidad del análisis. Por ejemplo, agrupa todas las búsquedas relacionadas con coches sin distinguir entre los tipos de coches. Los investigadores han utilizado estos datos para predecir actividades económicas y otras tendencias, pero suelen depender de información adicional, como datos históricos de ventas.
Por otro lado, los registros de búsqueda contienen pares de términos de búsqueda y cuántas veces fueron buscados durante un cierto tiempo. Aunque los registros de búsqueda ofrecen datos más detallados, también presentan desafíos debido a la gran cantidad de términos únicos, lo que hace difícil convertir estos datos en características manejables para los modelos. Algunos investigadores han filtrado términos o han usado codificación one-hot para búsquedas específicas para hacerlo más digerible.
En nuestro trabajo, buscamos resumir los registros de búsqueda de manera más efectiva, permitiéndonos usarlos para tareas de predicción sin necesidad de un filtrado extenso.
Nuestro enfoque
Dividimos nuestra estrategia de modelado con datos de búsqueda en dos partes principales: 1) condensar los datos de búsqueda en características útiles y 2) seleccionar un modelo que se ajuste a estas características.
Aprovechamos los modelos de lenguaje para reducir la complejidad de los datos de búsqueda mientras retenemos información significativa. En lugar de mapear los términos de búsqueda a vectores binarios, usamos modelos de lenguaje para representar los términos como puntos en un espacio de alta dimensión. Luego, combinamos estos términos de búsqueda en un solo vector representativo, que llamamos una incrustación de búsqueda.
Con este marco, podemos crear automáticamente incrustaciones de búsqueda sin necesidad de filtros definidos por el usuario, lo que permite flexibilidad en el período de tiempo utilizado para el análisis. Nuestro método proporciona una representación eficiente en memoria de los datos de búsqueda que sigue siendo muy efectiva para la predicción.
Compresión SLaM
La Compresión SLaM funciona tomando todas las búsquedas dentro de un período de tiempo específico y condensándolas en un vector de longitud fija que resume todos los términos de búsqueda. Cada término de búsqueda se transforma en un vector de longitud fija mediante un modelo de lenguaje, lo que nos permite agrupar términos similares basándonos en su significado.
Este proceso nos ayuda a captar las sutilezas de los términos de búsqueda sin generar una cantidad abrumadora de datos. Nuestro método de compresión no requiere filtrar los términos de búsqueda de antemano, lo que nos permite trabajar con conjuntos de datos más grandes sin perder información importante.
Dividimos nuestra representación en dos partes: el volumen total de búsqueda y la incrustación de búsqueda normalizada. Al aprovechar los datos de volumen de búsqueda junto con nuestras incrustaciones de búsqueda, podemos establecer conexiones entre términos de búsqueda individuales y tendencias más amplias.
Modelo CoSMo
El modelo CoSMo está diseñado para predecir eventos del mundo real utilizando las incrustaciones de búsqueda que generamos. En lugar de depender de filtrados complejos o categorizaciones, CoSMo utiliza un enfoque más sencillo que permite flexibilidad en los datos que se analizan.
Usando las incrustaciones de búsqueda, CoSMo produce una puntuación que indica la probabilidad de que ocurra un evento dado basado en los términos de búsqueda de los usuarios. La flexibilidad de nuestro modelo le permite adaptarse a diferentes regiones y períodos de tiempo, lo que lleva a predicciones más precisas.
Aplicaciones en el mundo real
Probamos nuestros métodos usando dos ejemplos de la vida real: predecir tasas de gripe y ventas de autos en EE. UU. A través de estos estudios de caso, demostramos cómo nuestro enfoque puede mejorar significativamente la precisión de las predicciones basadas únicamente en datos de búsqueda.
Predicción de ventas de autos en EE. UU.
Al predecir las ventas de autos, comparamos nuestros resultados con métodos existentes. Al usar nuestras incrustaciones de búsqueda, mejoramos la precisión del aproximadamente 58% al 75%. Esto significa que nuestro modelo puede captar mejor la conexión entre las consultas de búsqueda y las cifras de ventas reales.
Nuestro modelo puede tener en cuenta las diferencias regionales en el comportamiento de búsqueda y adopción, haciéndolo más adaptable y preciso en varios contextos. Con nuestro método, predijimos exitosamente las tendencias de ventas sin depender de datos históricos o variables externas, lo que sugiere que nuestro enfoque puede tener potencial para predicciones económicas más amplias.
Predicción de tasas de gripe
Para la predicción de la gripe, modelamos las tasas de Enfermedades Influenza-Like (ILI) a nivel nacional. Usamos datos de Google Search relacionados con síntomas de gripe para pronosticar tasas de gripe a lo largo de varios años.
Nuestro modelo también funciona bien, estimando tasas de gripe reales de cerca y demostrando el potencial de los datos de búsqueda para proporcionar información sobre tendencias en salud pública. A diferencia de los métodos tradicionales que a menudo dependen de datos históricos y factores externos, nuestro modelo utiliza solo patrones de búsqueda, destacando la eficacia de nuestro enfoque en la monitorización de la salud pública.
Rendimiento y pruebas del modelo
Evaluamos nuestros métodos exhaustivamente usando varios configuraciones experimentales. Tanto para las ventas de autos como para las predicciones de gripe, comparamos nuestro rendimiento con modelos y métodos anteriores para mostrar las mejoras que trae nuestro enfoque.
Experimentos de ventas de autos
Comparamos nuestro modelo con modelos existentes en la previsión de ventas de vehículos. Observamos un considerable aumento en la precisión predictiva al usar nuestras incrustaciones de búsqueda en comparación con métodos de clasificación tradicionales. Incluso con una estructura de modelo simple, nuestro método logra captar relaciones complejas entre el comportamiento de búsqueda y los resultados de ventas.
Experimentos de tasas de gripe
Para las predicciones de tasas de gripe, realizamos experimentos similares. Nuestro método funciona mejor que otros modelos que solo utilizan datos de búsqueda. También exploramos diferentes variaciones de nuestro modelo para identificar configuraciones óptimas, optimizando el rendimiento para diferentes temporadas de gripe.
Perspectivas del modelo
Un aspecto valioso de nuestro enfoque es la interpretabilidad del modelo. Podemos analizar cómo contribuyen los términos de búsqueda individuales a las predicciones generales, lo que nos permite entender los factores que impulsan el comportamiento de búsqueda y sus implicaciones para eventos del mundo real.
Al examinar los términos de búsqueda asociados con puntuaciones altas, revelamos cómo los usuarios interactúan con los motores de búsqueda en relación con los síntomas de gripe. Esta información no solo ayuda a refinar nuestro modelo, sino que también informa estrategias de salud pública y enfoques de marketing.
Manejo de errores y variabilidad
Nuestro método demuestra ser capaz de gestionar tareas como errores tipográficos y sinónimos de manera efectiva. Los modelos de lenguaje que utilizamos pueden entender variaciones de términos de búsqueda, mejorando la robustez y fiabilidad de nuestro modelo.
Direcciones futuras
Aunque hemos demostrado el potencial de nuestros métodos, todavía hay oportunidades para una mayor exploración y refinamiento. Esperamos aplicar nuestro enfoque a otros dominios y afinar nuestros modelos para lograr incluso mayor precisión y flexibilidad.
Expansión a otras áreas
Creemos que los métodos que hemos desarrollado pueden ser beneficiosos en muchas otras áreas más allá de las predicciones de gripe y ventas de autos. Nuestro enfoque podría extenderse a varias industrias, incluyendo retail, deportes, y más, aprovechando la rica información que proporcionan los datos de búsqueda de Google.
Mejoras y adaptaciones
A medida que la tecnología evoluciona, seguiremos adaptando nuestros métodos para aprovechar los avances en modelado de lenguaje y aprendizaje automático. Al integrar nuevas herramientas y técnicas, podemos refinar nuestros modelos, mejorar sus capacidades predictivas y proporcionar información más precisa sobre el comportamiento y tendencias del consumidor.
Conclusión
Nuestro estudio ilustra el valor significativo de los datos de búsqueda de Google en la creación de modelos predictivos. Al desarrollar la Compresión SLaM y CoSMo, hemos encontrado formas de resumir efectivamente los datos de búsqueda mientras mantenemos información esencial. Estos métodos no solo mejoran la capacidad predictiva en varios contextos, sino que también proporcionan información interpretable que puede informar la toma de decisiones.
A medida que avanzamos, aspiramos a expandir la aplicabilidad de nuestro enfoque, demostrando la versatilidad y fortaleza de usar modelos de lenguaje para entender y predecir eventos del mundo real a través de datos de búsqueda. Con miles de millones de búsquedas sucediendo cada día, hay un sinfín de oportunidades para aprovechar esta información para mejores predicciones e insights en múltiples campos.
Título: Compressing Search with Language Models
Resumen: Millions of people turn to Google Search each day for information on things as diverse as new cars or flu symptoms. The terms that they enter contain valuable information on their daily intent and activities, but the information in these search terms has been difficult to fully leverage. User-defined categorical filters have been the most common way to shrink the dimensionality of search data to a tractable size for analysis and modeling. In this paper we present a new approach to reducing the dimensionality of search data while retaining much of the information in the individual terms without user-defined rules. Our contributions are two-fold: 1) we introduce SLaM Compression, a way to quantify search terms using pre-trained language models and create a representation of search data that has low dimensionality, is memory efficient, and effectively acts as a summary of search, and 2) we present CoSMo, a Constrained Search Model for estimating real world events using only search data. We demonstrate the efficacy of our contributions by estimating with high accuracy U.S. automobile sales and U.S. flu rates using only Google Search data.
Autores: Thomas Mulc, Jennifer L. Steele
Última actualización: 2024-06-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.00085
Fuente PDF: https://arxiv.org/pdf/2407.00085
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.