Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Inteligencia artificial# Computación y lenguaje# Recuperación de información

Mejorando la búsqueda con corrección de errores tipográficos en los marketplaces

Un nuevo método mejora la precisión de búsqueda corrigiendo errores de escritura de los usuarios.

― 7 minilectura


Mejorando las BúsquedasMejorando las Búsquedasen el Mercadobúsqueda de productos.para obtener mejores resultados en laUn modelo corrige errores de escritura
Tabla de contenidos

Los Errores tipográficos son fallos comunes que la gente comete al escribir. En los mercados online, estos errores pueden dificultar que los usuarios encuentren lo que buscan. Por ejemplo, si alguien busca un producto específico pero lo escribe mal, los correctores ortográficos tradicionales no ayudan mucho ya que no están diseñados para nombres de productos tan únicos. Esto provoca frustración en los usuarios y puede hacer que abandonen el sitio sin comprar nada.

Para solucionar este problema, hemos desarrollado un nuevo método que ayuda a los motores de búsqueda a entender y corregir errores tipográficos específicos de los mercados online. Nuestro enfoque utiliza Datos sintéticos para entrenar un modelo informático que puede comprender el contexto de consultas de productos cortas y únicas. Este modelo ayuda a encontrar la coincidencia correcta más cercana a la entrada del usuario.

Por qué importan los errores tipográficos

Cuando la gente escribe Consultas de búsqueda, hasta un pequeño error puede llevar a resultados diferentes. Un simple error ortográfico puede resultar en que no haya resultados de búsqueda o llevar a los usuarios a productos completamente no relacionados. En un entorno de compras online tan rápido, estos problemas pueden frustrar a los usuarios y hacer que abandonen el sitio sin encontrar lo que necesitan.

En los mercados online, los usuarios suelen escribir consultas cortas, usualmente solo el nombre del producto. Estas búsquedas específicas y breves pueden ser un desafío para las herramientas de corrección ortográfica estándar que dependen de diccionarios más grandes y generales.

Nuestro enfoque

Nuestro método se centra en entender y corregir los errores tipográficos que ocurren mientras los usuarios buscan productos. Dividimos nuestro enfoque en tres pasos principales:

  1. Analizando errores tipográficos: Primero miramos errores de escritura reales de otras plataformas. Al estudiar estos errores, obtenemos información sobre los tipos comunes de errores tipográficos que la gente comete. Este análisis nos ayuda a identificar patrones que pueden informar cómo creamos datos de entrenamiento para nuestro modelo.

  2. Creando datos sintéticos: Dado que no hay muchos datos anotados del mundo real sobre errores tipográficos en configuraciones específicas de dominio, generamos conjuntos de datos sintéticos. Estos conjuntos de datos incluyen los patrones de errores tipográficos comunes que identificamos en nuestro análisis. Nos aseguramos de que los datos generados representen de cerca los tipos de productos disponibles en el mercado.

  3. Entrenando el modelo: Entrenamos un modelo de red neuronal usando los datos sintéticos. El modelo aprende a crear representaciones de nombres de productos que le ayudan a reconocer nombres similares, incluso si el usuario comete un error tipográfico.

Errores tipográficos y sus tipos

Los errores tipográficos pueden tomar muchas formas. Pueden incluir letras extra, letras faltantes o letras que están en el lugar incorrecto. Al categorizar estos errores, podemos entender mejor cómo corregirlos. Algunos tipos comunes de errores tipográficos incluyen:

  • Caracteres faltantes: Una letra que se dejó accidentalmente fuera.
  • Caracteres extra: Una letra adicional que se escribió por error.
  • Sustituciones: Una letra es reemplazada por otra.

Al analizar una variedad de conjuntos de datos, incluyendo los de redes sociales y plataformas de programación, podemos ver cuán comunes son cada uno de estos tipos de errores.

Recolección y análisis de datos

Para entrenar nuestro modelo, reunimos datos de múltiples fuentes, incluyendo redes sociales y sitios de programación. Cada conjunto de datos contiene ejemplos de errores tipográficos junto con las palabras correctas. Esto nos da una comprensión más amplia de cómo ocurren los errores tipográficos en varios contextos.

También examinamos con qué frecuencia ocurren ciertos tipos de errores tipográficos y dónde en una palabra es más probable que ocurran. Por ejemplo, algunos errores tienden a suceder más hacia el final de una palabra que al principio. Entender estos comportamientos nos ayuda a crear datos de entrenamiento más realistas.

Entrenamiento del modelo

El modelo que desarrollamos está entrenado para reconocer diferentes nombres de productos y corregir errores de escritura comunes. Se estructura como un problema de clasificación de múltiples clases, donde cada clase corresponde a un nombre de producto en el mercado. El modelo está diseñado para aprender de los conjuntos de datos sintéticos que creamos.

Usando este enfoque de entrenamiento, nuestro modelo puede reconocer efectivamente las consultas de los usuarios, incluso cuando hay errores. Cuando un usuario escribe una consulta, el modelo compara esa entrada con los nombres de productos en su base de datos y encuentra la coincidencia más cercana.

Resultados y mejoras

Después de implementar el modelo, observamos mejoras significativas en la experiencia del usuario en el mercado. Seguimos métricas como la Tasa de clics (CTR) y el número de búsquedas que no devolvieron resultados. Después de usar nuestra herramienta de corrección de errores tipográficos, el CTR mejoró en un 4% y las búsquedas que no dieron resultados disminuyeron en un 8%.

Estos números indican que los usuarios están encontrando más a menudo lo que buscan y están haciendo clic en los productos sugeridos por el motor de búsqueda. Esto no solo ayuda a los usuarios, sino que también beneficia al mercado ya que aumenta la probabilidad de ventas.

Implementación de API en tiempo real

Nuestro modelo opera como una API en tiempo real. Esto significa que cada vez que un usuario escribe una consulta de búsqueda, el modelo procesa esa entrada rápidamente y devuelve resultados basados en su entrenamiento. La API recibe muchas solicitudes a diario y está diseñada para responder rápidamente, asegurando que los usuarios no experimenten retrasos mientras buscan productos.

En general, el modelo ha mejorado la precisión de búsqueda y ha minimizado la frustración de los usuarios al ofrecer resultados relevantes incluso cuando cometen errores de escritura.

Direcciones futuras

Mirando hacia el futuro, tenemos como objetivo expandir las capacidades del modelo. Queremos incluir más tipos de errores, como errores que involucran múltiples letras, y considerar cómo los sonidos influyen en los errores de escritura. Al mejorar continuamente nuestros datos y el modelo, podemos ofrecer un mejor soporte a los usuarios en dominios específicos.

También planeamos explorar arquitecturas de red neuronal más avanzadas, lo que podría mejorar la capacidad del modelo para entender y corregir errores. Nuestro objetivo final es demostrar que los conjuntos de datos sintéticos pueden ser efectivos en escenarios del mundo real, permitiendo seguir mejorando la corrección de errores tipográficos y la experiencia del usuario.

Conclusión

Los errores tipográficos pueden crear desafíos significativos para los mercados online, pero con nuestro modelo entrenado sintéticamente, estamos avanzando en la superación de estos problemas. Al entender los errores de escritura específicos para búsquedas de productos y desarrollar un enfoque específico para la corrección, hemos mejorado la experiencia de búsqueda para los usuarios.

El éxito de nuestro modelo de corrección de errores tipográficos subraya el valor de los datos sintéticos en el entrenamiento de Modelos de aprendizaje automático. A medida que exploramos mejoras adicionales y tipos de errores, esperamos seguir mejorando la utilidad de los mercados online y hacer que las búsquedas sean más fáciles y efectivas para los usuarios.

Fuente original

Título: Domain specificity and data efficiency in typo tolerant spell checkers: the case of search in online marketplaces

Resumen: Typographical errors are a major source of frustration for visitors of online marketplaces. Because of the domain-specific nature of these marketplaces and the very short queries users tend to search for, traditional spell cheking solutions do not perform well in correcting typos. We present a data augmentation method to address the lack of annotated typo data and train a recurrent neural network to learn context-limited domain-specific embeddings. Those embeddings are deployed in a real-time inferencing API for the Microsoft AppSource marketplace to find the closest match between a misspelled user query and the available product names. Our data efficient solution shows that controlled high quality synthetic data may be a powerful tool especially considering the current climate of large language models which rely on prohibitively huge and often uncontrolled datasets.

Autores: Dayananda Ubrangala, Juhi Sharma, Ravi Prasad Kondapalli, Kiran R, Amit Agarwala, Laurent Boué

Última actualización: 2023-08-03 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.01976

Fuente PDF: https://arxiv.org/pdf/2308.01976

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares