Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Mejorando las puntuaciones de similitud para palabras comunes

Un método para mejorar las medidas de similitud de palabras para términos de uso frecuente.

― 6 minilectura


Arreglando lasArreglando laspuntuaciones de similitudde palabrascomunes.medidas de similitud para palabrasUn nuevo enfoque para mejorar las
Tabla de contenidos

Las palabras son importantes en cómo nos comunicamos y entendemos entre nosotros. En el mundo de la informática y el procesamiento del lenguaje, una forma de medir cuán similares son dos palabras es usando algo llamado Similitud Coseno. Este método ayuda en varias tareas como responder preguntas, recuperar información y traducir idiomas. Sin embargo, hay un problema cuando usamos este método para palabras muy comunes. A menudo, la similitud que da no coincide con lo que esperamos.

El Problema con las Palabras Comunes

Cuando miramos palabras que aparecen mucho en los textos, encontramos que sus puntajes de similitud suelen ser más bajos de lo que deberían. Esto es desconcertante porque podríamos pensar que cuanto más aparece una palabra, mejor deberíamos entender su significado. En muchos estudios, los investigadores han notado que este problema existe, pero no ofrecieron una solución hasta ahora.

Una observación clave es que el tamaño, o norma, de la representación numérica de estas palabras a menudo se relaciona con la frecuencia con la que aparecen en los datos del lenguaje. A medida que las palabras se vuelven más frecuentes, su norma aumenta, lo que en realidad disminuye los puntajes de similitud entre ellas.

Nuestra Solución Propuesta

Para abordar este problema, sugerimos un método para ajustar las Normas de estas palabras comunes cuando calculamos sus similitudes. Haciendo esto, esperamos obtener una imagen más precisa de cuán similares son realmente estas palabras de uso frecuente.

También encontramos que algunas palabras, a menudo llamadas palabras de parada-como "es," "el," y "y"-se comportan de manera diferente a otras palabras. Esto requiere un enfoque diferente cuando aplicamos nuestro método de descuento.

Resultados Experimentales

Probamos nuestro enfoque en un conjunto de datos diseñado para medir la similitud de palabras. Los hallazgos sugieren que nuestro método de descuento funciona bien para abordar el problema de la subestimación de la similitud de palabras comunes.

Cómo Funciona la Similitud Coseno

En su esencia, la similitud coseno mide cuán similares son dos palabras en función de sus representaciones numéricas (también conocidas como embeddings). Cuando queremos encontrar la similitud entre dos palabras, tratamos cada palabra como un punto en el espacio y calculamos el ángulo entre ellas. Un ángulo más pequeño indica más similitud.

A pesar de ser un método popular, hemos aprendido que la similitud coseno a menudo falla con palabras muy comunes. La investigación ha mostrado que mientras las palabras comunes tienen suficiente contexto para entender sus significados, sus medidas de similitud aún son insuficientes.

¿Por Qué Ocurre Esto?

Los investigadores encontraron que la dispersión o diversidad de estos embeddings aumenta con la frecuencia de la palabra. Esto significa que cuanto más a menudo aparece una palabra, más variados pueden volverse sus significados. Pero este aumento en la norma hace que los puntajes de similitud sean más bajos. Este no es un problema para palabras raras porque no tienen suficiente contexto para calcular sus significados con precisión.

Nuestros Hallazgos

Recopilamos datos de un conjunto de datos ampliamente utilizado donde la gente había calificado cuán similares eran las palabras en diferentes contextos. A partir de estos datos, vimos que los puntajes de similitud para palabras comunes bajan a medida que su frecuencia aumenta. Esto significa que cuando revisamos cuán parecidas son dos instancias de la misma palabra en diferentes situaciones, los puntajes bajan a medida que esa palabra aparece más a menudo.

Nuestro estudio también reveló que las normas de las palabras comunes están fuertemente relacionadas con su frecuencia. A medida que la frecuencia aumenta, también lo hace la norma. Esto nos lleva a creer que las normas más grandes están causando los puntajes de similitud más bajos.

Implementando Nuestro Método

Para corregir esta subestimación, sugerimos un enfoque de descuento. Esto significa que ajustamos la norma de una palabra en función de cuán a menudo aparece. Al hacer esto, creamos una nueva versión de la similitud coseno que toma en cuenta la frecuencia.

Usamos técnicas avanzadas para encontrar los mejores números a usar en este proceso de descuento. Nuestros tests muestran que este método revisado reduce significativamente el problema de las similitudes subestimadas para palabras comunes sin afectar los resultados para palabras más raras.

Probando Nuestro Enfoque

Para ver cuán bien funciona nuestro método, lo aplicamos al conjunto de datos que habíamos estudiado previamente. Comparamos los puntajes de similitud originales con los puntajes descontados. Los resultados demostraron que nuestro enfoque mejoró la precisión de las predicciones de similitud para palabras comunes.

En particular, notamos que las predicciones hechas por nuestro método ajustado estaban mucho mejor alineadas con los juicios humanos. Esto demuestra que nuestro método de descuento aborda eficazmente el problema de la subestimación.

Generalizabilidad de Nuestro Método

Una pregunta sigue en el aire: ¿qué tan bien funcionará nuestro método con otros tipos de datos o idiomas? Nuestros tests se hicieron solo usando un tipo específico de modelo de palabra y en inglés. Otros idiomas pueden presentar diferentes desafíos. Para confirmar la efectividad de nuestro método en varios contextos, se necesita más investigación.

También consideramos la posibilidad de observar el tipo de palabras al aplicar el descuento. Sin embargo, esa complejidad no dio mejoras significativas. El trabajo futuro puede explorar esto más a fondo, especialmente para idiomas ricos en estructura.

Consideraciones Éticas

Al proponer nuestra solución, necesitamos considerar sus implicaciones éticas. Los métodos para evaluar sesgos en el uso de palabras a menudo se basan en la similitud coseno. Si nuestro método cambia cómo calculamos estos puntajes, necesitamos entender lo que eso significa para las evaluaciones de sesgos sociales.

Es necesaria una investigación adicional para ver cómo interactúa nuestro método de descuento con estas medidas de sesgo social. Es crucial asegurar que nuestras mejoras no impacten inadvertidamente en las formas en que entendemos y abordamos los sesgos en los modelos de lenguaje.

Conclusión

En resumen, hemos propuesto un nuevo método para corregir el problema de los puntajes de similitud coseno subestimados para palabras comunes. Nuestro enfoque, que implica ajustar las normas en función de la frecuencia de las palabras, ha mostrado promesas en mejorar la precisión de los juicios de similitud de palabras. Nuestros experimentos respaldan esta mejora, pero la necesidad de una evaluación más profunda sigue, especialmente en diferentes idiomas y modelos.

Creemos que estos hallazgos ayudarán a afinar nuestras percepciones sobre la similitud de palabras y a mejorar el rendimiento de varias tareas de procesamiento de lenguaje natural. Avanzando, será necesario explorar más para realizar completamente los beneficios potenciales de nuestro método y seguir abordando los desafíos relacionados en la comprensión del lenguaje.

Fuente original

Título: Solving Cosine Similarity Underestimation between High Frequency Words by L2 Norm Discounting

Resumen: Cosine similarity between two words, computed using their contextualised token embeddings obtained from masked language models (MLMs) such as BERT has shown to underestimate the actual similarity between those words (Zhou et al., 2022). This similarity underestimation problem is particularly severe for highly frequent words. Although this problem has been noted in prior work, no solution has been proposed thus far. We observe that the L2 norm of contextualised embeddings of a word correlates with its log-frequency in the pretraining corpus. Consequently, the larger L2 norms associated with the highly frequent words reduce the cosine similarity values measured between them, thus underestimating the similarity scores. To solve this issue, we propose a method to discount the L2 norm of a contextualised word embedding by the frequency of that word in a corpus when measuring the cosine similarities between words. We show that the so called stop words behave differently from the rest of the words, which require special consideration during their discounting process. Experimental results on a contextualised word similarity dataset show that our proposed discounting method accurately solves the similarity underestimation problem.

Autores: Saeth Wannasuphoprasit, Yi Zhou, Danushka Bollegala

Última actualización: 2023-05-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.10610

Fuente PDF: https://arxiv.org/pdf/2305.10610

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares