Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Redes sociales y de información

Repensando la estimación de prevalencia con Calibrate-Extrapolate

Un nuevo método para mejorar la estimación de la prevalencia de categorías de datos.

― 9 minilectura


Nuevo Marco para laNuevo Marco para laEstimación de Prevalenciavarios campos de investigación.Mejorando la precisión de los datos en
Tabla de contenidos

Medir con qué frecuencia aparecen ciertas etiquetas en una colección de datos es una tarea común en varios campos. Este trabajo, llamado Estimación o cuantificación de prevalencia, se aplica a muchas situaciones del mundo real. Por ejemplo, puede ayudar a contar el número de especies en una región, rastrear los casos de COVID-19 en un país, identificar cuentas automatizadas en redes sociales y encontrar comentarios perjudiciales en comunidades en línea. Idealmente, los investigadores verificarían manualmente cada elemento en el conjunto de datos, pero esto suele ser demasiado costoso y llevar mucho tiempo, por lo que se necesitan alternativas.

En el campo de la ciencia social computacional, los investigadores a menudo usan un modelo preentrenado, conocido como clasificador de caja negra, que etiqueta elementos o proporciona la probabilidad de etiquetas en un conjunto de datos no etiquetado. Hay varios métodos para estimar la prevalencia, cada uno ofreciendo una estimación imparcial si se cumplen ciertas condiciones. Este artículo presenta un marco para repensar el proceso de estimación de prevalencia ajustando primero las salidas del clasificador contra etiquetas conocidas para entender los datos, y luego aplicando ese conocimiento a nuevos datos.

El marco Calibrate-Extrapolate

Llamamos a este nuevo enfoque "Calibrate-Extrapolate". Ayuda a aclarar cómo estimar la prevalencia de diferentes categorías en un conjunto de datos. En la primera fase, los investigadores recogen etiquetas verdaderas para una pequeña muestra de datos, elegida de un conjunto más grande. Ajustan las salidas del clasificador para representar mejor el conjunto de datos completo. En la segunda fase, hacen predicciones sobre un conjunto de datos diferente usando el conocimiento obtenido de la primera fase. Verificar las características compartidas entre los dos conjuntos de datos ayuda a hacer predicciones precisas.

Este marco se puede aplicar a varias situaciones de la vida real y permite a los investigadores personalizar el proceso según sus necesidades. Tienen que decidir cuatro cosas principales: qué clasificador de caja negra usar, qué datos muestrear para las etiquetas, qué condición de estabilidad asumir y qué método para estimar la prevalencia aplicar.

Entendiendo las suposiciones de estabilidad

En situaciones del mundo real, puede ser difícil determinar cuáles suposiciones de estabilidad son sensatas. Considerar la estimación de prevalencia dentro del marco Calibrate-Extrapolate aclara las suposiciones en las que cada método se basa y cómo pasarlas por alto puede llevar a errores. Por ejemplo, si los investigadores asumen una relación estable entre el conjunto de datos y el clasificador, esto puede limitar el rango de estimaciones finales posibles y restar importancia a cualquier cambio en los datos.

Además, pensar en estas suposiciones puede resaltar la importancia de tener un clasificador más preciso. Un clasificador débil podría aún generar algunas estimaciones correctas en múltiples intentos, pero estas serán menos confiables si las suposiciones de estabilidad son incorrectas.

Simulando y entendiendo datos

Para entender mejor cómo las elecciones afectan las estimaciones de prevalencia, los investigadores crean conjuntos de datos simulados. Ayudan a construir conexiones intuitivas sobre lo que sucede cuando se violan las suposiciones. Al especificar tanto el conjunto de datos original como un conjunto de datos objetivo, los investigadores pueden generar datos simulados para observar los impactos de estas suposiciones.

El marco se ilustra a través de un ejemplo de estimar comentarios perjudiciales a lo largo del tiempo en tres plataformas: Reddit, Twitter y YouTube. Usaron un clasificador de caja negra, la API de Perspectiva de Jigsaw, para ayudar con las predicciones.

Técnicas de estimación de prevalencia

Existen varios métodos para la estimación de prevalencia. Los métodos tradicionales a menudo dependen en gran medida de contar cuántos elementos un clasificador etiqueta por encima de un cierto punto o sumar puntajes indiscriminadamente. Sin embargo, estos métodos pueden llevar a resultados pobres debido a dos problemas principales: Calibración y cambio de datos.

La calibración se refiere a qué tan bien los puntajes del clasificador reflejan probabilidades reales. Si un clasificador produce un puntaje de 0.8, no significa necesariamente que el 80% de los elementos estén etiquetados correctamente. La investigación ha demostrado que muchos clasificadores pueden producir puntajes demasiado confiados, lo que lleva a estimaciones inexactas.

El cambio de datos ocurre cuando el conjunto de datos usado para entrenar un clasificador es diferente al que se está analizando. Por ejemplo, si el clasificador fue entrenado en comentarios formales de un sitio web y luego se aplica a comentarios informales de redes sociales, los resultados pueden variar significativamente.

Aplicando el marco Calibrate-Extrapolate

El marco Calibrate-Extrapolate propone una nueva forma de pensar sobre estos problemas. Descompone el proceso de estimación de prevalencia en dos fases principales: calibración y extrapolación.

Fase de calibración

Durante la fase de calibración, los investigadores seleccionan una pequeña muestra del conjunto de datos original, recogen etiquetas verdaderas y las usan para estimar una curva de calibración. Esta curva ayuda a conectar las salidas del clasificador con probabilidades reales. Hay diferentes maneras de crear esta curva, como agrupar puntajes o usar técnicas de regresión.

Una vez establecida la curva de calibración, los investigadores pueden estimar la distribución conjunta de los puntajes del clasificador y las etiquetas verdaderas. Esto ayuda a derivar una estimación de prevalencia.

Fase de extrapolación

En la fase de extrapolación, el objetivo es estimar la prevalencia en un nuevo conjunto de datos. Los investigadores aplican el clasificador a este nuevo conjunto de datos y hacen suposiciones sobre su estabilidad en comparación con el conjunto de datos original. El método elegido para la extrapolación dependerá de las suposiciones de estabilidad realizadas en la fase de calibración.

Dos enfoques principales en esta fase asumen diferentes propiedades estables. Un método utiliza un estimador probabilístico, mientras que el otro utiliza un modelo mixto. Ambos métodos se basan en la calibración inicial y en las suposiciones realizadas sobre las características estables entre los conjuntos de datos base y objetivo.

Probando suposiciones con datos simulados

Para entender el impacto de diferentes elecciones, los investigadores utilizan datos simulados para analizar cómo varios elementos de diseño afectan la precisión de las estimaciones. Esta sección investiga los efectos del poder predictivo del clasificador y cómo diferentes suposiciones pueden llevar a errores.

El análisis implica generar conjuntos de datos con propiedades conocidas, aplicar diferentes procesos de estimación y comparar los resultados con la prevalencia esperada. Resaltan cómo las técnicas de estimación se comportan bajo diversas condiciones de estabilidad y fortalezas del clasificador.

Aplicación en el mundo real: Estimando comentarios tóxicos

Una aplicación significativa del marco Calibrate-Extrapolate es en la estimación del número de comentarios tóxicos publicados en redes sociales. Los investigadores recopilaron comentarios a lo largo del tiempo de Reddit, Twitter y YouTube para medir la prevalencia de la toxicidad percibida.

Usaron un clasificador de caja negra, la API de Perspectiva, para puntuar los comentarios. La fase de calibración involucró etiquetar una muestra de estos comentarios para establecer la línea base para la detección de toxicidad. La fase de extrapolación luego implicó aplicar los puntajes del clasificador a nuevos comentarios recopilados a lo largo del año.

Proceso de recolección de datos

La recolección de datos comenzó identificando historias de noticias populares en plataformas de redes sociales. Los investigadores reunieron comentarios que interactuaban con estas historias, asegurándose de tener un número igual de comentarios de cada plataforma para una comparación precisa.

Después de procesar los comentarios, establecieron un conjunto de datos base de comentarios anteriores y los etiquetaron con la ayuda de trabajadores de Amazon Mechanical Turk. Cada comentario fue puntuado por la API de Perspectiva, lo que permitió al equipo crear una curva de calibración para futuras predicciones.

Estimaciones de prevalencia de toxicidad

Usando el marco establecido, los investigadores produjeron estimaciones de comentarios tóxicos en las tres plataformas. Compararon los resultados de dos técnicas de estimación que dependían de diferentes suposiciones de estabilidad. Un enfoque asumía curvas de calibración estables, mientras que el otro asumía densidades condicionales de clase estables.

Los resultados mostraron diferencias significativas: la elección de la técnica afectó los niveles de toxicidad percibidos en las plataformas, llevando a conclusiones variadas sobre cuál plataforma tenía más comentarios tóxicos. A pesar de los cambios en la API de Perspectiva, el enfoque calibrado produjo estimaciones más consistentes en comparación con las que ignoraron la calibración.

Lecciones aprendidas

Los hallazgos enfatizaron la efectividad del marco para manejar tareas de clasificación que involucran variabilidad a lo largo del tiempo. Subrayó la importancia de seleccionar suposiciones de estabilidad adecuadas y el valor que un modelo bien calibrado puede proporcionar para hacer estimaciones de prevalencia más precisas.

Conclusión

El marco Calibrate-Extrapolate ofrece una nueva perspectiva sobre la estimación de prevalencia. Al enfatizar las relaciones entre las salidas del clasificador y las etiquetas reales, mejora la comprensión y precisión en la predicción de prevalencia a través de conjuntos de datos. Las dos fases del marco, calibración y extrapolación, permiten a los investigadores aplicar sus hallazgos de manera efectiva a nuevos conjuntos de datos, incluso en escenarios desafiantes.

Los investigadores ahora pueden tomar decisiones más informadas al estimar la prevalencia, mejorando la confiabilidad de sus hallazgos en varios campos. Ya sea para análisis de redes sociales, seguimiento de salud pública o estudios ecológicos, los principios delineados en este marco pueden mejorar el rigor y la precisión de las técnicas de estimación de prevalencia.

Al enfocarse en los aspectos clave de calibración y extrapolación, el marco equipa a los investigadores para evitar trampas y obtener una comprensión más profunda de sus datos. La investigación futura debería continuar refinando la orientación sobre la elección de las suposiciones de estabilidad adecuadas para diferentes escenarios, fortaleciendo aún más las aplicaciones prácticas del marco.

Fuente original

Título: Calibrate-Extrapolate: Rethinking Prevalence Estimation with Black Box Classifiers

Resumen: In computational social science, researchers often use a pre-trained, black box classifier to estimate the frequency of each class in unlabeled datasets. A variety of prevalence estimation techniques have been developed in the literature, each yielding an unbiased estimate if certain stability assumption holds. This work introduces a framework to rethink the prevalence estimation process as calibrating the classifier outputs against ground truth labels to obtain the joint distribution of a base dataset and then extrapolating to the joint distribution of a target dataset. We call this framework "Calibrate-Extrapolate". It clarifies what stability assumptions must hold for a prevalence estimation technique to yield accurate estimates. In the calibration phase, the techniques assume only a stable calibration curve between a calibration dataset and the full base dataset. This allows for the classifier outputs to be used for disproportionate random sampling, thus improving the efficiency of calibration. In the extrapolation phase, some techniques assume a stable calibration curve while some assume stable class-conditional densities. We discuss the stability assumptions from a causal perspective. By specifying base and target joint distributions, we can generate simulated datasets, as a way to build intuitions about the impacts of assumption violations. This also leads to a better understanding of how the classifier's predictive power affects the accuracy of prevalence estimates: the greater the predictive power, the lower the sensitivity to violations of stability assumptions in the extrapolation phase. We illustrate the framework with an application that estimates the prevalence of toxic comments on news topics over time on Reddit, Twitter/X, and YouTube, using Jigsaw's Perspective API as a black box classifier. Finally, we summarize several practical advice for prevalence estimation.

Autores: Siqi Wu, Paul Resnick

Última actualización: 2024-04-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2401.09329

Fuente PDF: https://arxiv.org/pdf/2401.09329

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares