Analizando Perspectivas sobre Vacunas a Través de un Nuevo Conjunto de Datos
Un vistazo más cercano a las razones a favor y en contra de la vacunación.
― 7 minilectura
Tabla de contenidos
- El Conjunto de Datos: Razones a Favor y en Contra de la Vacunación
- Creciente Hesitación a la Vacunación
- Recopilación de Información
- Definición de Términos
- Proceso de anotación
- Características de los datos
- Ampliando el Conjunto de Datos con IA
- Entrenamiento y Evaluación del Modelo
- Hallazgos y Limitaciones
- Consideraciones éticas
- Conclusión
- Referencias
- Fuente original
- Enlaces de referencia
La vacunación es una práctica clave de salud pública que ayuda a prevenir la propagación de enfermedades. Sin embargo, hay una creciente cantidad de desinformación sobre las vacunas. Este artículo examina las razones por las que las personas apoyan u oponen a las vacunaciones. Se discute un nuevo conjunto de datos creado para analizar estas razones, lo que puede ayudar a entender mejor las discusiones relacionadas con las vacunas.
El Conjunto de Datos: Razones a Favor y en Contra de la Vacunación
El conjunto de datos, llamado RFAV, recopila diversas razones a favor y en contra de las vacunaciones. Se creó utilizando un método denominado nichesourcing, en el que expertos ayudan a recopilar y etiquetar información. Los datos se recopilan de diferentes sitios web en inglés y español, lo que permite una comprensión más amplia de las opiniones públicas.
La desinformación sobre las vacunas es generalizada, especialmente con el aumento del uso de Internet. Este conjunto de datos tiene como objetivo ayudar a identificar la desinformación, lo que puede conducir a mejores respuestas y contra-narrativas.
Creciente Hesitación a la Vacunación
En años recientes, la hesitación a la vacunación se ha convertido en un problema significativo. Muchos padres están eligiendo no vacunar a sus hijos. Esta decisión ha llevado a brotes de enfermedades que previamente estaban bajo control. La desinformación sobre las vacunas juega un gran papel en esta hesitación. Por lo tanto, entender lo que las personas dicen sobre las vacunas es crucial para desarrollar mensajes efectivos que fomenten las vacunaciones.
Recopilación de Información
Para recopilar información, se creó una lista de palabras clave relacionadas con la vacunación. Estas palabras clave incluían temas sobre medicina alternativa, ya que a menudo se relacionan con la hesitación a la vacunación. Se realizaron búsquedas utilizando estas palabras clave en Google y Bing para encontrar páginas web relevantes. Solo se incluyeron documentos con un número mínimo de palabras para garantizar contenido de calidad en el conjunto de datos.
Después de filtrar una gran cantidad de documentos, se retuvieron un total de 94,398 documentos en inglés y 66,257 documentos en español para un análisis más profundo.
Definición de Términos
En el conjunto de datos, una "Razón" es cualquier declaración que alguien que considere la vacunación podría encontrar relevante. No todas las razones son argumentativas. Cada razón se etiqueta de acuerdo con su postura sobre la vacunación, utilizando una escala del 1 al 5.
- 1: Fuertemente en contra de la vacunación
- 2: Débilmente en contra de la vacunación
- 3: Neutral o ambiguo
- 4: Débilmente a favor de la vacunación
- 5: Fuertemente a favor de la vacunación
Una "Autoridad Científica" se refiere a cualquier mención de expertos, publicaciones o instituciones que pueden prestar credibilidad a una razón. Esto ayuda a entender cómo se apoyan o desafían las razones dentro de los documentos.
Proceso de anotación
El proceso de anotación implicó a un equipo de estudiantes universitarios capacitados para etiquetar el conjunto de datos. Pasaron por un manual que explicaba cómo identificar razones y asignar posturas. Cada anotador etiquetó un cierto número de ejemplos, y una parte de estos fueron etiquetados múltiples veces para medir el acuerdo entre el equipo.
El nivel de acuerdo fue satisfactorio, mostrando que el equipo pudo etiquetar los datos de manera consistente a pesar de la subjetividad de la tarea.
Características de los datos
El conjunto de datos mostró patrones interesantes en los tipos de razones etiquetadas. Un porcentaje significativo de razones apoyó las vacunaciones. Por ejemplo, en el conjunto de datos en inglés, el 71.59% de las razones etiquetadas eran a favor de la vacunación. En contraste, las razones en contra de la vacunación eran mucho menos comunes, destacando el desequilibrio en la información disponible públicamente relacionada con las vacunas.
Ampliando el Conjunto de Datos con IA
Para expandir aún más el conjunto de datos, se utilizaron modelos de IA avanzados como GPT-4 y GPT-3.5. Estos modelos pueden generar ejemplos de razones y determinar su postura sin intervención humana.
Si bien el uso de IA ayudó a aumentar la cantidad de datos, también introdujo algunas discrepancias en comparación con las anotaciones humanas. La IA etiquetó más ejemplos como neutros o los categorizó de manera diferente. Esta diferencia en los criterios puede afectar cómo los modelos aprenden de los datos.
Al incorporar datos de IA, se generaron un total de 3,900 nuevos ejemplos en inglés y 3,400 en español, aumentando significativamente el tamaño del conjunto de datos.
Entrenamiento y Evaluación del Modelo
Para hacer predicciones automáticas sobre razones, se entrenaron varios modelos de lenguaje utilizando el conjunto de datos anotado. Se probaron diferentes modelos para ver qué tan bien podían reconocer razones y sus posturas en función de la entrada.
Los resultados mostraron que algunos de los modelos funcionaron bien, especialmente al predecir posturas favorables a la vacunación. Sin embargo, quedaron desafíos en el reconocimiento y categorización precisos de las razones en contra de la vacunación.
Hallazgos y Limitaciones
Los resultados destacaron la dificultad en entrenar modelos para reconocer razones, especialmente para las clases minoritarias de sentimientos antivacunas. El rendimiento fue mejor para la clase mayoritaria, que favorece el apoyo a la vacunación, mientras que el rendimiento disminuyó significativamente para las clases menos representadas.
Una observación notable fue que la combinación de datos etiquetados por humanos con datos generados por IA a veces conducía a un rendimiento general más bajo. Esto sugiere que las discrepancias en los criterios de etiquetado afectan negativamente las predicciones del modelo.
Consideraciones éticas
Las herramientas desarrolladas pueden ser beneficiosas para combatir la desinformación en torno a la vacunación. Sin embargo, hay un reconocimiento de que también podrían ser mal utilizadas. Por ejemplo, podrían emplearse para identificar argumentos a favor de la vacunación para contrarrestar la oposición.
Es crucial utilizar este conjunto de datos de manera responsable, prestando atención a los matices de los argumentos en contra de la vacunación que pueden estar basados en preocupaciones legítimas en lugar de desinformación.
Conclusión
El conjunto de datos RFAV y los modelos desarrollados a partir de él tienen como objetivo arrojar luz sobre los debates en curso sobre la vacunación. Al analizar las razones que las personas dan a favor o en contra de las vacunas, podemos abordar mejor la desinformación y fomentar discusiones informadas sobre los beneficios y riesgos de la vacunación.
La creación de este conjunto de datos y el análisis continuo ejemplifican el potencial de combinar la experiencia humana con la IA para abordar importantes problemas de salud pública. Se necesita hacer más trabajo, especialmente para equilibrar las perspectivas representadas en el conjunto de datos, pero este es un paso significativo hacia la comprensión del discurso sobre la vacunación.
Referencias
No aplicable para esta sección.
Título: Mining Reasons For And Against Vaccination From Unstructured Data Using Nichesourcing and AI Data Augmentation
Resumen: We present Reasons For and Against Vaccination (RFAV), a dataset for predicting reasons for and against vaccination, and scientific authorities used to justify them, annotated through nichesourcing and augmented using GPT4 and GPT3.5-Turbo. We show how it is possible to mine these reasons in non-structured text, under different task definitions, despite the high level of subjectivity involved and explore the impact of artificially augmented data using in-context learning with GPT4 and GPT3.5-Turbo. We publish the dataset and the trained models along with the annotation manual used to train annotators and define the task.
Autores: Damián Ariel Furman, Juan Junqueras, Z. Burçe Gümüslü, Edgar Altszyler, Joaquin Navajas, Ophelia Deroy, Justin Sulik
Última actualización: 2024-06-28 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.19951
Fuente PDF: https://arxiv.org/pdf/2406.19951
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/ArgMiningVaccination/RFAV-Dataset
- https://huggingface.co/argmining-vaccines
- https://github.com/ArgMiningVaccination/RFAV-Dataset/blob/main/aux_files/keywords_SERAPI_en.json
- https://microsoft.github.io/presidio/
- https://github.com/ArgMiningVaccination/RFAV-Dataset/tree/main/raw_data/en
- https://github.com/ArgMiningVaccination/RFAV-Dataset/tree/main/raw_data/es
- https://github.com/ArgMiningVaccination/RFAV-Dataset/blob/main/aux_files/Keywords.xlsx
- https://github.com/burcegumuslu/corpus_filtered_en
- https://github.com/burcegumuslu/corpus_filtered_es
- https://github.com/ArgMiningVaccination/RFAV-Dataset/blob/main/aux_files/Annotation%20Manual%20for%20Mining%20Arguments%20For%20and%20Against%20Vaccination.docx