Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Estadística# Aplicaciones

Automatizando la codificación de eventos en relaciones internacionales

Aprovechando la tecnología para analizar de manera eficiente los datos de crisis internacionales.

― 9 minilectura


Eventos de programaciónEventos de programaciónen crisisde datos en crisis.Nueva tecnología automatiza el análisis
Tabla de contenidos

En el campo de las relaciones internacionales, entender las diferentes acciones y comunicaciones durante las crisis es clave. Un proyecto específico, conocido como ICBe, tiene como objetivo reunir información detallada sobre las acciones tomadas durante crisis internacionales. Sin embargo, analizar estos datos a mano puede ser muy lento y costoso. Por eso, la idea es encontrar formas eficientes de aplicar la tecnología para automatizar el proceso de análisis.

El Proyecto ICBe

El proyecto ICBe recopila datos que reflejan los pensamientos, palabras y acciones involucradas en crisis internacionales. Este proyecto utiliza un extenso sistema de codificación para clasificar estas acciones, que puede cubrir una amplia gama de detalles. Cada evento se anota a nivel de oración. Un evento se define como una combinación de un actor y su comportamiento durante un período específico.

El desafío de este enfoque radica en la cantidad de trabajo humano necesario para codificar nuevos textos según el sistema ICBe. Esto puede desanimar a los investigadores a usar los datos debido a recursos financieros y de mano de obra limitados. Se propuso una solución utilizando modelos de lenguaje de código abierto modernos, que son herramientas que pueden procesar y analizar textos en computadoras comunes sin necesidad de un entrenamiento complejo. Este método permite una codificación eficiente de nuevos textos sin requerir un esfuerzo manual extenso.

Prueba de Concepto

Se creó una prueba de concepto para demostrar que la codificación ICBe podría ser automatizada con éxito utilizando modelos de lenguaje actuales y disponibles gratuitamente. Estos modelos pueden funcionar en hardware de computadora cotidiano y no requieren ajustes adicionales para funcionar eficazmente. Con esta configuración, los investigadores individuales pueden realizar análisis que antes solo eran posibles con un equipo dedicado.

El proceso se desglosó en varias secciones organizadas. En primer lugar, se definieron los desafíos de extraer eventos de textos históricos densos. Luego, se discutieron los avances recientes en modelos de lenguaje, centrándose en cómo pueden ayudar en la codificación de eventos. Después de esto, se describieron los métodos técnicos utilizados para implementar esta solución, incluyendo cómo se mapearon los códigos originales de ICBe al nuevo sistema automatizado.

Detalles y Definiciones de la Tarea

La tarea principal es la codificación de eventos a partir de textos históricos. La codificación de eventos se refiere a resumir y extraer información de estos textos. Requiere hacer juicios sobre lo que sucedió y cuán detallado debería ser el resumen. Los eventos del pasado están marcados por momentos específicos y las acciones que los actores tomaron durante esos tiempos. El sistema de Relaciones Internacionales consiste en patrones que guían cómo interactúan los diferentes actores globales entre sí basado en su conocimiento, creencias y expectativas.

Los textos históricos brindan varios documentos que contienen información valiosa sobre las acciones tomadas durante las crisis, pero a menudo son desestructurados y requieren un procesamiento cuidadoso. El objetivo es combinar lo que se sabe sobre Relaciones Internacionales con los datos de texto para estructurar la información en eventos discretos que sean precisos y completos.

El proyecto ICBe utiliza oraciones para representar unidades distintas de acción dentro de una narrativa histórica. Cada oración puede contener hasta tres eventos separados. Las categorías clave para los eventos son "Pensar", "Decir" y "Hacer." Los eventos "Pensar" se refieren a los pensamientos de un actor, mientras que los eventos "Decir" tratan sobre las comunicaciones entre actores. Los eventos "Hacer" describen las acciones físicas tomadas por uno o más actores.

Desarrollos Actuales en Modelos de Lenguaje

Los modelos de lenguaje están avanzando rápidamente, con nuevos modelos lanzados frecuentemente. Mientras que las evaluaciones para estos modelos están en curso, aplicarlos a campos específicos como las ciencias políticas sigue siendo un desafío. Una revisión reciente evaluó varios modelos de lenguaje comerciales y de código abierto por su efectividad en procesar respuestas de encuestas abiertas. Se encontró que algunos modelos funcionaban bien con codificadores humanos, mientras que otros no.

Recientemente, los métodos existentes para la codificación de eventos han estado aprovechando modelos de lenguaje avanzados, como BERT y RoBERTa. Se han creado nuevos conjuntos de datos para mejorar estos sistemas de codificación, mostrando una tendencia a alejarse de la codificación manual hacia métodos automatizados.

Selección de Modelos y Estrategias de Prompts

Dado los avances en modelos de lenguaje, el objetivo era determinar si los modelos de código abierto actuales podrían automatizar la codificación de eventos, permitiendo a los científicos sociales beneficiarse de estos avances. El modelo elegido para esta tarea fue la última versión del modelo de código abierto Llama de Meta. Este modelo fue afinado específicamente para un mejor rendimiento en aplicaciones orientadas a tareas.

Para hacerlo más accesible a investigadores con recursos computacionales regulares, se utilizó una versión más ligera de este modelo. Este enfoque permite a los investigadores operar el modelo sin necesidad de pagar costosas suscripciones a servicios comerciales. El enfoque estuvo en crear estrategias de prompts que equilibren rendimiento y eficiencia.

Un prompting efectivo es clave para asegurar que el modelo extraiga la información correcta rápidamente. Los prompts cortos ayudan a acelerar el proceso, pero pueden carecer de contexto importante. Por otro lado, los prompts más largos pueden proporcionar más detalles, pero tardan más en procesarse.

Ejecución de la Ontología ICBe

Para codificar de manera efectiva usando el sistema ICBe, el proceso comienza desglosando la narrativa en piezas manejables. El texto se divide inicialmente en párrafos utilizando métodos sencillos. Luego, estos párrafos se analizan oración por oración para identificar y extraer eventos distintos. Si hay múltiples eventos presentes en una oración, se separan para mayor claridad.

Este método mejora el proceso de codificación en comparación con los esfuerzos manuales previos. El modelo también verifica cada evento para cualquier pensamiento o comunicación relacionada, lo que permite análisis agrupados de eventos complejos. Los pasos finales de codificación implican reunir todos los detalles relevantes de acuerdo con las definiciones originales de ICBe.

Evaluando el Rendimiento a través de la Crisis de los Misiles en Cuba

Para evaluar la precisión de este enfoque, se realizó un estudio de caso sobre la Crisis de los Misiles en Cuba. Este evento histórico involucró múltiples actores y produjo numerosos momentos clave que necesitaban un análisis cuidadoso. El objetivo era determinar qué tan bien el sistema automatizado podía replicar la codificación detallada lograda manualmente.

El análisis comenzó comparando la narrativa original con la codificación generada por la máquina. Se examinó cada elemento para ver si reflejaba con precisión el material fuente. Se documentaron varios momentos clave de la crisis para analizar qué tan bien la máquina capturó acciones y comunicaciones distintas.

En general, el sistema de codificación automatizado produjo resultados de alta calidad, capturando con precisión muchos eventos clave que antes eran difíciles de procesar por los sistemas anteriores. Sin embargo, se notaron algunos desafíos, especialmente en cuanto a la complejidad de las promesas y negociaciones que a veces se pasaron por alto o se registraron incorrectamente.

Medidas de Control de Calidad

Para asegurar que la codificación se mantenga precisa, se implementó un método de control de calidad. Este proceso de dos pasos implicó una codificación inicial seguida de una etapa de verificación donde se evaluó cada respuesta por su corrección. Este enfoque permitió a los investigadores identificar discrepancias y entender áreas donde el sistema luchaba por captar detalles con precisión.

Al analizar el rendimiento, los investigadores pretendían descubrir qué tan bien el sistema de codificación automatizado coincidía con los datos codificados por humanos. Esto incluía calcular las tasas de recuperación, que miden qué tan bien la máquina capturó todos los eventos relevantes de un texto dado.

En el estudio de caso, el sistema automatizado mostró una tasa de recuperación de aproximadamente 72%, indicando que logró coincidir con una porción significativa de los eventos anotados por codificadores humanos. Sin embargo, se encontraron discrepancias en diferentes partes de la ontología de codificación, destacando tanto las fortalezas como las debilidades en el rendimiento.

Conclusión e Implicaciones Futuras

La exploración del uso de modelos de lenguaje de código abierto para la codificación de eventos representa un paso importante hacia adelante en la capacidad de los investigadores individuales para analizar conjuntos de datos complejos. Al automatizar con éxito partes del proceso de codificación tradicionalmente laborioso, los investigadores ahora pueden interactuar de manera más efectiva con textos históricos sin la abrumadora necesidad de grandes equipos o recursos.

Esta prueba de concepto allana el camino para futuros avances en el campo. A medida que la tecnología sigue desarrollándose, los investigadores tendrán acceso a herramientas más sofisticadas que faciliten la codificación y el análisis de eventos internacionales. Los modelos mejorados aumentarán aún más las tasas de precisión y recuperación, permitiendo a los investigadores interactuar con nuevos textos con mayor libertad.

Las innovaciones en este campo fomentan un cambio en la forma en que se aborda la investigación en ciencias sociales. En lugar de depender de un extenso trabajo humano para codificar datos, los investigadores pueden centrarse en refinar definiciones y marcos mientras utilizan sistemas automatizados para recopilar los datos que necesitan. Este cambio reduce significativamente el tiempo entre el desarrollo de teorías y la recopilación de datos, permitiendo prácticas de investigación más dinámicas.

El proyecto ICBe no solo sentó una base sólida para futuras investigaciones, sino que también destacó la importancia de la automatización para mejorar la eficiencia y efectividad del análisis de datos de eventos. A medida que los modelos de lenguaje evolucionen y se vuelvan más capaces, los investigadores pueden anticipar aún mayores mejoras en su capacidad para interrogar textos complejos y descubrir información valiosa sobre relaciones internacionales y crisis.

Fuente original

Título: ICBeLLM: High Quality International Events Data with Open Source Large Language Models on Consumer Hardware

Resumen: The International Crises Behavior Events (ICBe) ontology provides high coverage over the thoughts, communications, and actions that constitute international relations. A major disadvantage of that level of detail is that it requires large human capital costs to apply it manually to new texts. Whether such an ontolgy is practical for international relations research given limited human and financial resources is a pressing concern. We introduce a working proof of concept showing that ICBe codings can be reliably extracted from new texts using the current generation of open source large language models (LLM) running on consumer grade computer hardware. Our solution requires no finetuning and only limited prompt engineering. We detail our solution and present benchmarks against the original ICBe codings. We conclude by discussing the implications of very high quality event coding of any text being within reach of individual researchers with limited resources.

Autores: Rex W. Douglass, Thomas Leo Scherer, J. Andrés Gannon, Erik Gartzke

Última actualización: 2024-01-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2401.10558

Fuente PDF: https://arxiv.org/pdf/2401.10558

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares