Organizando Artículos de Noticias Históricos de Manera Eficiente
Un sistema para categorizar artículos históricos usando roles y aspectos.
― 13 minilectura
Tabla de contenidos
- Usuarios y Sus Necesidades
- Metas y Contribuciones
- Trabajo Relacionado
- Enfoque y Recolección de Datos
- Procesamiento de Artículos de Noticias
- Minería y Clasificación de Aspectos
- Procesamiento de Fragmentos de Artículos de Noticias
- Evaluación del Sistema
- Desafíos y Direcciones Futuras
- Fuente original
- Enlaces de referencia
Las bibliotecas digitales a menudo dan acceso a periódicos antiguos usando búsquedas por palabras clave. Al investigar historia, aprender sobre figuras históricas y sus roles puede ser muy importante. Agrupar y organizar Artículos de Noticias puede ayudar a los usuarios a encontrar esta información más fácilmente. Sin embargo, varios retos del mundo real, como no tener suficientes datos de entrenamiento, restricciones legales y errores en el texto debido al reconocimiento óptico de caracteres (OCR), hacen que crear tal sistema sea complicado y costoso. Este trabajo muestra cómo abordar estos desafíos desarrollando una interfaz basada en roles que organiza artículos de noticias sobre personas históricas. Evaluaciones y comentarios de expertos mostraron que nuestro prototipo es efectivo y adecuado para colecciones digitales reales.
Usuarios y Sus Necesidades
Las personas que usan bibliotecas digitales con artículos de noticias históricas tienen varias formas de interactuar con la información. Pueden planear tareas, buscar datos o trabajar con elementos específicos.
En la investigación histórica, las figuras históricas y sus roles son puntos de interés significativos. Existe una necesidad reconocida de herramientas que puedan apoyar el trabajo de los historiadores al satisfacer sus necesidades específicas. Un trabajo crucial para los investigadores es crear colecciones más pequeñas de artículos que ayuden a responder sus preguntas de investigación. Sin embargo, encontrar estas colecciones más pequeñas puede ser complicado por dos razones principales.
Primero, la gran cantidad de artículos de noticias puede ser abrumadora. Segundo, encontrar las palabras clave adecuadas para buscar puede ser complicado.
Las mejoras en el procesamiento del lenguaje natural (NLP) han llevado a nuevas formas para que los usuarios accedan al contenido de noticias históricas. Muchos proyectos de bibliotecas digitales se centraron en esto en el pasado. Sin embargo, muchos de estos sistemas dependen del trabajo manual o requieren ejemplos de entrenamiento especializados para cada paso que se da.
En contraste, este trabajo evita el trabajo manual y la necesidad de datos de entrenamiento especializados usando información de Wikipedia que proporciona detalles estructurados junto con ejemplos de texto. Este documento presenta un nuevo sistema que organiza automáticamente artículos de noticias históricas basándose en personas y ofrece una interfaz fácil de usar para facilitar la exploración del contenido de la biblioteca.
La idea principal es que cada persona tiene varios roles (por ejemplo, escritor, político, soldado), y cada rol tiene diferentes aspectos (por ejemplo, vida temprana, carrera política, acciones). Idealmente, el sistema creará automáticamente colecciones más pequeñas para cada rol y aspecto para ayudar a los investigadores a estudiar figuras históricas. Pero los métodos tradicionales en el campo del NLP a menudo dependen de datos de entrenamiento elaborados a mano, que no están disponibles en nuestro caso.
Este proyecto aborda los desafíos de una biblioteca digital real, específicamente la Biblioteca Nacional de los Países Bajos. Aquí, no existen datos de entrenamiento elaborados a mano ni referencias. Además, hay varias limitaciones del mundo real:
- Los datos están en neerlandés, mientras que muchas herramientas solo están disponibles en inglés.
- Los artículos de noticias provienen de periódicos escaneados por OCR, lo que conduce a problemas comunes de OCR como letras incorrectas y oraciones cortadas.
- La licencia de la biblioteca prohíbe compartir datos con herramientas de terceros.
Además de estos desafíos, hay una colección menos estudiada de artículos de noticias neerlandeses que no están en inglés. Este trabajo tiene como objetivo crear un sistema práctico que supere las limitaciones típicas de las bibliotecas digitales.
Metas y Contribuciones
Este proyecto tiene como objetivo apoyar a los usuarios en la planificación de su investigación organizando artículos de noticias según figuras históricas y sus roles. Nuestro prototipo trabaja con datos reales de la Biblioteca Nacional de los Países Bajos y se basa en datos de entrenamiento generados automáticamente de Wikipedia. El resultado esperado es ayudar a los usuarios a formular preguntas de investigación sobre figuras históricas.
Para responder a la pregunta de investigación de cómo una biblioteca digital puede crear caminos de acceso efectivos para explorar su colección, este trabajo hace varias contribuciones:
- Describimos cómo superar los desafíos del mundo real que enfrentan las bibliotecas digitales.
- Presentamos un método efectivo para organizar automáticamente artículos de noticias utilizando información estructural de Wikipedia.
- Evaluamos nuestro prototipo paso a paso y a través de entrevistas con expertos en el campo.
Trabajo Relacionado
El trabajo relacionado con esta investigación se puede clasificar en tres categorías principales: sistemas de archivo de noticias de bibliotecas digitales, procesamiento de texto en neerlandés utilizando modelos de lenguaje, y métodos de resumen de texto.
Sistemas de Bibliotecas Digitales sobre Artículos de Noticias
La investigación sobre cómo estructurar y explorar artículos de noticias es extensa. Los temas incluyen resumir, evolución de términos, detección de noticias falsas y agrupamiento. Algunos sistemas agrupan artículos de noticias por su similitud utilizando máquinas de soporte vectorial (SVM). Investigaciones anteriores han identificado los roles de figuras históricas, sus relaciones y entidades nombradas como puntos de acceso importantes a documentos históricos. Varios proyectos reales han explorado el agrupamiento de artículos de noticias similares con restricciones reales.
Un ejemplo es la plataforma Delpher desarrollada por la Biblioteca Nacional de los Países Bajos. Delpher digitaliza artículos de noticias y proporciona una interfaz de usuario para navegar en colecciones históricas. También buscan organizar parte de su colección de periódicos de manera diferente a la interfaz de búsqueda estándar. Nuestro trabajo tiene como objetivo organizar automáticamente los artículos de noticias de la biblioteca mientras cumple con sus restricciones.
Modelos de Lenguaje Neerlandeses
Muchos modelos de lenguaje han sido entrenados y evaluados con datos en inglés. Existen algunas excepciones para modelos que fueron entrenados en configuraciones multilingües o específicamente para neerlandés. Modelos como BERTje y RobBERT son ejemplos que superan a las versiones multilingües en varias tareas. Para la Clasificación de textos en este proyecto, usamos el modelo RobBERT-2022.
Resumen de Texto
El resumen de texto implica crear resúmenes concisos de textos más largos. Muchos modelos generales de secuencia a secuencia de lenguaje pueden ser ajustados para tareas de resumen. Sin embargo, muchos modelos de resumen están limitados a textos más cortos, a menudo menos de 512 tokens. Modelos más nuevos pueden manejar entradas más grandes, pero la mayoría están entrenados en inglés. En este proyecto, buscamos resumir varios artículos en un solo resumen, así que el enfoque está en tareas de resumen de múltiples documentos.
Enfoque y Recolección de Datos
El proyecto actual busca mejorar la forma en que se estructuran los artículos de noticias para apoyar la investigación sobre personas individuales. Cada artículo de noticias contiene elementos como un título, texto, fecha de publicación y periódico de edición. Consideramos que cada persona puede tener múltiples roles (por ejemplo, político, escritor) que tienen varios aspectos (por ejemplo, carrera política, novelas, premios).
Limitaciones de la Biblioteca
Nos enfrentamos a varias limitaciones en nuestro trabajo:
- Los artículos provienen de periódicos escaneados por OCR.
- Los textos están en neerlandés.
- Había restricciones contra compartir datos con terceros.
- Se nos requería enlazar al sistema Delpher y solo podíamos mostrar fragmentos de los artículos reales (máximo 160 caracteres).
- No había datos de entrenamiento curados para nuestras tareas.
Debido a estas limitaciones, no pudimos usar servicios de traducción automática o asistentes AI. La ausencia de datos de entrenamiento dificultó el uso de enfoques simples como entrenar modelos para la clasificación de textos. Recopilar, etiquetar y entrenar habría sido costoso. Así que optamos por una solución diferente:
Usando Wikipedia en neerlandés, recolectamos textos que describen diferentes personas, sus roles y sus aspectos. Wikipedia organiza el texto en secciones y proporciona cuadros informativos ricos que dan información estructurada sobre los roles de cada persona. Usamos estas características para entender mejor los roles y aprender a describir varios aspectos.
Interfaz del Sistema
Al construir la interfaz del sistema, buscamos satisfacer las necesidades de los usuarios para la serendipia en entornos digitales. Esto significa crear interfaces con diversa información, mostrando relaciones entre objetos de información y ofreciendo recomendaciones inesperadas.
El objetivo era determinar los roles de una persona y clasificar si el contenido de un artículo se relaciona con uno de esos roles. Usamos resúmenes para cada aspecto para ayudar a los usuarios a recopilar información rápidamente. Los usuarios pueden seleccionar diferentes personas y sus roles conocidos, y luego pueden examinar diferentes aspectos de esos roles. Cada aspecto tiene un resumen y una lista de artículos relevantes para ese aspecto.
Procesamiento de Artículos de Noticias
Utilizamos un subconjunto de datos de la biblioteca que incluye artículos desde el siglo XVII hasta la actualidad. Recopilamos artículos relacionados con nueve figuras notables de la era de la Segunda Guerra Mundial. Filtramos artículos basados en criterios específicos para asegurarnos de que proporcionaran suficiente información y se publicaran durante la vida de los individuos.
El proceso de filtrado involucró varios pasos:
- Solo se mantuvieron artículos con un cierto porcentaje de palabras neerlandesas reconocibles.
- Excluimos artículos de ciertas fuentes basadas en su postura política.
- Los artículos debían haberse publicado durante la vida de la persona, deben tener más de 100 palabras y deben mencionar su nombre varias veces.
Estos filtros ayudaron a reducir la colección a artículos que eran relevantes e informativos.
Procesamiento de Wikipedia
Usar Wikipedia para derivar el rol de una persona involucró vincular información a categorías de ocupación. Examinamos los volcados XML de Wikipedia en neerlandés para extraer roles y sus correspondientes resúmenes de página. Este proceso resultó en una lista de más de 259,000 páginas de personas.
Para asegurarnos de reunir suficiente información sobre roles bien descritos, filtramos las páginas que no ofrecían detalles sustanciales. Buscamos crear secciones donde cada sección pudiera describir un aspecto distinto de la vida de una persona. Para manejar los títulos de las secciones, empleamos un método para agrupar títulos similares que describen el mismo aspecto de la vida.
Minería y Clasificación de Aspectos
A continuación, buscamos identificar aspectos frecuentes relacionados con los roles contando cuántas veces aparecían estos aspectos en todas las personas que pertenecen a un rol específico. Establecimos umbrales para asegurarnos de que solo se consideraran aquellos aspectos con suficientes ejemplos.
Con el rol de una persona definido, desarrollamos un clasificador para determinar si un texto está relacionado con uno de los aspectos del rol. Nuestra intención era crear un sistema de clasificación multiclase capaz de manejar varios aspectos de los roles.
Para entrenar nuestros clasificadores, extraímos texto de secciones de Wikipedia y nos aseguramos de que cada aspecto tuviera suficientes ejemplos. También incluimos ejemplos negativos para entrenar contra clasificaciones incorrectas. Ajustamos el modelo RobBERT-2022 para la tarea, dividiendo los datos en conjuntos de entrenamiento, validación y prueba.
Procesamiento de Fragmentos de Artículos de Noticias
Luego, aplicamos los clasificadores a fragmentos de artículos de noticias que involucraban figuras históricas. Dado que los artículos podían discutir múltiples temas, nos enfocamos en compilar fragmentos que incluyeran el nombre de la persona. Extraímos oraciones relacionadas con el individuo y el contexto adyacente para crear fragmentos significativos.
Identificamos los roles de la persona a través de sus páginas correspondientes en Wikipedia. Basándonos en estos roles, aplicamos los clasificadores a cada fragmento. El objetivo era resumir estos fragmentos para que los usuarios pudieran captar rápidamente cómo se discutían los aspectos de los individuos a través de los artículos.
Debido a las limitaciones de los modelos de resumen disponibles en neerlandés, optamos por un modelo en inglés ajustado y traducimos entre idiomas para crear resúmenes.
Evaluación del Sistema
Evaluamos varios componentes del prototipo, incluyendo agrupamiento, clasificación, traducción y resumen. Exportamos títulos de secciones de Wikipedia que cumplían con criterios de frecuencia específicos para evaluar los procesos de agrupamiento y clasificación.
La evaluación de los clasificadores se llevó a cabo de varias maneras, incluyendo la medición del rendimiento en conjuntos de prueba y la evaluación de la calidad de los fragmentos clasificados a través de revisiones manuales.
Los resultados indicaron que los clasificadores funcionaron mejor con conjuntos de entrenamiento más grandes. Los hallazgos también destacaron la variabilidad con respecto al número de fragmentos clasificados entre diferentes figuras históricas.
Se recopiló feedback de usuarios a través de entrevistas, donde los participantes compartieron sus opiniones sobre la interfaz y las características del sistema. En general, los entrevistados expresaron opiniones positivas sobre la organización de la interfaz, su claridad y su capacidad para proporcionar información contextual sobre figuras históricas.
Desafíos y Direcciones Futuras
A pesar de los éxitos del proyecto, ciertas áreas requieren más mejora. Es necesario refinar la etiquetación para los clusters de secciones y presentar los fragmentos resumidos de manera más efectiva. Abordar los problemas de corrección en los resúmenes es crítico para mantener la integridad de los recursos de la biblioteca. Pasos futuros posibles incluyen adoptar métodos para verificar hechos y emplear diferentes enfoques para el resumen.
En conclusión, este proyecto demuestra cómo una biblioteca digital puede desarrollar un método impulsado por aspectos para organizar sus colecciones de noticias. Al aprovechar Wikipedia, el proyecto reduce la necesidad de un extenso entrenamiento de datos. Las evaluaciones confirman la efectividad del método y su valor práctico para ayudar a los usuarios con sus tareas de investigación. Si bien se ha avanzado, aún hay potencial para mejorar aún más el sistema.
Título: Aspect-Driven Structuring of Historical Dutch Newspaper Archives
Resumen: Digital libraries oftentimes provide access to historical newspaper archives via keyword-based search. Historical figures and their roles are particularly interesting cognitive access points in historical research. Structuring and clustering news articles would allow more sophisticated access for users to explore such information. However, real-world limitations such as the lack of training data, licensing restrictions and non-English text with OCR errors make the composition of such a system difficult and cost-intensive in practice. In this work we tackle these issues with the showcase of the National Library of the Netherlands by introducing a role-based interface that structures news articles on historical persons. In-depth, component-wise evaluations and interviews with domain experts highlighted our prototype's effectiveness and appropriateness for a real-world digital library collection.
Autores: Hermann Kroll, Christin Katharina Kreutz, Mirjam Cuper, Bill Matthias Thang, Wolf-Tilo Balke
Última actualización: 2023-07-14 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.09203
Fuente PDF: https://arxiv.org/pdf/2307.09203
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.delpher.nl/thema/geschiedenis/tweede-wereldoorlog
- https://impresso-project.ch/overview/intro
- https://glam-workbench.net/
- https://www.newseye.eu/fileadmin/deliverables/NewsEye-T64-D612-ShowcaseCaseStudies-b-Submitted-v3.0.pdf
- https://github.com/NewsEye/NLP-Notebooks-Newspaper-Collections
- https://www.newseye.eu/case-studies/case-study-2-gender/women-in-pants/
- https://anno.onb.ac.at/them
- https://anno.onb.ac.at/cgi-content/anno?datum=19480708
- https://www.retronews.fr/
- https://infoscience.epfl.ch/record/270246
- https://www.digitalhumanities.org/dhq/vol/9/1/000205/000205.html
- https://www.digitalstudies.org/article/id/7328/
- https://data.cervantesvirtual.com/glam-jupyter-notebooks
- https://www.kb.nl
- https://github.com/HermannKroll/AspectDrivenNewsStructuring
- https://archive.softwareheritage.org/swh:1:dir:13457c154ed7ad1f571e353c1edf2f87db61b0ae
- https://narrative.pubpharm.de/news
- https://www.youtube.com/watch?v=0GzIydjts2E