Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Conectando Sonido y Texto en Poesía

Un conjunto de datos único que une poemas escritos con lecturas en audio.

― 6 minilectura


El sonido se encuentraEl sonido se encuentracon el texto en la poesíade audio con texto poético.Un conjunto de datos combina lecturas
Tabla de contenidos

La poesía es una parte importante de las culturas en todo el mundo. Se ha usado para compartir conocimientos y experiencias a lo largo de muchas generaciones. Los poemas pueden variar mucho, desde rimas infantiles hasta dichos tradicionales. Analizar estas obras puede ser complicado, especialmente cuando queremos ver cómo el sonido del poema se relaciona con el texto escrito.

Para lograr esto, hemos creado una colección de poemas que conecta el texto con grabaciones de audio. Esta colección se centra en poetas conocidos. Alineamos cada línea de texto con su sonido correspondiente. También incluimos detalles sobre cómo se leen los poemas, enfatizando patrones de ritmo y acento. Nuestro objetivo es proporcionar recursos para investigadores que quieran estudiar esta relación entre texto y sonido en la poesía.

La Importancia de la Escansión

Al mirar la poesía, a menudo pensamos en el ritmo y el sonido. Esto nos lleva a un proceso llamado escansión. La escansión ayuda a descomponer el ritmo de un poema marcando patrones específicos y Analizando las rimas. Implica dividir las líneas en partes más pequeñas llamadas pies.

Por ejemplo, al leer un poema en voz alta, podemos escuchar un fuerte ritmo. Este ritmo puede guiar cómo interpretamos el poema. Al analizar el ritmo, podemos ver cómo los patrones de sonido afectan el significado y la emoción general de una pieza.

Creando el Corpus

El objetivo de nuestro proyecto es crear un conjunto de datos de poemas que incluya tanto texto como audio. Seleccionamos poemas de dos poetas famosos cuyas obras son muy estudiadas. La colección que construimos incluye aproximadamente 12.5 horas de tiempo de lectura y cuenta con casi 100,000 palabras.

En nuestro conjunto de datos, el texto se divide en líneas, palabras, sílabas y sonidos, todos emparejados con segmentos de audio. También realizamos escansión en cada poema para analizar el ritmo. Este proceso de escansión utiliza un enfoque de tecnología moderna para asegurar precisión.

Trabajo Relacionado e Investigación Previa

Varios proyectos se han centrado en analizar la poesía a través del sonido y el texto escrito. Algunos han buscado patrones rítmicos en poesía de verso libre o explorado la lectura de sonetos. Nuestro proyecto es similar, pero a una escala más pequeña, centrándose en poetas específicos y ritmos más tradicionales.

Existen muchos conjuntos de datos de poesía para investigadores. Algunos ejemplos incluyen colecciones de diferentes idiomas y estilos. Estos conjuntos de datos ayudan a entender la poesía a través de culturas y períodos.

Pasos de Procesamiento

Para construir nuestro corpus, seguimos un proceso cuidadoso. Primero, limpiamos el texto para mantener solo la información relevante. Luego, alineamos el audio con el texto escrito. Esta alineación es crucial, ya que une lo que se escucha con lo que se lee.

Es esencial alinear cada parte del texto con el audio de manera precisa. Dado que algunas grabaciones son bastante largas, comenzamos alineando líneas antes de profundizar en la alineación de palabras o frases. Usamos algoritmos para realizar esta alineación, asegurando que cada línea esté correctamente emparejada con su segmento de audio.

Luego, convertimos las palabras escritas en sonidos, a menudo utilizando un diccionario para emparejar palabras con su representación fonética. Esto nos permite descomponer cada palabra en sus sonidos básicos, que luego pueden ser analizados a nivel de sílaba y fonema.

Una parte significativa de este proceso implica cronometrar las sílabas, ayudándonos a ver cómo los sonidos se conectan con el ritmo de la poesía. Utilizamos sistemas basados en reglas y modelos de aprendizaje automático para analizar el ritmo del texto.

Codificación de datos

Para mantener nuestro conjunto de datos organizado, seguimos pautas específicas para la codificación. Esto incluye estructurar los datos de manera que sea fácil de acceder y analizar. Cada poema está formateado para mostrar líneas, palabras, sonidos y ritmo.

Para cada línea de poesía, incluimos detalles sobre cuándo empieza y termina en la grabación de audio. Este nivel de detalle permite a los investigadores ver no solo el texto, sino también cómo se interpreta. Esta información puede ofrecer ideas sobre cómo diferentes aspectos de la poesía, como el ritmo y el sonido, interactúan con la palabra escrita.

Análisis de los Datos

Una vez que se construye el conjunto de datos, analizamos la información recolectada para obtener ideas significativas. Esto implica observar la duración promedio de las palabras y sílabas para entender cómo se relacionan con la longitud total de las líneas y poemas.

Evaluamos diferentes modelos utilizados para contar sílabas para ver cuán precisos son. También exploramos la relación entre la longitud de las palabras y cuánto tiempo tardan en decirse en voz alta. Este análisis revela patrones interesantes que muestran conexiones entre la estructura del texto y la interpretación hablada.

Visualización del Corpus

Para hacer nuestro conjunto de datos accesible, hemos desarrollado un sitio web. Esta plataforma permite a los usuarios interactuar con los poemas y explorar diferentes características. Los usuarios pueden seleccionar un poeta y un poema específico, y luego ver el texto junto con su escansión.

Mientras los usuarios escuchan el audio, pueden seguir el texto, creando una experiencia atractiva. Aunque la versión actual se centra en las líneas y sus ritmos, esperamos incluir más información detallada sobre el sonido en el futuro.

Oportunidades de Investigación Futura

El trabajo que hemos realizado abre numerosas posibilidades para futuras investigaciones. Con nuestro conjunto de datos, los investigadores pueden investigar cómo se expresa el acento poético en la palabra hablada. Hay potencial para estudiar cómo las emociones o el sentimiento en las palabras afectan cómo se dicen.

Por ejemplo, al incluir poetas y estilos más diversos, podríamos comparar cómo se recitan diferentes ritmos. Esto nos ayudaría a entender si las diferentes estructuras poéticas conducen a patrones de habla similares.

Además, incorporar elementos visuales, como videos de lecturas de poesía, podría agregar otro nivel de profundidad al análisis. Esto permitiría un estudio más completo de cómo se experimenta la poesía a través del sonido y la vista.

Conclusión

Hemos creado una colección única de poemas que conecta texto con lecturas de audio, realzada con análisis de ritmo. Este conjunto de datos ofrece nuevas formas de ver cómo el sonido y el significado trabajan juntos en la poesía.

A medida que continuamos desarrollando nuestro corpus, nuestro objetivo es incluir una gama más amplia de poetas y poemas. Al hacerlo, podemos profundizar nuestra comprensión de la poesía y su interpretación. Este proyecto tiene el potencial de unir varios campos, incluyendo la literatura, la lingüística y la acústica, ofreciendo nuevas ideas sobre la belleza de la poesía.

Artículos similares