Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

YouTube-SL-25: Avanzando en la Investigación de Lengua de Señas

Un conjunto de datos grande para mejorar la tecnología y la investigación en lengua de señas.

― 6 minilectura


Dataset YouTube-SL-25Dataset YouTube-SL-25Lanzadoseñas.juego para el avance del lenguaje deUn recurso que cambia las reglas del
Tabla de contenidos

Las lenguas de señas son vitales para las comunidades sordas y con dificultad auditiva en todo el mundo. Muchas lenguas de señas, como la Lengua de señas Americana (ASL), son bien conocidas, pero otras no se han estudiado tanto. Un gran desafío para mejorar la tecnología en estas lenguas es encontrar suficiente data. YouTube-SL-25 es una nueva creación que ayuda a abordar este problema. Este conjunto de datos incluye una gran colección de Videos que presentan 25 lenguas de señas diferentes. Los videos vienen con subtítulos que coinciden, lo que facilita a los investigadores trabajar en traducciones y otras tareas.

¿Qué es YouTube-SL-25?

YouTube-SL-25 es una gran colección de videos de lengua de señas de YouTube. El conjunto de datos contiene más de 3,200 horas de material que presenta 25 lenguas de señas diferentes. Estos videos están emparejados con subtítulos, lo que significa que tienen texto que se alinea estrechamente con lo que se está señalando. Este conjunto de datos es notable porque es mucho más grande que esfuerzos anteriores, proporcionando una gran cantidad de datos para la investigación y el desarrollo en tecnología de lengua de señas.

¿Por qué es importante la data?

En cualquier campo de inteligencia artificial, la data es crucial. Para el procesamiento de la lengua de señas, tener mucha data significa que los investigadores pueden entrenar y probar sus modelos de manera más efectiva. Más data ayuda a crear mejores máquinas que pueden entender y traducir lenguas de señas. Los Conjuntos de datos de lengua de señas son particularmente raros, especialmente para lenguas utilizadas por comunidades más pequeñas. YouTube-SL-25 pretende cerrar esta brecha al proporcionar un recurso rico.

¿Cómo se creó YouTube-SL-25?

Crear YouTube-SL-25 implicó un proceso de dos pasos:

  1. Buscar videos: El primer paso fue reunir videos. Los investigadores usaron sistemas automáticos para buscar en YouTube contenido relacionado con la lengua de señas. Usaron etiquetas que mencionaban lengua de señas o lenguas de señas específicas para identificar videos potenciales.

  2. Filtrar videos: El segundo paso fue asegurarse de que los videos fueran de buena calidad. En lugar de contratar a un gran equipo de expertos para revisar cada video, los investigadores utilizaron a un miembro del equipo con conocimientos para evaluar los videos rápidamente. Esta persona revisó videos de canales con mucho contenido, verificando si incluían lengua de señas y si los subtítulos eran precisos.

El tamaño y el alcance del conjunto de datos

YouTube-SL-25 es el conjunto de datos más grande de su tipo, con más contenido que conjuntos de datos anteriores como YouTube-ASL y JWSign. Este conjunto de datos incluye videos de diversas lenguas de señas, lo que significa que puede ayudar a los investigadores a trabajar en muchos tipos diferentes de lenguas de señas a la vez.

Los videos no se limitan solo a lenguas populares; también incluyen lenguas de señas menos conocidas que necesitan más atención. El conjunto de datos ofrece al menos 15 horas de contenido para cada una de las 25 lenguas de señas incluidas, lo que lo convierte en un recurso valioso.

Casos de uso para YouTube-SL-25

YouTube-SL-25 tiene muchas aplicaciones potenciales:

  1. Traducción: Los videos pueden ayudar a mejorar modelos que traducen lenguas de señas a lenguas habladas y viceversa.

  2. Alineación de subtítulos: Los investigadores pueden usar el conjunto de datos para desarrollar sistemas que mejoren cómo se alinean los subtítulos con el contenido signado.

  3. Identificación de lenguas de señas: El conjunto de datos también permite la investigación sobre cómo identificar la lengua de señas específica que se está utilizando en un video.

  4. Preentrenamiento de modelos: Con tanta data disponible, YouTube-SL-25 puede usarse para entrenar modelos de aprendizaje automático, haciéndolos mejores en entender y usar lenguas de señas.

Desafíos con los datos de lengua de señas

A pesar de que YouTube-SL-25 es un gran avance, aún hay desafíos al trabajar con datos de lengua de señas:

  • Control de calidad: Dado que el conjunto de datos se basa en un proceso de filtrado más rápido, puede haber algunas variaciones en calidad en comparación con conjuntos de datos curados por un equipo de expertos.

  • Representación limitada: Aunque el conjunto de datos incluye muchas lenguas de señas, algunas regiones y lenguas aún están poco representadas, especialmente las de países menos ricos.

  • Diversidad de datos: El conjunto de datos incluye una variedad de firmantes, pero las diferencias en el estilo de señalización y la competencia pueden afectar el entrenamiento del modelo.

Direcciones futuras

Los creadores de YouTube-SL-25 esperan que este conjunto de datos pueda estimular más investigación y desarrollo en tecnología de lengua de señas. Animan a expertos dentro de las comunidades de lengua de señas a refinar aún más el conjunto de datos. El trabajo futuro podría implicar mejorar cómo se filtran y procesan los videos, así como aumentar la diversidad del contenido disponible.

Además, desarrollar mejores herramientas para trabajar con datos de lengua de señas es esencial para expandir el impacto del conjunto de datos. Esto puede involucrar la creación de métodos para manejar escenarios más complejos, como videos con múltiples firmantes o estilos de subtítulos variados.

Conclusión

YouTube-SL-25 representa un avance significativo en la investigación y tecnología de lengua de señas. Al proporcionar una gran y diversa colección de videos con subtítulos bien alineados, abre nuevas posibilidades para la traducción, identificación y comprensión de las lenguas de señas. El conjunto de datos busca hacer que la tecnología sea más inclusiva para las comunidades sordas y con dificultades auditivas a nivel global, asegurando que los avances en este campo puedan llegar a más personas en todo el mundo.

A medida que el campo de la tecnología de lengua de señas sigue creciendo, conjuntos de datos como YouTube-SL-25 jugarán un papel esencial en dar forma a su futuro.

Fuente original

Título: YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Resumen: Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.

Autores: Garrett Tanzer, Biao Zhang

Última actualización: 2024-07-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.11144

Fuente PDF: https://arxiv.org/pdf/2407.11144

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares