Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de imagen y vídeo# Multimedia

Presentamos el Conjunto de Datos de Videoconferencias para Comunicación del Mundo Real

Un conjunto de datos diseñado para probar la calidad de video en situaciones de videoconferencia.

― 6 minilectura


Nuevo conjunto de datosNuevo conjunto de datospara videollamadasvideo en escenarios de conferencias.Un recurso para probar la calidad de
Tabla de contenidos

Las videollamadas se han vuelto una forma importante de comunicación, especialmente ahora que el trabajo y el aprendizaje se hacen más online. La calidad del video es clave para una buena experiencia de llamada. Muchas herramientas que se usan para chequear la Calidad de video se centran en videos de alta calidad de películas o series, que son distintos de los usados en videollamadas. La mayoría de las llamadas se hacen con webcams, que a menudo no tienen la misma calidad alta que las cámaras profesionales. Normalmente tienen menor resolución y menos detalle comparado con lo que se usa para videos de entretenimiento.

Sin embargo, las herramientas actuales para medir la calidad de video no consideran las necesidades únicas de las videollamadas. Los conjuntos de datos usados para probar formatos de video a menudo contienen clips de alta resolución que no coinciden con la calidad típica de webcam que se encuentra en videollamadas reales.

La Necesidad de un Nuevo Conjunto de Datos

Para abordar esta brecha, se ha creado un nuevo conjunto de datos específicamente para videollamadas. Este nuevo conjunto se llama Video Conferencing Dataset (VCD) y ofrece una variedad de ejemplos de video de videollamadas reales. Incluye clips de diferentes tipos de cámaras y fondos, lo que significa que captura las diferentes formas en que las personas pueden aparecer en una videollamada.

VCD cuenta con cuatro categorías principales de clips de video, mostrando diferentes escenarios que pueden suceder durante una videollamada. Esto lo convierte en una herramienta útil para examinar cómo diferentes formatos de video, o codecs, manejan los tipos de videos que alguien encontraría típicamente.

Resumen del Conjunto de Datos

El VCD consta de 160 secuencias de video con personas hablando en varios entornos. Los clips de video fueron recolectados y divididos en cuatro categorías principales:

  1. Videos de Cabeza Hablante: Estos se graban directamente desde la webcam del participante.
  2. Cabeza Hablante con Fondo Opaque: En esta categoría, el fondo original del participante se reemplaza con una imagen popular que a menudo se usa en videollamadas.
  3. Cabeza Hablante con Fondo Borroso: Similar a la categoría anterior, pero con un fondo de reemplazo borroso.
  4. Grabaciones Móviles en Mano: Estos videos se toman desde dispositivos móviles, mostrando una mezcla de videollamadas en interiores y exteriores.

Al menos un tercio de los videos en cada categoría presenta hablantes activos, asegurando una variedad de interacciones y escenarios.

Importancia de Probar Codecs de Video

Para determinar qué tan bien funcionan diferentes codecs de video en estos escenarios, los investigadores usaron varios codecs como H.264, H.265, H.266 y AV1. Al probar estos diferentes formatos en el VCD, pudieron ver qué tan bien cada codec maneja las características únicas de las videollamadas en comparación con aquellos derivados de contenido de entretenimiento típico.

El conjunto de datos ofrece información sobre la calidad del video en diversas condiciones y situaciones. Al centrarse en videollamadas del mundo real, VCD ayuda a identificar qué tan bien diferentes codecs logran comprimir video sin perder calidad, un factor importante para una comunicación más fluida.

Compresión de Video Explicada

La compresión de video es un proceso que reduce la cantidad de datos necesarios para mostrar un video. Esto es vital para las videollamadas porque un menor uso de datos puede llevar a una mejor calidad de streaming, incluso con velocidades de internet limitadas. Si un codec puede comprimir video de manera eficiente manteniendo la calidad, ayuda a los usuarios a tener mejores experiencias de comunicación online.

En general, los conjuntos de datos enfocados en entretenimiento a menudo no dan una imagen clara de cómo rinden los codecs con videollamadas reales. VCD llena esta necesidad al proporcionar una manera de evaluar codecs basados en escenarios realistas de videollamadas.

Probando el VCD

A través de pruebas cuidadosas, se comparó el VCD con varios otros conjuntos de datos populares. Los resultados mostraron que la calidad de video y el tipo de dispositivo de grabación juegan un papel significativo en qué tan bien un codec rinde. El conjunto de datos permite a los investigadores ver cómo cambia la eficiencia de compresión según la calidad de la fuente del video que se está comprimiendo.

Diferentes codecs de video reaccionaron de manera diferente según las condiciones en las que fueron probados. Por ejemplo, un codec que funciona bien con videos de alta calidad puede no rendir tan bien con clips de videollamadas de menor calidad, destacando la necesidad de probar con un conjunto de datos específicamente adaptado para ese contexto.

Hallazgos de las Pruebas

Las pruebas iniciales usando VCD revelaron información importante. Se encontró que varios codecs tenían un rendimiento significativamente diferente dependiendo de la calidad del video y qué tipo de procesamiento de fondo se aplicó.

  1. Variabilidad en el Rendimiento de Codec: Los resultados mostraron que la eficiencia de cada codec variaba según la calidad del video de entrada. Cuando se probaron videos de menor calidad, algunos codecs tuvieron problemas para mantener una buena compresión y calidad.

  2. Impacto del Procesamiento de Fondo: La presencia de procesamiento de fondo, como reemplazar o difuminar el fondo, afectó enormemente cómo los codecs manejaron la compresión. Diferentes escenarios llevan a diferentes niveles de rendimiento para los codecs.

  3. Aplicación en el Mundo Real: Los hallazgos indican que al desarrollar u optimizar codecs de video para videoconferencias, es crucial usar conjuntos de datos que reflejen condiciones del mundo real. Esto asegura que los codecs no solo sean eficientes, sino también efectivos para el uso diario en videollamadas.

Direcciones Futuras

De cara al futuro, hay planes para mejorar el conjunto de datos agregando más escenarios de video que son comunes en videoconferencias. Ejemplos incluyen videos de reuniones grupales, conferencias y presentaciones. Al seguir expandiendo VCD, puede convertirse en un recurso más completo para probar y mejorar codecs de video.

El estudio de codecs de aprendizaje automático de extremo a extremo que podrían mejorar la calidad del video también está en el horizonte. Estos nuevos codecs podrían ayudar a mejorar la experiencia general en reuniones online y videollamadas, proporcionando a los usuarios un video más claro y fluido.

Conclusión

El Video Conferencing Dataset proporciona un recurso valioso para entender cómo rinden diferentes codecs de video en situaciones realistas de videoconferencias. A medida que nuestra dependencia de las videollamadas sigue creciendo, desarrollar codecs eficientes que se adapten a estos escenarios específicos es cada vez más importante. VCD marca un paso significativo hacia mejorar la calidad de la comunicación en video y asegurar una mejor experiencia para los usuarios en varias plataformas de videoconferencia. Al centrarse en la aplicación del mundo real, este conjunto de datos ayuda a impulsar el desarrollo de mejores tecnologías de video que puedan satisfacer las necesidades de los usuarios de hoy.

Fuente original

Título: VCD: A Video Conferencing Dataset for Video Compression

Resumen: Commonly used datasets for evaluating video codecs are all very high quality and not representative of video typically used in video conferencing scenarios. We present the Video Conferencing Dataset (VCD) for evaluating video codecs for real-time communication, the first such dataset focused on video conferencing. VCD includes a wide variety of camera qualities and spatial and temporal information. It includes both desktop and mobile scenarios and two types of video background processing. We report the compression efficiency of H.264, H.265, H.266, and AV1 in low-delay settings on VCD and compare it with the non-video conferencing datasets UVC, MLC-JVC, and HEVC. The results show the source quality and the scenarios have a significant effect on the compression efficiency of all the codecs. VCD enables the evaluation and tuning of codecs for this important scenario. The VCD is publicly available as an open-source dataset at https://github.com/microsoft/VCD.

Autores: Babak Naderi, Ross Cutler, Nabakumar Singh Khongbantabam, Yasaman Hosseinkashi, Henrik Turbell, Albert Sadovnikov, Quan Zhou

Última actualización: 2023-11-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.07376

Fuente PDF: https://arxiv.org/pdf/2309.07376

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares