Avances en robots de escritorio
Un estudio sobre robots de escritorio que utilizan tecnologías de reconocimiento de lenguaje natural y visual.
― 15 minilectura
Tabla de contenidos
Los autores de este estudio contribuyeron igualmente a la investigación y la escritura de este trabajo.
Introducción a los Robots de Escritorio
En los últimos años, los robots inteligentes que pueden operar por sí mismos han comenzado a formar parte de nuestra vida y trabajo cotidiano. Los robots de escritorio son conocidos por ser fáciles de usar, rápidos en responder y ideales para tareas más ligeras. Para satisfacer la creciente necesidad de robots de servicio, esta investigación sugiere el uso de un pequeño robot de escritorio que funciona con ROS (Sistema Operativo de Robots). Este robot utilizará un modelo de Procesamiento de Lenguaje Natural (NLP-BERT), así como tecnologías para reconocimiento visual (CV-YOLO) y reconocimiento de voz (ASR-Whisper), lo que le permitirá tomar decisiones y realizar acciones por sí mismo.
Experimentos y Resultados
Se realizaron tres experimentos principales para probar el brazo del robot. Los resultados mostraron un desempeño sólido en todas las pruebas. En la primera tarea, las tasas de comprensión del habla y de realización de acciones fueron del 92.6% y del 84.3%, respectivamente. En la segunda tarea, las mejores tasas alcanzaron el 92.1% y el 84.6%. En la tercera tarea, estas tasas fueron del 95.2% y del 80.8%. Por lo tanto, la conclusión es que el método sugerido que utiliza ASR, NLP y otras tecnologías en dispositivos pequeños es práctico y sienta las bases para crear varios robots de escritorio.
Antecedentes sobre Modelos de Lenguaje Natural
Tradicionalmente, los modelos de lenguaje natural se centraban únicamente en el texto sin considerar el mundo físico. Esto limitó su capacidad para dar respuestas sensatas para acciones que no podían realizar físicamente, como pasar algo. Algunos programas de televisión y películas, como "Rick y Morty," han mostrado conceptos similares, como robots diseñados para pasar mantequilla. Incluir entradas visuales permite que los robots vean su entorno y tomen decisiones sobre el espacio y el movimiento, lo que cambia el uso de la IA de la teoría a aplicaciones en la vida real. Esto también significa considerar más factores del mundo real al planear las acciones del robot, mejorando así la practicidad de sus respuestas.
Movimiento del Robot y Planificación Dinámica
Para que un robot se mueva de manera segura y flexible, la planificación dinámica utilizando modelos de lenguaje natural es esencial. Esta planificación implica encontrar las mejores formas de moverse y manipular objetos en diferentes entornos. Puede implicar cambiar de ruta en tiempo real para evitar obstáculos y completar tareas. Esta función prueba qué tan bien el robot puede procesar información rápidamente y también cómo puede ajustarse a los cambios en su entorno.
Manejo de Múltiples Entradas
Usar múltiples tipos de entrada es un desafío, especialmente para robots de escritorio pequeños que necesitan gestionar sus recursos con cuidado. En la realidad, los robots llevan a cabo tanto tareas urgentes, como encontrar objetos y controlar movimientos, como tareas menos urgentes que pueden realizarse utilizando computadoras más potentes, como las de las computadoras personales estándar. Por ejemplo, tareas que requieren un procesamiento intensivo, como responder a comandos de usuario, pueden enviarse a una computadora más poderosa con una tarjeta gráfica. Esta computadora puede gestionar tareas complicadas como analizar lenguaje a través de modelos como Whisper y BERT.
Procesamiento de Datos Remoto
En la computadora remota, los datos de los sensores del robot se procesan a través de una red. El audio se transforma en texto utilizando el modelo Whisper, y las intenciones se reconocen con BERT. Este proceso luego controla el robot basado en comandos de lenguaje natural.
Este estudio sugiere reducir la complejidad al asignar tareas de computación intensiva a sistemas remotos mientras se mantienen las tareas de control esenciales en el propio robot. Esto permite que el robot de escritorio entienda el lenguaje natural y realice acciones por sí mismo.
Estructura del Documento
El documento se divide en varias secciones sobre el diseño y uso de robots de escritorio con múltiples métodos de entrada, enfocándose específicamente en el reconocimiento de voz, el procesamiento de lenguaje natural y el control del robot. Cada sección discutirá trabajos relacionados en estas áreas.
Modelo ASR
El modelo ASR, como el modelo Whisper de extremo a extremo, es vital para reconocer comandos de voz. La investigación ha mostrado que usar sesgos contextuales con este modelo puede mejorar su efectividad. Se introdujo un componente específico llamado TCPGen y un método de entrenamiento a medida, permitiendo al modelo ajustar la salida sin cambiar sus parámetros base. Las pruebas usando tres conjuntos de datos diferentes indicaron una disminución significativa en errores para palabras específicas cuando se aplicó el sesgo contextual, particularmente en escenarios específicos de dominio. Este resultado destaca el sesgo contextual como una herramienta poderosa para mejorar el rendimiento de reconocimiento para vocabulario específico mientras aún se mantiene el uso general.
Modelo BERT
BERT, un modelo de aprendizaje profundo creado por Google en 2018, ha ganado una inmensa popularidad en el procesamiento de lenguaje natural debido a sus mejores resultados en varias tareas de lenguaje. Lo que hace único a BERT es su uso de un codificador bidireccional del modelo Transformer, que le ayuda a captar el contexto del lenguaje de manera más profunda.
Principios del Modelo BERT
Modelo de Lenguaje Enmascarado (MLM): Durante su fase de pre-entrenamiento, algunas palabras en la entrada son reemplazadas aleatoriamente por un token especial [MASK]. La tarea del modelo BERT es predecir estas palabras enmascaradas basándose en el contexto en el que se encuentran.
Predicción de Siguiente Oración (NSP): BERT aprende sobre las conexiones entre oraciones prediciendo si dos oraciones están una al lado de la otra en el texto original. Este paso mejora su capacidad para abordar tareas que requieren entender la relación entre oraciones.
Sistemas de Control para Robots
Para controlar un brazo robótico de manera efectiva, es crucial entender sus movimientos. La cinemática de un brazo robótico de seis grados de libertad (6DOF) se expresa utilizando un método llamado parametrización de Denavit-Hartenberg (DH). Este método define las características geométricas del brazo y cómo sus articulaciones se relacionan entre sí.
Definiendo el Sistema de Coordenadas
Se deben definir los sistemas de coordenadas para la base del robot y cada articulación. Por lo general, el sistema de coordenadas de la base se alinea con el sistema de coordenadas del mundo. El sistema de coordenadas de cada articulación se encuentra en el eje de la articulación, con su eje alineado a su rotación específica.
Parámetros DH
Los parámetros describen las relaciones geométricas entre los sistemas de coordenadas de cada articulación. Para un brazo 6DOF, estos parámetros incluyen:
- El ángulo de rotación alrededor del eje de la articulación.
- La distancia a lo largo del eje entre dos articulaciones consecutivas.
- La distancia proyectada a lo largo del eje de rotación.
- El ángulo de rotación de cada articulación.
Matriz de Transformación
Para cada articulación, se puede calcular una matriz de transformación basada en estos parámetros DH. Al multiplicar las matrices de transformación de todas las articulaciones, podemos obtener la matriz que muestra la posición del efector final.
Estructura del Brazo Robótico y Comunicación
Usando el STM32F07VET6, logramos el modelado cinemático del brazo robótico 6DOF, estableciendo comunicación con el Jetson. Este enlace bidireccional permite tareas específicas: una vez que el Jetson envía comandos de coordenadas, el STM32 calcula los ángulos para cada servo asociado y envía de vuelta esta información. De igual manera, el STM32 también puede relatar coordenadas de vuelta al Jetson cuando recibe comandos de ángulo de articulación.
Sistema de Procesamiento de Lenguaje Natural
Los sistemas NLP transforman el lenguaje natural tanto de texto como de audio en comandos que el robot puede procesar y actuar. Para texto, el NLP analiza para identificar intenciones específicas. Se calculan varios tipos de intenciones, y el modelo BERT ayuda en su clasificación. Para la entrada de voz, el audio se convierte primero en texto utilizando el modelo Whisper antes de que se realice el mismo proceso de reconocimiento de intenciones.
BERT juega un papel central aquí. Entiende el lenguaje en profundidad a través de dos etapas: pre-entrenamiento en grandes conjuntos de datos y ajuste fino basado en tareas específicas. Google proporciona modelos BERT pre-entrenados que los desarrolladores pueden ajustar a sus necesidades.
Sistema de Visión por computadora
La tecnología de visión por computadora implica el uso de cámaras y sensores que permiten a los robots recopilar datos de imágenes y videos para análisis. Esta capacidad es clave para detectar e interactuar con objetos de manera precisa. El algoritmo YOLO (You Only Look Once) sobresale en la detección de objetos en tiempo real. Trata la detección como un problema de regresión, prediciendo cajas delimitadoras y categorías directamente a partir de imágenes.
Para una entrada de imagen RGB, el modelo YOLO identifica varios objetos y calcula sus posiciones. Para lograr una detección precisa de objetos tridimensionales, se utilizan cámaras de profundidad junto con el modelo YOLO, proporcionando información crucial de profundidad para cada píxel. Esta integración mejora la capacidad del robot para manipular objetos de manera efectiva.
Optimización del Cálculo para Dispositivos Integrados
Integrar cámaras de profundidad aumenta significativamente la demanda computacional en dispositivos de escritorio. Para mejorar el rendimiento, este estudio aplicó técnicas como la poda y la cuantización para reducir el tamaño del modelo y las necesidades computacionales.
La poda elimina partes innecesarias de una red neuronal, lo que ayuda a disminuir el tamaño del modelo. Este proceso implica evaluar la importancia de cada neurona según su actividad. La cuantización reduce aún más el espacio de almacenamiento al representar pesos y valores de activación con menos bits.
Después de la optimización, el modelo fue probado en dispositivos pequeños, mostrando que la reducción del tamaño del modelo y la carga computacional resultaron en un rendimiento más rápido y eficiente mientras mantenía una detección precisa.
Centro de Control y Comunicación
Con los sistemas de control fundamentales, el reconocimiento visual y la comprensión del lenguaje natural en su lugar, el robot está listo para realizar tareas complejas. Un Centro de Comunicación de Control central permite la ejecución de acciones complejas y habilita la comunicación en tiempo real entre el robot y un host remoto.
Para gestionar las acciones del robot, se utiliza una máquina de estados de acción. Este modelo formal describe el comportamiento del robot y define las transiciones y acciones realizadas. Los estados básicos representan acciones típicas como "inactivo," "buscar," y "agarrar," mientras que estados especiales manejan condiciones únicas, como enfrentarse a fallas.
Usar diagramas de transición de estados ayuda a visualizar el sistema de control del robot. Este diagrama resalta cómo el robot se mueve de un estado a otro en función de diversas condiciones, mejorando su flexibilidad operativa.
Capacidades del Sistema Integral
Con todos los componentes funcionando juntos, el robot ahora es capaz de manejar una variedad de tareas. El centro de comunicación asegura un control eficiente e interacción inteligente, proporcionando una base sólida para las funciones del robot.
Resumen del Sistema de Control
La efectividad del robot depende de su sistema de control, que gestiona las operaciones de hardware a través de su brazo robótico 6DOF. Este sistema incorpora sensores que transmiten información sobre torque y posición. Métodos de cinemática inversa se utilizan para encontrar los ángulos de articulación necesarios para un movimiento preciso del brazo.
Sistema de Comprensión del Lenguaje Natural
Este sistema traduce comandos hablados y escritos en acciones que el robot puede entender. Utilizando BERT, se analizan las entradas de texto, y los comandos hablados se convierten en texto a través del modelo Whisper. Esto asegura que el robot pueda responder adecuadamente a las instrucciones humanas.
Sistema de Visión por Computadora
Este sistema permite que el robot perciba su entorno utilizando algoritmos de detección de objetos como YOLO. Las cámaras de profundidad proporcionan datos tridimensionales adicionales, apoyando un manejo de objetos preciso y movimiento.
Centro de Control y Comunicación
El centro central coordina el flujo de datos y gestiona la comunicación en tiempo real con un host remoto. Esta configuración permite decisiones complejas y recepción de comandos, haciendo que el robot sea más eficiente en sus operaciones.
Arquitectura Operativa
La arquitectura se divide en capas para optimizar cada componente:
- Control y Muestreo de Sensores: Maneja el control básico del brazo robótico y la recolección de datos.
- Aplicación Local: Gestiona el reconocimiento de objetos en tiempo real utilizando YOLO.
- Capa de Extensión de Comandos: Opera el centro de comunicación.
- Comunicación del Robot: Asegura actualizaciones en tiempo real y recepción de comandos.
- Aplicación Remota: Ejecuta el sistema de comprensión del lenguaje natural para una gestión de nivel superior.
Este enfoque por capas permite que el robot funcione de manera efectiva mientras equilibra las necesidades en tiempo real con los requisitos computacionales.
Tareas Específicas y Experimentos
El robot fue sometido a tres tareas principales: abrir puertas, encender y apagar luces, y entregar un vaso de agua. Cada tarea fue diseñada para evaluar el rendimiento del robot en la comprensión de comandos de voz y la ejecución de tareas, mientras que las cámaras de profundidad grababan los procesos.
Tarea 1: Operación de Puertas
La primera tarea requería que el brazo robótico abriera puertas de oficina usando grandes interruptores. Los usuarios daban comandos para abrir la puerta, y el éxito se definía por la puerta desbloqueada y lista para abrirse. Esta tarea probó las tecnologías integradas del robot a través de 200 repeticiones para asegurar efectividad.
Tarea 2: Control de Luz
La segunda tarea implicó encender y apagar luces en distintas condiciones de iluminación. El brazo tenía que localizar y operar interruptores interiores de manera precisa. Cada comando se repitió 200 veces para medir el rendimiento en diferentes condiciones.
Tarea 3: Entregar un Vaso
En la tercera y más compleja tarea, el robot necesitaba recoger un vaso de agua y entregárselo a un usuario. Se introdujo ruido de fondo para imitar un ambiente de oficina típico lleno de distracciones. El brazo tuvo que reconocer y reaccionar a los movimientos del usuario de manera precisa. Esta tarea evaluó la capacidad del robot para funcionar de manera efectiva en un entorno de la vida real.
Recopilación de Datos de Experimentación
Los datos de cada tarea se centraron en medir las tasas de reconocimiento de voz correctas y de finalización de rendimiento. Para la tarea uno, se utilizaron diferentes frases de comando, y se registraron ambas tasas para evaluar la efectividad general.
En la tarea dos, las condiciones de luz cambiaron y se emplearon varios comandos. Las tasas de éxito para cada comando se anotaron para determinar la adaptabilidad del robot.
Finalmente, la tarea tres midió qué tan bien el robot realizó múltiples variaciones de comandos y con ruido de fondo. Esta tarea fue crucial para ver qué tan bien podía funcionar el robot en situaciones cotidianas.
Comparación de Plataformas y Versiones de YOLO
Al final de los experimentos, se compararon diferentes versiones de YOLO y varias plataformas. El objetivo era evaluar las diferencias en el rendimiento durante las tareas dos y tres.
Discusión de Resultados
El brazo robótico mostró resultados encomiables en la ejecución de tareas. Demostró altas tasas tanto en reconocimiento de voz como en finalización de acciones. Las tasas de éxito generales para la tarea uno fueron del 93.1% para el reconocimiento del habla y del 84.5% para la finalización de acciones, lo que prueba la efectividad de la solución propuesta.
En la tarea dos, la tasa de éxito para apagar la luz fue más del 5% superior en comparación con encenderla. Este resultado indica que las condiciones de iluminación impactaron significativamente en el rendimiento del sistema de reconocimiento visual.
En la tarea tres, los resultados variaron, con una notable caída en el rendimiento para comandos menos precisos. A pesar de reconocer los comandos bien, la capacidad de ejecución del brazo fue más influenciada por la claridad del comando. La adición de ruido de fondo también afectó la ejecución de acciones, aunque el reconocimiento del lenguaje se mantuvo estable.
Conclusión
Este trabajo presenta un marco para un robot que integra varias tecnologías, incluyendo comprensión del lenguaje natural, reconocimiento visual y robustos sistemas de control. Los experimentos validan la capacidad del robot para realizar tareas complejas, reforzando el potencial de los robots de escritorio para manejar diversas operaciones de manera efectiva. Aunque persisten desafíos, las tecnologías fundamentales se han probado como viables para crear robots efectivos que interactúen de manera natural con los humanos.
Título: "Pass the butter": A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT
Resumen: In recent years, various intelligent autonomous robots have begun to appear in daily life and production. Desktop-level robots are characterized by their flexible deployment, rapid response, and suitability for light workload environments. In order to meet the current societal demand for service robot technology, this study proposes using a miniaturized desktop-level robot (by ROS) as a carrier, locally deploying a natural language model (NLP-BERT), and integrating visual recognition (CV-YOLO) and speech recognition technology (ASR-Whisper) as inputs to achieve autonomous decision-making and rational action by the desktop robot. Three comprehensive experiments were designed to validate the robotic arm, and the results demonstrate excellent performance using this approach across all three experiments. In Task 1, the execution rates for speech recognition and action performance were 92.6% and 84.3%, respectively. In Task 2, the highest execution rates under the given conditions reached 92.1% and 84.6%, while in Task 3, the highest execution rates were 95.2% and 80.8%, respectively. Therefore, it can be concluded that the proposed solution integrating ASR, NLP, and other technologies on edge devices is feasible and provides a technical and engineering foundation for realizing multimodal desktop-level robots.
Autores: Haohua Que, Wenbin Pan, Jie Xu, Hao Luo, Pei Wang, Li Zhang
Última actualización: 2024-05-27 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.17250
Fuente PDF: https://arxiv.org/pdf/2405.17250
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://doi.org/#1
- https://doi.org/10.2991/978-2-494069-97-8
- https://dx.doi.org/10.1109/slt48900.2021.9383515
- https://api.semanticscholar.org/CorpusID:6706547
- https://aclanthology.org/D19-1586
- https://dx.doi.org/10.18653/v1/2020.acl-main.240
- https://dx.doi.org/10.18653/v1/n19-1423
- https://dx.doi.org/10.1109/cvpr.2016.91
- https://dx.doi.org/10.1109/icuas48674.2020.9213849