Desbloqueando Secretos Antiguos: Huesos Oraculares y IA
Descubre cómo la IA está transformando el estudio de los huesos oraculares chinos antiguos.
Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai
― 7 minilectura
Tabla de contenidos
- ¿Qué es OBI-Bench?
- La Importancia de los Huesos Oraculares
- Los Desafíos
- Entrando en LMMs
- Las Cinco Tareas Clave en OBI-Bench
- Reconocimiento
- Reunión
- Clasificación
- Recuperación
- Desciframiento
- Evaluación de LMMs
- Hallazgos Clave
- El Proceso: Desde la Recolección de Datos hasta la Evaluación
- Desarrollo de Conjuntos de Datos
- El Futuro de la Investigación de OBI
- Direcciones Potenciales
- Conclusión
- Fuente original
- Enlaces de referencia
Los huesos oraculares son artefactos antiguos usados por la dinastía Shang en China para la adivinación y rituales desde aproximadamente 1400 a.C. hasta 1100 a.C. Estos huesos tienen inscripciones que ofrecen valiosas ideas sobre los pensamientos, el lenguaje y la cultura de sociedades pasadas. Sin embargo, interpretar estas inscripciones es complicado y a menudo requiere conocimientos especializados.
Aquí es donde entra OBI-Bench. Es un nuevo benchmark diseñado para evaluar la capacidad de grandes modelos multimodales (LMMs) para manejar tareas relacionadas con las inscripciones de huesos oraculares (OBI). El objetivo es ver si estos modelos avanzados pueden procesar y entender guiones antiguos, ayudando a los académicos a descubrir los secretos ocultos en estos artefactos.
¿Qué es OBI-Bench?
OBI-Bench es una colección de 5,523 imágenes de inscripciones de huesos oraculares sacadas de varias fuentes. Estas imágenes no son solo fotos bonitas; representan cinco tareas clave que son esenciales para entender los guiones de huesos oraculares. Estas tareas incluyen:
- Reconocimiento: Encontrar caracteres específicos en las imágenes.
- Reunión: Juntar piezas rotas de texto.
- Clasificación: Clasificar caracteres en sus categorías correctas según su significado.
- Recuperación: Buscar imágenes relevantes según una consulta.
- Desciframiento: Averiguar qué significan los caracteres en un contexto histórico.
A diferencia de otros benchmarks, OBI-Bench está diseñado específicamente para los desafíos que presentan las inscripciones de huesos oraculares, empujando a los LMMs a desempeñarse a niveles que igualen a los expertos humanos.
La Importancia de los Huesos Oraculares
Los huesos oraculares son como cápsulas del tiempo que revelan las creencias y prácticas de la dinastía Shang. Estas inscripciones no son solo garabatos; tienen las claves para entender la civilización china antigua. Por emocionante que suene, interpretar estas inscripciones conlleva su propio conjunto de desafíos.
A lo largo de los siglos, muchos huesos se han deteriorado. Se han fragmentado y algunos están dañados, lo que hace difícil reconocer o interpretar los caracteres. Además, la amplia gama de estilos usados en estas inscripciones puede confundir incluso a los académicos más experimentados.
Los Desafíos
Al intentar trabajar con inscripciones de huesos oraculares, los investigadores enfrentan varios obstáculos:
- Erosión y Daño: Después de estar enterrados durante miles de años, muchos huesos oraculares se han erosionado y fragmentado. Esto dificulta identificar caracteres.
- Reunión de Fragmentos: Juntar piezas rotas de texto es esencial pero puede ser un proceso largo que requiere conocimientos especializados.
- Variación Estilística: Los diferentes estilos de escritura pueden hacer difícil reconocer y clasificar caracteres.
- Dificultades de Recuperación: Crear grandes bases de datos de estas inscripciones es complicado debido a la necesidad de distinguir entre caracteres similares.
- Problemas de Traducción: Muchos huesos oraculares tienen caracteres que no se corresponden directamente con el chino moderno, lo que hace que la interpretación sea complicada.
Los investigadores han utilizado métodos tradicionales para abordar estos problemas. Sin embargo, con la aparición de LMMs que tienen fuertes capacidades visuales y de razonamiento, hay potencial para mejorar significativamente el proceso.
Entrando en LMMs
Los grandes modelos multimodales combinan percepción visual y comprensión del lenguaje, lo que los hace ideales para abordar tareas complejas como las que se ven en la investigación de OBI. La pregunta principal es: ¿Pueden estos modelos ayudar a mejorar el estudio de las inscripciones de huesos oraculares?
Para responder a esto, los investigadores evaluaron 23 LMMs populares, tanto propietarios como de código abierto, en diferentes tareas. Los resultados fueron fascinantes, mostrando que aunque los LMMs tienen capacidades impresionantes, todavía tienen margen de mejora en cuanto a percepción fina e interpretación de estos guiones antiguos.
Las Cinco Tareas Clave en OBI-Bench
Reconocimiento
Esta tarea implica localizar caracteres densos de huesos oraculares en varios contextos, como huesos originales o frotaciones. Se evalúa a los modelos sobre qué tan precisamente pueden identificar caracteres en las imágenes.
Reunión
Reunir es como armar un rompecabezas de fragmentos de texto rotos. Esta tarea evalúa qué tan bien pueden los modelos unir estas piezas fracturadas para formar texto coherente.
Clasificación
Cada carácter de las inscripciones oraculares necesita ser clasificado en su significado correcto. Esta tarea verifica qué tan confiables son los modelos al categorizar caracteres con precisión.
Recuperación
Cuando se le da una consulta, ¿qué tan bien puede el modelo encontrar las imágenes correctas en una base de datos? Esta tarea mide la efectividad del modelo en recuperar resultados relevantes.
Desciframiento
El objetivo final de entender los huesos oraculares es interpretar sus significados. Esta tarea evalúa qué tan bien pueden los modelos ofrecer información sobre la importancia histórica y cultural de las inscripciones.
Evaluación de LMMs
Durante la evaluación, se encontró que incluso los modelos más avanzados a veces luchan con el reconocimiento fino, pero se desempeñaron razonablemente bien en tareas de desciframiento. Algunos modelos pudieron interpretar caracteres a un nivel comparable con humanos no entrenados, lo que indica un potencial para el desarrollo futuro en este área.
Hallazgos Clave
- Mucho Espacio para Mejorar: Los LMMs todavía tienen un trabajo significativo que hacer en tareas que requieren reconocimiento preciso y reunión de fragmentos.
- Sensibilidad a la Información Local: Muchos modelos no pudieron detectar características sutiles necesarias para las tareas de reconocimiento y reunión.
- Fuertes Capacidades de Clasificación y Recuperación: Los LMMs mostraron resultados prometedores en clasificar caracteres y recuperar imágenes relevantes, particularmente para conjuntos de datos más claros.
- Habilidades de Desciframiento Notables: Algunos modelos se desempeñaron sorprendentemente bien en tareas de desciframiento, sugiriendo que pueden ofrecer nuevas interpretaciones de caracteres no descifrados.
El Proceso: Desde la Recolección de Datos hasta la Evaluación
Para crear OBI-Bench, los investigadores recolectaron imágenes de múltiples fuentes, asegurando diversidad en los datos. Involucraron a expertos en la materia para anotar las imágenes y refinar los conjuntos de datos. La evaluación implicó usar diferentes tipos de consultas, como "¿Qué hay en esta imagen?" o “¿Cuántos caracteres puedes ver?” para evaluar la comprensión de los modelos sobre las tareas.
Desarrollo de Conjuntos de Datos
Se crearon dos conjuntos de datos específicos: el conjunto de datos de Reconocimiento de Huesos Oraculares Original (O2BR) y el conjunto de datos OBI-reunir, que sirven como recursos importantes para entrenar y probar LMMs en el contexto de las inscripciones de huesos oraculares.
El Futuro de la Investigación de OBI
Los hallazgos de OBI-Bench sugieren que los LMMs pueden ser herramientas valiosas en el estudio de los huesos oraculares. Presentan posibilidades emocionantes para simplificar el proceso de investigación, reduciendo la pesada carga de trabajo manual que suele asociarse con el desciframiento de estos guiones antiguos.
Direcciones Potenciales
- Mejorar Técnicas de Preprocesamiento: Al desarrollar métodos para mejorar la calidad de las imágenes, los investigadores pueden aumentar el rendimiento de los LMM.
- Ajuste Fino para Conjuntos de Datos Específicos: Adaptar modelos para aprender de las características únicas de los huesos oraculares puede mejorar sus habilidades interpretativas.
- Sistemas Interactivos: Crear sistemas donde los usuarios puedan hacer preguntas sobre los huesos oraculares en lenguaje natural hará que el proceso de investigación sea más accesible.
Conclusión
La exploración de las inscripciones de huesos oraculares a través de LMMs tiene un gran potencial para avanzar nuestra comprensión de civilizaciones antiguas. Aunque todavía hay obstáculos que superar, el uso de la tecnología moderna en este campo podría llevar a descubrimientos emocionantes y mayores conocimientos sobre la rica historia de la humanidad.
Así que, la próxima vez que pienses en guiones antiguos, recuerda que con un toque de tecnología y una pizca de innovación, los secretos de los huesos oraculares pueden estar pronto al alcance — ¡solo esperando ser descifrados!
Fuente original
Título: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
Resumen: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single character, and handprinted character. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering task, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.
Autores: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai
Última actualización: 2024-12-02 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.01175
Fuente PDF: https://arxiv.org/pdf/2412.01175
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/zijianchen98/OBI-Bench
- https://jgw.aynu.edu.cn/home/down/detail/index.html?sysid=3
- https://humanum.arts.cuhk.edu.hk/Lexis/lexi-mf/
- https://www.ihpc.se.ritsumei.ac.jp/OBIdataseIJDH.zip
- https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/
- https://moondream.ai
- https://openai.com/index/hello-gpt-4o/
- https://openai.com/o1/
- https://github.com/tzutalin/labelImg
- https://blog.roboflow.com/gpt-4o-vision-use-cases/
- https://en.unesco.org/memoryoftheworld/registry/511
- https://openmuseum.tw/objects
- https://www.xianqin.org/blog/archives/category/jgw_study/jgw_zhuihe
- https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2