Desbloqueando Segredos Antigos: Ossos de Oráculo e IA
Descubra como a IA tá mudando o estudo dos ossos oraculares chineses antigos.
Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai
― 7 min ler
Índice
- O que é OBI-Bench?
- A Importância dos Ossos Oraculares
- Os Desafios
- Entrando nos LMMs
- As Cinco Tarefas Principais no OBI-Bench
- Reconhecimento
- Reunião
- Classificação
- Recuperação
- Decifração
- Avaliação dos LMMs
- Principais Descobertas
- O Processo: Da Coleta de Dados à Avaliação
- Desenvolvimento de Conjuntos de Dados
- O Futuro da Pesquisa OBI
- Direções Potenciais
- Conclusão
- Fonte original
- Ligações de referência
Os ossos oraculares são artefatos antigos usados pela dinastia Shang na China para adivinhações e rituais de cerca de 1400 a.C. a 1100 a.C. Esses ossos têm inscrições que trazem informações valiosas sobre os pensamentos, a língua e a cultura de sociedades passadas. Mas interpretar essas inscrições é complicado e geralmente exige conhecimento especializado.
É aí que entra o OBI-Bench. É uma nova referência criada para avaliar a habilidade de grandes modelos multimodais (LMMs) em lidar com tarefas relacionadas às inscrições de ossos oraculares (OBI). O objetivo é ver se esses modelos avançados conseguem processar e entender scripts antigos, ajudando os pesquisadores a desvendar os segredos escondidos nesses artefatos.
O que é OBI-Bench?
OBI-Bench é uma coleção de 5.523 imagens de inscrições de ossos oraculares tiradas de várias fontes. Essas imagens não são só fotos legais; elas representam cinco tarefas-chave que são essenciais para entender os scripts de ossos oraculares. As tarefas incluem:
- Reconhecimento: Encontrar caracteres específicos nas imagens.
- Reunião: Juntar peças quebradas de texto.
- Classificação: Organizar caracteres nas categorias corretas com base no significado.
- Recuperação: Procurar imagens relevantes com base em uma consulta.
- Decifração: Descobrir o que os caracteres significam em um contexto histórico.
Diferente de outras referências, o OBI-Bench é feito especificamente para os desafios apresentados pelas inscrições de ossos oraculares, desafiando os LMMs a performarem em níveis que se equiparam a especialistas humanos.
A Importância dos Ossos Oraculares
Os ossos oraculares são como cápsulas do tempo que revelam as crenças e práticas da dinastia Shang. Essas inscrições não são apenas rabiscos; elas guardam as chaves para entender a civilização antiga chinesa. Apesar de ser empolgante, interpretar essas inscrições vem com seu próprio conjunto de desafios.
Ao longo dos séculos, muitos ossos se deterioraram. Eles se fragmentaram e alguns estão danificados, dificultando o reconhecimento ou a interpretação dos caracteres. Além disso, a ampla variedade de estilos usados nessas inscrições pode confundir até os pesquisadores mais experientes.
Os Desafios
Quando tentam trabalhar com inscrições de ossos oraculares, os pesquisadores enfrentam várias dificuldades:
- Erosão e Danos: Depois de milhares de anos enterrados, muitos ossos oraculares se tornaram erodidos e fragmentados. Isso dificulta a identificação dos caracteres.
- Reunião de Fragmentos: Juntar peças quebradas de texto é essencial, mas pode ser demorado e requer conhecimento especializado.
- Variação Estilística: Os diferentes estilos de escrita podem dificultar o reconhecimento e a classificação de caracteres.
- Dificuldades de Recuperação: Criar grandes bancos de dados dessas inscrições é complicado devido à necessidade de distinguir entre caracteres semelhantes.
- Problemas de Tradução: Muitos ossos oraculares têm caracteres que não correspondem diretamente ao chinês moderno, tornando a interpretação complicada.
Os pesquisadores usaram métodos tradicionais para lidar com esses problemas. Contudo, com o surgimento de LMMs que têm fortes capacidades visuais e de raciocínio, há potencial para melhorar muito esse processo.
Entrando nos LMMs
Modelos multimodais grandes combinam percepção visual e compreensão de linguagem, tornando-os ideais para lidar com tarefas complexas como as vistas na pesquisa OBI. A principal pergunta é: será que esses modelos podem ajudar a melhorar o estudo das inscrições de ossos oraculares?
Para responder a isso, os pesquisadores avaliaram 23 LMMs populares, tanto proprietários quanto de código aberto, em diferentes tarefas. Os resultados foram fascinantes, mostrando que, embora os LMMs tenham capacidades impressionantes, ainda têm espaço para melhorar em relação à percepção e interpretação detalhada desses scripts antigos.
As Cinco Tarefas Principais no OBI-Bench
Reconhecimento
Essa tarefa envolve localizar caracteres densos de ossos oraculares em vários contextos, como ossos originais ou estampas. Os modelos são avaliados pela precisão com que conseguem identificar caracteres nas imagens.
Reunião
Reunião é como montar um quebra-cabeça de fragmentos de texto quebrados. Essa tarefa avalia o quão bem os modelos conseguem juntar essas peças fraturadas para formar um texto coerente.
Classificação
Cada caractere das inscrições oraculares precisa ser classificado em seu significado correto. Essa tarefa verifica a confiabilidade dos modelos em categorizar caracteres com precisão.
Recuperação
Dada uma consulta, quão bem o modelo consegue encontrar as imagens certas em um banco de dados? Essa tarefa mede a eficácia do modelo em recuperar resultados relevantes.
Decifração
O objetivo final de entender os ossos oraculares é interpretar seus significados. Essa tarefa avalia quão bem os modelos conseguem fornecer insights sobre a importância histórica e cultural das inscrições.
Avaliação dos LMMs
Durante a avaliação, foi descoberto que até mesmo os modelos mais avançados às vezes lutavam com o reconhecimento detalhado, mas se saíram razoavelmente bem nas tarefas de decifração. Alguns modelos conseguiram interpretar caracteres em um nível comparável a humanos não treinados, indicando potencial para desenvolvimento futuro nessa área.
Principais Descobertas
- Muito Espaço para Melhorar: Os LMMs ainda têm um trabalho considerável pela frente nas tarefas que exigem reconhecimento preciso e reunião de fragmentos.
- Sensibilidade à Informação Local: Muitos modelos falharam em detectar características sutis necessárias para as tarefas de reconhecimento e reunião.
- Fortes Capacidades de Classificação e Recuperação: Os LMMs mostraram resultados promissores em classificar caracteres e recuperar imagens relevantes, especialmente em conjuntos de dados mais claros.
- Habilidades de Decifração Notáveis: Alguns modelos se saíram surpreendentemente bem nas tarefas de decifração, sugerindo que podem oferecer novas interpretações de caracteres não decifrados.
O Processo: Da Coleta de Dados à Avaliação
Para criar o OBI-Bench, os pesquisadores coletaram imagens de várias fontes, garantindo diversidade nos dados. Eles envolveram especialistas da área para anotar as imagens e refinar os conjuntos de dados. A avaliação envolveu o uso de diferentes tipos de consultas, como "O que tem nesta imagem?" ou “Quantos caracteres você consegue ver?” para avaliar a compreensão do modelo sobre as tarefas.
Desenvolvimento de Conjuntos de Dados
Dois conjuntos de dados específicos foram criados — o conjunto de dados Original Oracle Bone Recognition (O2BR) e o conjunto de dados OBI-rejoin, que servem como recursos importantes para treinar e testar LMMs no contexto das inscrições de ossos oraculares.
O Futuro da Pesquisa OBI
As descobertas do OBI-Bench sugerem que os LMMs podem ser ferramentas valiosas no estudo dos ossos oraculares. Eles apresentam possibilidades empolgantes para simplificar o processo de pesquisa, reduzindo a pesada carga de trabalho manual normalmente associada à decifração desses scripts antigos.
Direções Potenciais
- Técnicas de Pré-processamento Melhoradas: Ao desenvolver métodos para melhorar a qualidade da imagem, os pesquisadores podem aumentar o desempenho dos LMMs.
- Aperfeiçoamento para Conjuntos de Dados Específicos: Personalizar modelos para aprender com as características únicas dos ossos oraculares pode melhorar suas habilidades interpretativas.
- Sistemas Interativos: Criar sistemas onde os usuários podem fazer perguntas sobre os ossos oraculares em linguagem natural tornará o processo de pesquisa mais acessível.
Conclusão
A exploração das inscrições em ossos oraculares através dos LMMs tem grande potencial para avançar nossa compreensão das civilizações antigas. Embora ainda haja obstáculos a serem superados, o uso de tecnologia moderna nesse campo pode levar a descobertas empolgantes e maiores insights sobre a rica tapeçaria da história humana.
Então, da próxima vez que você pensar em scripts antigos, lembre-se de que, com uma pitada de tecnologia e uma dose de inovação, os segredos dos ossos oraculares podem estar logo ao nosso alcance — apenas esperando para serem decifrados!
Fonte original
Título: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?
Resumo: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single character, and handprinted character. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering task, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.
Autores: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai
Última atualização: 2024-12-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.01175
Fonte PDF: https://arxiv.org/pdf/2412.01175
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/zijianchen98/OBI-Bench
- https://jgw.aynu.edu.cn/home/down/detail/index.html?sysid=3
- https://humanum.arts.cuhk.edu.hk/Lexis/lexi-mf/
- https://www.ihpc.se.ritsumei.ac.jp/OBIdataseIJDH.zip
- https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/
- https://moondream.ai
- https://openai.com/index/hello-gpt-4o/
- https://openai.com/o1/
- https://github.com/tzutalin/labelImg
- https://blog.roboflow.com/gpt-4o-vision-use-cases/
- https://en.unesco.org/memoryoftheworld/registry/511
- https://openmuseum.tw/objects
- https://www.xianqin.org/blog/archives/category/jgw_study/jgw_zhuihe
- https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2