Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando o Delta de Burrows para a Poesia Chinesa Medieval

Avaliar a eficácia de um método de análise de texto em poesias antigas.

― 6 min ler


Delta de Burrows naDelta de Burrows naPoesia Chinesapara poemas antigos.Método eficaz de análise de autoria
Índice

O Delta de Burrows é um método usado pra descobrir quem escreveu certos textos. Ele tá na área desde 2002 e funcionou bem em várias línguas. Mas, esse método não foi muito utilizado na poesia chinesa medieval. Este artigo analisa como o Delta de Burrows se sai com esse tipo de poesia, que tem uma linguagem e estilo de escrita bem diferentes das línguas europeias.

Contexto sobre o Delta de Burrows

O Delta de Burrows se baseia em contar com que frequência certas palavras ou caracteres aparecem em um texto. Comparando essas informações entre diferentes textos, o método calcula uma distância entre eles. Quando os textos vêm do mesmo autor, essa distância costuma ser menor do que quando vêm de autores diferentes. Isso já foi mostrado em várias línguas, como inglês, espanhol e russo. Mas a eficácia do método para a poesia chinesa medieval ainda não foi examinada a fundo.

Por que focar na poesia chinesa medieval?

Existem algumas razões pelas quais a poesia chinesa medieval é uma área interessante pra usar o Delta de Burrows. Primeiro, essa forma de poesia é bem diferente da literatura europeia medieval. A tradição chinesa nessa época era bem organizada, e muitos textos têm autoria conhecida. Isso significa que há menos dúvidas sobre quem escreveu o quê. Por causa disso, os pesquisadores interessados em determinar a autoria podem não achar esse método necessário.

Segundo, a poesia chinesa medieval usa um estilo de escrita único que não separa palavras com espaços. Nas línguas europeias, as palavras são claramente definidas, facilitando a Análise com métodos como o Delta. No chinês, cada caractere pode representar uma palavra ou parte de uma palavra, o que dificulta a análise.

Desafios ao usar o Delta de Burrows para textos chineses

Usar o Delta de Burrows com poesia chinesa medieval requer adaptar o método às suas características únicas. Um grande desafio é que os textos chineses não usam espaços pra separar palavras. Isso pode criar dificuldades na hora de decidir como dividir o texto pra análise. Métodos tradicionais de análise de texto dependem da separação de palavras, que não existe na escrita chinesa.

Além disso, a estrutura da língua chinesa é bem diferente de muitas línguas europeias. Por exemplo, não há flexão no chinês, o que significa que as formas das palavras não mudam dependendo da função na frase. Isso impacta como as palavras funcionais são distribuídas nos textos. Portanto, os pesquisadores precisam encontrar maneiras de analisar os textos sem depender das mesmas suposições usadas para as línguas europeias.

O foco nos caracteres em vez de palavras

Dado os desafios mencionados, essa pesquisa foca no uso de caracteres individuais em vez de palavras. Cada caractere pode ser tratado como uma unidade separada pra análise. Essa abordagem permite lidar melhor com o estilo de escrita único da poesia chinesa medieval. Em vez de tentar identificar sequências mais longas de caracteres, o foco é nos caracteres individuais pra ver como eles variam entre diferentes autores.

Metodologia

O método pra aplicar o Delta de Burrows envolveu várias etapas. Primeiro, uma coleção de textos foi reunida. Isso incluiu um grande número de poemas de diferentes poetas. Como havia muitos autores, apenas um grupo seleto dos poetas mais prolíficos foi foco da análise detalhada.

Em seguida, os poemas de cada autor foram combinados pra criar amostras maiores. Isso era importante porque um volume maior é geralmente necessário pra que as medições sejam efetivas. No entanto, combinar diferentes poemas pode mudar o resultado da análise. Pra contornar isso, várias combinações de poemas foram criadas e analisadas várias vezes.

Usando o Delta de Burrows, a análise focou nos caracteres mais comuns encontrados nos textos. Observando esses caracteres, foi possível avaliar como os textos eram semelhantes ou diferentes entre si. Esse agrupamento mostrou quais amostras eram mais similares, indicando que provavelmente vieram do mesmo autor.

Resultados da Análise

Os resultados da análise mostraram que o Delta de Burrows foi eficaz em identificar autores da poesia da dinastia Tang. O método produziu resultados consistentes em diferentes combinações de poemas, e as distâncias calculadas entre amostras do mesmo autor foram menores em comparação com as de autores diferentes. Isso indicou que, mesmo sem usar métodos tradicionais de separação de palavras, o método Delta ainda funcionou bem.

A análise também mostrou que usar caracteres individuais foi suficiente pra determinar a autoria de forma eficaz. Mesmo com um número menor de tokens, o método ainda conseguiu agrupar textos do mesmo autor com precisão. Isso sugere que as características únicas da poesia chinesa medieval não impedem a eficácia do método.

Significado das descobertas

As descobertas indicam que o Delta de Burrows pode ser usado com sucesso para a poesia chinesa medieval, apesar dos desafios apresentados pela língua e estilo de escrita. O método mostrou que pode revelar padrões no texto que ajudam a determinar a autoria. Isso é importante porque abre novas possibilidades pra estudar obras literárias chinesas usando métodos computacionais.

Essas descobertas podem incentivar mais pesquisadores a explorar o uso do Delta de Burrows e métodos similares no campo da literatura chinesa. Além disso, mostra que tais métodos podem ser aplicados mesmo quando técnicas tradicionais podem não ser tão eficazes.

Conclusão

Em conclusão, o Delta de Burrows é uma ferramenta útil pra atribuição de autoria na poesia chinesa medieval. Apesar dos desafios únicos apresentados pela língua e estilo de escrita, o método demonstrou sua eficácia. A análise das distâncias dos textos usando caracteres individuais forneceu informações suficientes pra agrupar textos do mesmo autor, confirmando que o Delta pode funcionar bem nesse contexto.

A confiança nos resultados permite que os pesquisadores usem textos brutos pra análise do Delta de Burrows sem a necessidade de ferramentas complexas de pré-processamento. Este estudo fornece uma base pra mais exploração de métodos computacionais no estudo da literatura chinesa medieval, abrindo caminho pra novas percepções e aplicações no campo. À medida que mais pesquisadores se tornam conscientes desse potencial, isso pode levar a uma compreensão mais rica das tradições poéticas da China medieval.

Fonte original

Título: How does Burrows' Delta work on medieval Chinese poetic texts?

Resumo: Burrows' Delta was introduced in 2002 and has proven to be an effective tool for author attribution. Despite the fact that these are different languages, they mostly belong to the same grammatical type and use the same graphic principle to convey speech in writing: a phonemic alphabet with word separation using spaces. The question I want to address in this article is how well this attribution method works with texts in a language with a different grammatical structure and a script based on different principles. There are fewer studies analyzing the effectiveness of the Delta method on Chinese texts than on texts in European languages. I believe that such a low level of attention to Delta from sinologists is due to the structure of the scientific field dedicated to medieval Chinese poetry. Clustering based on intertextual distances worked flawlessly. Delta produced results where clustering showed that the samples of one author were most similar to each other, and Delta never confused different poets. Despite the fact that I used an unconventional approach and applied the Delta method to a language poorly suited for it, the method demonstrated its effectiveness. Tang dynasty poets are correctly identified using Delta, and the empirical pattern observed for authors writing in European standard languages has been confirmed once again.

Autores: Boris Orekhov

Última atualização: 2024-07-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.08099

Fonte PDF: https://arxiv.org/pdf/2407.08099

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes