Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare il Delta di Burrows per la poesia cinese medievale

Valutare l'efficacia di un metodo di analisi del testo sulla poesia antica.

― 6 leggere min


Il Delta di Burrows nellaIl Delta di Burrows nellapoesia cinesedell'autore di poesie antiche.Metodo efficace per l'analisi
Indice

Il Delta di Burrows è un metodo usato per capire chi ha scritto certi testi. Esiste dal 2002 e ha funzionato bene per molte lingue. Tuttavia, questo metodo non è stato molto usato per la poesia cinese medievale. Questo articolo esplora quanto bene funzioni il Delta di Burrows per questo tipo di poesia, che usa una lingua e uno stile di scrittura diversi rispetto alle lingue europee.

Contesto sul Delta di Burrows

Il Delta di Burrows si basa sul conteggio di quanto spesso certe parole o caratteri appaiono in un testo. Confrontando queste informazioni tra testi diversi, il metodo calcola una distanza tra di essi. Quando i testi provengono dallo stesso autore, di solito questa distanza è più piccola rispetto a quando provengono da autori diversi. Questo è stato dimostrato in diverse lingue, tra cui inglese, spagnolo e russo. Ma l'efficacia del metodo per la poesia cinese medievale non è stata esaminata a fondo.

Perché concentrarsi sulla poesia cinese medievale?

Ci sono alcune ragioni per cui la poesia cinese medievale è un'area interessante per usare il Delta di Burrows. Prima di tutto, questa forma di poesia è molto diversa dalla letteratura medievale europea. La tradizione cinese di quel periodo era ben organizzata, e molti testi hanno un'Autorialità nota. Questo significa che ci sono meno domande su chi ha scritto cosa. Per questo motivo, i ricercatori interessati a determinare l'autorialità potrebbero non trovare necessario questo metodo.

In secondo luogo, la poesia cinese medievale usa uno stile di scrittura unico che non separa le parole con spazi. Nella maggior parte delle lingue europee, le parole sono chiaramente definite, rendendo più facile per metodi come il Delta analizzare i testi. In cinese, invece, ogni Carattere può rappresentare una parola o parte di una parola, il che presenta una sfida per l'Analisi.

Sfide nell'usare il Delta di Burrows per testi cinesi

Usare il Delta di Burrows con la poesia cinese medievale richiede di adattare il metodo per adattarsi alle sue caratteristiche uniche. Una grande sfida è che i testi cinesi non usano spazi per separare le parole. Questo può creare difficoltà quando si cerca di determinare come scomporre il testo per l'analisi. I metodi tradizionali di analisi testuale si basano sulla separazione delle parole, che non è presente nella scrittura cinese.

Inoltre, la struttura della lingua cinese è piuttosto diversa da molte lingue europee. Ad esempio, non ci sono inflessioni in cinese, il che significa che le forme delle parole non cambiano in base alla loro funzione in una frase. Questo influisce su come le parole funzionali sono distribuite tra i testi. Pertanto, i ricercatori devono trovare modi per analizzare i testi senza basarsi sulle stesse assunzioni utilizzate per le lingue europee.

L'attenzione ai caratteri invece delle parole

Date le sfide menzionate, questa ricerca si concentra sull'uso di singoli caratteri piuttosto che parole. Ogni carattere può essere considerato come un'unità separata per l'analisi. Questo approccio consente di gestire meglio lo stile di scrittura unico presente nella poesia cinese medievale. Invece di cercare di identificare sequenze più lunghe di caratteri, l'attenzione è posta su singoli caratteri per vedere come variano tra diversi autori.

Metodologia

Il metodo per applicare il Delta di Burrows ha coinvolto diversi passaggi. Prima di tutto, è stata raccolta una collezione di testi. Questo includeva un gran numero di poemi di diversi poeti. Poiché c'erano molti autori, ci si è concentrati solo su un gruppo selezionato dei poeti più prolifici per un'analisi dettagliata.

Successivamente, i poemi di ogni autore sono stati combinati per creare campioni più grandi. Questo era importante perché un volume maggiore è spesso necessario affinché le misurazioni siano efficaci. Tuttavia, combinare poemi diversi può cambiare l'esito dell'analisi. Per contrastare questo, sono state create varie combinazioni di poemi e analizzate più volte.

Usando il Delta di Burrows, l'analisi si è concentrata sui caratteri più comuni trovati nei testi. Guardando a questi caratteri, è stato possibile valutare quanto fossero simili o diversi i testi tra loro. Questo raggruppamento ha mostrato quali campioni erano più simili, indicando che probabilmente provenivano dallo stesso autore.

Risultati dell'analisi

I risultati dell'analisi hanno mostrato che il Delta di Burrows è stato efficace nell'identificare autori della poesia della dinastia Tang. Il metodo ha prodotto risultati coerenti attraverso diverse combinazioni di poemi, e le distanze calcolate tra campioni dello stesso autore erano più piccole rispetto a quelle di autori diversi. Questo indicava che anche senza usare metodi tradizionali di separazione delle parole, il metodo Delta funzionava ancora bene.

L'analisi ha anche mostrato che usare singoli caratteri era sufficiente per una determinazione efficace dell'autorialità. Anche con un numero minore di token, il metodo poteva comunque raggruppare con precisione i testi dello stesso autore. Questo suggerisce che le caratteristiche uniche della poesia cinese medievale non ostacolano l'efficacia del metodo.

Importanza dei risultati

I risultati indicano che il Delta di Burrows può essere usato con successo per la poesia cinese medievale, nonostante le sfide poste dalla lingua e dallo stile di scrittura. Il metodo ha dimostrato che può rivelare schemi nel testo che aiutano a determinare l'autorialità. Questo è importante perché apre a nuove possibilità per studiare le opere letterarie cinesi usando metodi computazionali.

Questi risultati potrebbero incoraggiare più ricercatori a esplorare l'uso del Delta di Burrows e metodi simili nel campo della letteratura cinese. Inoltre, dimostra che tali metodi possono essere applicati anche quando le tecniche tradizionali potrebbero non essere così efficaci.

Conclusione

In conclusione, il Delta di Burrows è uno strumento utile per l'attribuzione degli autori nella poesia cinese medievale. Nonostante le sfide uniche poste dalla lingua e dallo stile di scrittura, il metodo ha dimostrato la sua efficacia. L'analisi delle distanze testuali usando caratteri singoli ha fornito informazioni sufficienti per raggruppare i testi dello stesso autore, confermando che il Delta può funzionare bene in questo contesto.

La fiducia nei risultati permette ai ricercatori di usare testi grezzi per l'analisi del Delta di Burrows senza la necessità di strumenti di preprocessing complessi. Questo studio fornisce una base per ulteriori esplorazioni dei metodi computazionali nello studio della letteratura cinese medievale, aprendo la strada a nuove intuizioni e applicazioni nel campo. Man mano che più ricercatori diventano consapevoli di questo potenziale, potrebbe portare a una comprensione più ricca delle tradizioni poetiche della Cina medievale.

Fonte originale

Titolo: How does Burrows' Delta work on medieval Chinese poetic texts?

Estratto: Burrows' Delta was introduced in 2002 and has proven to be an effective tool for author attribution. Despite the fact that these are different languages, they mostly belong to the same grammatical type and use the same graphic principle to convey speech in writing: a phonemic alphabet with word separation using spaces. The question I want to address in this article is how well this attribution method works with texts in a language with a different grammatical structure and a script based on different principles. There are fewer studies analyzing the effectiveness of the Delta method on Chinese texts than on texts in European languages. I believe that such a low level of attention to Delta from sinologists is due to the structure of the scientific field dedicated to medieval Chinese poetry. Clustering based on intertextual distances worked flawlessly. Delta produced results where clustering showed that the samples of one author were most similar to each other, and Delta never confused different poets. Despite the fact that I used an unconventional approach and applied the Delta method to a language poorly suited for it, the method demonstrated its effectiveness. Tang dynasty poets are correctly identified using Delta, and the empirical pattern observed for authors writing in European standard languages has been confirmed once again.

Autori: Boris Orekhov

Ultimo aggiornamento: 2024-07-10 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.08099

Fonte PDF: https://arxiv.org/pdf/2407.08099

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dall'autore

Articoli simili