Die erneute Beschäftigung mit Kreolsprachen durch historische Literatur
Ein neues Korpus wirft Licht auf die Entwicklung französischbasierter Kreolsprachen.
Rasul Dent, Juliette Janès, Thibault Clérice, Pedro Ortiz Suarez, Benoît Sagot
― 13 min Lesedauer
Inhaltsverzeichnis
- Verwandte Arbeit
- Digitale diachrone Korpora
- Mehrfach-Label-Spracherkennung
- Linguistischer Hintergrund
- Französisch-basierte Kreolsprachen
- Theorien der Ursprünge
- Französische literarische Stereotypen
- Bauernfranzösisch
- Gascon-Akzent
- Germanisches Baragouin
- Korpus-Erstellung
- Dokumentidentifikation
- Mustersuchen und Dokumente
- Linguistische Annotation
- Zusammenstellung von Auszügen
- Korpus-Präsentation
- Vorläufige Ergebnisse
- Erstes Person Pronomen: Mo(è)
- Kopula: ê(tre)
- Das grosse Ganze
- ethische Erklärung
- Originalquelle
- Referenz Links
Die Studie über Kreolsprachen, die während der Kolonialzeit entstanden sind, hat viele Diskussionen ausgelöst. Eine der Hauptfragen dreht sich darum, ob man diese Sprachen als Nachkommen europäischer Sprachen betrachten kann. Ein wichtiger Punkt in dieser Diskussion ist das Fehlen von Beweisen, die zeigen, wie sich diese Sprachen von ihren europäischen Wurzeln entwickelt haben. Um diese Lücke zu schliessen, wurde ein neues Ressourcenprojekt namens Molyé-Korpus ins Leben gerufen. Dieses Korpus sammelt wichtige Beispiele früher französisch-basierter Kreolsprachen und deren Verbindungen zu Sprachvariationen in Europa in den letzten 400 Jahren.
Zwischen dem 15. und 19. Jahrhundert entwickelten sich in kolonialisierten Gebieten verschiedene Sprachen. Während sie viele Wörter aus europäischen Sprachen verwendeten, waren ihre Strukturen ganz anders. Diese Sprachen werden oft nach ihrer europäischen Wortschatzquelle kategorisiert, wie Englisch, Französisch oder Portugiesisch. Eine entscheidende Frage in der Linguistik ist, warum die Grammatik dieser Sprachen sich mehr verändert hat als ihr Wortschatz. Die Herausforderungen bei der Beantwortung dieser Frage ergeben sich aus den schwierigen sozialen Bedingungen, die die Dokumentation der Sprachen erschwerten, sowie aus Umweltfaktoren, die aufgezeichnete sprachliche Beweise zerstörten.
Französisch-basierte Kreolsprachen (FBCLs) entwickelten sich in isolierten Gebieten im 17. und 18. Jahrhundert. Die Dokumentation dieser Sprachen stammt hauptsächlich aus der Mitte bis spät im 18. Jahrhundert. Zu dieser Zeit war Frankreich politisch und kulturell stark, was zu einem Anstieg literarischer Werke führte. Diese kulturellen Produkte enthielten viele Stereotypen darüber, wie verschiedene soziale Gruppen sprachen, darunter eine spezifische germanische Variante, die als Baragouin bekannt ist und bestimmte strukturelle Merkmale aufweist, die denen in FBCLs ähneln.
Das Molyé-Korpus wurde erstellt, um 68 literarische Werke zu sammeln, die diese Stereotypen und frühe Beispiele von FBCLs verkörpern. Dieses Korpus wurde aus einer grösseren Gruppe von 255 Dokumenten zusammengestellt. Es soll künftige Forschungen unterstützen, die sich mit den Verbindungen zwischen Sprachkontakt in Europa und den in ehemaligen Kolonien gesprochenen Sprachen beschäftigen. Das Korpus ist öffentlich zugänglich und kann für verschiedene Forschungszwecke genutzt werden.
Verwandte Arbeit
In den letzten Jahren hat sich das Feld der Verarbeitung natürlicher Sprache mehr mit Kreolsprachen beschäftigt. Diese Sprachen stellen einzigartige Herausforderungen für bestehende Theorien und Anwendungen dar. Inzwischen hat die computerbasierte historische Linguistik bedeutende Probleme identifiziert, wie das Verständnis der Funktionsweise von Morphemen und das Erkennen von Schichten des Sprachkontakts. Diese Studie befasst sich mit dem Mangel an früher Dokumentation für Kreolsprachen und den Komplexitäten des Sprachkontakts.
Digitale diachrone Korpora
In vielen Regionen, wie Louisiana, der Karibik, Réunion und Mauritius, gibt es historische Sprachkorpora in Druckform. Allerdings wurde nur das mauritische Korpus gründlich digitalisiert, um einfachen Zugang zu ermöglichen. Einige historische Texte wurden für Forschungs- oder maschinelle Übersetzungszwecke digitalisiert, während andere unabhängig von verschiedenen Organisationen, die sich auf Kreolsprachen konzentrieren, digitalisiert wurden.
Um digitale Dokumente zu erstellen, die effektiv wiederverwendet werden können, folgt das Molyé-Projekt den Standards der Text Encoding Initiative (TEI). Diese Einhaltung von Richtlinien hat zu diachronen Korpora geführt, die mehrere Jahrhunderte abdecken. Herausforderungen beim Aufbau vergleichbarer Korpora für Sprachpaare wie Latein und Französisch wurden untersucht, ebenso wie die Frage, wie die Digitalisierung von Theaterstücken aus dem 19. Jahrhundert in Elsass zu soziolinguistischen Studien beitragen kann.
Mehrfach-Label-Spracherkennung
Um die Sprache eines Textes zu bestimmen, zerlegen Algorithmen oft den Text in kleinere Teile, wie Wörter oder Zeichen. Für analytische Sprachen, die das lateinische Alphabet verwenden, entsprechen diese Tokens Wörtern und Buchstaben. Oft haben eng verwandte Sprachen nur geringfügige Unterschiede, was die Kennzeichnung komplizierter macht. Diese Studie untersucht, wie verschiedene Sprachmerkmale durch einen Mehrfach-Label-Ansatz über verschiedene Zeitperioden hinweg identifiziert werden können.
Linguistischer Hintergrund
Der Kern dieser Forschung besteht darin, spezifische "kreolische" Merkmale in sprachlichen Materialien zu identifizieren, die aus Europa vor und während der Kolonialzeit gesammelt wurden. Französisch-basierte Kreolsprachen weisen Merkmale auf, die sie von standardfranzösisch unterscheiden. Zum Beispiel verwenden FBCLs oft tonische Pronomen anstelle der typischen schwachen Klitike, die im Französisch vorkommen. Sie unterscheiden sich auch in der Behandlung bestimmter Verbformen, was zu einzigartigen grammatischen Strukturen führt, die im Standardfranzösisch nicht zu finden sind.
Französisch-basierte Kreolsprachen
Es gibt eine laufende Debatte darüber, wie man Kreolsprachen ausschliesslich anhand linguistischer Merkmale definieren kann. Viele sind sich jedoch einig, dass FBCLs spezifische Merkmale aufweisen, die sie vom Standardfranzösischen unterscheiden. Eines dieser Merkmale ist die Verwendung von tonischen Pronomen anstelle von schwachen Klitiken in verschiedenen Kontexten. An Orten, wo Französisch kein schwaches Pronomen hat (z.B. "nous"), erlauben FBCLs die Klitizierung von Objektpronomen nicht auf die gleiche Weise.
Französisch verwendet typischerweise komplexe Verbkonjugationen, um Person, Zahl, Zeit, Aspekt und Geschlecht auszudrücken, während FBCLs ihr eigenes einfacheres System zur Kombination von Zeit-Aspekt-Modus (TAM)-Markern haben. Dieser Unterschied lässt sich durch die Verwendung von Markern wie "té" für Vorzeitigkeit und "sré" für Bedingungsformen in Phrasen im Korpus veranschaulichen. Darüber hinaus fehlt FBCLs oft eine explizite Kopula in Sätzen, wo Französisch eine benötigen würde, was ein deutliches grammatisches Muster zeigt.
Theorien der Ursprünge
Der Zusammenhang zwischen Kreolsprachen und ihren Lexifizierern bleibt ein Thema intensiver Diskussion. Eine Hypothese schlägt vor, dass die charakteristischen Merkmale von Kreolsprachen sich im Laufe der Zeit durch mehrere Fälle des Zweitspracherwerbs gebildet haben, anstatt einer vollständigen Trennung von ihren europäischen Wurzeln. Eine andere Theorie besagt, dass vereinfachte Sprache, bekannt als "fremdsprachiger Talk" - verwendet von Sprechern, die glauben, dass ihre Zuhörer Schwierigkeiten mit der Sprache haben könnten - die Entwicklung von Kreolsprachen beeinflusst haben könnte.
Für Sprachen, die aus dem Portugiesischen und Spanischen stammen, haben Forscher frühen fremdsprachigen Talk mit Stereotypen in der Literatur und modernen Sprachvarianten verglichen, um einen Einblick in die sprachlichen Veränderungen zu erhalten, die in diesem Zeitraum stattfanden. Ein ähnlicher Ansatz wird hier verwendet, um zu untersuchen, wie französische literarische Stereotypen mit der Entwicklung von FBCLs in Beziehung stehen.
Französische literarische Stereotypen
Bis ins 20. Jahrhundert sprachen viele Menschen in Frankreich regionale Sprachen. Die meisten dieser regionalen Sprachen gehören zum Oïl-Dialektkontinuum, das Teil eines breiteren weströmischen Kontinuums ist. Auch nicht-römische Sprachen wie Bretonisch und Flämisch wurden in verschiedenen Regionen gesprochen. Ab dem Mittelalter wurde eine bestimmte Oïl-Variante, die mit bemerkenswerten Akteuren assoziiert war, zur Standardsprache Frankreichs. Diese Sprache entwickelte sich schliesslich zu einem gemeinsamen Kommunikationsmittel in ganz Europa und ersetzte Latein.
Im 17. und 18. Jahrhundert kulminierte der Prozess der Standardisierung in einer gut definierten Form, die als klassisches Französisch bekannt ist. Das Konzept von "korrektem Gebrauch" war allerdings nicht die einzige Variante des Französisch, die im ganzen Land verwendet wurde. Selbst in Paris gab es verschiedene Formen von "Französisch". Drei Hauptarten von Variation können identifiziert werden: Dialekte und soziale Sprachformen aus der Oïl-Region; Standardfranzösisch mit regionalen Akzenten; und Interlanguages, insbesondere von Sprechern germanischer Sprachen. Alle diese Kategorien weisen stereotypisierte Kombinationen unterschiedlicher Merkmale in verschiedenen literarischen Werken auf, einschliesslich Theaterstücken, Romanen, Liedern und Briefen.
Bauernfranzösisch
Bis Anfang des 17. Jahrhunderts bildeten sich in ländlichen Gebieten, insbesondere am Stadtrand von Paris, spezifische Merkmale der ländlichen Sprache, die in der Literatur verwendet wurden, um Figuren aus der Unterschicht darzustellen. Zum Beispiel wurde die Kombination des Klitikonomen "je" mit der Pluralendung "-ons" zu einem Stereotyp in Werken wie "La Mère confidente". Während diese Darstellung früh Wurzeln schlug, wurde sie während der gesamten Kolonialzeit, insbesondere im Akadischen Französisch, weiter verwendet, obwohl sie als Pluralform auftrat.
Gascon-Akzent
Französisch wurde auch als Zweitsprache in Gebieten gesprochen, wo die lokalen Sprachen sehr unterschiedlich vom Französischen waren. In solchen Fällen beeinflussten die einheimischen Sprachen die Aussprache. Der Gascon-Akzent wurde ein häufiges Stereotyp im klassischen französischen Theater und zeichnete sich durch spezifische phonologische Merkmale aus. Zum Beispiel zeigt eine Figur namens Fontignac diesen Akzent mit Zeilen, die verdeutlichen, wie die Gascon-Aussprache vom Standardfranzösischen abwich.
Germanisches Baragouin
Baragouin bezieht sich auf eine Mischung aus fremden Sprachformen, Akzenten und regionalen Variationen. Während der frühen Neuzeit entstanden zwei Haupttypen von Baragouin: Anglo-Baragouin, das mit englischen und schottischen Sprechern assoziiert wird, und Kontinental-Baragouin, das mit deutschen und niederländischen Sprechern verbunden ist. Jede Unterart zeigt einzigartige phonetische Merkmale. Kontinental-Baragouin vereinfacht beispielsweise Laute, während das flämische Baragouin der Industriezeit spezifische Lautveränderungen aufweist.
Morphologische und syntaktische Merkmale von Baragouin weisen auch Ähnlichkeiten mit Kreolen auf, wie die Vereinfachung des grammatischen Geschlechts und der Verbkonjugation. Baragouin behält jedoch eine offensichtliche Kopula und enthält oft Drittpersonpronomen vor Verben, was sich von den Strukturen in FBCLs unterscheidet. Diese Unterscheidung macht es wichtig, die in Baragouin vorhandenen linguistischen Merkmale weiter zu analysieren.
Korpus-Erstellung
Die Erstellung des Molyé-Korpus umfasste drei sich überschneidende Phasen. Zuerst wurden Dokumente mit einzigartigen Sprachmerkmalen identifiziert, die wichtig sind, um Französisch von verschiedenen FBCLs zu unterscheiden. Danach wurden ausgewählte Auszüge in ein XML-TEI-Format für ein grösseres Projekt umgewandelt. Schliesslich wurden diese Dokumente nach Standort und Zeitperiode organisiert, um einfachen Zugang und Analyse zu ermöglichen.
Dokumentidentifikation
Die Strategie zur Auffindung von Dokumenten begann mit der Suche in digitalisierten Bibliotheken wie Gallica, Delpher und Google Books nach einzigartigen Sprachmerkmalen. Dieser Prozess erforderte die Identifizierung unterschiedlicher Arten von n-grams, wie Einzelwörter oder Wortkombinationen. Angesichts der Variationen in der Orthografie und verschiedener Kontaktvarianten wurde ein iterativer Ansatz verwendet, der es ermöglichte, dass erste Suchen die folgenden informierten.
Da Stereotypen oft überlappen, verwiesen einige Dokumente ausdrücklich auf Sprachvarianten oder enthielten Pastiche. Für direkte Zitate oder Verweise verwendeten bestimmte Werke sprachlichen Humor, um diese Stereotypen weiterzuentwickeln.
Mustersuchen und Dokumente
Sobald Dokumente gesammelt waren, war es wichtig, zu priorisieren, welche Werke einbezogen werden sollten. Der Fokus lag zunächst auf Baragouin und Bauernfranzösisch im klassischen Theater, wobei später weitere Genres vertreten waren. Das Korpus enthält eine Vielzahl von Texten, von Gedichten und Liedern bis zu religiösen Materialien und Romanen, die die Breite literarischen Ausdrucks in dieser Zeit widerspiegeln.
Für die Digitalisierung von Werken wurden sowohl manuelle Transkription als auch semi-automatische Prozesse verwendet, abhängig von der Art des Dokuments. Für kürzere Texte wurde Texterkennungssoftware verwendet, während längere, komplexere Werke manuelle Eingabe erforderten. Dieser sorgfältige Ansatz stellte sicher, dass verschiedene Formate und Stile im Korpus genau vertreten waren.
Linguistische Annotation
Angesichts des soziolinguistischen Fokus des Korpus war das Anbringen spezifischer linguistischer Labels mit einzigartigen Herausforderungen verbunden. Historische Verweise auf verschiedene Formen von Französisch oder Kreol erforderten sorgfältige Überlegungen. Das Korpus unterscheidet zwischen mehreren Sprachtypen basierend auf Territorium und linguistischen Merkmalen, was ein nuanciertes Verständnis der vertretenen Sprachvarianten ermöglicht.
Zusammenstellung von Auszügen
Nachdem die Sprachen in den Dokumenten gekennzeichnet wurden, wurde eine Zeitleiste erstellt, um Vergleiche zwischen Auszügen zu erleichtern. Dies beinhaltete das Herausziehen von Szenen oder Passagen, in denen Sprachmarkierungen auf eine Nicht-Standard-Sprache hinwiesen, wie Baragouin oder FBCLs, wodurch Forscher die Sprachverwendung im literarischen Kontext analysieren konnten.
Die literarischen Konventionen, die mit Akzenten oder Dialekten verbunden sind, wurden durch spezifische Regeln zusammengefasst. Sobald ein grundlegendes Verständnis dieser Konventionen vorlag, nahm die Notwendigkeit für zusätzliche Beispiele ab. Der Fokus auf Baragouin und frühere Formen von Bauernfranzösisch führte zu einer Konzentration auf die reichhaltigsten verfügbaren Daten, während die Gesamtheit des Korpus gewahrt blieb.
Korpus-Präsentation
Das Molyé-Korpus umfasst 255 historische Werke, die Merkmale hervorheben, die für die Geschichte von FBCLs relevant sind. Aus diesen Werken wurden 68 Auszüge für die erste Version des Korpus ausgewählt. Der früheste dokumentierte Text stammt aus etwa 1509, und der jüngste aus dem Jahr 1932. Das Korpus besteht aus einer öffentlich zugänglichen XML-Datei, die bibliografische Informationen und eine Sammlung von markierten Auswahlen bereitstellt.
Aktuell enthält das Korpus insgesamt 188.866 Tokens, was sicherstellt, dass es eine breite Palette historischer sprachlicher Daten erfasst. Alle Primärquellen sind gemeinfrei und viele sind online für weitere Erkundungen zu finden. Zwischengespeicherte Kopien werden ebenfalls als Teil des Projekts aufbewahrt.
Vorläufige Ergebnisse
Das Hauptziel dieser Arbeit war es, eine Vielzahl von nicht-standardisierten Sprachen zu sammeln und zu kategorisieren. Während die Quantifizierung dieser Merkmale herausfordernd sein kann, wurden basierend auf den gesammelten Daten einige qualitative Beobachtungen gemacht. Die erste Analyse konzentriert sich besonders auf die Rolle von Baragouin in der Entwicklung französisch-basierter Kreolen.
Erstes Person Pronomen: Mo(è)
Während der Kolonialzeit hatte das französische Pronomen "moi" zwei Hauptformen: "mwe" und "mwa." Verschiedene FBCLs übernahmen entweder Form für das Subjektpronomen. Die erste Gruppe, hauptsächlich vertreten durch haitianische und weniger antillianische Kreolen, neigt dazu, "mwè" zu verwenden, während die zweite Gruppe, bestehend aus mauritischen, seychellischen und louisianischen Kreolen, "mo" verwendet. Diese Unterscheidung steht im Zusammenhang mit einem breiteren Unterschied darin, wie Pronomen in den jeweiligen Sprachen funktionieren.
Die Untersuchung verschiedener Dokumente wirft Licht auf die Verbindung zwischen diesen beiden Formen. In Louisiana tauchten zahlreiche Beispiele von "mo", neben anderen Varianten, auf, was darauf hindeutet, dass "mo" sich möglicherweise von den Niederlanden zusammen mit "mwe" verbreitet hat.
Kopula: ê(tre)
Die Erforschung von Baragouin zeigt einen Trend zur Überverwendung des Infinitivs "être" ("sein"), anstatt konjugierte Formen des Standardfranzösischen zu verwenden oder die Kopula ganz wegzulassen, wie in vielen FBCLs. Nachzuverfolgen, wie häufig diese Formen auftreten, gibt Einblick in die sich entwickelnde Natur der Sprache während dieses Zeitraums.
Das grosse Ganze
Neben der Verfolgung dieser einzelnen linguistischen Merkmale bietet das Molyé-Korpus die Möglichkeit, den breiteren soziolinguistischen Kontext des Französischen während der frühen Neuzeit zu erkunden. Die Untersuchung des ersten Person-Pronomen "mo" lenkt die Aufmerksamkeit auf mögliche Verbindungen zu den Niederlanden. Bei der Untersuchung spezifischer Werke werden Verbindungen zwischen Schweizer Soldaten und Regionen in Frankreich während der französisch-habsburgischen Kriege offenbar.
Das Stück "Le duel singulier" dient als Fallstudie, die verschiedene Sprachformen kombiniert und somit Theorien unterstützt, wie FBCLs sich während Phasen sozialer Interaktion entwickelt haben könnten. Diese Beobachtungen tragen zum Verständnis bei, wie sprachliche Austauschprozesse die Sprachentwicklung in der Karibik prägten, insbesondere während der Kolonialzeit.
Zusammenfassend präsentiert das Molyé-Korpus eine neue Ressource, die französische literarische Stereotypen mit frühen Formen französisch-basierter Kreolsprachen verknüpft. Die Analyse zeigt, dass sich Veränderungen in den Strukturen der französischen Sprache im Laufe des 16., 17. und 18. Jahrhunderts ergaben, insbesondere aufgrund des Einflusses von Sprechern germanischer Sprachen. Obwohl Stereotypen wie Baragouin nur einen Bruchteil der sprachlichen Variation dieser Zeit darstellen, wirft das Korpus entscheidende Fragen darüber auf, wie die Kommunikation an Orten stattfand, wo Französisch und germanische Sprachen interagierten.
Die grösste Herausforderung dieser Arbeit bestand darin, unstrukturierte literarische Werke in das XML-TEI-Format zu transformieren. Obwohl mehr als 200 relevante Dokumente identifiziert wurden, konnte nur ein Bruchteil in das endgültige Korpus aufgenommen werden. Bestimmte regionale Sprachen Frankreichs und spezifische Phänomene wurden weggelassen, um den Fokus zu wahren, obwohl sie wichtige Bereiche für zukünftige Studien darstellen.
ethische Erklärung
Das Hauptziel dieser Forschung ist es zu zeigen, wie europäische literarische Stereotypen aus der Kolonialzeit dazu beitragen können, Lücken im Verständnis der frühen Geschichte französisch-basierter Kreolsprachen zu schliessen. Es ist jedoch wichtig zu erkennen, dass viele der zusammengestellten Quellen negative Bilder und Kommentare über verschiedene soziale Gruppen enthalten. Das Teilen dieser Quellen sollte nicht als Unterstützung der darin dargestellten Ansichten interpretiert werden.
Diese Arbeit wurde hauptsächlich durch ein Projekt zu Kreolsprachen finanziert. Sie erhielt auch zusätzliche finanzielle Unterstützung durch Forschungsinitiativen, die sich auf die Zukunft der Sprachwissenschaften konzentrieren.
Titel: Moly\'e: A Corpus-based Approach to Language Contact in Colonial France
Zusammenfassung: Whether or not several Creole languages which developed during the early modern period can be considered genetic descendants of European languages has been the subject of intense debate. This is in large part due to the absence of evidence of intermediate forms. This work introduces a new open corpus, the Moly\'e corpus, which combines stereotypical representations of three kinds of language variation in Europe with early attestations of French-based Creole languages across a period of 400 years. It is intended to facilitate future research on the continuity between contact situations in Europe and Creolophone (former) colonies.
Autoren: Rasul Dent, Juliette Janès, Thibault Clérice, Pedro Ortiz Suarez, Benoît Sagot
Letzte Aktualisierung: 2024-08-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2408.04554
Quell-PDF: https://arxiv.org/pdf/2408.04554
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.