Diretrizes para Anotação da Língua Bávara
Regras completas pra anotar o corpus da língua bávara.
― 6 min ler
Índice
- Estrutura do Documento
- Observações Gerais
- Notação Usada Neste Documento
- Pré-processamento e Tokenização
- Diretrizes de Tokenização
- Casos Especiais na Tokenização
- Tokens de Múltiplas Palavras
- Verbo/Complementador + Pronomes
- Tags de Parte do Discurso
- Dependências Sintáticas
- Casos Difíceis em Sintaxe
- Relações Clausais
- Adverbial ou Não
- Ccomp ou Não
- Decisões Gerais de Anotação
- Lidando com Abreviações
- Nomes e Títulos
- Adjetivos como Advérbios
- Decisões de Anotação em Bávaro
- Frases Nominais
- Posse em Bávaro
- Adjetivos Postergados
- Verbos Auxiliares
- Construções Infinitivas
- Pronomes e Flexão
- Concordância Negativa em Bávaro
- Cláusulas Relativas
- Expressões Temporais
- Conclusão
- Fonte original
- Ligações de referência
Esse documento inclui regras para anotar um corpus da língua bávara. O corpus usa tags de parte do discurso (POS) e mostra como as palavras dependem umas das outras nas frases. O objetivo é ajudar quem trabalha com esse corpus a anotar e entender a língua de forma eficaz.
Estrutura do Documento
As diretrizes estão organizadas de um jeito que segue o processo de preparar e anotar frases. Primeiro, a gente olha como preparar e dividir frases em tokens. Depois revisamos as tags de POS e dependências gerais. Em seguida, passamos pelas regras que se aplicam ao alemão e, por fim, focamos nas regras específicas do bávaro.
Observações Gerais
As regras nesse documento são flexíveis. Se você encontrar uma situação onde aplicar uma regra não faz sentido, pode pedir feedback. Além disso, se você estiver em dúvida sobre como lidar com uma certa palavra ou frase, é legal levantar isso para discussão.
Notação Usada Neste Documento
- Tags POS: Essas estão em letras minúsculas. Palavras marcadas estão em itálico.
- Relações de Dependência: Essas são escritas em uma fonte especial com a palavra principal sublinhada e palavras dependentes em negrito.
Pré-processamento e Tokenização
Ao preparar os dados, não mantemos nenhum formato original como negrito ou itálico. Se o formato original for vital, por favor, discuta isso.
Ao escolher frases, é melhor selecionar parágrafos inteiros e dividi-los em frases. Listas em artigos geralmente são ignoradas, a menos que a lista inclua frases completas.
Não corrigimos erros de digitação ou pontuação. Dividir frases em partes individuais é geralmente simples.
Para os metadados no nível da frase, incluímos o seguinte:
- sentid: Um identificador único que indica de onde a frase vem.
- text: A própria frase.
- texten: O texto original se a frase foi traduzida.
- genre: O tipo de texto, tipo artigos da Wikipedia ou ficção.
- dialectgroup: A área bávara específica de onde a frase vem.
- location: A cidade ou área mencionada na frase.
- source: A URL onde a frase é encontrada.
- author: O nome de usuário do autor de uma frase do Tatoeba.
Diretrizes de Tokenização
Ao descobrir como dividir frases em tokens, geralmente nos baseamos em espaços e pontuação.
Casos Especiais na Tokenização
- Não separe nomes compostos como "Silben-Trennung."
- Mantenha palavras abreviadas juntas, como "Sonn-noun undcconj Feiertagenoun."
- Separe números de unidades e intervalos, como "8num kgnoun" e "400num -adp 500num."
- Remova colchetes externos em transcrições fonéticas, mas mantenha outras pontuações.
Tokens de Múltiplas Palavras
Preposição + Determinante
Geralmente, separamos preposições fundidas e determinantes em partes, tratando-as como tokens separados. Por exemplo:
- "zum" se torna "zu" + "m."
O mesmo se aplica a determinantes ou preposições abreviadas em frases nominais:
- "z'Minga" se divide em "z'" + "Mingapropn."
Verbo/Complementador + Pronomes
Nos casos em que um verbo é seguido imediatamente por um ou mais pronomes, os dividimos usando o recurso SpaceAfter=No. Por exemplo:
- "gibts" se divide em "gibtverb" e "spron."
Outros Tokens Fundidos
Para outros casos, geralmente usamos SpaceAfter=No, mas sinta-se à vontade para discutir se tiver dúvidas.
Tags de Parte do Discurso
As diretrizes detalhadas para marcar partes do discurso geralmente estão vinculadas.
Dependências Sintáticas
As diretrizes para relações de dependência também estão disponíveis.
Casos Difíceis em Sintaxe
Relações Clausais
Ao decidir se uma cláusula modifica um substantivo ou outra cláusula, pergunte-se se eliminar a cláusula ainda deixa uma frase correta.
Adverbial ou Não
Considere se remover a cláusula deixa uma frase coerente.
Ccomp ou Não
Se a cláusula dependente tem seu próprio sujeito, é uma cláusula de complemento, mas se ela compartilha o sujeito com a cláusula principal, não é.
Decisões Gerais de Anotação
Essas regras se aplicam a todos os dialetos relacionados, incluindo o alemão padrão.
Lidando com Abreviações
Separar abreviações quando faz sentido. Por exemplo, “z.B.” se torna “zu” + “B.”
Nomes e Títulos
Para nomes pessoais, conectamos partes através de uma relação plana.
Adjetivos como Advérbios
Marcamos adjetivos usados adverbialmente como adjetivos, usando a relação apropriada.
Decisões de Anotação em Bávaro
Embora o bávaro seja semelhante ao alemão padrão, há alguns aspectos únicos a considerar.
Frases Nominais
No bávaro, um determinante pode aparecer antes de um nome pessoal, e sobrenomes muitas vezes precedem nomes próprios.
Posse em Bávaro
O bávaro frequentemente usa formas possessivas analíticas em vez do caso genitivo, realizando possessividade através de outras construções.
Adjetivos Postergados
Frases que rearranjam a ordem dos adjetivos para ênfase são reconhecidas no bávaro.
Verbos Auxiliares
Focamos também em verbos auxiliares específicos para construções bávaras.
Construções Infinitivas
Frases infinitivas podem usar o marcador "z(u)" em várias formas.
Pronomes e Flexão
Pronomes omitidos, especialmente na presença de verbos auxiliares, são notados na fala bávara.
Concordância Negativa em Bávaro
Diferente do alemão, o bávaro permite que vários marcadores negativos apareçam em frases.
Cláusulas Relativas
O bávaro frequentemente usa marcadores relativos como "wo" que não se flexionam.
Expressões Temporais
Para frases relacionadas ao tempo, mantemos regras específicas de anotação.
Conclusão
Esse guia serve como uma visão geral abrangente de como anotar frases no corpus bávaro. Cada seção apresenta regras específicas para lidar com vários aspectos da língua, garantindo consistência e clareza no processo de anotação.
Seguindo essas diretrizes, os anotadores contribuirão para um corpus bem estruturado que pode ser usado para futuras análises linguísticas e compreensão do dialeto bávaro.
Título: MaiBaam Annotation Guidelines
Resumo: This document provides the annotation guidelines for MaiBaam, a Bavarian corpus manually annotated with part-of-speech (POS) tags, syntactic dependencies, and German lemmas. MaiBaam belongs to the Universal Dependencies (UD) project, and our annotations elaborate on the general and German UD version 2 guidelines. In this document, we detail how to preprocess and tokenize Bavarian data, provide an overview of the POS tags and dependencies we use, explain annotation decisions that would also apply to closely related languages like German, and lastly we introduce and motivate decisions that are specific to Bavarian grammar.
Autores: Verena Blaschke, Barbara Kovačić, Siyao Peng, Barbara Plank
Última atualização: 2024-10-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.05902
Fonte PDF: https://arxiv.org/pdf/2403.05902
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://universaldependencies.org/u/dep/nmod.html
- https://universaldependencies.org/de/dep/nmod.html
- https://universaldependencies.org/u/dep/nmod-poss.html
- https://universaldependencies.org/u/dep/appos.html
- https://universaldependencies.org/de/dep/appos.html
- https://universaldependencies.org/u/dep/acl.html
- https://universaldependencies.org/de/dep/acl.html
- https://universaldependencies.org/u/dep/acl-relcl.html
- https://universaldependencies.org/de/dep/acl-relcl.html
- https://universaldependencies.org/u/dep/det.html
- https://universaldependencies.org/de/dep/det.html
- https://universaldependencies.org/u/dep/det-poss.html
- https://universaldependencies.org/de/dep/det-poss.html
- https://universaldependencies.org/u/dep/case.html
- https://universaldependencies.org/de/dep/case.html
- https://universaldependencies.org/u/dep/amod.html
- https://universaldependencies.org/de/dep/amod.html
- https://universaldependencies.org/u/dep/nummod.html
- https://universaldependencies.org/de/dep/nummod.html
- https://universaldependencies.org/u/dep/flat.html
- https://universaldependencies.org/de/dep/flat.html
- https://universaldependencies.org/u/dep/conj.html
- https://universaldependencies.org/de/dep/conj.html
- https://universaldependencies.org/u/dep/cc.html
- https://universaldependencies.org/de/dep/cc.html
- https://universaldependencies.org/u/dep/punct.html
- https://universaldependencies.org/u/dep/advmod.html
- https://universaldependencies.org/de/dep/advmod.html
- https://universaldependencies.org/u/dep/root.html
- https://universaldependencies.org/u/dep/fixed.html
- https://universaldependencies.org/de/dep/fixed.html
- https://universaldependencies.org/u/dep/parataxis.html
- https://universaldependencies.org/de/dep/parataxis.html
- https://universaldependencies.org/u/dep/compound.html
- https://universaldependencies.org/de/dep/compound.html
- https://universaldependencies.org/u/dep/goeswith.html
- https://universaldependencies.org/u/dep/orphan.html
- https://universaldependencies.org/de/dep/orphan.html
- https://universaldependencies.org/u/dep/reparandum.html
- https://universaldependencies.org/de/dep/reparandum.html
- https://universaldependencies.org/u/dep/list.html
- https://universaldependencies.org/u/dep/dep.html
- https://universaldependencies.org/u/dep/nsubj.html
- https://universaldependencies.org/de/dep/nsubj.html
- https://universaldependencies.org/u/dep/nsubj-pass.html
- https://universaldependencies.org/de/dep/nsubj-pass.html
- https://universaldependencies.org/u/dep/obj.html
- https://universaldependencies.org/de/dep/obj.html
- https://universaldependencies.org/u/dep/iobj.html
- https://universaldependencies.org/de/dep/iobj.html
- https://universaldependencies.org/u/dep/obl.html
- https://universaldependencies.org/de/dep/obl.html
- https://universaldependencies.org/u/dep/obl-arg.html
- https://universaldependencies.org/de/dep/obl-arg.html
- https://universaldependencies.org/u/dep/obl-agent.html
- https://universaldependencies.org/de/dep/obl-agent.html
- https://universaldependencies.org/u/dep/expl.html
- https://universaldependencies.org/de/dep/expl.html
- https://universaldependencies.org/u/dep/expl-pv.html
- https://universaldependencies.org/de/dep/expl-pv.html
- https://universaldependencies.org/u/dep/vocative.html
- https://universaldependencies.org/de/dep/vocative.html
- https://universaldependencies.org/u/dep/csubj.html
- https://universaldependencies.org/de/dep/csubj.html
- https://universaldependencies.org/u/dep/csubj-pass.html
- https://universaldependencies.org/de/dep/csubj-pass.html
- https://universaldependencies.org/u/dep/ccomp.html
- https://universaldependencies.org/de/dep/ccomp.html
- https://universaldependencies.org/u/dep/xcomp.html
- https://universaldependencies.org/de/dep/xcomp.html
- https://universaldependencies.org/u/dep/advcl.html
- https://universaldependencies.org/de/dep/advcl.html
- https://universaldependencies.org/de/dep/advcl-relcl.html
- https://universaldependencies.org/u/dep/aux_.html
- https://universaldependencies.org/de/dep/aux_.html
- https://universaldependencies.org/u/dep/aux-pass.html
- https://universaldependencies.org/de/dep/aux-pass.html
- https://universaldependencies.org/u/dep/cop.html
- https://universaldependencies.org/de/dep/cop.html
- https://universaldependencies.org/u/dep/mark.html
- https://universaldependencies.org/de/dep/mark.html
- https://universaldependencies.org/u/dep/compound-prt.html
- https://universaldependencies.org/de/dep/compound-prt.html
- https://universaldependencies.org/u/dep/dislocated.html
- https://universaldependencies.org/de/dep/dislocated.html
- https://universaldependencies.org/u/dep/discourse.html
- https://universaldependencies.org/u/pos/ADJ.html
- https://universaldependencies.org/u/pos/ADP.html
- https://universaldependencies.org/u/pos/ADV.html
- https://universaldependencies.org/u/pos/AUX.html
- https://universaldependencies.org/u/pos/CCONJ.html
- https://universaldependencies.org/u/pos/DET.html
- https://universaldependencies.org/de/pos/DET.html
- https://universaldependencies.org/u/pos/INTJ.html
- https://universaldependencies.org/u/pos/NOUN.html
- https://universaldependencies.org/u/pos/NUM.html
- https://universaldependencies.org/u/pos/PART.html
- https://universaldependencies.org/u/pos/PRON.html
- https://universaldependencies.org/de/pos/PRON.html
- https://universaldependencies.org/u/pos/PROPN.html
- https://universaldependencies.org/u/pos/PUNCT.html
- https://universaldependencies.org/u/pos/SCONJ.html
- https://universaldependencies.org/u/pos/SYM.html
- https://universaldependencies.org/u/pos/VERB.html
- https://universaldependencies.org/u/pos/X.html
- https://github.com/UniversalDependencies/UD_German-GSD/
- https://github.com/UniversalDependencies/UD_German-HDT
- https://github.com/UniversalDependencies/UD_German-PUD/
- https://github.com/UniversalDependencies/UD_German-LIT
- https://github.com/UniversalDependencies/UD_Swiss_German-UZH
- https://github.com/UniversalDependencies/UD_Low_Saxon-LSDC
- https://github.com/UniversalDependencies/UD_English-GUM
- https://github.com/UniversalDependencies/UD_English-EWT
- https://bar.wikipedia.org/w/index.php?title=Minga&oldid=841494#Mingara_Beziak
- https://universaldependencies.org/u/overview/typos.html
- https://universaldependencies.org/de/index.html
- https://universaldependencies.org/nds/index.html
- https://universaldependencies.org/gsw/index.html
- https://de.wikipedia.org/wiki/Adverbialsatz
- https://universaldependencies.org/u/dep/ccomp.html#reported-speech
- https://www.ims.uni-stuttgart.de/documents/ressourcen/lexika/tagsets/stts-1999.pdf#page=57
- https://universaldependencies.org/workgroups/comparatives.html
- https://github.com/UniversalDependencies/docs/issues/767
- https://universaldependencies.org/v2/copula.html#guidelines-for-udv2
- https://universaldependencies.org/nds/#core-arguments-oblique-arguments-and-adjuncts
- https://universaldependencies.org/gsw/#core-arguments-oblique-arguments-and-adjuncts
- https://universaldependencies.org/de/#tags
- https://www.ims.uni-stuttgart.de/documents/ressourcen/lexika/tagsets/stts-1999.pdf#page=25
- https://universaldependencies.org/u/dep/nsubj-outer.html
- https://github.com/UniversalDependencies/docs/issues/223