Hauptinhalt

Characterizing Dialect Groups: Distance and Informativeness Associated with Linguistic Features

Zur Charakterisierung von Dialektgruppen: Distanz und Informativität im Zusammenhang mit sprachlichen Merkmalen

by Gotzon Aurrekoetxea, Esteve Clua Aitor Iglesias, Iker Usobiaga and Miquel Salicrú

ABSTRACT: Starting from a distance which highlights similarities and differences among populations, dialectal classification allows the border between varieties to be established and transition zones (border populations) to be identified. The high cost of conducting and processing surveys to a great extent limits the size of the samples used, the number of localities and the time interval between fieldworks to determine dialect variation over time. Although recently other methods of gathering information have been developed, for those who prefer face to face methods we have introduced a method which allows researchers to select the subset of the most informative linguistic items. In order to maximize the similarity between the classifications obtained with the selected subset and the complete set of linguistic items, we have defined a measure of similarity which highlights redundancy between items (Simple Matching Coefficient), we have grouped items by similarity (K-means method), and finally, we have chosen the most representative linguistic items in the representation obtained from Ward’s method, proportionally according to the size of each one of the subgroups. This exploratory study made use of the Bourciez Corpus, focusing on Basque language data, to illustrate the methodology.

Keywords: dialectometry, informative features, dialect classification, Basque, K-mean method, Simple Matching Coefficient

KURZFASSUNG: Ausgehend von einer Entfernung, die Ähnlichkeiten und Unterschiede zwischen den Populationen aufzeigt, ermöglicht die dialektale Klassifikation die Festlegung der Grenze zwischen Kategorien und die Identifizierung von Übergangszonen (Grenzpopulationen). Die hohen Kosten für die Durchführung und Verarbeitung von Umfragen begrenzen in hohem Maße die Größe der verwendeten Stichproben, die Anzahl der Lokalitäten und den Zeitabstand zwischen den Erhebungen zur Bestimmung der Dialektvariation im Laufe der Zeit. Obwohl in letzter Zeit andere Methoden zur Sammlung von Informationen entwickelt wurden, haben wir für diejenigen, die face-to-face-Methoden bevorzugen, eine Methode eingeführt, die es Forschern ermöglicht, die Teilmenge der informativsten sprachlichen Elemente auszuwählen. Um die Ähnlichkeit zwischen den Klassifizierungen, die mit der ausgewählten Teilmenge und dem gesamten Satz von sprachlichen Elementen erhalten wurden, zu maximieren, haben wir ein Maß an Ähnlichkeit definiert, das die Redundanz zwischen den Elementen hervorhebt (Simple Matching Coefficient), wir haben die Elemente nach Ähnlichkeit gruppiert (K-Means-Methode), und schließlich haben wir die repräsentativsten sprachlichen Elemente in der Darstellung ausgewählt, die mit der Ward-Methode ermittelt wurden, proportional nach der Größe jeder Untergruppe. Diese explorative Studie nutzt das „Bourciez Corpus“, das sich auf baskische Sprachdaten konzentriert, um die Methodik zu veranschaulichen.

Schlagworte: Dialektometrie, informative Merkmale, Dialektklassifizierung, Baskisch, K-Means-Methode, Simple Matching Coefficient