Diachrone Analysen: Verlaufskurven clustern

Ein halbes Jahr schlief das Sprechtakel – das tut mir leid. Die Gründe drücken die Kollokatoren zu „Familie“ aus:

-2 2 6210 Beruf Vereinbarkeit 413 60% die Vereinbarkeit
[von] Familie [und] Beruf

Bzw. zu „Job„:

-1 -1 24466 neuen 4356 74% einen neuen […] Job

Aber jetzt bin ich wieder da. Und berichte über die Möglichkeit, in diachroner Perspektive ko-variierende Lexeme zu entdecken.

Cluster kovariierender Lexeme

Abbildung 1: Cluster kovariierender Lexeme

Möchte man in einem diachronen Korpus herausfinden, welche Lexeme für bestimmte Epochen typisch sind, kann man z.B. Subkorpora bilden und über Signifikanztests die Lexeme eruieren, deren Frequenzen in einem der Subkorpora signifikant von den anderen abweichen. Dafür ist es aber notwendig, sich bereits vor der Analyse für bestimmte Epochen zu entscheiden, die auf typisches Vokabular hin getestet werden sollen.

Möchte man das nicht, ist Folgendes möglich: Für alle Lexeme werden pro Jahr (oder anderer Zeiteinheit) die Frequenzen berechnet. Die Frequenzen stellen einen Vektor dar:

Berg  5  7  10  5  4  1  0  20  25  30  45  3  2  0  0  0

Natürlich möchte ich jetzt nicht jedes Lexem auf auffällige Frequenzverläufe hin prüfen, sondern Lexeme zusammenfassen, deren Frequenzverläufe ähneln. Dafür sind folgende Schritte nötig:

  1. Normalisieren der Frequenzen, so dass sie sich alle zwischen 0 und 1 bewegen. Damit erhalte ich Frequenzverläufe, die unabhängig von den absoluten Frequenzen sind.
  2. Zusätzlich sollten die Frequenzen geglättet werden: Berechnet man einen gleitenden Durchschnitt, wirken sich einmalige Ausreißer nicht so stark aus.
  3. Weiter können die Lexeme gefiltert werden und solche, die insgesamt sehr selten oder die sehr ungleichmäßig oder sehr gleichmäßig verteilt sind, ausschließen. Die Gleichmäßigkeit der Verteilung lässt sich ganz gut mit Gries‘ Deviation of Proportions (DP) berechnen.
  4. Clustern der Vektoren: Mit einem hierarchischen Clustering werden Lexeme zusammengefasst, deren Frequenzverläufe ähnlich sind.

Abbildung 1 oben zeigt das Dendrogramm von so geclusterten Lexemen – übrigens das Vokabular aus den Periodika des Schweizer Alpenclubs, die im Text+Berg-Korpus verfügbar sind. Es wurden hier 60 Gruppen gebildet.

Nun kann man sich die einzelnen Gruppen ansehen. Schauen wir uns die Verläufe von Gruppe 22 an:

Abbildung 2: Lexikon Cluster 22

Abbildung 2: Frequenzverläufe von Cluster 22

Die Gemeinsamkeit liegt also darin, dass es sich um Lexeme handelt, die bis in die 1910er-Jahre eher häufig, anschließend seltener sind. Wir können uns nun auch visualisieren lassen, welche Lexeme das sind:

Abbildung 3

Abbildung 3: Cluster 22, Wortwolke

Wir finden zeittypisches Vokabular wie Partie oder Exkursion, sowie Organisatorisches wie Beschluss, Jahrbuch und Alpenclub, aber auch einige Adjektive. Die Größe der Lexeme in der Wortwolke drücken Gries DP, also die Gleichmäßigkeit der Verteilung über das Gesamtkorpus, aus. Je größer, desto ungleichmäßiger ist das Lexem verteilt.

Im Gegensatz dazu steht Cluster 36:

Abbildung 4

Abbildung 4: Cluster 36, Frequenzverläufe

Und die dazugehörige Wortwolke:

Abbildung 5

Abbildung 5: Wortwolke Cluster 36

Da hat sich das Vokabular stark verändert: Für die 1920er bis 70er ist ein emotionalerer und subjektiverer Wortschatz auffällig wie Schönheit, Lust, köstlich, schlagen, eilen, Körper etc.

Cluster 42 geht in eine ähnliche Richtung:

Abbildung 6

Abbildung 6: Cluster 42, Frequenzverläufe

Abbildung 7

Abbildung 7: Cluster 42, Wortwolke

Neben den neuen Winterlexemen wie Lawine, Schneemasse und Pulverschnee, die dadurch bedingt sind, dass man früher die Berge nicht im Winter bestieg, ist auch hier ein emotionalerer Wortschatz sichtbar (Herz, Liebe) – und Gott ist in der Zeit von 1920 bis 1960 offenbar auch häufiger genannt.

Weitere Analysen zeigen, dass sich im Verlauf der Jahre die Art des Sprechens über Berge stark verändert hat, also die verwendeten Narrative sich ändern und sich damit die erzählte Gestalt der Berge wandelt.

Ausführlichere Analysen dazu finden sich hier:

Bubenhofer, Noah/Scharloth, Joachim (eingereicht): „Korpuspragmatische Methoden für kulturanalytische Fragestellungen“, Linguistik als Kulturwissenschaft: Korpus – Kommunikation – Kultur, Giessen Contributions to the Study of Culture, Trier: Wvt Wissenschaftlicher Verlag. (Preprint)

Sowie in weiteren Aufsätzen zu Text+Berg.

Dieser Beitrag wurde unter Korpuslinguistik, Methoden veröffentlicht. Setze ein Lesezeichen auf den Permalink.