Noah Bubenhofer: Einführung in die Korpuslinguistik (Kookkurrenzen)

Web als Korpus	Weitere Korpora
Verteilung	Korpusauswahl

Kookkurrenzen berechnen

Kookkurrenzen oder auch Kollokationen sind Gruppen von Wörtern, die häufiger zusammen auftreten, als dass es rein zufällig sein könnte. Darunter fallen Wortgruppen wie "Guten Tag" oder "in der Nacht auf gestern", aber auch "der Mensch" oder Sprichwörter.

In COSMAS II kann man sich die Kookkurrenzen zu einem Suchausdruck berechnen lassen. Zunächst eine kleine Anleitung dazu, wie man das macht. Anschliessend ein paar theoretische Überlegungen dazu. (Ein Tutorial dazu findet sich auch hier auf den Servern des IDS.)

Vorgehen in COSMAS II um Kookkurrenzen zu berechnen

Formuliere eine Suche. Zum beginnen vielleicht eine ganz simple Abfrage nach einem bestimmten Wort.
Wenn die Ergebnisliste angezeigt wird, wählst du...
- im PC-Client im Menü "Extras" den Befehl "Kookkurrenzanalyse", bzw.
- im WWW-Client oberhalb der Ergebnisliste den Befehl "Kookkurrenzanalyse".
Im erscheinenden Dialogfenster können genauere Einstellungen zur Analyse gemacht werden. Die wichtigsten Angaben betreffen den Bereich "Kontext". Hier kannst du entscheiden, wieviele Wörter nach links und rechts für die Analyse beachtet werden sollen. Also wieviele Wörter nach links und rechts überhaupt als mögliche Kookkurrenz-Partner zum Suchwort in Frage kommen sollen.
Ebenfalls wichtig sind die Einstellungen "Lemmatisierung verwenden" und "Funktionswörter ignorieren". Es empfiehlt sich, in einem ersten Durchlauf erstere nicht zu verwenden und letztere zu ignorieren.
Ein Klick auf "OK" bzw. "Starten" startet die Analyse.
Nach der Berechnung erscheint eine neue Liste. Auf dieser sind nun jene Wörter genannt, die besonders häufig mit dem Suchausdruck zusammen erscheinen. Geordnet ist diese Liste nach dem LLR-Wert, der "Log Likelihood Ratio". Das ist ein statistischer Wert, der beschreibt, wie unwahrscheinlich es eigentlich ist, dass zwei Wörter, im Verhältnis zu ihren Häufigkeiten, zusammen genannt werden.
Neben dem LLR-Wert werden auch die Häufigkeiten der Kookkurrenzen angegeben. Die Spalte "syntagmatische Muster" zeigt typische Konstruktionen der Kookkurrenzen.
Ein Doppelklick auf die Zeilen (PC-Client) bzw. ein Klick auf das Plus-Symbol (WWW-Client) öffnet jeweils die KWIC-Ansicht aller Beispiele.

Aufgabe 1
Spiele ein bisschen mit der Kookkurrenzanalyse herum. Überlege dir, wofür diese Analyse gut sein könnte! Welche linguistischen Fragen könnte man damit versuchen zu beantworten?

Was genau sind Kookkurrenzen?

Die 10-Wort-Sprache

Zunächst ein Gedankenexperiment: Erfinden wir eine Sprache, die genau 10 Wörter kennt.

10-Wort-Sprache
erfa, oblu, kiwa, ölza, xuxu, asbu, oilx, kiod, turi, chasd

Die 10 Wörter haben keinerlei Bedeutung. Es gibt keine Grammatik. Wir können nun aus diesen 10 Wörtern Sätze bilden. Wie wahrscheinlich ist es, dass in unserem Satz "erfa" neben "xuxu" auftaucht?

Zuerst müssen wir uns überlegen, wie wahrscheinlich es ist, dass aus den 10 Wörtern, die es gibt, gerade "erfa" gewählt wird.

Die Wahrscheinlichkeit (mit "P" abgekürzt; P steht für Probability) ist eine Zahl zwischen 0 und 1, wobei 0 "sicher nicht", 1 hingegen "sicher" bedeutet.

Es gibt 10 mögliche Kandidaten für die Wahl eines Wortes, die Wahrscheinlichkeit P, dass "erfa" gewählt wird, ist also 1/10 oder 10%. Genauso ist die Wahrscheinlichkeit, dass zuerst "xuxu" gewählt wird, ebenfalls 1/10.

Wie gross ist nun die Wahrscheinlichkeit, dass nach "erfa" genau "xuxu" folgt? Wir gehen dabei davon aus, dass alle Wörter natürlich auch mehrmals benutzt werden können. Das bedeutet, dass nach der Wahl von "erfa" die Wahrscheinlichkeit wieder 1/10 beträgt, dass "xuxu" folgt (genausoviel, dass eines der anderen Wörter folgt). Dass nun also das Paar "erfa" und "xuxu" auftritt ist 1/10 x 1/10 wahrscheinlich, P beträgt also 1/100.

Das leuchtet auch sofort ein, wenn wir uns überlegen, wieviele Kombinationsmöglichkeiten es bei 10 Wörtern gibt: Es sind 10² Möglichkeiten, also 100. Die Wahrscheinlichkeit, dass nun also gerade das Paar "erfa xuxu" auftaucht, beträgt 1/100.

Eine richtige Sprache

Worin unterscheidet sich nun unsere 10-Wort-Sprache von einer "richtigen", sprich, natürlichen Sprache? Bezogen auf die Wahrscheinlichkeit des Auftretens von Wörtern und Wortkombinationen in folgenden Punkten:

Es gibt eine Grammatik: Nach einem Artikel kann grundsätzlich nicht irgendein beliebiges Wort folgen, sondern höchstwahrscheinlich ein Wort der Klasse "Adjektive" oder "Nomen".
Es gibt eine Semantik: Dass nach den Wörtern "Der Hund" nicht ein x-beliebiges Verb folgt, sondern eines, das semantisch mit "Hund" verträglich ist, ist sehr wahrscheinlich.
Daraus folgt: Die Wahrscheinlichkeit, dass ein bestimmtes Wort benutzt wird, liegt nicht einfach bei 1/"Anzahl Wörter der Sprache", sondern ist abhängig von grammatikalischen und semantischen Regeln im weitesten Sinne.

Genau das macht man sich nun zunutze, wenn man Kookkurrenzen berechnet. Interessant ist nun ja Folgendes:

Wenn ich beobachte, dass zwei Wörter immer wieder miteinander auftreten, möchte ich wissen, ob die beobachtete Frequenz ihrer Kombination höher ist, als dass ich das erwarten würde, wenn die Wahrscheinlichkeit für das Aufeinandertreffen von Wörtern völlig gleichmässig verteilt ist. Wenn das der Fall ist, dann muss sich dahinter irgendeine Regel verbergen, die dafür verantwortlich ist.
Weiter kann ich mich aber auch für die Fälle von Wortkombinationen interessieren, die sogar häufiger zusammen auftreten, als es die allgemeinen Regeln der Sprache vermuten lassen.

Eine Kookkurrenzanalyse berechnet nun genau dies. Wenn in der COSMAS-Kookkurrenzanalyse nun ersichtlich ist, dass es einen wichtigen Kookkurrenzpartner zu "Beispiel" gibt, nämlich "zum", dann heisst das, dass die Kombination "zum Beispiel" häufiger vorkommt, als wir das aufgrund der Frequenzen der einzelnen Wörter erwarten würden. Das drückt dieser "LLR"-Wert, der "Log-Likelihood-Wert" aus.

Verteilung	Korpusauswahl
Web als Korpus	Weitere Korpora

Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über eine Mitteilung. Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden: Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.