Übung Korpuslinguistik: Visualisierung

Beispiele für die Darstellung mit GraphViz

Die Darstellung von Sprachdaten in Graphen mit Knoten und Kanten bietet sich natürlich an, um den Bezug zwischen Wörtern zu zeigen. So kann beispielsweise eine Liste von berechneten Kookkurrenzpartnern zu einem bestimmten Wort grafisch dargestellt werden.

In der IDS-Kookkurrenzdatenbank CCDB (oder über COSMAS 2) kann einfach eine Liste der statistisch signifikanten Kookkurrenzpartner zu einem Wort angezeigt werden. Diese Daten können in einen Texteditor kopiert und dort ins DOT-Format überführt werden. Das kann mit der Anwendung von Regulären Ausdrücken relativ einfach erreicht werden.

Hier ein Beispiel, das die wichtigsten Kookkurrenzpartner zu "Notbremsung" enthält. Die DOT-Datei kann mit GraphViz in eine Graphen-Darstellung gerendert werden (hierarchische Darstellung, Klick für grössere Darstellung):



Oder die gleiche Datei mit "neato" in "energetisch ausgeglichener" Darstellung (Klick für grössere Darstellung):



Dabei zeigt sich z.B., dass "einleiten" das wichtigste Verb im Zusammenhang mit einer Notbremsung zu sein scheint. Eigentlich überraschend, dass das gemächliche "einleiten" in diesem Zusammenhang verwendet wird. Gehen wir deshalb dem Verb "einleiten" nach. Wie schaut das Kookkurrenzprofil davon aus? (Hier die DOT-Datei.)



Oder auch hier in hierarchischer Darstellung:



Hier zeigt sich, dass "Notbremsung" zwar ein Kookkurrenzpartner von "einleiten" ist, jedoch kein besonders häufiger. Und die Semantik von "einleiten" liegt meistens eher bei langwierigeren Prozessen als notbremsen.

Doch zeigen die Darstellungen noch etwas: Es gibt auch Grenzen der Darstellbarkeit. Je komplexer die Strukturen werden, desto kleiner ist der Gewinn, der in der Visualisierung liegt. Und Computermonitore werden plötzlich zu klein; die Darstellungen sollten auf grossen Plakaten ausgedruckt werden können.

Aufgabe
Erstelle einen Graphen mit GraphViz, der die wichtigsten Kookkurrenzpartner zu einem Wort deiner Wahl visualisiert! Gehe dabei folgendermassen vor:
  1. Lass dir in der Kookkurrenzdatenbank des IDS das Kookkurrenzprofil zu einem beliebigen Wort anzeigen.
  2. Kopiere den ganzen Inhalt der Tabelle (gewünschten Teil markieren, dann kopieren) in eine neue Datei in BBEdit.
  3. Versuche die Datei in das DOT-Format umzuformatieren. Am besten funktioniert das mit der Benutzung von regulären Ausdrücken.
  4. Speichere die Datei unter einem beliebigen Namen mit der Endung ".dot".
  5. Lade die Datei mit dem GraphViz Web GUI und teste unterschiedliche Darstellungsarten.