Daten analysieren

Hat man das Korpus zusammengetragen und in der Formatierung bereinigt, folgt die eigentliche Analyse. Dazu gibt es natürlich vielfältige Möglichkeiten und für komplexe Fragestellungen können Standard-Analysen höchstens Teil der ganzen Methode sein. Man sollte sich nicht scheuen, auch unkonventionelle Wege zu gehen, jedoch die eigentliche Fragestellung immer im Hinterkopf behalten.

Hier wird eine kleine Palette an Analysemöglichkeiten aufgezeigt. Es gibt dafür teilweise Software, die die Analyse unterstützt. Einen Überblick gibt das Softwareverzeichnis. Oft ist man aber genauso gut bedient, wenn man mit einem Texteditor, in dem man mit regulären Ausdrücken suchen kann, oder mit grundlegenden Unix-Befehlen arbeitet. Erfahrene Korpuslinguistinnen und -linguisten erstellen auch oft ihre eigene Programme (z.B. mit Python, wie wir das auf KoDuP-Germanistik zeigen), die genau das machen, was sie wollen.

Konkordanzen

Oft interessiert man sich für den Gebrauch eines Wortes im Korpus. Um dem auf die Spur zu kommen, sind sog. "Concordance"-Programme nützlich. Es gibt einige davon, die auch kostenlos erhältlich sind, z.B.:
Ein Beispiel aus dem Programm AntConc, in dem ein Korpus an NZZ Leitartikeln nach dem Wort "Terror" durchsucht worden ist:



Programme dieser Art können meistens auch noch mehr, z.B. Wortlisten (mit Frequenzen) erstellen oder Kollokationen berechnen.

Wortlisten/Wortgruppenlisten (N-Gramme)

Eine Liste aller vorhandenen unterschiedlichen Wörter mit Angaben zu ihren Frequenzen ist einfach erstellbar und sagt trotzdem schon viel über ein Korpus aus. Die meisten Konkordanz-Programme beherrschen das, ansonsten ist das unter Unix-Systemen (auch Mac OS X) schnell selber gemacht.

In die gleiche Kategorie fällt das Berechnen von N-Grammen (Wortgruppen/Kollokationen/Kookkurrenzen). Es gibt verschiedene Methoden, diese zu berechnen. Die einfachste ist, einfach zu zählen, wie oft die unterschiedlichen möglichen Wortkombinationen vorkommen. Auch das können die Konkordanz-Programme meistens oder ist mit Unix-Grundbefehlen machbar. Statistisch komplexere Methoden (wie sie z.B. im IDS-Korpus angewandt werden) beherrschen Spezialprogramme. Besonders empfehlenswert, aber nicht ganz einfach zu bedienen, ist NSP:
Oder auch kfNgram, das aber nur Frequenzen berechnet:

Wortarten-Annotation

Oft ist es auch hilfreich, das Korpus vor der eigentlichen Analyse mit morphologischen und syntaktischen Informationen zu annotieren. Ein kostenlos verfügbares und auch für grössere Textmengen einsetzbares Programm ist TreeTagger:

Für Windows gibt es für den TreeTagger eine grafische Benutzeroberfläche von Ciarán Ó Duibhín, ebenso für Mac OS X mit dem CasualTreeTagger von Yasu Imao aus Osaka. Für die Benutzung unter anderen Betriebssystemen muss man aber auf die Shell zurück greifen.

In In diesem Kapitel wird erklärt, wie man eigene Daten mit dem TreeTagger annotieren kann.

Der ebenso vom IMS der Universität Stuttgart entwickelte RFTagger liefert im Gegensatz zum TreeTagger noch feinkörnigere morphosyntaktische Informationen, nämlich Kasus, Genus, Numerus und differenziertere Wortarten:

Auf dieser Seite erklären wir, wie mit Promethia und Python Daten annotiert werden können.