Daten analysieren | Anwendungen |
Corpus Workbench | CQPweb recherchieren (UZH) |
CQPweb ist das grafische Fenster auf die Corpus Workbench, einer mächtigen Korpusanalyse-Plattform. Die in der CWB und in CQPweb verwendete Abfragesprache heisst "CQP" und ist sehr flexibel. Wenn die Korpusdaten annotiert sind, können diese Informationen mit CQP abgefragt werden.
Am Beispiel des Spiegel/Zeit-Korpus zeige ich die wichtigsten Funktionen von CQPweb.
Wir wollen die Abfragesprache CQP und die Funktionen von CQPweb am Beispiel des Text+Berg-Korpus zeigen. Das Korpus umfasst knapp 200 Bände des Jahrbuchs des Schweizer Alpenclubs und der Nachfolgepublikation "Alpen" von 1864 bis heute, was über 35 Mio. Wortformen sind. Es gibt jedoch auch andere Korpora, die über CQP und CQPweb abfragbar sind.
Wichtig: Um das Text+Berg-Korpus nutzen zu können, ist eine kostenlose Anmeldung notwendig.
Frieden |
Ganz oben auf der KWiC-Seite werden Frequenzinformationen angegeben. In der Zeile darunter kann über "Line View" eine Satz-Darstellung erzeugt und über "Show in random order" können die Belege zufällig sortiert werden. Zudem verbergen sich hinter dem Menü "New query" einige interessante Funktionen, die im Folgenden beschrieben werden.
Wir haben nun mit der Eingabe "Frieden" nach genau dieser Wortform gesucht und finden deshalb keine flektierten Formen davon. Da das Korpus jedoch mit Lemma-Informationen annotiert ist, können wir nach dem Lemma (der Grundform) "Frieden" suchen. Das geht folgendermassen:
[lemma="Frieden"] |
Ausführlichere Informationen zur CQP-Syntax findet sich auf der nächsten Seite und natürlich in der offiziellen Dokumentation.
Wähle im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Frequency Breakdown". Nun ist ersichtlich, welche Wortformen des Suchbegriffs im Korpus mit welcher Frequenz vorkommen. Wenn nicht nach dem Lemma, sondern nach einer konkreten Wortform gesucht wird, dann fallen natürlich alle Treffer auf die eine Wortform. Bei der Suche nach
[lemma="Frieden"] |
No. | Search result | No. of occurrences | Percent |
1 | Frieden | 328 | 81.39% |
2 | Friedens | 75 | 18.61% |
Es ist zudem Möglich, auch die Wortarten-Informationen in die Verteilung einzubeziehen: Dafür muss im Menü oben, das auf "New query" voreingestellt ist, die entsprechende Auswahl getroffen werden. So kann man z.B. ersehen, auf welche Wortarten das Lemma "Frieden" entfällt – das ist bei diesem Beispiel trivial: Es handelt sich immer um Nomen.
Wähle im Menü "New query" oberhalb der KWiC-Zeilen rechts den Befehl "Distribution". Nun kann die Verteilung der Treffer über verschiedene Kategorien dargestellt werden:
Über diese Funktion lassen sich Veränderungen der Frequenzen eines Ausdrucks über die Zeit gut darstellen. Der folgende Bildausschnitt zeigt die Frequenzen für
[lemma="Führer"] |
Achtung: Bei Darstellungen dieser Art ist zu beachten, dass das Korpus nicht nur aus deutschsprachigen Texten besteht, aber nicht in jedem Jahrgang die Anteile von nicht-deutschen Texten gleich ist. Deshalb ist es sinnvoll, ein Teilkorpus, nur aus deutschsprachigen Texten bestehend, zu bilden. Wie das funktioniert, wird weiter unten erklärt.
In CQPweb ist es möglich, sich die Kollokationen (manchmal auch: "Kookkurrenzen" genannt) zum Suchbegriff zu berechnen. Verwende dazu im Menü "New query" den Befehl "Collocations".
Hinter dem Menü "New query", das oberhalb einer KWiC-Liste angezeigt wird, verbergen sich noch weitere interessante Funktionen. In Kürze:
Wahrscheinlich möchte man nicht immer mit dem gesamten Korpus arbeiten. Das Text+Berg-Korpus ist z.B. mehrsprachig und so möchte man die Suche vielleicht auf eine Sprache einschränken. Solche Einschränkungen sind über "Restricted Query" möglich; der Menüpunkt findet sich in der linken Menüspalte.
Auch da kann man im Suchfenster den Suchausdruck mit den gleichen Mitteln formulieren wie bei der normalen Suche. Zusätzlich kann man aber die Suche auf Texte mit bestimmten Metadaten beschränken. Die Listen unten führen alle Metadaten-Kategorien auf, die verwendet werden können, um die Suche einzuschränken. So kann man z.B. in der Liste text_decade die Suche auf bestimmte Jahrzehnte oder in text_lang auf bestimmte Sprachen einschränken.
Man kann nun beliebige Kategorien ankreuzen und damit nur darin suchen.
Links im Menü von CQPweb finden Sie unter "Corpus queries" den Bereich "Keywords". Damit lässt sich das für ein bestimmtes Korpus im Vergleich zu einem anderen Korpus typische Vokabular berechnen. Dafür müssen für die Korpora, die verglichen werden sollen, vorberechnete Frequenzlisten zur Verfügung stehen. Für das Korpus, mit dem Sie arbeiten, ist dies bereits der Fall. Ggf. liegen zudem von anderen Korpora, die auf dem Server verfügbar sind, Frequenzlisten vor.
In der Eregbnisliste werden nun, geordnet nach statistischer Signifikanz, die Wörter angezeigt, die für das Untersuchungskorpus und das Referenzkorpus typisch sind. Blau hinterlegt und mit + verstehen sind die typischen Bundestagswahl-Wörter, grau hinterlegt und mit - versehen, das Vokabular des Referenzkorpus. Zusätzlich sind die absoluten Frequenzen jedes Wortes in den beiden Korpora und der statistische Signifikanzwert angegeben.
Um nun aber das Vokabular von zwei Teilkorpora innerhalb Ihres Untersuchungskorpus zu vergleichen, erstellen Sie erst zwei entsprechende Teilkorpora über den Menübefehl "User controls" -> "Create/edit subcorpora". Danach können Sie über die Keywords-Funktion die beiden Frequenzlisten miteinander vergleichen.
Interessant wird die Corpus Workbench und CQPweb natürlich besonders dann, wenn intelligentere Suchmöglichkeiten eingesetzt werden. Im nächsten Kapitel werden deshalb die wichtigsten Regeln der Abfragesprache CQP erklärt.
Corpus Workbench | CQPweb recherchieren (UZH) |
Daten analysieren | Anwendungen |