Beispiele für die Nutzung des Webs als Korpus

Neben der Nutzung des WWW für linguistische Fragen der Distribution (Frequenzen von Wörtern, Phrasen etc.) und diachronen Veränderungen von Sprache (wie an den Aufgaben gezeigt), wird dieses grosse Korpus auch für computerlinguistische Zwecke verwendet. Volk 2002 zeigt einige Anwendungsmöglichkeiten auf, die hier kurz zusammengefasst sind.

Lexikographie

Für computerlinguistische Anwendungen, z.B. Wortarten-Tagger, ist es z.B. wichtig, über Listen von Eigennamen zu verfügen. Das Problem hier ist, dass diese unendlich lang sind. Die Frage lautet also, wie möglichst umfassende Listen von Eigennamen erstellt werden können. Dafür dient das automatisierte Abfragen von Suchmaschinen, z.B. mit Abfragen wie "folgende Universitäten" oder "die folgenden Politiker". Die resultierenden Seiten können anschliessend automatisch analysiert und die Eigennamen daraus extrahiert werden.

Syntax

Bei der automatischen Analyse der Syntax einen Satzes treten oft Ambiguitäten auf. So ist z.B. bei den folgenden Sätzen die Präpositionalphrase einmal abhängig vom Nomen ("Buch"), einmal vom Verb ("lesen"):

1) Peter liest ein Buch über Computer.
2) Peter liest ein Buch im Zug.

Nun kann durch entsprechende Abfragen in Suchmaschinen festgestellt werden, welche Kombinationen üblicher sind:

a) Buch über Computer
b) liest über Computer
c) Buch im Zug
d) liest im Zug

Die Frequenzen dieser Kookkurrenzen (auch: Kollokationen), in Relation zu den Frequenzen von "Buch", "Computer", "liest" und "Zug" zeigen dann, dass die Wahrscheinlichkeit dafür spricht, in 1) die Präpositionalphrase an die Nominalphrase, in 2) sie hingegen an das Verb anzuhängen.

Semantik

Um die unterschiedlichen Bedeutungen von Polysemen zu erfassen, kann ebenfalls eine Korpusabfrage sinnvoll sein. So kann aufgrund des Umfeldes eines bestimmten Wortes dessen Bedeutung und dessen typische Nähe zu anderen Wörtern erfasst werden.

Maschinelle Übersetzung

Muss das Kompositum "Aktienkurs" maschinell übersetzt werden, und ist als Ganzes im zugrundeliegenden Wörterbuch nicht enthalten, muss es in die Komponenten "Aktie" und "Kurs" segmentiert werden. Diese wiederum können z.B. ins Englische unterschiedlich übersetzt werden: "share" oder "stock" für "Aktie", bzw. "course", "price" oder "rate" für "Kurs". Nun klärt eine einfache Korpusabfrage der unterschiedlichen Kombinationsvarianten, welche Variante wohl die Gebräuchlichste ist.

Viele im Web verfügbare Texte liegen gleichzeitig in verschiedenen Sprachen vor. Diese sog. "Parallel-Texte" können als Quelle bei der maschinellen Übersetzung benutzt werden. So kann man Phrasen in der einen Sprache, die übersetzt werden müssen, in einem Text lokalisieren und dann in der parallel vorliegenden Übersetzung automatisch das Äquivalent finden.

Vgl. auch Baroni/Bernardini (2006)