Probleme Web als Korpus
Möchte man das Web als Korpus für
linguistische Zwecke benutzen, stellen sich einige Probleme. Man kann
diese in zwei Bereiche gliedern: Einmal bezüglich der verfügbaren
Suchmaschinen und deren Möglichkeiten, andererseits grundsätzlich:
Inwiefern ist das Web ein sinnvoll nutzbares Korpus?
Suchmaschinen
In den Aufgaben auf der
vorherigen Seite
bist du wahrscheinlich bereits auf einige Probleme bei der Benutzung
der Suchmaschinen gestossen. Zusammenfassend kann man sagen:
- Beschränkte Abfragesprache:
Es
ist z.B. nicht möglich, mit Auslassungszeichen zu arbeiten.
Normalerweise beherrscht eine Abfragesprache (z.B. in Datenbanken)
spezielle Zeichen wie *, + oder ?, um einen oder mehrere Buchstaben
offen zu lassen. Möchte man z.B. alle Flexionsformen und Komposita des
Wortes "Hund" finden, kann man nicht einfach "Hund*" eingeben und
findet dann auch "Hundegebell" oder "Hunde".
Aufgabe 1
|
---|
Wie löst Google dieses Problem? Was muss ich tun, damit ich Hund, Hunde, Hunden, Hundegebell etc. finden möchte?
|
- Keine Annotationen:
Natürlich
sind die indizierten Webseiten nicht linguistisch annotiert. Man kann
also nicht einfach so nach Präpositionalphrasen oder nach
Adjektiv-Nomen-Konstruktionen suchen. - Repräsentativität der erfassten Webseiten:
Naturgemäss (siehe Grundlagen) kann eine Suchmaschine mit ihrem Webcrawler nicht alle verfügbaren Webseiten erfassen. Es bleibt ein sog. "deep web", auch "invisible" oder "hidden web" genannt, das aus Webseiten besteht, die von Suchmaschinen aus technischen Gründen nicht gefunden werden können. Dazu gehören z.B. viele Datenbanken (auch Zeitungsdatenbanken) oder natürlich irgendwie geschützte oder schlicht nicht verlinkte Seiten. Das für Suchmaschinen sichtbare Web soll im Januar 2005 etwa 11 Milliarden Dokumente enthalten, das "deep web" soll 500 Mal grösser sein.
Zudem ist es möglich, dass ein Suchmaschinenbetreiber gewisse Seiten absichtlich sperrt, oder dass er aus politischen Gründen dazu gezwungen wird.
Und ebenfalls klar ist, dass sich die Menge der indizierten Seiten ständig verändert. Möchte man z.B. Trefferzahlen vergleichen, muss das möglichst zum gleichen Zeitpunkt geschehen, da sich ansonsten die Grundgesamtheit der indizierten Dokumente bereits wieder verändert hat.
- Kein transparentes Indizieren und Ranking:
Wie bereits besprochen lassen die Suchmaschinen einem im Unklaren, nach welchen Kriterien die Webseiten genau indiziert werden und wie das Ranking funktioniert. Auch ist oft unklar, wie genau die Treffer gefunden werden.
Bei einer korpuslinguistischen Analyse im Web muss also immer klar sein, dass die zugrundeliegende Gesamtheit nur die Menge an Dokumenten ist, die zum Zeitpunkt der Recherche von der benutzten Suchmaschine indiziert worden ist. Dabei ist jedoch das Problem, dass wir gar nicht wissen, wie gross die Grundgesamtheit der Dokumente überhaupt ist!
Diese Probleme können teilweise gelöst werden, wenn man sich ein eigenes Korpus aus Web-Dokumenten zusammenstellt und bei sich lokal abspeichert. Im Prinzip funktioniert das so: Mittels geschickter Suchmaschinenanfragen erstellt man sich eine Liste an Dokumenten zum Download. Die Dokumente kann man dann bei sich lokal auf dem Rechner archivieren. Damit verfügt man mit dieser Datenmenge eine klar definierte Grundgesamtheit, über die man Aussagen machen kann. Diese Methode findet in der Korpuslinguistik immer weitere Verbreitung, z.B. durch die Initiative
"WaCky – Web-as-Corpus kool ynitiative". In deren Kontext ist das
Web as Corpus Toolkit entstanden, ein Softwarepaket, mit dem man Dokumente aus dem Web automatisiert herunterladen und weiter verarbeiten kann.
Das Web als Korpus
Die Probleme der Suchmaschinen sind das eine, die Frage, inwiefern das Web ganz grundsätzlich als Korpus verwendet werden kann, ist eine andere Frage. Folgende Probleme stellen sich:
- Ist das Web repräsentativ für den Sprachgebrauch, den ich untersuchen möchte?
- Welche Textsorten finden sich im Web?
- Wer spricht im Web?
- Was ist das für eine Sprache, die im Web gesprochen wird?
Es sind Fragen, die kaum zu beantworten sind. Möchte man diese Fragen beantwortet haben, bleibt nichts anderes übrig, als nur einen bestimmten, gut überblickbaren Teil des Webs als Korpus zu verwenden. Es ist beispielsweise denkbar, nur ausgewählte Foren zu verwenden, über deren Umfang und Benutzerkreis man den Überblick hat.
Aufgabe 2
|
---|
Ziehe ein Fazit zur Nutzung des Webs als Korpus für linguistische Recherchen! Für welche Fragestellungen könnte es benutzt werden? Für welche weniger? Wie kann man vorgehen, um gewisse der angesprochenen Probleme zu umgehen?
|
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2025): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.