Grundlagen: das Web und die Suchmaschinen
Wenn man das World Wide Web (WWW, Web) als Korpus für linguistische Untersuchungen nutzen will, muss man mit der grundlegenden Struktur des Webs vertraut sein.
Das wichtigste Element in diesem Zusammenhang sind die
Suchmaschinen (eine bekannte Suchmaschine ist z.B.
Google). Es ist wichtig zu wissen, wie diese grundsätzlich funktionieren und was ihre Datengrundlage ist. Und hier fängt das Problem bereits an: Niemand, ausser den Suchmaschinenbetreibern, weiss genau, wie diese funktionieren und was ihre Datengrundlage ist! Doch dazu später mehr.
Wenden wir uns zuerst der Struktur des Webs zu.
Das Web: Ein Netz von Informationen
Die folgende Grafik illustriert grob, wie das Web aufgebaut ist.

Grob gesagt besteht das WWW aus Computern, die miteinander zu einem Netzwerk verbunden sind. Man unterscheidet dabei
Server von
Clients. Server sind Computer, die Dokumente, aber auch Programme für die Clients, zur Verfügung stellen. Ein Client ist ein Computer, der selbst nicht Dokumente anbietet, sondern nur auf Server zugreift, um Dokumente abzurufen oder auf den Server zu laden.
Die Dokumente, die du hier auf einem Client liest, liegen auf einem Server in Zürich.
In der Grafik oben sind eine kleine Menge von Servern (grau) dargestellt, die miteinander verbunden sind. Sie bilden zusammen das Internet. Um miteinander zu reden, verwenden sie spezielle Sprachen. Eine wichtige davon: HTTP (Hyper Text Transfer Protocol). Die Server bieten unter vielen auch einen Dienst an, nämlich WWW, das Anbieten von Webseiten. Sie können aber auch anderes, z.B. E-Mail-Verkehr abwickeln. Das ist auch ein spezieller Dienst, der eigentlich nichts mit WWW zu tun hat, obwohl gemeinhin das physische Netzwerk (Internet) mit all seinen Diensten, darunter WWW, synonym verwendet wird.
Clients (die schwarzen Bildschirme) greifen auf die Server zu. Z.B. kann ein Client über den blauen Weg Daten auf einen Server hochladen. Später kann dann ein anderer Client über den roten Weg diese Daten wieder vom Server abholen.
Die Frage ist nun, wie ein Client weiss, wo er die Daten findet, die er möchte. Im einfachsten Fall kennt man die Adresse des Servers, auf dem die Daten liegen. Wenn nicht, sind Suchmaschinen nötig (in der Grafik ist eine gelb eingezeichnet).
Die Suchmaschinen
Es ist schwierig, aus der Masse der Informationen die im Web verfügbar sind, das Gesuchte zu finden. Die grundlegende Idee der Verlinkung von einzelnen Webseiten hilft nur beschränkt weiter: Ich muss erstmal einen Einstiegspunkt finden und bin anschliessend von den Links abhängig, die von dieser auf andere Seiten führen. Abhilfe schaffen hier die
Suchmaschinen.
Eine kurze Geschichte der Web-Suchmaschinen
|
---|
Schon ganz zu Beginn des Webs wurden sog. Webcrawler eingesetzt,
die in einem bestimmten Rhythmus durch das Netz spazierten (indem sie
allen Links auf den Seiten folgen), und die Informationen indizierten
und in einem Archiv ablegten, dass dann anschliessend nach bestimmten
Kriterien durchsucht werden konnte. Der erste Webcrawler für das WWW,
"The Wanderer", besuchte halbjährlich alle Seiten des WWW. Im Juni 1993
waren das etwa 130 Webseiten...
Ab 1995 traten immer mehr
Suchmaschinen auf den Plan: WebCrawler, Lycos, Yahoo!, Infoseek,
AltaVista, Hotbot sind nur einige der (ehemals) klingenden Namen, die
teilweise heute völlig bedeutungslos geworden sind. Einige von ihnen,
z.B. Yahoo!, arbeiteten auch immer mit manuell oder halbautomatisch erstellten Katalogisierungen ("Katalog" oder "Verzeichnis" genannt).
Ende
1999 erblickte Google das Licht der WWW-Welt. Die Technologie dahinter
galt als besonders innovativ: Die Benutzeroberfläche war einfach, die
Geschwindigkeit hoch und die Suchergebnisse treffend. Und: Google rühmt
sich, einen besonders grossen Teil des Webs indiziert zu haben.
Heute sind im kommerziellen Bereich nur noch drei Suchmaschinen von Bedeutung: Google, Yahoo! und MSN Search von Microsoft.
(Vgl. auch den Wikipedia-Eintrag: http://de.wikipedia.org/wiki/Suchmaschine)
|
Doch wie funktioniert grundsätzlich eine Suchmaschine?

Der Webcrawler der Suchmaschine (gelbe Tonne) geht von einer oder mehreren Webseiten aus und verfolgt alle Links, die er darauf findet (gelber Weg). Jedes Mal, wenn er eine Seite findet, speichert der Crawler bestimmte Informationen dieser Seite in eine eigene Datenbank ab, mit der Angabe, wo die Seite zu finden ist.
Ein Client kann nun zunächst eine Anfrage an die Suchmaschine stellen (roter Weg). Die Suchmaschine durchsucht die Datenbank nach dem gesuchten Stichwort und gibt alle Adressen aus, die der Anfrage entsprechen. Der Client kann nun eine dieser Adressen auswählen und so den Weg zum Server fortsetzen, auf dem die gewünschte Information verfügbar ist (hellroter Weg).
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2025): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.