Grundlagen: das Web und die Suchmaschinen

Wenn man das World Wide Web (WWW, Web) als Korpus für linguistische Untersuchungen nutzen will, muss man mit der grundlegenden Struktur des Webs vertraut sein.

Das wichtigste Element in diesem Zusammenhang sind die Suchmaschinen (eine bekannte Suchmaschine ist z.B. Google). Es ist wichtig zu wissen, wie diese grundsätzlich funktionieren und was ihre Datengrundlage ist. Und hier fängt das Problem bereits an: Niemand, ausser den Suchmaschinenbetreibern, weiss genau, wie diese funktionieren und was ihre Datengrundlage ist! Doch dazu später mehr.

Wenden wir uns zuerst der Struktur des Webs zu.

Das Web: Ein Netz von Informationen

Die folgende Grafik illustriert grob, wie das Web aufgebaut ist.



Grob gesagt besteht das WWW aus Computern, die miteinander zu einem Netzwerk verbunden sind. Man unterscheidet dabei Server von Clients. Server sind Computer, die Dokumente, aber auch Programme für die Clients, zur Verfügung stellen. Ein Client ist ein Computer, der selbst nicht Dokumente anbietet, sondern nur auf Server zugreift, um Dokumente abzurufen oder auf den Server zu laden.

Die Dokumente, die du hier auf einem Client liest, liegen auf einem Server in Zürich.

In der Grafik oben sind eine kleine Menge von Servern (grau) dargestellt, die miteinander verbunden sind. Sie bilden zusammen das Internet. Um miteinander zu reden, verwenden sie spezielle Sprachen. Eine wichtige davon: HTTP (Hyper Text Transfer Protocol). Die Server bieten unter vielen auch einen Dienst an, nämlich WWW, das Anbieten von Webseiten. Sie können aber auch anderes, z.B. E-Mail-Verkehr abwickeln. Das ist auch ein spezieller Dienst, der eigentlich nichts mit WWW zu tun hat, obwohl gemeinhin das physische Netzwerk (Internet) mit all seinen Diensten, darunter WWW, synonym verwendet wird.

Clients (die schwarzen Bildschirme) greifen auf die Server zu. Z.B. kann ein Client über den blauen Weg Daten auf einen Server hochladen. Später kann dann ein anderer Client über den roten Weg diese Daten wieder vom Server abholen.

Die Frage ist nun, wie ein Client weiss, wo er die Daten findet, die er möchte. Im einfachsten Fall kennt man die Adresse des Servers, auf dem die Daten liegen. Wenn nicht, sind Suchmaschinen nötig (in der Grafik ist eine gelb eingezeichnet).

Die Suchmaschinen

Es ist schwierig, aus der Masse der Informationen die im Web verfügbar sind, das Gesuchte zu finden. Die grundlegende Idee der Verlinkung von einzelnen Webseiten hilft nur beschränkt weiter: Ich muss erstmal einen Einstiegspunkt finden und bin anschliessend von den Links abhängig, die von dieser auf andere Seiten führen. Abhilfe schaffen hier die Suchmaschinen.

Eine kurze Geschichte der Web-Suchmaschinen
Schon ganz zu Beginn des Webs wurden sog. Webcrawler eingesetzt, die in einem bestimmten Rhythmus durch das Netz spazierten (indem sie allen Links auf den Seiten folgen), und die Informationen indizierten und in einem Archiv ablegten, dass dann anschliessend nach bestimmten Kriterien durchsucht werden konnte. Der erste Webcrawler für das WWW, "The Wanderer", besuchte halbjährlich alle Seiten des WWW. Im Juni 1993 waren das etwa 130 Webseiten...

Ab 1995 traten immer mehr Suchmaschinen auf den Plan: WebCrawler, Lycos, Yahoo!, Infoseek, AltaVista, Hotbot sind nur einige der (ehemals) klingenden Namen, die teilweise heute völlig bedeutungslos geworden sind. Einige von ihnen, z.B. Yahoo!, arbeiteten auch immer mit manuell oder halbautomatisch erstellten Katalogisierungen ("Katalog" oder "Verzeichnis" genannt).

Ende 1999 erblickte Google das Licht der WWW-Welt. Die Technologie dahinter galt als besonders innovativ: Die Benutzeroberfläche war einfach, die Geschwindigkeit hoch und die Suchergebnisse treffend. Und: Google rühmt sich, einen besonders grossen Teil des Webs indiziert zu haben.

Heute sind im kommerziellen Bereich nur noch drei Suchmaschinen von Bedeutung: Google, Yahoo! und MSN Search von Microsoft.

(Vgl. auch den Wikipedia-Eintrag: http://de.wikipedia.org/wiki/Suchmaschine)

Doch wie funktioniert grundsätzlich eine Suchmaschine?



Der Webcrawler der Suchmaschine (gelbe Tonne) geht von einer oder mehreren Webseiten aus und verfolgt alle Links, die er darauf findet (gelber Weg). Jedes Mal, wenn er eine Seite findet, speichert der Crawler bestimmte Informationen dieser Seite in eine eigene Datenbank ab, mit der Angabe, wo die Seite zu finden ist.

Ein Client kann nun zunächst eine Anfrage an die Suchmaschine stellen (roter Weg). Die Suchmaschine durchsucht die Datenbank nach dem gesuchten Stichwort und gibt alle Adressen aus, die der Anfrage entsprechen. Der Client kann nun eine dieser Adressen auswählen und so den Weg zum Server fortsetzen, auf dem die gewünschte Information verfügbar ist (hellroter Weg).