Abfragesprache von COSMAS II: Grundlagen
Die Abfragesprache, die im WWW-Interface von COSMAS II, oder im zeilenorientierten Suchfenster des COSMAS II Windows-Clients verwendet werden kann, wird
hier beschrieben. Hier folgt nun aber eine kleine Einführung in die wichtigsten Grundlagen.
Suchobjekte
Suchobjekte in der Suchanfrage sind entweder
- Wörter,
- Satzzeichen oder andere Sonderzeichen,
- Zahlen
- oder Suchmuster.
Wörter und
Zahlen können direkt ohne weitere Zeichen eingegeben werden. Also z.B.:
Satzzeichen und andere
Sonderzeichen müssen in Anführungszeichen eingegeben werden (Ausnahme: Für die Suche nach Fragezeichen wird davor ein "Backslash" gesetzt: \?):
Ein
Suchmuster besteht aus einem Wort und einem oder mehreren zusätzlichen
Operatoren, die unterschiedliche Bedeutungen haben. Folgende Operatoren stehen zur Verfügung:
- Platzhalteroperatoren:
* = 0 bis unendlich viele beliebige Zeichen
? = 1 beliebiges Zeichen
Findet Sozialismus, Hinduismus, Kannibalismus etc.
Findet Haus, Maus, Laus etc.
- Grundformenoperator &:
Mit dem & vor einem Wort in der Grundform werden je nach Einstellungen alle Flexionsformen, Komposita oder sonstigen Wortbildungsformen gefunden.
Findet habe, hast, hat, haben, gehabt etc.
Achtung: In den "Optionen" -> "Lemmatisierung" kann eingestellt werden, wie dieser Operator im Detail funktionieren soll.
Abstandsoperatoren und logische Operatoren
Möchte man nach mehreren Wörtern suchen, muss definiert werden, wie sie verknüpft werden sollen. Dazu dienen entweder die
Abstandsoperatoren oder die
logischen Operatoren AND, OR und NOT.
Werden keine solchen Operatoren gesetzt, wird die Einstellung verwendet, die unmittelbar unterhalb des Suchfensters gemacht werden kann. Dort kann der "Standard-Verknüpfungsoperator" angegeben werden. Entweder werden die Wörter mit dem Wortabstandsoperator "/+w1", oder mit dem logischen "ODER" (oder "OR") verknüpft. Die beiden Varianten werden hier beschrieben.
- Mit dem Abstandsoperator "/w" wird angegeben, wie weit die beiden Wörter voneinander entfernt sein dürfen bzw. müssen. Nach dem "/w" wird in einer Zahl der Maximalabstand angegeben, also z.B.:
Findet: "gehabt haben" aber auch "haben gehabt", nicht aber "haben sie gehabt" etc.
Mit + und - wird angegeben, in welche Richtung der Abstand möglich ist:
Findet nur "gehabt haben", nicht "haben gehabt".
Neben einem Maximalabstand kann auch ein Minimalabstand definiert werden. Denn die Abfrage
Findet "Stuhl und einer Bank", "Stuhl und Bank", "Stuhl oder Bank" und "Stuhl Bank" etc. Hingegen:
Findet nur "Stuhl und Bank" und "Stuhl oder Bank". Die erste Zahl bedeutet der Minimal-, die zweite Zahl der Maximalabstand.
Achtung: Es kann auch ein Abstand von 0 angegeben werden, also z.B. "/w0". Das ist nötig für Satzzeichen, die unmittelbar nach einem Wort folgen sollen; diese haben den Abstand 0 zum Wort vorher. Und es wird auch benötigt, um mehrere Informationen eines Suchwortes miteinander zu verknüpfen, möchte man im annotierten Korpus z.B. nach "ob", aber nur wenn es eine Präposition ist, suchen.
Probleme kann in diesem Zusammenhang aber folgende Suchabfrage bringen, wenn ich z.B. Belege finden möchte, wo das Verb "haben" (und die konjugierten Formen) zweimal hintereinander vorkommt (z.B. "gehabt haben"):
Diese Anfrage wird aber primär Treffer anzeigen, wo einfach nur "haben" (auch in konjugierter Form) einmal vorkommt. Das liegt daran, dass der Abstandsoperator /w1 nur einen Maximal-, aber keinen Minimalabstand definiert. Er akzeptiert also auch Fälle, wo das zweite "haben" mit dem ersten "haben" deckungsgleich ist, und das ist es natürlich, wenn einfach nur "haben" alleine im Satz erscheint. Deshalb muss die Anfrage umformuliert werden:
- Logische Operatoren "AND", "OR" und "NOT":
Auch damit können Suchwörter miteinander verknüpft werden. Allerdings ist wichtig, dass sich diese auf den ganzen Text beziehen. Sie Suchanfrage
zeigt in den Ergebnissen meistens nur das eine Wort an, da sich das andere weit entfernt davon befinden kann. Hier ist es also meist sinnvoller mit dem Wortabstandsoperator zu arbeiten.
Klammerung
Verwendet man mehr als einen Operator (Wortabstandsoperator oder logischer Operator) muss geklammert werden. Damit gruppiert man einfach immer je zwei Suchwörter mit ihrem Verknüpfungsoperator zu einem Ausdruck. Also z.B.:
(Tisch OR Bank) /+w1:1 (gelegt OR gesetzt)
|
Diese Suchanfrage findet:
- Tisch gelegt
- Tisch gesetzt
- Bank gelegt
- Bank gesetzt
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.