Um maschinell Wortarten zu bestimmen, gibt es fürs Deutsche den Part-of-Speech-Tagger „TreeTagger“ aus Stuttgart, eine Art Defakto-Standard fürs Deutsche (und andere Sprachen). Doch wie sieht es mit syntaktischem Parsing aus?
Soeben meldete Rico Sennrich aus Zürich die Verfügbarkeit von ParZu: The Zurich Dependency Parser for German.* Dieser Parser ist eine Weiterentwicklung von Pro3GresDE, der wiederum eine Anpassung ans Deutsche des englischen Parsers Pro3Gres von Gerold Schneider ist.
Wie die Ausgabe des Testsatzes über die Demoseite zeigt, klassifiziert der Parser Subjekt und Objekte und deren Hierarchisierung. Er tut dies auf der Basis der Wortarteninformation und mit einer Mischung aus Grammatikwissen und Statistik. Zudem wird (im Gegensatz zum englischen Parser Pro3Gres) eine morphologische Analyse hinzugezogen (Morphisto oder Gertwol). Der Parser soll (gemessen an 1000 Sätzen des Tübinger Zeitungskorpus) eine Genauigkeit von 87,5% Präzision und 84,5% Ausbeute erreichen.
Neben ParZu weiß ich noch von folgenden syntaktischen Parsern fürs Deutsche:
- IMS Stuttgart BitPar:
- A Stochastic Topological Parser for German (Anette Frank, Markus Becker)
Während der korpuslinguistische Nutzen für Studien im Bereich der Grammatik unbestritten ist, reizt mich die Frage, wie nützlich syntaktische Annotation auch für Fragestellungen im Bereich der Korpuspragmatik, Diskurslinguistik etc. ist. Es wäre ja schon interessant zu untersuchen, welche Subjekt-Objekt-Relationen in bestimmten Diskursen vorherrschen und wie sich das über die Zeit verändert.
—
* Rico Sennrich, Gerold Schneider, Martin Volk and Martin Warin (2009): A New Hybrid Dependency Parser for German. In: Proceedings of GSCL Conference, Potsdam.