Einführung

Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge

Von Noah Bubenhofer, Zürich, Mannheim, Dresden

Der Kurs bietet folgende Themen:

Einführung in die Korpuslinguistik: Korpustypen, Erstellung, Annotationen, Anfragesysteme
Web als Korpus: Wo liegen die Chancen und Risiken der Nutzung des Internets als linguistisches Korpus?
DeReKo/COSMAS II: Das Deutsche Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS) ist eines der wichtigsten Korpora deutscher Sprache. Einführung in die Bedienung mit COSMAS II.
Weitere Korpora: Kurze Einführungen in weitere wichtige deutschsprachige Korpora.
Überarbeitet: Korpora erstellen: Hilfe und Tipps zur Erstellung eines eigenen Korpus, neu mit aktualisierten Methoden zum Web-Crawling mit Trafilatura, zum Bezug von Schweizer Mediendaten über Swissdox@LiRI und zur Annotation.
Überarbeitet: Daten analysieren: Tutorials für die Analyse von Korpusdaten mit verschiedenen Tools, neu auch Topic Modeling und Word Embeddings mit Python.
Neu: KoDuP Germanistik: Korpuslinguistisches Denken und Programmieren im Kontext der Germanistik: eine Lernplattform – Einführung in Python für die Korpuslinguistik.
Corpus Workbench: Einführung in die IMS Open Corpus Workbench und CQPweb zur Verwaltung von bestehenden und eigenen annotierten Korpora.
Anwendungen: Beispiele für die Arbeit mit Korpora
Statistik: Statistik für die Korpusanalyse
Visualisierung: Einführung in die Möglichkeiten der Visualisierung von Sprachdaten.
Anhang: Informationen zu korpuslinguistischer Software, kleine Einführungen in grundlegende Unix-Befehle und in Reguläre Ausdrücke sowie Literaturhinweise.

Neu:

KoDuP Germanistik: Korpuslinguistisches Denken und Programmieren im Kontext der Germanistik: eine Lernplattform

KoDuP Germanistik ist unser neues Angebot, um ins Programmieren in Python für die Korpuslinguistik einzuführen! Die Plattform ist ein Gitlab-Repo und enthält nicht nur Tutorials, sondern auch Beispielscripts.

https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/

Videos:

Wer lieber schaut statt liest, kann sich diese drei Videos ansehen, wo ich in die wichtigsten Themen der Korpuslinguistik einführe. Sie entstanden im Rahmen des MOOCs "Sprachtechnologie in den Digital Humanities" in Zusammenarbeit mit Simon Clematide und Martin Volk (Universität Zürich). Der gesamte MOOC ist über Coursera verfügbar, über YouTube und für Angehörige von Schweizer Universitäten und Hochschulen über SWITCHcast MediaSpace.


Modul 3a: Korpusanalysen für die Digital Humanities	Modul 3b: Hands-on Korpusanalysen	Modul 3c: Visualisierung von Texteigenschaften

Zudem stehen Screencast-Erklärvideos für COSMAS II und DWDS zur Verfügung:

New: The first tiny section of this introduction into corpus linguistics in English is available – the "Tbilisi Tutorial on CQPweb and XML". I originally wrote the tutorial for a workshop I gave in Tbilisi, Georgia.

Ich danke meinen Studentinnen und Studenten für ihre Hinweise, Verbesserungsvorschläge und Korrekturen, die sie mir während des Kurses zukommen liessen!

Noah Bubenhofer, im Juni 2006

Aktualisierungen

Juni 2024: Code-Aktualisierungen an neue PHP-Version, Link auf der Seite AntConc korrigiert.
Februar 2024: Seite CWB/CQPweb für UZH erstellt.
Januar 2023: Nicht funktionierende Links auf Daten aufbereiten und verwalten entfernt.
Mai 2022: Umfassende Ergänzungen mit Inhalten von KoDuP-Germanistik und anderem: Web-Crawling mit Trafilatura, Schweizer Mediendaten über Swissdox@LiRI, Annotation mit Promethia, Topic Modeling und Word Embeddings mit Python. Neue Kapitelstruktur "Korpora erstellen" und "Daten analysieren". Entfernung von veralteten Inhalten.
Januar 2020: Korrekturen im Kapitel DeReKo/COSMAS II und Erweiterung um eine Seite Verteilung von Treffern. Überarbeitung der Seiten zu den DWDS-Korpora. Entfernung der Seite zu TIGERSearch, da die Software nicht mehr entwickelt wird. Eine Alternative ist ICARUS.
Dezember 2018: Adrien Barbaresis NLP-German-Liste auf den Seiten Software und Literatur ergänzt.
Dezember 2017: Link zu Tagsoup korrigiert und Anmerkung zur neuen Preispolitik bei import.io eingefügt. Danke Simon für die Hinweise!
September 2017: Links zu den YouTube- und Coursera-Versionen des MOOCs ergänzt.
Mai 2017: Neu sind drei Videos aus dem MOOC "Sprachtechnologien in den Digital Humanities" von 2015 auf der Startseite verfügbar.
November 2016: Neuorganisation und Überarbeitung der Kapitel zum Web-Download mit Standard Unix-Tools oder mit import.io. "Lexikon", das nur einen Eintrag zu "XML" enthielt, entfernt...
Februar 2016: Neues Kapitel zum Download von Webseiten klassisch mit curl und wget oder mit import.io; Konvertierung der Daten in XML für die Weiterverarbeitung in der Corpus Workbench oder mit TXM.
September 2015: Added the "Tbilisi Tutorial on CQPweb and XML".
Mai 2015: Die Anleitungen zu COSMAS II wurden komplett überarbeitet und an Version 2.0 von COSMAS II angepasst.
Februar 2015: Neu gibt es im Kapitel zu den eigenen Korpora ein Kapitel zu POS-Tagging.
Januar 2015: Im Kapitel Corpus Workbench wurden endlich die versprochenen weiteren Kapitel zur Installation der CWB und zum Import und zu den Recherchemöglichkeiten in der CWB ergänzt. Dafür wurde das Kapitel "DB: Filemaker" entfernt: Ich rate davon ab, Filemaker als Datenbank zu verwenden, da es bessere OpenSource-Lösungen gibt, z.B. PostgreSQL. Ein Kapitel dazu muss ich aber noch schuldig bleiben...
April 2014: Im Kapitel Korpustypen wurden Angaben und URLs zu Korpora auf den neusten Stand gebracht.
Januar 2014: Das Kapitel Eigenes Korpus wurde ergänzt und überarbeitet: Neu gibt es Unterkapitel zu XML für Korpora und der Konvertierung von Text-Dateien zu XML.
November 2012: Das Kapitel AntConc wurde an die neue Version von AntConc (3.2.5) angepasst.
Oktober 2012: Das Kapitel Korpustypen wurde überarbeitet.
Mai 2011: Das Kapitel Verwendung der annotierten DeReKo-Korpora in COSMAS II wurde an das neue verfügbare TAGGED-C-Korpus angepasst.
März 2011: Das Kapitel weitere Korpora wurde vor allem im Bereich zu den DWDS-Korpora überarbeitet.
Mai 2010: Das Kapitel COSMAS II heisst nun DeReKo/COSMAS II, um deutlicher zwischen Korpus und Korpusabfrage-System zu unterscheiden und wurde dabei auch geringfügig überarbeitet und aktualisiert.
Oktober 2008: Das Kapitel COSMAS II wurde überarbeitet und inhaltlich aktualisiert.

Kurzanleitung

August 2008: Das Kapitel Statistik ist eröffnet – und es ist kein gruseliges Kapitel, hoffe ich!
Mai 2008: Neu ist eine kurze Anleitung zur Verwendung der Concordancing-Software AntConc verfügbar.
August 2007: Die ersten fünf Kapitel dieses Kurses habe ich leicht aktualisiert und Fehler korrigiert. Neu hinzugekommen sind vor allem Präzisierungen zum Funktionsumfang des COSMAS II-WWW-Clients, der inzwischen fast alles auch kann, was der PC-Client kann.

Seit neun Jahren ist die Einführung in die Korpuslinguistik online! Und sie wird rege benutzt, so z.B. in Veranstaltungen an den Universitäten Heidelberg (Ekkehard Felder), Jena (Peter Gallmann), Zürich (Christa Dürscheid), Kiel (Ulrike Mosel), Leipzig (Uwe Quasthoff), Duisburg-Essen (Ulrike Haß), Berlin (DGfS-Tutorium), am Institut für Computerlinguistik in Zürich (Simon Clematide), Hamburg, Mainz, Winterthur, Wien; die Website von COSMAS II des IDS, das Korpus Südtirol, die LinseLinks, der Gateway to Corpus Linguistics und die Wikipedia verweisen darauf. Und hin und wieder treffen ermutigende E-Mails ein:

"[Mit der Korpuslinguistik] habe ich mich zu Anfang gefühlt, als hätte man mir als Fahrradfahrer ohne Führerschein einen Ferrari geschenkt. [...] Leider ist es ja so, dass man sich nur schwer vorstellen kann, wie man jemandem die Basis-Funktionen erkärt, wenn man bereits völlig automatisiert fährt, so dass mich die meisten Einführungen nicht weitergebracht haben [...]. Ihre jedoch ist gleichsam eine Fahrschule für Korpuslinguistikanfänger - sie fängt am Anfang an, erklärt die wichtigsten Funktionen, ohne jedoch zu sehr in Details zu gehen."
"Kürzlich bin ich über eine Online-Einführung in die Korpuslinguistik gestoßen, die ich für äußerst gelungen halte. 'Korpuslinguistik zum Anfassen' scheint hier das Motto zu sein." (kognitionswissenschaft.org)
"So fundierte und umfassende Informationen sind nirgends sonst zu finden! Vielen Dank für eine (anmeldungs- und kosten)freie Nutzung."
"Übrigens noch eine offizielle Mitteilung für Deine Homepage: In meinem Proseminar Korpuslinguistik im SoSe 2009 hier am Germanistischen Seminar war der Link auf Deine Online-Einführung der meist frequentierteste. Zum Beispiel hat eine Kommilitonin (2. Hauptfach Mathematik) ein Statistik-Referat im Wesentlichen auf der Basis Deiner Darstellung gehalten und war voll des Lobes."
"ich bin über den link auf yvonne breyer's seite auf deine gekommen - gratulation eine wirklich schöne seite!!! besonders gut gefallen hat mir deine einführung in die korpuslinguistik!"
"vielen Dank für Ihren On-line-Kurs in Korpuslinguistik. Er ist für Lehrende und Studierende eine große Hilfe!"
"...die fundierteste Einführung in die Korpuslinguistik im Web – bitte übernehmt aber keinesfalls die schreckliche schweizerische Schreibweise ohne Eszett!"
"ich schlag mich mit Cosmas rum, Deine Homepage ist dazu die einzige vernüftige Quelle auf dem Netz, vielen Dank dafür."
"Ein Segen, dass es diese Seiten gibt, die von den allereinfachsten bis zu den komplizierten Instrumentarien der Korpuslinguistik so viele nützliche Hinweise liefern. Ich werde es gerne weiterempfehlen."
"[M]it großem Interesse habe ich Ihren sehr gut geschriebenen E-Kurs 'Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge' gelesen."

Das freut mich und ermutigt mich darin, den Kurs weiter auszubauen. Bitte beachten Sie das Impressum!

In eigener Sache

Bubenhofer, Noah: Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. (Sprache und Wissen 4), Berlin/New York, de Gruyter, 2009.
Google Books

Blog: Sprechtakel, linguistische Notizen


	Einführung

Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über eine Mitteilung. Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden: Bubenhofer, Noah (2006-2025): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.