Korpustypen und ihre Zusammensetzung
Reine Textkorpora
Diese liegen in geschriebener Form vor. Das kann also eine Sammlung an Texten sein, oder auch eine Sammlung von transkribierter mündlicher Sprache.
Beispiele |
Allgemeinsprachliche Korpora
- Deutsches Referenzkorpus DeReKo des Instituts für Deutsche Sprache (IDS)
http://www.ids-mannheim.de/kt/projekte/korpora/
Bestand: 24 Milliarden Tokens (Stand April 2014)
- Referenzkorpus der deutschen Sprache des 20. Jahrhunderts (DWDS-Kernkorpus)
http://www.dwds.de/
Bestand: 100 Millionen Tokens im Kernkorpus (20. Jahrhundert); weitere Korpora, insgesamt 1,8 Mia. Tokens (Stand April 2014)
- Korpus C4
http://www.korpus-c4.org
gemeinsames Korpus des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS), des Austrian Academy Corpus (AAC), des Korpus Südtirol und des SCHWEIZER TEXT KORPUS (CHTK)
Bestand: ca. 46 Millionen Tokens; im Aufbau
- Schweizer Textkorpus
http://www.schweizer-textkorpus.ch/
Bestand: 20 Mio. Tokens
- COW: Corpora from the Web
http://hpsg.fu-berlin.de/cow/
Bestand: im Aufbau, gegenwärtig (April 2014) über 9 Milliarden Tokens (randomisierte Sätze aus dem Web)
- Deutsches Textarchiv
http://www.deutschestextarchiv.de
Bestand: Historisches Korpus deutschsprachiger Texte von 1600 bis 1900, aktuell (April 2014) über 1300 Bücher (Kernkorpus) verfügbar, ca. 100 Millionen Tokens, weitere Spezialkorpora verfügbar, im Aufbau
- British National Corpus (BNC)
http://www.natcorp.ox.ac.uk/
Bestand: über 100 Millionen Tokens
- The Corpus of Contemporary
American English (COCA)
http://corpus.byu.edu/coca/
Bestand: 450 Millionen Tokens
Thematische Korpora/Spezialkorpora
|
Sprachkorpora
Hier liegen die Daten nicht (nur) transkribiert vor, sondern auch als Audio- und/oder Videoaufnahmen. Die Daten müssen dann mit phonetischen und linguistischen Informationen annotiert (angereichert) sein.
Baumbanken/Treebanks
Die Bezeichnung verweist auf die Syntaxbäume - die hierarchische Darstellung der syntaktischen Struktur eines Satzes. Baumbanken sind also schriftliche Korpora, die mit solchen Syntaxbäumen annotiert sind.
Die Forschergruppe semtracks verzeichnet im semtracks Corpora Directory frei verfügbare Korpora verschiedener Sprachen.
Vgl.
Carstensen et al. (2001, 369f.), Lemnitzer/Zinsmeister (2006, 102ff.)
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2025): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.