Daten beschaffen
Es ist wichtig, sich sorgfältig Gedanken
darüber zu machen, welche Daten man für das Korpus nutzen möchte.
Praktisch immer muss man dabei einen Kompromiss zwischen Wünschbarem
und Machbarem eingehen. Die wünschbaren Texte können aus vielfältigen
Gründen nicht integriert werden:
- Grösstes Problem ist die
Art der Verfügbarkeit der Texte. Im Idealfall kann man für ein Korpus
bereits elektronisch verfügbare Daten verwenden. So sind z.B. Medien wie Zeitungen inzwischen weitgehend digital erschlossen, auch historische Jahrgänge (z.B. über Swissdox@LiRI oder impresso). Auch mit dem Web steht eine riesige Datenquelle mit vielfältigen Textsorten zur Verfügung. Andere Quellen müssten aber
oft zuerst digitalisiert werden, was mit automatischer Texterkennung (OCR), auch für Handschriften (z.B. mit Transkribus), immer besser funktioniert. Trotzdem ist der Aufwand nicht zu unterschätzen.
- In vielen
Fällen sprechen Copyright-Gründe gegen eine Verwendung. Hier muss
sorgfältig abgeklärt werden, ob die Daten für die geplante Untersuchung
verwendet werden dürfen. Oft kann man eine einvernehmliche Lösung
finden, wenn man garantiert, die Daten nur für wissenschaftliche Zwecke
zu verwenden. Doch ist es selten erlaubt, die Daten weiterzugeben.
Mögliche Quellen
Der Fantasie, an Quellen für das Korpus zu kommen, sind keine Grenzen gesetzt. Hier einige Vorschläge:
- Web-Crawling: Daten aus dem Web können automatisiert in grossen Mengen heruntergeladen werden. So können gezielt Newsplattformen, Blogs, Diskussionsforen etc. gecrawlt werden – sofern dies rechtlich erlaubt ist. Plattformen wie Twitter bieten zudem APIs an, über die unkompliziert Daten bezogen werden können.
- Zeitungen/Zeitschriften: Über die Universitätsbibliotheken kann meistens auf digitale Zeitungsarchive zugegriffen werden. Für Schweizer Medien bietet Swissdox@LiRI ein umfangreiches Angebot an Daten.
- Belletristik: Das Projekt Gutenberg
sammelt deutschsprachige belletristische Texte, deren Copyright
verfallen ist, und kann inzwischen eine beachtliche Menge vorweisen.
Ähnlich verfährt die internationale Version (gutenberg.org),
die auch auf andersprachige Texte verweist. Nachteil: Die Texte sind
immer wieder etwas anders formatiert und verteilen sich auf mehrere
Seiten, die man nachher wieder zusammenfügen muss. Auch kann die
Datenbank nicht ganz so flexibel verwendet werden.
- Politik: Die meisten Parlamente veröffentlichen ihre Wortprotokolle der Debatten, so auch das schweizerische Parlament (Amtliches Bulletin), der deutsche Bundestag (Plenarprotokoll) oder das österreichische Parlament (stenographische Protokolle). Zudem sind zusätzlich unzählige Dokumente (Parteiprogramme, Gesetzestexte, Verlautbarungen etc.) elektronisch verfügbar.
Aufgabe |
---|
Wenn
du bereits eine Forschungsfrage im Kopf hast, versuche dir zu
überlegen, was für ein Korpus du idealerweise dazu aufbauen möchtest
und woher du die Texte nehmen könntest!
|
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine
Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2025): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.