Noah Bubenhofer: Einführung in die Korpuslinguistik (Web: Trafilatura)

Weitere Korpora	Daten analysieren
Daten beschaffen	Web: Unix-Tools

Web-Crawling

Es gibt verschiedene Methoden, Daten aus dem Web automatisiert herunterzuladen (Crawling, Scraping). Mit der Programmiersprache Python (oder R) und dem Paket Trafilatura von Adrien Barbaresi geht dies recht unkompliziert. Es gibt sogar eine grafische Benutzeroberfläche dafür.

Auf unserer Plattform KoDuP Germanistik haben wir Beispielscripte und ein Tutorial erstellt, um mit Hilfe von Trafilatura Daten wie z.B. eine Newsplattform oder einen Blog zu crawlen: https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/-/tree/master/2._Web-Crawling.

Wer Hilfe bei der Installation von Python benötigt, findet hier Tutorials für Mac OS/Unix und Windows: https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/-/tree/master/1._Software-Installation.

Daten beschaffen	Web: Unix-Tools
Weitere Korpora	Daten analysieren

Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über eine Mitteilung. Ebenso bei Fehlern und anderen Hinweisen!
Diese elektronische Ressource soll wie folgt zitiert werden: Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.