Web-Crawling

Es gibt verschiedene Methoden, Daten aus dem Web automatisiert herunterzuladen (Crawling, Scraping). Mit der Programmiersprache Python (oder R) und dem Paket Trafilatura von Adrien Barbaresi geht dies recht unkompliziert. Es gibt sogar eine grafische Benutzeroberfläche dafür.

Auf unserer Plattform KoDuP Germanistik haben wir Beispielscripte und ein Tutorial erstellt, um mit Hilfe von Trafilatura Daten wie z.B. eine Newsplattform oder einen Blog zu crawlen: https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/-/tree/master/2._Web-Crawling.

Wer Hilfe bei der Installation von Python benötigt, findet hier Tutorials für Mac OS/Unix und Windows: https://gitlab.uzh.ch/noah.bubenhofer/kodup-germanistik/-/tree/master/1._Software-Installation.