Visuelle Linguistik: Ein neues Forschungsfeld?

diagramGestern endete das Symposium “Visuelle Linguistik“, das ich zusammen mit Marc Kupietz organisiert hatte. Aus unserer Sicht besonders interessant am Symposium war die breite Palette von unterschiedlichen Hintergründen, denen die Beiträge entstammten: Linguistik, Korpus- und Computerlinguistik, Digital Humanities, Informatik und Ästhetik – um nur die wichtigsten Perspektiven zu nennen.

Die Keynotes von Mark LauersdorfMartin Hilpert und Maximilian Schich boten den Rahmen für die 16 Vorträge und die zusätzlichen Poster und Live-Präsentationen. Am dritten Tag ermöglichte der Workshop von Sandra Hansen-Morath und Sascha Wolfer zu R, verschiedene Visualisierungsmethoden selber auszuprobieren.

Die Folien meines Eröffnungsvortrags, der “Visuelle Linguistik” als lohnenswertes Forschungsfeld vorschlägt, sind ab sofort online verfügbar. In den kommenden Tagen werden auch die Folien weiterer Vorträge, sowie Berichte zur Tagung, auf www.visual-linguistics.net publiziert.

Veröffentlicht unter Visual Linguistics | Verschlagwortet mit | Hinterlasse einen Kommentar

Die ZEIT über Big Data in den Geisteswissenschaften

Bildschirmfoto 2014-08-21 um 21.53.18Die aktuelle ZEIT bringt auf Seite 27 einen großen Beitrag über Big Data in den Geisteswissenschaften. Grundlage sind Gespräche mit Joachim Scharloth und mir und eine Analyse von uns (und David Eugster): Wir untersuchten mit datengeleiteten Methoden das Archiv der gedruckten ZEIT in Nachkriegsdeutschland bis heute – die Studie ist hier im Preprint verfügbar* und dieses Poster (siehe Bild) enthält auf der rechten Seite eine Kürzestfassung davon.

 

 

 

 

Cover_BusseTeubert

* Scharloth, Joachim/Eugster, David/Bubenhofer, Noah (2013): Das Wuchern der Rhizome. Linguistische Diskursanalyse und Data-driven Turn. In: Busse, Dietrich/Teubert, Wolfgang (Hrsg.): Linguistische Diskursanalyse. Neue Perspektiven. Wiesbaden: Springer VS. S. 345-380.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , | Kommentare deaktiviert

SNF Ambizione-Förderung: Visual Linguistics

Soeben habe ich die erfreuliche Nachricht erhalten: Der Schweizer Nationalfonds fördert mein Projekt “Visual Linguistics: Grundlagen der Visualisierung von sprachlichen Daten” über drei Jahre! Voraussichtlich ab 2015 werde ich das Projekt mit dem Ziel starten, ein “Visual Linguistics Framework” zu erarbeiten. Es geht im Grunde um die Fragen:

  • Wie wurden Visualisierungen zur Datenanalyse bereits bisher in der Sprachwissenschaft verwendet?
  • Welche Visualisierungsmodi gibt es in verwandten Disziplinen?
  • Welche Chancen ergeben sich durch visuelle Analysemethoden in der Welt von (sprachlicher) Big Data?
  • Aber was machen wir eigentlich, wenn wir Daten visualisieren?

Die äußerst positiven Gutachten ermutigen mich, die Aufgabe anzupacken! Danke an alle mir bekannten und unbekannten Unterstützer/innen des Projekts, die mir den nötigen Rückenwind geben!

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | 1 Kommentar

Zehn Gründe, Facebook zu verlassen

Vor ein paar Tagen habe ich mein Facebook-Konto gelöscht. Es kostete mich nicht viel Überwindung, denn ich war kein aktiver Facebook-User. Trotzdem ist es interessant, sich zu überlegen, welche Gründe gegen die Facebook-Nutzung sprechen. Hier deshalb meine zehn Gründe – fotografisch untermalt –, die auch meine letzten Facebook-Posts waren.

Weiterlesen

Veröffentlicht unter Sprechtakel | Verschlagwortet mit , , | 1 Kommentar

Visuelle Linguistik: Symposium in Hannover

Werbung in eigener Sache: Vom 19. bis 21. November 2014 findet in Hannover das Symposium “Visuelle Linguistik: Theorie und Anwendung von Visualisierungen in der Sprachwissenschaft” statt, das ich zusammen mit Marc Kupietz (IDS Mannheim) organisiere. Gegenwärtig ist der Call for Papers offen: http://www.visual-linguistics.net/symposium/

Geokollokationen, Deutscher Bundestag, Partei Die Linke WP 17

Geokollokationen, Deutscher Bundestag, Partei Die Linke WP 17, vgl. bubenhofer.com/geocollocations/

Wir freuen uns nicht nur über Beiträge, die Methoden der Visualisierung praktisch erproben, sondern auch über solche, die diese Methoden theoretisch reflektieren. Ganz explizit richtet sich das Symposium nicht nur an Wissenschaftler/innen aus der Korpus- oder Computerlinguistik, sondern aus der gesamten Sprachwissenschaft, den Digital Humanities und angrenzenden Disziplinen.

Visualisierungen zur Präsentation von Forschungsergebnissen, besonders aber auch zur Exploration von Daten, haben eine lange Tradition in der Linguistik. Man denke z.B. an Dialektkarten oder Syntaxbäume. Aber auch Transkripte gesprochener Sprache sind eine Form von Visualisierung. Besonders wichtig sind heute Visualisierungen natürlich in der quantitativen Korpuslinguistik, wo es ohne fast nicht mehr geht.

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , | Kommentare deaktiviert

Vom Download zum XML-Korpus: Gangbare Wege für die Lehre

Mein Online-Handbuch Korpuslinguistik (“Einführung in die Korpuslinguistik“) enthält ein Kapitel zur Erstellung von eigenen Korpora. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus unterschiedlichen Quellen ein Korpus bauen kann – Wege, die auch für technisch weniger erfahrene Linguistinnen und Linguisten gangbar sind.

Entscheidend für die möglichen Wege sind dabei zwei Dinge:

  1. In welchem Datenformat liegen die Ausgangsdaten vor? Ist es ein strukturiertes (Datenbank), semi-strukturiertes (XML, HTML etc.) oder unstrukturiertes (nicht ausgezeichneter Text, RTF, Word-Doc, PDFs etc.) Format?
  2. Welches Format verlangt die Analysesoftware, mit der gearbeitet werden soll?

Viele Konkordanzprogramme wie z.B. das recht verbreitete AntConc (mein Tutorial hier) lesen unstrukturierte Textdateien, allenfalls auch HTML, allerdings ohne die HTML-Tags zu beachten. Es ist damit unmöglich, Metadaten mit den Dokumenten zu assoziieren.

State-of-the-Art ist aber natürlich XML. Die Open Corpus WorkbenchTXM (Unicode-XML-TEI text/corpus analysis platform) oder Weblicht lesen beispielsweise XML-Daten und können so codierte Metadaten und Auszeichnungen im Text (Titel, Absätze, Sätze etc.) auslesen.

Wenn es jedoch darum geht, einfache Wege aufzuzeigen, wie man z.B. von heruntergeladenen Webseiten zu sauber codierten XML-Dokumenten kommt, wird es schwierig. Ein nahe liegender Weg, den ich z. B. in meinem Aufsatz “Skandalisierung korpuslinguistisch: Eine empirisch-linguistischer Blick auf die Berichterstattung zur ‘Wulff-Affäre’” (Linguistik Online 61, 4/2013) beschreibe, geht so (für Unix-Systeme, Mac):

  1. Mit wget oder curl werden die HTML-Seiten auf den eigenen Rechner geladen.
  2. Konvertierung der HTML-Seiten nach XHTML, z.B. mittels TagSoup, einem in Java programmierten XML-Parser, der auch mit nicht validem HTML zurecht kommt.
  3. Extraktion der gewünschten Daten aus den XHTML-Dateien mit einem XSL-Stylesheet. So können der eigentliche Artikel-Text (ohne Navigation etc.) und die Metadaten (Titel, Publikationsdatum, Autor/in etc.) extrahiert werden.

Dieser Weg funktioniert besonders dann gut, wenn man eine Serie von gleich strukturierten Webseiten herunterladen möchte, z.B. Web-Foren, Online-Zeitungen etc. Etwas flexibler (und in den Funktionen mächtiger) ist z.B. der Web-Crawler Heritrix, der jedoch auch nochmals schwieriger zu bedienen ist.

Doch was ist der gangbare Weg für Linguistinnen und Linguisten, die keine Lust haben, sich in die Tiefen der XML-Verarbeitung mit XSLT, XPath etc. zu begeben? Eine mögliche Alternative, an der ich arbeite, ist:

  1. Download der Daten mit einen Tool wie dem Firefox-Plugin DownThemAll.
  2. Import der HTML-Dokumente in BaseX, einem XML-Datenbankprogramm, das auch Konvertierung der HTML-Dateien in XHTML erledigt. In BaseX kann man dann relativ intuitiv die XPath-Ausdrücke zusammenbauen, die notwendig sind, um die relevanten Textstellen aus den XHTML-Dateien zu finden.
  3. Danach muss jedoch trotzdem ein XSLT-Stylesheet erstellt werden – soll/kann man Studierende der Linguistik in die Grundregeln von XSLT einführen?

Es handelt sich also noch um eine offene Baustelle und Anregungen dazu sind sehr willkommen! Diese Seite aus meinem Online-Handbuch zur Korpuslinguistik führt wenigstens schon mal (hoffentlich auch für Laien verständlich) in XML für die Korpuslinguistik ein.

Update vom 23. Januar 2014: Inzwischen habe ich einen Weg von HTML zu XML in meinem Online-Handbuch beschrieben. Um XSLT kommt man nicht herum, aber ich hoffe, es verständlich beschrieben zu haben. Zudem habe ich dargestellt, wie man mit geschickter Anwendung von Regulären Ausdrücken von einer strukturierten Text-Datei zu XML kommt.

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , , , , , , , | Kommentare deaktiviert

“Überwachen und Sprache”

Ich wundere mich noch immer darüber, dass viele meiner Mitmenschen die Dimension der Snowden-Enthüllungen der Digitalüberwachung durch die Geheimdienste nicht erfassen. Die Vorstellung des “ich habe ja nichts zu verbergen” ignoriert, dass es nicht darum geht, ein paar böse Botschaften im Netz zu erfassen, sondern über die Analyse der digitalen Spuren unseres Handelns uns alle unter Generalverdacht zu stellen. Und “Analyse” bedeutet nicht, E-Mails mit einer Liste von gefährlichen Schlagwörtern abzugleichen, sondern das ganze Know-how statistischen Data Minings und maschineller Textanalyse einzusetzen, um ungewöhnliche Muster in gigantischen Datenmengen datengeleitet aufzuspüren.

Methodisch ist das hoch interessant und als Korpuslinguist versuche ich im Grunde nichts anderes zu machen. Allerdings mit anderem Erkenntnisinteresse als die Geheimdienste und geleitet von einem ethischen Codex – und mit öffentlich verfügbaren Daten. Wenn man das macht, ist jedoch ziemlich klar, was technisch möglich ist und die Dienste demnach wohl auch machen. Es ist wichtig, dieses Wissen öffentlich zu machen, damit wir Bürgerinnen und Bürger uns bewusst sind, was im Geheimen gemacht wird um entscheiden zu können, ob wir das politisch wirklich wollen.

Bildschirmfoto 2014-01-02 um 18.34.27Mein Kollege josch hat am 30. Chaos Communication Congress einen wunderbaren Vortrag zum Thema “Überwachen und Sprache” gehalten, den ich mit Nachdruck empfehle, sich anzusehen! Er demonstriert anhand eines fiktiven “Advanced Security Toolkits” zur automatischen Sprachanalyse, was heute linguistisch-statistisch möglich ist und wo die Probleme und Gefahren liegen.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | Kommentare deaktiviert

Merkel und die Krisen

Bildschirmfoto 2013-08-27 um 23.45.30Es gehört zur klassischen Definition einer Krise, dass man gestärkt aus ihr heraus gelangen wird. Dies ist der Topos, den auch Angela Merkel bemüht: Wenn auch die Auswirkungen auch schlimm und die Aussichten noch nicht rosig sind, so bleibt doch der Trost, dass Europa letztlich von der Krise profitieren wird – so zumindest Merkel:

“Wir haben es geschafft, Deutschland stärker aus der Finanzmarktkrise hinauszuführen, als es in sie hineingegangen ist. […] Nun wollen wir, Europa stärker aus der Krise hinausführen.”

Das sind Floskeln, wie sie in der politischen Rhetorik üblich sind. Wir berechneten Formulierungsmuster, sog. komplexe n-Gramme (cf. Scharloth/Bubenhofer 2012), die typisch für die Rhetorik von Angela Merkel sind. Die Datengrundlage waren alle Redebeiträge von Angela Merkel im Bundestag der letzten Legislaturperiode (September 2009 bis Juni 2013 – PolMine-Korpus).

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | Kommentare deaktiviert

Die Welt im Bundestag

Die weite Welt ist oft Thema unter der Glaskuppel des Bundestags: Die Parteien versuchen sich auch in außenpolitischen Themen voneinander zu differenzieren. Mit der Berechnung von Geocollocations kann analysiert werden, wie die Parlamentarierinnen und Parlamentarier über Orte, Regionen und Länder dieser Erde sprechen.

btmapSPDBildschirmfoto 2013-08-14 um 15.54.51

Ausschnitt Geocollocations SPD: Typische Wörter in Verbindung mit Orten (siehe die Karten komplett auf bubenhofer.com/geocollocations/Bundestag/)

Die folgenden Analysen basieren auf den Protokollen des Bundestags der 17. Wahlperiode, also der Zeit von 2009 bis 2013 (Korpus: Andreas Blättes PolMine). Ein Blick in die vergangene Legislatur sagt mitunter mehr darüber aus, was nach der Wahl zu erwarten ist, als die Wahlprogramme und Wahlreden.

Ich berechnete pro Partei, welche Wörter überzufällig häufig zusammen mit den jeweiligen Orten, Regionen oder Ländern verwendet werden und visualisierte die Ergebnisse auf Karten. Unter bubenhofer.com/geocollocations/Bundestag/ können die Karten im Detail eingesehen werden. Die technischen Details sind hier beschrieben.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | 2 Kommentare

Geocollocations: Die Welt der Zeit

Durch welche Länder fließt die Donau? Was ist die Hauptstadt von Kenia? Wie heißen die Anrainerstaaten der Ostsee? – Fanden Sie solche Fragen im Geographieunterricht auch schwierig zu beantworten?

Das liegt wohl daran, dass unsere Vorstellung der Welt nicht viel mit den geographischen Realitäten zu tun hat. Stattdessen assoziieren wir mit Ländern, Städten und Regionen das, was wir darüber gelesen und gehört haben. Individuelle Assoziationen spielen eine Rolle (“der leckere Fisch damals in Rimini”) – aber auch Common Sense: Was man gemeinhin so liest (“Schweiz: Schokolade und Schwarzgeld”, “Italien: Mafia und Clowns“…). Genau das interessierte mich:

geocoll_Uebersicht

Geocollocations: Zeit Online erstes Halbjahr 2013, Übersicht; ganze Karte SVG/PDF.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , , , , , , | 2 Kommentare