„Überwachen und Sprache“

Ich wundere mich noch immer darüber, dass viele meiner Mitmenschen die Dimension der Snowden-Enthüllungen der Digitalüberwachung durch die Geheimdienste nicht erfassen. Die Vorstellung des „ich habe ja nichts zu verbergen“ ignoriert, dass es nicht darum geht, ein paar böse Botschaften im Netz zu erfassen, sondern über die Analyse der digitalen Spuren unseres Handelns uns alle unter Generalverdacht zu stellen. Und „Analyse“ bedeutet nicht, E-Mails mit einer Liste von gefährlichen Schlagwörtern abzugleichen, sondern das ganze Know-how statistischen Data Minings und maschineller Textanalyse einzusetzen, um ungewöhnliche Muster in gigantischen Datenmengen datengeleitet aufzuspüren.

Methodisch ist das hoch interessant und als Korpuslinguist versuche ich im Grunde nichts anderes zu machen. Allerdings mit anderem Erkenntnisinteresse als die Geheimdienste und geleitet von einem ethischen Codex – und mit öffentlich verfügbaren Daten. Wenn man das macht, ist jedoch ziemlich klar, was technisch möglich ist und die Dienste demnach wohl auch machen. Es ist wichtig, dieses Wissen öffentlich zu machen, damit wir Bürgerinnen und Bürger uns bewusst sind, was im Geheimen gemacht wird um entscheiden zu können, ob wir das politisch wirklich wollen.

Bildschirmfoto 2014-01-02 um 18.34.27Mein Kollege josch hat am 30. Chaos Communication Congress einen wunderbaren Vortrag zum Thema „Überwachen und Sprache“ gehalten, den ich mit Nachdruck empfehle, sich anzusehen! Er demonstriert anhand eines fiktiven „Advanced Security Toolkits“ zur automatischen Sprachanalyse, was heute linguistisch-statistisch möglich ist und wo die Probleme und Gefahren liegen.

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | Kommentare deaktiviert für „Überwachen und Sprache“

Merkel und die Krisen

Bildschirmfoto 2013-08-27 um 23.45.30Es gehört zur klassischen Definition einer Krise, dass man gestärkt aus ihr heraus gelangen wird. Dies ist der Topos, den auch Angela Merkel bemüht: Wenn auch die Auswirkungen auch schlimm und die Aussichten noch nicht rosig sind, so bleibt doch der Trost, dass Europa letztlich von der Krise profitieren wird – so zumindest Merkel:

„Wir haben es geschafft, Deutschland stärker aus der Finanzmarktkrise hinauszuführen, als es in sie hineingegangen ist. […] Nun wollen wir, Europa stärker aus der Krise hinausführen.“

Das sind Floskeln, wie sie in der politischen Rhetorik üblich sind. Wir berechneten Formulierungsmuster, sog. komplexe n-Gramme (cf. Scharloth/Bubenhofer 2012), die typisch für die Rhetorik von Angela Merkel sind. Die Datengrundlage waren alle Redebeiträge von Angela Merkel im Bundestag der letzten Legislaturperiode (September 2009 bis Juni 2013 – PolMine-Korpus).

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | Kommentare deaktiviert für Merkel und die Krisen

Die Welt im Bundestag

Die weite Welt ist oft Thema unter der Glaskuppel des Bundestags: Die Parteien versuchen sich auch in außenpolitischen Themen voneinander zu differenzieren. Mit der Berechnung von Geocollocations kann analysiert werden, wie die Parlamentarierinnen und Parlamentarier über Orte, Regionen und Länder dieser Erde sprechen.

btmapSPDBildschirmfoto 2013-08-14 um 15.54.51

Ausschnitt Geocollocations SPD: Typische Wörter in Verbindung mit Orten (siehe die Karten komplett auf bubenhofer.com/geocollocations/Bundestag/)

Die folgenden Analysen basieren auf den Protokollen des Bundestags der 17. Wahlperiode, also der Zeit von 2009 bis 2013 (Korpus: Andreas Blättes PolMine). Ein Blick in die vergangene Legislatur sagt mitunter mehr darüber aus, was nach der Wahl zu erwarten ist, als die Wahlprogramme und Wahlreden.

Ich berechnete pro Partei, welche Wörter überzufällig häufig zusammen mit den jeweiligen Orten, Regionen oder Ländern verwendet werden und visualisierte die Ergebnisse auf Karten. Unter bubenhofer.com/geocollocations/Bundestag/ können die Karten im Detail eingesehen werden. Die technischen Details sind hier beschrieben.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , | 2 Kommentare

Geocollocations: Die Welt der Zeit

Durch welche Länder fließt die Donau? Was ist die Hauptstadt von Kenia? Wie heißen die Anrainerstaaten der Ostsee? – Fanden Sie solche Fragen im Geographieunterricht auch schwierig zu beantworten?

Das liegt wohl daran, dass unsere Vorstellung der Welt nicht viel mit den geographischen Realitäten zu tun hat. Stattdessen assoziieren wir mit Ländern, Städten und Regionen das, was wir darüber gelesen und gehört haben. Individuelle Assoziationen spielen eine Rolle („der leckere Fisch damals in Rimini“) – aber auch Common Sense: Was man gemeinhin so liest („Schweiz: Schokolade und Schwarzgeld“, „Italien: Mafia und Clowns„…). Genau das interessierte mich:

geocoll_Uebersicht

Geocollocations: Zeit Online erstes Halbjahr 2013, Übersicht; ganze Karte SVG/PDF.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , , , , , , | 2 Kommentare

Das Weltbild des Wissenschaftsjournalismus

Der Wissenschaftsjournalismus hat sich in den letzten Jahrzehnten stark gewandelt. Während früher Zeitungen berichteten, dass „Forscher in den USA gezeigt haben, dass…“, wird heute ein differenzierteres Bild der Wissenschaft gezeichnet: In der Wissenschaft gibt es keine einheitliche Meinung zu einem Problem, da unterschiedliche Theorien und Modelle in Konkurrenz zueinander stehen (Konfliktualität) und wissenschaftliche Erkenntnis immer nur vorläufig ist (Fragilität). Siehe dazu auch den Beitrag meines Kollegen Scharloth.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

In Spiegel-Artikeln zu wissenschaftlichen Themen genannte Orte und Regionen: 1947-1960.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden, Visual Linguistics | Verschlagwortet mit , , , , | Kommentare deaktiviert für Das Weltbild des Wissenschaftsjournalismus

Die Semantik von „Terrorismus“: LDA Topic Modelling

Was meinen wir eigentlich, wenn wir von „Terrorismus“ sprechen? 9/11? Der „Deutsche Herbst“ von 1977? Oder München 1972? Die Bedeutung von „Terrorismus“ ist breit und vor allem an bestimmte Diskurse gebunden. 1972 versteht man etwas anderes unter Terrorismus als heute.

Inspiriert von einem Beitrag von Rohrdantz et al. (2012) wollte ich ausprobieren, ob die Veränderung der Bedeutung eines Wortes über ein Verfahren der automatischen Textklassifikation (LDA, Latent Dirichlet Allocation) anhand des Spiegel-Korpus beantwortet werden kann. Das hier kam dabei raus:

Terrorismus

Was ich genau gemacht habe, erkläre ich im Folgenden.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Verschlagwortet mit , , , | Kommentare deaktiviert für Die Semantik von „Terrorismus“: LDA Topic Modelling

Die typische Bergtour

Als Korpuslinguist kann ich mit Hilfe des Text+Berg-Korpus der alpinistischen Periodika des Schweizer Alpenclubs von 1864 bis heute mal eine empirisch fundierte Geschichte erzählen: Die typische Bergtour. So sieht sie aus (Klick für zoombare SVG-Datei):

Bildschirmfoto 2013-02-21 um 20.46.26

Weiterlesen

Veröffentlicht unter Korpora, Korpuslinguistik, Korpustools, Methoden, Sprechtakel, Visual Linguistics | Verschlagwortet mit , , , , , , | Kommentare deaktiviert für Die typische Bergtour

Diachrone Analysen: Verlaufskurven clustern

Ein halbes Jahr schlief das Sprechtakel – das tut mir leid. Die Gründe drücken die Kollokatoren zu „Familie“ aus:

-2 2 6210 Beruf Vereinbarkeit 413 60% die Vereinbarkeit
[von] Familie [und] Beruf

Bzw. zu „Job„:

-1 -1 24466 neuen 4356 74% einen neuen […] Job

Aber jetzt bin ich wieder da. Und berichte über die Möglichkeit, in diachroner Perspektive ko-variierende Lexeme zu entdecken.

Cluster kovariierender Lexeme

Abbildung 1: Cluster kovariierender Lexeme

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Methoden | Kommentare deaktiviert für Diachrone Analysen: Verlaufskurven clustern

Statistische Analysen von Korpora: Mit R direkt auf die CWB zugreifen

Ich bin etwas stolz auf die folgende Grafik:

Die typischen Personalpronomen in Pressetexten (sueddeutsche.de und bild.de) über Wulff und Merkel

Allerdings nicht, weil sie besonders schön aussehen würde oder weil der Inhalt sehr überraschend wäre, sondern weil sie methodisch elegant erstellt wurde. Nämlich in R unter direktem Zugriff auf die Corpus Workbench. Allerdings ist der Weg dahin doch etwas umständlich.

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , | Kommentare deaktiviert für Statistische Analysen von Korpora: Mit R direkt auf die CWB zugreifen

LDA-Toolkit: Korpusanalyse zum Klicken statt Tippen

Korpuslinguistische Analysen begnügen sich heute nicht mehr damit, bloß Belege für ein bestimmtes Phänomen in einem bestehenden Korpus zu suchen. Vielmehr möchte man eigene Korpora aufbauen und avanciertere Analysemethoden anwenden:

  • Automatisches Wortarten-Tagging der Daten
  • Keyword-Analysen durch Vergleich mehrerer Korpora miteinander
  • n-Gramm/Cluster-Analysen, um typische Floskeln zu finden
  • …und vieles mehr

Für fast alle Wünsche gibt es inzwischen Tools, die allerdings meistens Programmierkenntnisse oder zumindest keine Scheu vor der Shell erfordern. Nicht alle Forscher/innen bringen dies mit oder interessieren sich dafür. Hier setzt Friedemann Vogels „LDA-Toolkit“ an, die „Korpuslinguistische Arbeitsumgebung für linguistische Diskurs- und Imageanalysen“.

Damit lassen sich die oben genannten Funktionen (und einige mehr) mit wenigen Mausklicks mit eigenen Korpusdaten ausführen. Das Programm läuft unter Windows, ist Freeware und inzwischen in der Beta-Version 2.7 verfügbar. Ich habe es ausprobiert…

Weiterlesen

Veröffentlicht unter Korpuslinguistik, Korpustools | Verschlagwortet mit , , , , , | Ein Kommentar