Visual Corpus Linguistics

Sprechen über Orte
in der Zeitung und im Netz

Hannover

Noah Bubenhofer (Universität Zürich)

Workshop Internetlinguistik und Korpusanalyse, 1. Mai 2015

Visualisierungen in der Korpuspragmatik

Quelle: Bubenhofer: Die typische Bergtour

Chancen

  • Wichtiges Mittel zur Darstellung von Analyseergebnissen → Presentation Graphics
  • Visuelle Analysemethoden, um die Daten überhaupt überblicken und analysieren zu können → Exploratory Graphics
  • Aber auch: Visualisierung eines abstrakten theoretischen Konzeptes

Chen et al. 2008, Keim et al. 2010, Bauer/Ernst 2010, Krämer 2009

Fragen

Methoden der Visualisierung: Scientific Visualizations, Visual Analytics

Visualisierungen aus diagrammatischer Perspektive:

  • Was sind Diagramme aus semiotischer Perspektive?
  • In welchem Wechselverhältnis stehen Diagramme, Daten und der Forschungsprozess?

Keim u. a., 2010, S. 7; Chen u. a., 2008, S. 832; Dill u. a., 2012, S. 5
Stetter 2005, Krämer 2009, Pombo/Gerner 2010, Stjernfelt 2007, Bauer/Ernst 2010

Geokollokationen

Beispiel Gekollokationen

Diskurslinguistische Fragestellung: "Sprechen über Orte" – Konstruktion von Welt durch Sprachgebrauch

➔ Kollokatoren zu Toponymen

Beispiel Geokollokationen

  • Datengrundlage: Verschiedene Quellen, darunter:
    • Zeit Online 2013-2014: 5,5 Mio. Tokens
    • Spiegel und Zeit Print 1946/47-2010: 550 Mio.
    • D Bundestagsprotokolle WP 17: 22,4 Mio. Tokens
    • Newsgroup de.soc.politik.misc: 98,2 Mio. Tokens
    • Pegida Facebook-Postings (http://0x0a.li): 2,3 Mio. Tokens
    • Neu: What's up, Deutschland – WhatsApp-Korpus (Siebenhaar et al.): 4,3 Mio. Tokens
  • POS-Tagging TreeTagger, Satzerkennung
  • Named Entity Recognition – Stanford NER/Pado: LOC, PER, ORG, MISC
  • Auswahl der Toponyme (LOC)
  • Berechnung signifikanter Kollokatoren (LLR) innerhalb des gleichen Textes/Satzes in dem das Toponym erschien
  • Vgl. www.bubenhofer.com/geocollocations/explorer/

Geokollokationen: Georeferenzierung

  • Probleme:
    • "Washington": D.C. oder Staat?
    • "Berlin": D oder New Hampshire?
    • "Jugoslawien", "DDR"
    • "Die Staaten", "Tschechei", "Ex-DDR", "West-Sahara", "Doitschland"
  • Historische oder umstrittene Bezeichnungen: "Correlates of War" (COW)-Daten
  • Nominatim (Open StreetMap) mit oder GeoNames ohne Ambiguitätsauflösung
  • Manuelle Korrekturen und Überführung in eigenen Gazetteer.

Quelle: Bubenhofer: Geocollocations

Bundestag WP 17: CDU/CSU

Bundestag WP 17: Die Linke

islam*: Zeit/Spiegel 1947-1960

islam*: Zeit/Spiegel 1981-2000

islam*: Zeit/Spiegel 2001-2010

islam*: de.soc.politik.misc

islam*: FB pegida

christ*: Zeit Online

christ*: de.soc.politik.misc

christ*: FB pegida

jud* : Zeit Online

jud*: de.soc.politik.misc

jud*: FB pegida

terror*: Zeit/Spiegel 1947-1960

terror*: Zeit/Spiegel 1981-2000

terror*: Zeit/Spiegel 2001-2010

terror*: de.soc.politik.misc

terror*: FB pegida

finanz*: Zeit/Spiegel 1947-1960

finanz*: Zeit/Spiegel 1981-2000

finanz*: Zeit/Spiegel 2001-2010

finanz*: de.soc.politik.misc

WhatsApp-Korpus

Das Diagramm

Platons Μένων

Sokrates spricht mit Menons Sklaven.

Eigenschaften von Diagrammen

  • Gerichtete Fläche
  • Graphismus
  • Ikonizität
    "Das Diagramm-Ikon entwirft in der Darstellung eine Hypothese über den Gegenstand, indem es auf andere Wissensbestände zurückgreift. Mittels des Diagramms wird eine These entwickelt, die Wissen über das Objekt entwickelt. Diagrammatische Ikonizität ist daher nicht abbildende, sondern entwerfende Ähnlichkeit ." (Bauer/Ernst 2010:44)
  • Operationalität
  • Semiose

Peirce 1992 (Stjernfelt 2007); Krämer 2009

Thesen

These #1: Visualisierungen und Forschungsparadigmen

Visualisierungen sind ikonisch im Sinne einer "entwerfenden Ähnlichkeit" (Bauer/Ernst) und daher herrschenden wissenschaftlichen Paradigmen unterworfen.

These #1: Visualisierungen und Forschungsparadigmen

X A B C

These #2: Visualisierungen im Forschungsprozess

Visualisierungen geben vor, Hilfsmittel zu sein. Visualisierung sind jedoch weit mehr, da sie auf allen Ebenen Teil des (hermeneutischen) Forschungsprozesses sind.

Was alles Teil des Forschungsprozesses ist

  • Visuelle Analyse der Daten
  • Algorithmische Visualisierung der Daten (Selektion, Modellierung, Mapping)
  • Experimente mit unterschiedlichen Visualisierungsformen
  • Visualisierung als möglichen methodischen Zugriff identifizieren

New Visual Hermeneutics

Kath/Schaal/Dumm (2015)

These #3: Algorithmus ist Theorie

Komputationell erzeugte Visualisierungen geben vor, effizienter herstellbar und bunter zu sein. Sie sind aber weit mehr: Code ist Theorie!

Was ändert der Algorithmus?

www.d3js.org

Was ändert der Algorithmus?

10./11. Jahrhundert (zit. nach Tufte 1982: 28)

Algorithmische Visualisierung

In trying to understand the digital humanities, our first step might be to problematise computationality, so that we are able to think critically about how knowledge in the twenty-first century is transformed into information through computational techniques, particularly within software.

Berry (2012:6)

Fazit

Was ich gezeigt habe: Internet als Korpusquelle – noch nie dagewesene Chance, digitale Texte (born digital und gedruckte) zu beziehen.

Datengeleitete Korpusanalysen als strukturentdeckende Verfahren mit linguistischem, sozial- und kulturwissenschaftlichen Interesse.

Chance und Gefahren der visuellen Analysemethoden.

Code is Theory.


www.bubenhofer.com
www.visual-linguistics.net

Und wirklich: Code is Theory!

Supplement

Code



	
	
	
	
	
	
	
	

				

Demo

These #2: Unendliche Semiose

Visualisierungen sind kulturell bedeutsam.

www.mapthematics.com/ProjectionsList.php

http://www.viewsoftheworld.net/?p=752

These 4:

Die Visualisierungspraxis folgt dem Kanon der Visualisierungsformen. Notwendig wäre jedoch das Experiment!

D3.js Examples