Von Schätzen und Monstern. Drei Thesen zu Visualisierungspraktiken in den Digital Humanities

Visualisierungen wissenschaftlicher Daten boomen. Sie werden eingesetzt, um riesige Datenmengen überhaupt überblicken zu können, z.B. indem Beziehungen zwischen Akteuren als Netzwerk visualisiert werden. Dann wird plötzlich sichtbar, welche Akteure besonders eng verbandelt sind und wer besonders einflussreich ist.

Solche „visuellen Analysemethoden“ sind ein großer Gewinn für die Digital Humanities. Insbesondere auch für die textorientierten Digital Humanities, die Korpuslinguistik und ähnliche Disziplinen. Gleichzeitig werfen diese Methoden eine Reihe von kritischen Fragen auf, die ich in Form von drei provokativen Thesen kurz antippen möchte:

  1. Visuelle Analysemethoden folgen utilitaristischen und positivistischen wissenschaftlichen Denkstilen, die nur bedingt mit den Geisteswissenschaften kompatibel sind.
  2. Die Geisteswissenschaften unterschätzen die Bedeutung der programmiertechnischen und algorithmischen Grundlagen der verwendeten visuellen Analysemethoden.
  3. Visuelle Analysetools für die Digital Humanities laufen Gefahr, traditionellen Interpretationsmethoden nachzueifern statt die Chancen des datengeleiteten Paradigmas zu nutzen.

In einem gleichnamigen Beitrag habe ich diese Thesen unlängst für die Zeitschrift „Rechtsgeschichte“ 24/2016 ein klein wenig ausführlicher dargelegt (erscheint demnächst). Hier eine Kürzestfassung.

Zur ersten These: Die Forschungsagenda der „Visual Analytics“, in moderner Form erstmal 2005 von Thomas/Cook in „Illuminating the Path“ dargelegt, ist eine Reaktion auf die Terroranschläge von 9/11. Es sollen „advanced information technologies to support the homeland security mission“ (Thomas/Cook 2005: i) entwickelt werden. Auch einige Jahre später klingt das noch ähnlich: Das Ziel visueller Analysemethoden ist „identifying a plot or threat that is hinted at, but not clearly communicated, by a small subset of documents in the collection“ (Görg/Liu/Stasko 2014).

Abseits von Geheimdiensten sind natürlich wirtschaftliche Interessen forschungsleitend: Die Daten enthalten interessante Informationen, die sich monetarisieren lassen. Es geht also darum, das Monster oder aber den Schatz zu finden.

yoda_klein

Monster – ok, eigentlich Yoda (Moritz, 6)

Dieses Ziel ist legitim. Als Geisteswissenschaftler glaube ich allerdings nicht an Monster und Schätze. Oder richtiger: Nicht an DAS Monster und DEN Schatz. Und ich glaube, ich bin nicht alleine: Seien es Paradigmen wie Poststrukturalismus, Dekonstruktivismus, Diskursanalyse, Kulturanalyse, Gender Studies, Systemtheorie und weitere mehr: Nach diesen gibt es in den Daten, Quellen oder Artefakten kein Schatz (und auch kein Monster), das einfach da ist und nur gefunden werden muss. Eher sieht jede Forscherin und jeder Forscher andere Schätze und Monster, je nach Fokus, wissenschaftlicher Sozialisation, disziplinärem Denkstil und Erkenntnisinteresse.

Wenn ein (Visualisierungs-)Tool, das DAS Monster finden kann, in den Humanities verwendet wird, wird es zu einem anderen Instrument. DAS Monster ist dann womöglich nicht mehr interessant; das Instrument soll nicht dem utilitaristischen Topos folgend ein „effektives Analysetool“ sein, um den „Informationsfluss zu zähmen“. Stattdessen ist es vielleicht eher dann „nützlich“ (besser: „anschlussfähig“), wenn das Instrument reiche Nahrung für die Deutung bietet, etwa im Sinne einer „dichten Beschreibung“ (Geertz 1987).

Ich glaube deshalb, dass visuelle Analyseinstrumente für die Humanities von Grund auf anders entwickelt werden müssen – und dass wir als Humanists das selber machen müssen, oder zumindest uns sehr genau mit den technischen (und damit auch theoretischen) Fundamenten der Visual Analytics auseinandersetzen müssen.

Zur zweiten These: Visuelle Analysemethoden nutzen Algorithmen, um Daten nach bestimmten Prinzipien in ein anderes Zeichensystem, nämlich ein grafisches, überführen zu können. Der Algorithmus ist in einer bestimmten Programmiersprache implementiert. Macht es einen Unterschied, ob dafür die Programmiersprache C oder Javascript eingesetzt worden ist?

Ich habe im letzten Blogeintrag bereits über den Zusammenhang von Programmiersprachen und Denkstilen und über Coding Cultures geschrieben. Deshalb fasse ich mir hier kurz: Programmieren ist eine zutiefst kulturell geprägte Tätigkeit (Coleman 2012, Manovich 2014, Ford 2015). Mit der Wahl einer Programmiersprache und einer Programmierumgebung schreibt man sich in eine Programmierkultur ein, die von bestimmten Idealen und Topoi geprägt ist. Eine Javascript-Bibliothek ist Ergebnis und fördert gleichzeitig einer bestimmten Programmierkultur (Open Source, freie Distribution, Experiment, Copy and Paste, Remix), die auch wissenschaftliches Arbeiten verändert. Die Hürden, als technischer Banause eine bestimmte Datenvisualisierung auf die eigenen Daten anzuwenden und weiter zu entwickeln ist deutlich niedriger als noch vor ein paar Jahren.

Das bedeutet aber auch, dass es für mich als Analyst relevant ist, in welcher Programmiersprache das Tool, das ich verwende, programmiert ist, da mir das auch zeigt, in welche Coding Culture es eingebettet ist. (Dass ich mir auch im Klaren über den Algorithmus sein muss, ist klar und wurde in den Digital Humanities schon intensiv diskutiert.)

Zur dritten These:  In den Visual Analytics gibt es ein „Mantra“, das ein „gutes“ Werkzeug beschreibt: “Overview first, zoom and filter, then details-on-demand” (Shneiderman 1996). Die Visualisierung soll also sowohl den Überblick über die Daten, als auch den Fokus auf das einzelne Datum erlauben. Bei der Arbeit mit Textdaten wird dies oft so interpretiert, dass mit dem Analyseinstrument letztlich jederzeit auf das einzelne Textdokument zugegriffen werden können muss.

So plausibel diese Forderung auf den ersten Blick ist: Sie huldigt einem wissenschaftlichen Gestus, der nach wie vor dem Einzeltext huldigt und in der quantitativen Datenanalyse ein Mittel sieht, diese Aufgabe, das Lesen von Texten, schneller erledigen zu können. Interessant an solchen Analysen ist jedoch weniger das Lesen der Texte, sondern in den Daten ein emergentes Phänomen zu finden, das nicht einfach die Summe seiner Einzelteile ist. Das geht, indem die Einheit des Textes aufgebrochen wird.

Ein mit statistischen Methoden erstelltes Kollokationsprofil eines Wortes ist ein solches Phänomen: Es fasst das statistisch überzufällige Kovorkommen von Wörtern in großen Textkorpora so zusammen, dass daraus ein Bild entsteht, wie das Wort in den Daten normalerweise verwendet wird (Evert 2009). In weiteren Abstraktionsschritten können die Kollokationsprofile maschinell nach Ähnlichkeit gruppiert werden, um semantische Felder (Keibel/Belica 2007) zu berechnen oder Lexempaare zu finden, die in gleichen semantischen Relationen zueinander stehen (etwa nach Mikolov u. a. 2013). Der Einzelbeleg ist dabei unbedeutend – er kann dem emergenten Profil sogar widersprechen. Interessant ist die zusammenfassende Darstellung, die genug ungenau ist, um das Wesentliche vom Unwesentlichen zu trennen.

Es mag ein verschärftes Problem in den Philologien sein, sich nicht vom Einzeltext lösen zu können. Im Data-Mining, das wirtschaftlichen Interessen folgt, ist das Interesse am Einzeldatum wohl kaum präsent.

Klar ist aber auch, dass es verheerend wäre, verlören die Humanities ihr Interesse an qualitativer Lektüre. Quantitative, visuelle Analysemethoden jedoch sind dann interessant, wenn sie nicht dazu bemüht werden, alte Fragestellungen zu beantworten (wo sie oft scheitern), sondern neue Fragen behandeln zu können.

Literatur

Coleman, E. Gabriella (2012): Coding Freedom: The Ethics and Aesthetics of Hacking, Princeton University Press, http://gabriellacoleman.org/Coleman-Coding-Freedom.pdf.

Evert, Stefan (2009): „58. Corpora and collocations“, in: Lüdeling, Anke und Merja Kytö (Hrsg.): Corpus Linguistics, Bd. 2, Handbücher zur Sprach- und Kommunikationswissenschaft 29, hg. von. Hugo Steger und Herbert Ernst Wiegand, Berlin, New York: Mouton de Gruyter, S. 1212–1248.

Ford, Paul (2015): „What Is Code? If You Don’t Know, You Need to Read This“, Businessweek, http://www.bloomberg.com/whatiscode/.

Geertz, Clifford (1987): „Dichte Beschreibung. Bemerkungen zu einer deutenden Theorie von Kultur“, Dichte Beschreibung. Beiträge zum Verstehen kultureller Systeme, stw 696, Frankfurt am Main: Suhrkamp, S. 7–43.

Görg, Carsten, Zhicheng Liu und John Stasko (2014): „Reflections on the evolution of the Jigsaw visual analytics system“, Information Visualization 13/4, S. 336–345.

Keibel, Holger und Cyril Belica (2007): „CCDB: A Corpus-Linguistic Research and Development Workbench“. Proceedings of the 4th Corpus Linguistics conference, Birmingham, http://corpora.ids-mannheim.de/cl2007-134.pdf.

Manovich, Lev (2014): „Software is the Message“, Journal of Visual Culture 13/1, S. 79–81.

Mikolov, Tomas u. a. (2013): „Efficient Estimation of Word Representations in Vector Space“, arXiv:1301.3781 [cs], http://arxiv.org/abs/1301.3781.

Shneiderman, Ben (1996): „The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations“, http://dl.acm.org/citation.cfm?id=832277.834354.

Thomas, James J. und Kristin A. Cook (Hrsg.) (2005): Illuminating the Path: The Research and Development Agenda for Visual Analytics, National Visualization and Analytics Ctr., http://vis.pnnl.gov/pdf/RD_Agenda_VisualAnalytics.pdf.

Dieser Beitrag wurde unter Korpustools, Visual Linguistics abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

2 Antworten zu Von Schätzen und Monstern. Drei Thesen zu Visualisierungspraktiken in den Digital Humanities

  1. Lieber Herr Bubenhofer, vielen Dank für diesen anregenden Beitrag – er regt mich an, Ihnen nachdrücklich zu widersprechen! Ich meine, daß Sie die Bedeutung des Einzeltextes unterschätzen, denn zumindest in meinem Bereich (Altertumswissenschaften) kann ein einzelner Text oder sogar die Veränderung eines Satzes innerhalb des einen Textes das Verständnis ganzer Epochen verändern (das klassische Beispiel dafür bei uns ist der sog. Tatenbericht des Augustus, Res gestae divi Augusti, in dem die andere Ergänzung eines Wortes zu einer vollständig veränderten Sichtweise der gesamten Machtstruktur seiner Herrschaftsgrundlagen führen kann). Das ist nun zugegebenermaßen ein Beispiel aus der traditionellen Welt der Textbearbeitung. Aber auch in der Welt der Digitalität läßt sich m.E. die Bedeutung des Einzeltextes kaum unterschätzen, ich habe das in eigenen Untersuchungen von Kookkurrenzanalysen schon gesehen, wenn es um Kookkurrenzen (Kollokationen) z.B. eines häufigeren Wortes mit einem sehr seltenen (max. 3 x in unserem Korpus der griechischen Literatur) geht. Auch hier kann man anhand eines Einzeltextes ganze Großtheorien ändern. Und im Hinblick auf die Visualisierung (ich arbeite dabei gern mit Gephi, bin mir allerdings nach Ihrem Blogbeitrag über die Coding Cultures nicht ganz sicher, wohin ich jetzt gehöre) kenne ich dasselbe Phänomen für Einzeltexte (habe ich auch publiziert, in Digital Classics Online 2,1 2016).
    Der grundsätzliche Unterschied zwischen dem Einzeltext und einer Gesamtheit von Texten/Textgruppen ist m.E. der, daß die Gesamtheit bekannt ist (jedenfalls in den Grundzügen und wesentlichen Charakteristika), der Einzeltext aber öfter oder manchmal nicht. Damit hat er einerseits das Potential für emergente Phänomene und andererseits ist er der Bereich, in dem sich Neues zeigt (und das ist es doch, was uns interessiert!).
    Mein Fazit: Der Einzeltext ist gerade das Wesentliche!
    Viele Grüße
    Charlotte Schubert

  2. Herr Sprechtakel sagt:

    Liebe Frau Schubert,

    vielen Dank für Ihren Kommentar, der mich natürlich ganz schön ins Schleudern bringt… Ich habe mir Ihren Beitrag in Digital Classics Online zu Plutarch gelesen – ein sehr schönes Beispiel für einen spannenden Einsatz korpuslinguistischer und visueller Analysemethoden – und m.E. gerade auch ein Beispiel, das meine Thesen zumindest teilweise stützt: Die Suche nach String Matches von Texten in anderen Texten ist ja gerade ein Beispiel für die Auflösung der Einheit des Textes und die Visualisierung als Netz von Bezügen die Idee, das komplexe Beziehungsnetz als emergentes Phänomen sichtbar zu machen.

    Bei Ihrer Analyse ist dann aber ein einzelnes Zitat von vier Versen relevant für die Interpretation der Zitationskonstellation. Das ist natürlich plausibel. Aber ich merke dabei, dass ich als Linguist vielleicht eine etwas andere Perspektive habe, eine Perspektive auf Sprachgebrauch, die eben in erster Linie an Musterhaftigkeit interessiert ist, also an typischen Praktiken, die eben erst sozusagen bei der Vogelsicht auf die Daten auffallen. Da spielt das Abwegige, nicht zum Muster passende, ebenfalls eine Rolle und führt dann manchmal tatsächlich zum Einzelbeleg oder Einzeltext. Der steht bei mir jedoch nicht im Fokus, es sei denn, dieser Einzelfall hat im weiteren Verlauf der Ausübung dieser Praktiken (des Diskurses, der Kulturgeschichte etc.) eine Auswirkung, die sich wieder über typischen Sprachgebrauch finden lässt.

    Die Sache, wie man den Einzelfall oder das Gegenbeispiel in ein statistisches Modell integrieren soll, ist m.E. aber tatsächlich sehr bedenkenswert und problematisch. Nehmen wir als Beispiel ein Verfahren maschinellen Lernens. Dieses soll eine manuell erstellte Kategorisierung von Daten anhand bestimmter Features in den Daten statistisch modellieren. Dieses Modell zeigt dann einerseits, welche Feature-Ausprägungen jeweils die einzelnen Kategorien am besten beschreiben, andererseits kann damit das Modell unkategorisierte Fälle anhand der vorhandenen Feature-Ausprägungen automatisch kategorisieren.

    Wie verhält sich nun das Modell zu den zu lernenden manuell erstellten Kategorien? Es versucht um jeden Preis diese Kategorien abbilden zu können. Natürlich zeigt das Modell, wie erfolgreich es dabei war, sprich, wie viele Einzelbelege, die dem Modell widersprechen, vorhanden sind. Wenn es nicht erfolgreich ist, könnte das daran liegen, dass wir die falschen Features messen oder aber, dass die Kategorien falsch sind, weil sie z.B. einer Theorie entspringen, die sich in der Empirie nicht bewahrheitet. Im Data Mining und vielen ähnlichen Anwendungen werden diese Einzelfälle, die quer zum Modell (und den Kategorien) liegen, nicht groß stören. In den Humanities können wir aber wohl nicht so leicht darüber hinweg gehen, weil wir ja gerade sehr daran interessiert sind, bestehende Theorien zu hinterfragen – wie Sie ja mit Recht auch fordern und machen. Deshalb müssten wir eigentlich an statistischen Modellierungen interessiert sein, die besonders sensibel auf Abweichungen reagieren und die es ermöglichen, die Kategorisierung und die Auswahl der Features zu hinterfragen und alternative Kategorisierungen zu testen. Datengeleitete Verfahren, genauer unüberwachte Lernverfahren (die also nicht von vorgegebenen Kategorien ausgehen), wie etwa Topic Modelling, sind dabei ein wichtiger Schritt, doch auch diese beruhen auf den von uns vorgegebenen Features, was natürlich bereits eine starke Vorannahme ist.

    Also: Ich glaube – und das ist mir in den letzten Tagen aufgrund Ihres Kommentars klar geworden –, dass wir tatsächlich ernsthafter darüber nachdenken müssen, welche Rolle Einzelbelege im Kontext von quantitativen Verfahren, die in den Digital Humanities Anwendung finden, spielen. Aber meine dritte These im Beitrag oben zielt auch eher darauf ab, dass ich skeptisch einer Praxis gegenüber bin, die zwar visuelle Analysemethoden nutzt, diese dann aber doch primär dafür missbraucht, die einzelnen Texte zu lesen, um die Visualisierung mit dem Blick des Wissens um die einzelnen Texte voreingenommen zu interpretieren. Sie machen das natürlich gerade nicht! Aber ich meine das immer wieder mal beobachten zu können. Damit ist dann auch oft eine Enttäuschung über die Methoden verbunden im Sinne von: „Sie bieten mir keinen Vorteil um das zu machen, was ich sowieso schon immer gemacht habe, nämlich, Texte zu lesen.“ Was stimmt. Aber sie ermöglichen eben etwas anderes, nämlich Muster zu entdecken und im besten Fall bestehende Theorien zu hinterfragen. M.E. machen Sie genau das mit der Analyse zu den Plutarch-Texten.

    Herzlich,
    Noah Bubenhofer

Kommentare sind geschlossen.