Statistische Methoden werden grob in deskriptive und induktive/schliessende Methoden eingeteilt:
Deskriptive Statistik
Die deskriptive Statistik macht zusammenfassende Aussagen über Datenmengen. Wenn wir in einem Korpus gezählt haben, wie viele Wörter die Sätze haben, können diese Daten folgendermassen zusammengefasst werden:
Lagemasse
Wir können beschreiben, wie viele Wörter die Sätze durchschnittlich aufweisen. Es wird also das arithmetische Mittel berechnet: Alle Wörter des Korpus geteilt durch die Anzahl Sätze ergibt die durchschnittliche Anzahl Wörter pro Satz.
Neben dem Durchschnitt kann der Median (geometrisches Mittel) berechnet werden. Bei diesem Verfahren ordnen wir die Sätze nach der jeweiligen Anzahl der enthaltenen Wörter. Der Median entspricht nun der Anzahl Wörter in jenem Satz, der genau in der Mitte unserer geordneten Reihe steht. Im Unterschied zum arithmetischen Mittel wirken sich beim Median wenige Sätze mit sehr vielen Wörtern weniger stark auf das Mittel aus. (Die Paradeerklärung, weshalb ein arithmetisches Mittel trügerisch sein kann, ist die Folgende: Berechnet man das durchschnittliche [arithmetische Mittel] Einkommen der Einwohner eines Ölscheichen-Reichs, erhält man den Eindruck, dass die Leute im Durchschnitt sehr viel verdienen. Beim genaueren Hinsehen ist es aber so, dass die wenigen Ölscheichs mit ihren exorbitant hohen Einkommen die vielen niedrigen Einkommen der restlichen Bewohner den Durchschnitt in die Höhe reissen. Wenn man hingegen den Median berechnet, kriegt man ein realistischeres Bild der Einkommenstruktur.)
Streuungsmasse
Durchschnitte beschreiben Daten natürlich nur unvollständig. Wenn wir wissen, dass in unserem Korpus die Sätze im Durchschnitt 15.5 Wörter umfassen, wissen wir noch nichts über die Streuung der Daten. Haben die meisten Sätze ungefähr 15.5 Wörter oder bewegen sich die Anzahl Wörter breit zwischen 3-Wort- und 40-Wort-Sätzen?
Die Angabe, die durchschnittliche Wortanzahl sei 15.5 ± 7.5 gibt den Streubereich an: Alle Sätze bewegen sich also im Bereich von 8 bis 23 Wörtern.
Neben einem solchen Streubereich wird mit der Standardabweichung die mittlere Abweichung vom Mittelwert angegeben. Dazu wird folgende Formel verwendet:
Man rechnet also für jeden Messwert: Messwert (xi) minus arithmetisches Mittel ("Durchschnitt", x̄) und setzt dies ins Quadrat. Diesen Wert für jeden Messwert addiert man und dividiert ihn durch die Anzahl der Messwerte (n). Daraus wird schliesslich noch die Quadratwurzel gezogen.
Natürlich kann in einem Tabellenkalkulationsprogramm einfach die entsprechende Formel verwendet werden. In Excel z.B. "=STABWN([Felder])".
Daneben gibt es eine Reihe von weiteren Massen für unterschiedliche Zwecke.
Induktive/schliessende Statistik
Mit der induktiven Statistik können Hypothesen über den Zusammenhang von Variablen getestet werden. Wenn wir beispielsweise die Beobachtung machen, dass in einem Korpus A die mittlere Satzlänge 12 Wörter beträgt, in einem Korpus B aber 15, dann stellt sich die Frage, ob dieser Unterschied genügend gross ist, um ihn nicht dem Zufall zurechnen zu müssen. Handelt es sich um sehr kleine Korpora, könnte der Unterschied zufällig entstanden sein. Sind die Korpora hingegen sehr gross und haben wir demnach sehr viele Messresulate, ist der Unterschied signifikanter. Mit sog. Signifikanztests kann also geprüft werden, ob mit genügend grosser Wahrscheinlichkeit von einem nicht-zufälligen Unterschied ausgegangen werden kann.
In der Korpuslinguistik sind Signifikanztests sehr wichtig, um z.B. zu überprüfen, ob ein bestimmtes Lexem in einem Korpus A wirklich signifikant häufiger vorkommt als in Korpus B. Oder in diachroner Perspektive kann geprüft werden, ob die Verwendung eines Sprachmusters sich zeitlich tatsächlich signifikant verändert oder ob es sich um zufällige Schwankungen handelt. Auch bei der Berechnung von Kollokationen spielen Signifikanztests eine wichtige Rolle: Treten zwei Wörter überzufällig (also signifikant) häufig zusammen auf?
Die weiteren Ausführungen stellen zwei einfache Signifikanztests vor.
Das Copyright dieses Kurses liegt bei Noah Bubenhofer. Bei Zitaten oder Verweisen darauf, freut der Autor sich über
eine Mitteilung.
Ebenso bei Fehlern und anderen Hinweisen! Diese elektronische Ressource soll wie folgt zitiert werden:
Bubenhofer, Noah (2006-2024): Einführung in die Korpuslinguistik: Praktische Grundlagen und Werkzeuge. Elektronische Ressource: http://www.bubenhofer.com/korpuslinguistik/.