Induktive Statistik: Signifikanztest (2)

Log-likelihood-Test

Der Log-likelihood-Signifikanztest ist ein alternatives Verfahren zu Berechnung der Signifikanz, das gegenüber dem Chi-Quadrat-Test robuster gegenüber niedrigen Werten ist (der Chi-Quadrat-Test tendiert dazu, bei niedrigen Werten relativ schnell Signifikanz anzuzeigen). Auch für den Log-likelihood-Test wird eine Kontingenztabelle erstellt:

Korpus AKorpus BTotal
Frequenz von Wort XABA+B
Alle anderen WörterCDC+D
TotalA+CB+DA+B+C+D

Tabelle 1: Eine generelle Kontingenztabelle

Die Formel für den Log-lilelihood-Test lautet:

O ist der beobachtete Wert (observed), E ist der erwartete Wert (expected). Der Log-likelihood-Wert wird als G2- oder LL-Wert bezeichnet.

Da der Test wie der Χ2-Test der Χ2-Verteilung folgt, werden ebenfalls die kritischen Werte für Χ2 verwendet, um die Signifikanz zu überprüfen.

Auch für den Log-likelihood-Test gibt es Hilfe, damit dieser nicht manuell berechnet werden muss. Der Log-likelihood calculator von Paul Rayson bietet eine besonders angenehm zu bedienende Oberfläche an: Es müssen bloss die Frequenzwerte und die Korpusgrössen eingetragen werden und der LL-Wert wird ausgespuckt. Die Berechnung von LL auf Basis der Werte aus Tabelle 4 auf der vorherigen Seite ergibt bei Eingabe in Paul Raysons Formular den Wert 48,47. Damit ist die Verteilung nach Tabelle 6 der kritischen Werte (vgl. vorherige Seite) nach wie vor hochsignifikant (99,9% Signifikanzniveau), aber etwas tiefer als die nach dem Chi-Quadrat-Test berechneten 50,74.