Hypothesentests mit Simulationen

Haben Sie sich gefragt, warum Simulationsprogramme wie MC FLO die Student-t oder eine F-Verteilung anbieten, obwohl diese in der praktischen Handhabung mit Simulationen kaum eine Rolle spielen? Wenn Sie neben Simulationen auch Hypothesentests durchführen, sollten Sie aufmerksam weiterlesen. 

Gewiss, Simulationsprogramme sind nicht dazu erdacht klassische Statistikprogramme zu verdrängen. Für einfache Aufgaben reichen diese aber allemal. Anhand einiger Hypothesentests zeigen Ihnen folgend, wie Sie MC FLO sinnvoll dafür einsetzen können.  

 

Vorab wollen wir kurz die Herangehensweise eines Tests rekapitulieren. Stellen Sie sich vor, dass Sie eine Stichprobe von 70 Erwachsenen gleichen Alters erhoben haben, welche am Tag mindestens 2 Stunden im Internet surfen. Bei den Probanden stellen Sie fest, dass deren IQ einen Wert von im Mittel 110 aufweist. Ist der IQ von Erwachsenen mit Internetkonsum somit höher als der Durchschnitt von 100 oder ist der Wert von 110 aufgrund der Stichprobenvariabilität zurückzuführen? Im Sinne des "in dubio pro reo" wird als erster Schritt die Nullhypothese mit dem Mittelwert von 100 aufgestellt. Mit einem darauf folgenden Test sollen erhebliche Zweifel an der Gültigkeit der Nullhypothese bestätigt und somit die Nullhypothese verworfen werden. Da ein Test nicht mit absoluter Sicherheit die Nullhypothese verwerfen kann, werden bestimmte Qualitätsanforderungen gestellt, welcher sich im alpha-Wert manifestiert. Ein p-Wert des Tests, welcher unter dem alpha-Wert von beispielsweise von 0.05 zu liegen kommt, bedeutet dabei, dass wir mit einer Sicherheit (im Sinner einer Evidenz, Signifikanz) von 95% die Nullhypothese verwerfen können. Liegt der p-Wert hingegen über dem alpha Wert, bestehen keine erheblichen Zweifel an der Gültigkeit der Nullhypothese. Soviel zur Herangehensweise. 

 

Die Kunst besteht darin, aus der Stichprobe und der gestellten Fragestellung den richtigen Test und die entsprechende Nullhypothese zu stellen. Folgende Fallbeispiele sind dem Buch: "Introduction to Statistics and Data Analysis", Fifth Edition Roxy Peck, Chris Olsen, Jay L. Devore, 2016 entnommen. Klicken Sie auf die Bilder, um den Sachverhalt und die Interpretation detailliert anzuschauen. Die Beispiele als Excel-Datei finden Sie hier.  Darin sind die Problemstellungen detailliert ausgeführt. Im Folgenden wollen wir uns daher auf die wesentlichen Aussagen beschränken.

 

Fall 1: Hier wird der Bevölkerungsanteil einer Stichprobe untersucht. Wir wählen den z-Test aus und ziehen hierfür die Standardnormalverteilung heran. 100'000 Iterationen sollten den tatsächlichen Verlauf einer Normalverteilung genügend widerspiegeln. Der z-Wert von 4.11 liegt ausserhalb der höchsten Wertes der Normalverteilung. Der p-Wert ist entsprechend 0 und die Nullhypothese wird verworfen. 

Hypothesentests und Simulationen

Fall 2 und 3: Hier wird der Durchschnitt einer Stichprobe untersucht. Da wir die Standardabweichung der Grundgesamtheit nicht kennen, wird der T-Test ausgewählt und ziehen hierfür die Student-t Verteilung mit (n-1) Freiheitsgraden heran. 100'000 Iterationen sollten den tatsächlichen Verlauf einer Student-t Verteilung genügend widerspiegeln.

Im Fall 3 liegt der höchste Wert einer Student-t Verteilung mit 19 Freiheitsgraden bei unter 5. Der untersuchte Wert von 6.5 ist somit nicht in der Student-t Verteilung enthalten. Der p-Wert ist somit auch hier entsprechend 0.

Hypothesentests und Simulationen

Im Fall 4 kommt der p-Wert bei einem T-Test in der Höhe von -1.07 bei 0.155 zu liegen. Der p-Wert ist somit höher als das Sicherheitsniveau von 0.05. Die Nullhypothese wird daher nicht verworfen. Es ist eher davon auszugehen, dass der gemessene tiefere Wert nur aufgrund der Stichprobenvariabilität zurückgeführt werden kann.  

Fall 4: Es sollen zwei unabhängige Stichproben untersucht werden. Da wir die Standardabweichung der Grundgesamtheit nicht kennen, wird der T-Test ausgewählt und ziehen hierfür die Student-t Verteilung mit (n-1) Freiheitsgraden heran. 100'000 Iterationen sollten den tatsächlichen Verlauf einer Student-t Verteilung genügend widerspiegeln. Die Interpretation ist analog Fall 2. 

Hypothesentests und Simulationen

So, das war der kleine Exkurs. Falls Sie eine Varianzanalyse von mehr als zwei Stichproben vornehmen wollen (ANOVA), können Sie auf den F-Test zurückgreifen. Das wollen wir Ihnen hier aber ersparen. 

Hinweis: In allen Fällen setzten wir voraus, dass die Stichproben normalverteilt sind. Woher wissen wir aber, dass die Stichproben diese Eigenschaft aufweisen? Nehmen Sie den in MC FLO eingebauten Schätzer, um schnell und unkompliziert einen Test vornehmen zu können. Der besondere Trick: Logarithmieren Sie hierfür die Daten und führen Sie dann einen Zeitreihentest aus, welcher automatisch den Anderson-Darling Test durchführt. Falls die vorgeschlagene Zeitreihe nicht dem ARCH Prozess entspricht, dann sind Ihre Daten sehr wahrscheinlich normalverteilt. 

Kommentar schreiben

Kommentare: 0