Eine Reise zum Zentralen Grenzwertsatz

Im letzten Blog wurde dargelegt, warum Simulationen sinnvoll sind. In der täglichen Praxis erleben wir allerdings, dass Simulationen oftmals nicht eingesetzt werden. Als Begründung wird hierbei das Fehlen an Wissen und Daten genannt, was eine Parametrisierung erschwere. Wir denken, dass diese Begründung fadenscheinig ist. Letztlich müssen aus welcher Quelle auch immer Annahmen getroffen werden – und sei es, dass diese aus dem „hohlen Bauch“ entstammen. Dokumentieren lassen sich auch diese allemal. Nein, wir denken, dass viele Leute sich implizit an ein Gesetz klammern, dass die Monte-Carlo Simulation in der Tat fasst überflüssig machen würde: dem Zentralen Grenzwertsatz. Aus Wikipedia stammt diesbezüglich folgende Definition: „Bei den Zentralen Grenzwertsätzen handelt es sich um eine Familie schwacher Konvergenzaussagen aus der Wahrscheinlichkeitstheorie. Allen gemeinsam ist die Aussage, dass die Summe einer großen Zahl von unabhängigen Zufallsvariablen asymptotisch einer stabilen Verteilung folgt. Bei endlicher und positiver Varianz der Zufallsvariablen ist die Summe annähernd normalverteilt, was die Sonderstellung der Normalverteilung erklärt. (Quelle: https://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz, aufgerufen im Oktober 2016).

 

 

Etwas einfacher formuliert klingt es so: In einem Modell gibt es sehr viele unbestimmte Variablen, die irgendwelchen Verteilungen folgen und von denen wir annehmen, dass diese – ganz wichtig - unabhängig voneinander sind. Wenn dies alles zutrifft, dann ist die gesuchte Grösse in der Summe normalverteilt. Oder noch einfacher: Nimm einfach die Mittelwerte der unbestimmten Variablen und Du hast das gesuchte Ergebnis.

 

 

Sehen wir uns hierzu folgendes einfaches Beispiel an. Die gesuchte Grösse Gewinn entspricht der Formel „Menge * Preis – Stückkosten  * Menge – F&E – Verwaltungskosten“ Die Menge wird mittels Dreiecksverteilung und der Preis mittels Gleichverteilung modelliert.

 

Im Mittel und ohne Simulation wird folgendes Ergebnis ausgewiesen:

Im Erwartungswert resultiert somit ein Gewinn von 139.47 CHF.

 

Eine Berechnung des Gewinns mittels Monte-Carlo Simulation mit 20‘000 Iterationen zeigt folgendes Ergebnis: der Erwartungswert des Gewinns beträgt 140.57 CHF (also gerade mal ca. 1 CHF Abweichung!), der Median liegt bei 136.04 CHF und die Schiefe der Gewinnverteilung beträgt 0.10. Aufgrund der im Modell relativ geringen Anzahl von vier Inputvariablen ist die Abweichung zu der gemäss Zentralen Grenzwertsatz postulierten Normalverteilung erklärbar.

 

In diesem Fall bringt die Monte-Carlo Simulation so gut wie nichts.

Wozu also die Mühe? Die Antwort ist einfach: In Excel basierten Modellen lassen sich Variablen gerne und einfach unabhängig modellieren, da eine Berücksichtigung der Ursache-Wirkungsbeziehung durch die flache Tabellenstruktur von Excel nicht unterstützt wird. Sprich: Die Annahmen des Zentralen Grenzwertsatzes werden durch Excel quasi als sakrosankt postuliert.

 

Die Realität sieht jedoch anders aus. So ist es fahrlässig anzunehmen, dass die Menge und der Verkaufspreis unabhängig voneinander sind. Im Regelfall besteht hierbei eine negative Korrelation: Je tiefer der Preis, desto höher dürften meine Absatzmengen sein – dies unter der Voraussetzung, dass a) meine Kunden eine grosse Nachfrage haben, b) diese preissensitiv und c) meine (potentielle) Konkurrenten ihrerseits die Preise nicht einfach anpassen können. Auch ist nachvollziehbar, dass die Ausgaben für Forschung und Entwicklung besonders dann ansteigen, wenn gegenüber der Konkurrenz Wettbewerbsnachteile identifiziert werden, etwa aufgrund höherer Stückkosten. Gerade in diesem Fall schaffen Monte-Carlo Simulationen, welche einen funktionalen Zusammenhang zwischen den Zufallsvariablen (im statistischen Jargon auch als Copula bezeichnet – ja, die Assoziation mit Verkuppeln ist nicht von der Hand zuweisen) berücksichtigen, Abhilfe. Die Idee besteht darin, eine Assoziation/Verbindung/Koppelung zwischen zwei vormals unabhängigen Variablen zu modellieren und diese bei der Simulation zu berücksichtigen. Zudem ist es so, dass in einem solchen Fall Variablen dominierend wirken und die vormals beobachtete Normalverteilung verzerren können.

 

Stellen wir uns vor, dass die oben in hell blauer Farbe hinterlegten Assoziationen berücksichtigt werden sollen. So soll zwischen Menge und Preis eine Korrelation von -0.9 bestehen. Eine positive Korrelation bedeutet, dass Variable a) steigt, wenn auch b) steigt. Eine negative Korrelation liegt dann vor, wenn a) fällt und gleichzeitig b) steigt. Eine Korrelation von Null deutet darauf hin, dass keine Assoziation zwischen den Variablen vorliegt. Eine Korrelation von 1 zwischen Variable «a» und «b» bedeutet numerisch, dass wenn Variable «a» sich um +x% verändert, auch Variable «b» sich um +x% verändert und umgekehrt.

 

Mit der Berücksichtigung von Assoziationen verlassen wir somit die Grundannahmen des Zentralen Grenzwertsatzes, welches unabhängige Verteilungen voraussetzt. Wird der Mittelwert immer noch bei 139 CHF sein? Eine Simulation mit 5‘000 Durchläufen und unter Berücksichtigung der Bildung von Assoziationen zwischen den Verteilungen zeigt folgendes Bild. Der Gewinn liegt im Erwartungswert bei knapp 115 CHF, also knapp 17%! unter dem ursprünglichen Wert.

Die Verteilung hat – wie sichtbar - spürbar an „Schiefe“ gewonnen. In diesem Fall haben die Korrelationen zu einer Vezerrung der vormals offensichtlichen Normalverteilung geführt.

 

Wenn wir die Konfidenzintervalle (nein, das mit den Konfidenzintervallen wollen wir ein anderes Mal vertiefen) aus Acht lassen, dann hat uns die Berücksichtigung von Copulas eine doch bemerkenswerte Abweichung des Gewinns im Vergleich zur Eingangsberechnung gebracht. Wir können uns leicht vorstellen, dass die Abweichung je grösser werden kann, je mehr abhängige Variablen ein Modell aufweist.

Fazit: In einem Modell voller unabhängiger Variablen würde eine Monte-Carlo Simulation keinen grossen Erkenntnisgewinn bringen. Aber leider (oder zum Glück aller derjenigen, welche solche Simulationen bereitstellen) ist die Welt voller Abhängigkeiten. Daher sollte mehr Aufwand in der Identifikation dieser Abhängigkeiten gesteckt werden. Ob die Korrelation nun 0.6 oder 0.5 beträgt, ist u.E. nicht das Entscheidende. Letztendlich handelt es bei Modellierungen immer um Einschätzungen bezüglich der Zukunft. Da kann der Blick in den Rückspiegel nur selten die nächste Kurve vorhersagen.

 

Noch eine Nebenbemerkung: Assoziationen müssen im Modell nicht immer mittels Copulas berücksichtigt werden. Sehr oft entstehen Assoziationen unbewusst. Sobald wir etwa bei Zeitreihen eine Abhängigkeit zwischen den Jahren herstellen (etwa indem wir den Absatz des nächsten Jahres vom Absatz des laufendendes Jahres ableiten – auch hier gibt es im statistischen Jargon einen Begriff: Autokorrelation), ist die vom Zentralen Grenzwertsatz postulierte Unabhängigkeit gefährdet. Leider bemerken das Excel und oft auch der Anwender nicht.

Kommentar schreiben

Kommentare: 0