Von Korrelationen - Pearson vs. Spearman

Kennen Sie die Excel-Funktion «=KORREL»? Wenn nein, dann schauen Sie mit Neugier weiter und wenn ja, machen Sie es den anderen gleich. Vielleicht erfahren Sie etwas Neues.

 

Daten sind Informationen. Daraus Wissen zu generieren eine Königsdisziplin. Der klassische Fall: Gibt es zwischen Daten eine Beziehung, welche wir für die Erklärung eines zukünftigen Sachverhaltes heranziehen können? Dabei ist die Kausalitätsfrage gewiss die Entscheidende. Aber: auch reine Beziehungen (Korrelationen) helfen uns bereits weiter.

 

Sehr oft gibt es zwischen Preis und Absatzmenge eine negative Korrelation. Erhöhen wir den Preis eines Produktes, sinkt sehr oft die Nachfrage nach diesem Produkt. Die wahren Beweggründe sind dabei sehr oft unklar. Zum einen kann es einfach sein, dass die Kunden für ein Produkt ein festes Budget vorhalten und bei Preiserhöhungen somit weniger konsumieren. Es kann aber auch sein, dass höhere Preise neue Konkurrenten anlocken und die gleiche Menge sich dann auf mehrere Anbieter verteilt. Oder allein aufgrund von Präferenzänderungen kann sich auch unabhängig von der Preisgestaltung eine Nachfrageverschiebung ergeben. Umgekehrt sind ebenfalls Ursache-Wirkungsbeziehungen begründbar. Eine Erhöhung der Absatzmenge kann zur Überflutung eines Produktes führen, was Preissenkungen zur Folge haben kann. Daher ergeben sich bei Beobachtungen sehr viele mögliche Ausprägungen bei der Kombination Preis und Menge.  

 

Wie bereits in anderen Beiträgen dargestellt, wird eine Beziehung zwischen Daten mittels einer Korrelation festgehalten, welche in Excel über die «KORREL» Funktion aufgerufen wird. Wir erinnern uns, dass der Korrelationskoeffizient einen Wert zwischen -1 und +1 einnehmen kann.

 

Im folgenden Beispiel haben wir diese Korrelationsbeziehung anhand der Datenmenge «D_1» und «D_2» dargestellt. Zum einem haben wir die Excel-Funktion «KORREL» auf die Daten angesetzt und zum anderen diese Funktion mittels des «Pearson» Korrelationskoeffizienten über ganz einfache Excel-Formeln hergeleitet («Pearson-Excel»). Beide Werte stimmen überein (-0.84). In Excel wird vorderhand der Pearson Ansatz umgesetzt. 

Auf mathematische Formeln möchten wir hier bewusst verzichten. Prägend ist jedoch, dass der Pearson Korrelationskoeffizient direkt auf die Daten «D_1» und «D_2» zugreift.  

 

Eine andere Methode zieht hingegen nur indirekt die Ursprungsdaten heran. Der Ansatz von Spearman (auch Spearmans Rho bezeichnet) ordnet die Daten in einem ersten Schritt Rängen zu. Im hier dargestellten Fall wird die aufsteigende Reihenfolge gewählt. So ist die Zahl 25 in der Datenreihe «D_1» dem Rang 1 zugeordnet, gefolgt von der 32. Die nächst grössere Zahl (34) kommt hingegen zweimal vor. Anstatt wie in Sporttabellen diese Zahlen den Rängen 3 und 4 zuzuordnen, wird bei Spearman der Mittelwert für beide Ränge gewählt (3.5). Dieser Ansatz wird für alle Zahlen und analog auch mit den Datensatz «D_2» vollzogen. Der Spearman Ansatz wendet dann als letzten Schritt die Pearson Formel auf die Ränge, statt auf die Daten an (die entsprechende Grafik ist unter Punkt 2 ersichtlich). Im Excel haben wir drei mögliche Verfahren dargestellt, wobei eine Formel, beginnend mit «f_Spear», in MC FLO implementiert wurde (diese aber in der Version Sotelo noch nicht verfügbar ist).

 

Der Vorteil des Spearman Ansatzes ist mannigfaltig. Zum einen reagiert er nicht auf kleinere Veränderungen, wie der Pearson Ansatz. Geben Sie im Datensatz «D_1» statt der 25 eine 31 ein. Der Pearson Korrelationskoeffizient ändert sich, Spearmans Rho bleibt aber davon unbenommen, da sich die relative Position des angepassten Datensatzes nicht verändert hat (der Rang 1 wird beibehalten). Das macht den Ansatz von Spearman robuster gegenüber Ausreissern. Unter Punkt 3 haben wir die Grafiken der beiden Ansätze einmal mit und einmal ohne das Datenpaar (66, 1) dargestellt. Der Spearman Korrelationskoeffizient sinkt von -0.67 auf -0.57, mit dem Pearson Ansatz sinkt der Koeffizient hingegen von -0.84 auf -0.53. 

 

Der andere Vorteil des Spearman Ansatzes ist die Robustheit gegenüber Transformationen der Daten. Unter Punkt 4 haben wir beide Koeffizienten nach Transformation der Ursprungsdaten (konkret wurden die Daten logarithmiert) ausgewiesen. Während bei Pearson eine Änderung beobachtbar ist, bleibt der Koeffizient von Spearman davon unberührt. 

 

Ohne auf weitere Details einzugehen, bleibt anzumerken, dass der Koeffizient von Pearson eine lineare Beziehung zwischen den Datenpunkten aufweisen muss, bei Spearmans Rho hingegen nicht. 

 

In MC FLO wird zur Bildung von Korrelationen bei einer Simulation der Spearman Ansatz vollzogen. Aus diesem Grund unterscheiden sich die mittels Excel ausgewerteten Korrelationskoeffizienten von den in der Modellierung angegebenen Zahlen. Aus den obigen Ausführungen wissen Sie nun warum.

 

Am einfachen Beispiel einer Umsatzmodellierung, bei denen Preis und die Absatzmenge stark negativ korrelieren (-0.95) und die jeweiligen Verteilungen einer gekappten Normalverteilung und Gumbelverteilung folgen, wird folgendes Ergebnis sichtbar.  

Die einzelnen Korrelationen der hier als abhängig dargestellten Preisvariable mit den anderen Parametern sind links numerisch zusammengefasst. Die ausgewählte Korrelation «Preis-Menge» ist rechts grafisch und als lineare Regressionsgleichung dargestellt.  Aus der Punktwolke lässt sich erkennen, dass die Korrelation nach Spearman nicht einer linearen Verteilung folgt, was anhand der Randverteilungen ersichtlich ist. 

 

Neu in MC FLO (Version Sotelo) ist eine aufsteigende Darstellung (in 10%-Punkte Schritten) der Korrelationsbeziehung zwischen den ausgewählten Variablen. So zeigt sich, dass bei einer tiefen Absatzmenge (die ersten 10%) die Korrelation mit dem dazugehörigen Preisen sehr hoch ist, ebenfalls bei den letzten 10% (die x-Achse ist hierbei mit 1 beschriftet und entspricht dem Bereich 90% - 100%). Eine solche Darstellung hilft, relevante Korrelationen bei kritischen Bereichen zu identifizieren und folglich entsprechende Massnahmen abzuleiten.

Dieser kleine Exkurs hat hoffentlich etwas Licht in die Bände füllenden Korrelationsbeziehungen gebracht. Es gäbe noch viele andere Themen. Oder kennen Sie gar Kendalls Tau?

 

Wichtig ist, dass wir mit MC FLO ein Instrument zur Hand stellen wollen, welches schnell erlernt und ohne grosse Klimmzüge zur Anwendung gebracht und dabei auch von Anwendern, welche MC FLO nicht installiert haben, genutzt werden kann. Daher verzichten wir auf viele Optionen oder bestimmte Formeln, welche MC FLO voraussetzen. Wir möchten aber Transparenz mit diesem und anderen Blogbeiträgen schaffen. 

 

Schreiben Sie uns, ob Sie Gefallen an den Korrelationskoeffizienten von Spearman finden und ob wir in MC FLO auch bei den Auswertungen diesen konsequent umsetzen sollten. 

 

Beste Grüsse. 

Kommentar schreiben

Kommentare: 0