# Bedingte Korrelation bei Normalverteilung
S = matrix(c( 1,.5,.9, # \Sigma
.5, 1,.5,
.9,.5, 1), nrow = 3, byrow = TRUE)
rho_xy = S[1,2]/(sqrt(S[1,1])*sqrt(S[2,2])) # \rho(x,y)
S_xy_z = S[1:2,1:2] - S[1:2,3] %*% solve(S[3,3]) %*%S[3,1:2] # \Sigma_{x,y|z}
rho_xy_z = S_xy_z[1,2]/(sqrt(S_xy_z[1,1])*sqrt(S_xy_z[2,2])) # \rho(x,y|z)
43 Partielle Korrelation
43.1 Motivation
Zur Motivation des Begriffs der partiellen Korrelation betrachten wir zunächst den in Abbildung 43.1 visualisierten Beispieldatensatz zum Zusammenhang von Eiskonsum und Sonnenbrandinzidenz. Wir stellen uns vor, dass jeder der in Abbildung 43.1 abgebildeten Datenpunkte ein Wertepaar aus einem durchschnittlichen und normalisierten Eiskonsum und einer durchschnittlichen und normalisierten Sonnenbrandinzidenz eines Landes über einen gewissen Erhebungszeitraum ist. Visuell betrachtet sieht man eine Tendenz dafür, dass hohe Werte des Eiskonsums mit eher hohen Werten der Sonnenbrandinzidenz auftreten, während niedrige Werte des Eiskonsums mit eher niedrigen Werten der Sonnenbrandinziden zusammen auftreten. Die Bestimmung des Stichprobenkorrelationskoeffizienten zu diesem Datensatz ergibt mit \(r=0.46\) eine mittelstarke positive Korrelation.

Intuitiv ist es jedoch eher unplausibel, dass Eiskonsum ursächlich Sonnenbrand hervorruft bzw. das Sonnenbrand den Eiskonsum erhöht (allerdings sind diese Szenarien auch nicht gänzlich auszuschließen: ein bestimmter Eiskonsum könnte eine allergische Reaktion hervorrufen mit Symptomen, die dem Sonnenbrand sehr ähnlich sind, andersherum wäre es denkbar, dass bei Sonnenbrand zur Abkühlung gerne Eis konsumiert wird. Wir wollen diese eher unplausiblen Erklärungsansätze hier jedoch nicht weiter verfolgen). Der in Abbildung 43.1 dargestellte Datensatz ist also ein Beispiel dafür, dass Korrelation als Maß für den linearen Zusammenhang zweier Zufallsvariablen lediglich ein Maß für die Koinzidenz bestimmter Datenwerte ist, jedoch keine Kausalerklärung der Werte einer abhängigen Variable aus den Werten einer unabhängigen Variable impliziert. In Kurzform hat sich zur Beschreibung dieser Tatsache seit Beginn der modernen Inferenzstatistik am Anfang des 20. Jahrhunderts der Leitsatz “Correlation is not causation” eingebürgert.
Basierend auf dem negativen Ergebnis, dass eine mittelstarke Korrelation wie im Beispiel von Eiskonsum und Sonnenbrandinzidenz nur sehr unplausibel durch eine direkte kausale Beziehung der beiden Variablen zu erklären ist, stellt sich die Frage, inwieweit andere datenanalytische Verfahren hier Abhilfe schaffen können. Dabei stellt sich natürlich zunächst das philosophische Problem, was Kausalität eigentlich bedeuten soll und als nächstes die Frage, wie ein solcher Begriff mit den Mitteln der Wahrscheinlichkeitstheorie und Inferenzstatistik evaluiert werden könnte. Diesen Ansatz verfolgt das Gebiet der Kausalen Inferenz, wie zum Beispiel durch die Arbeiten von Pearl (2000) und Imbens & Rubin (2015) repräsentiert. Wir wollen an dieser Stelle diesen Ansatz nicht vertiefen, sondern stattdessen fragen, wie im obigen Beispiel anhand weiterer Daten die beobachtete Korrelation von Eiskonsum und Sonnenbrandinzidenz so aufgeklärt werden kann, dass die statistische Beschreibung des in Abbildung 43.1 dargestellten Datensatzes plausibler erscheint. Dies ist das zentrale Thema der partiellen Korrelation.
Dazu nehmen wir an, dass der Zusammenhang von Eiskonsum und Sonnenbrandinzidenz (Abbildung 43.2 A) plausibel durch die Kovariation beider Variablen mit einer dritten Variable, nämlich der Anzahl der im Erhebungszeitraum und Land auftretenden Anzahl an Sommertagen, d.h. Tagen mit einer maximalen Temperatur von über \(25^{\circ}\) Celsius, erklärt werden kann (Abbildung 43.2 B).

Intuitiv erklärt sich die positive Korrelation von Eiskonsum und Sonnenbrandinziden dann wie folgt. Treten im Erhebungszeitraum in einem Land mehr Sommertage auf, so steigt in diesem Land sowohl der Eiskonsum als auch die Sonnenbrandinzidenz, treten dagegen weniger Sommertage auf, so fallen in diesem Land sowohl der Eiskonsum als auch die Sonnenbrandinzidenz. Lässt man die Anzahl der Sommertage außer Acht, so treten also hohe Werte von Eiskonsum und Sonnenbrandinzidenz als auch niedrige Werte von Eiskonsum und Sonnenbrandinzidenz häufig zusammen auf und es ergibt sich die in Abbildung 43.1 implizierte positive Korrelation.
Die entscheidende Frage in diesem Kontext ist also, ob bei gleicher Anzahl von Sommertagen Evidenz für eine Korrelation von Eiskonsum und Sonnenbrandinzidenz besteht oder nicht. In diesem Fall würde die Kovarianz von Eiskonsum und Sonnenbrandinzidenz also bedingt auf einer konstanten Anzahl von Sommertagen betrachtet werden. Die datenanalytischen Werkzeuge, bei Vorliegen von Realisationen von drei Zufallsvariablen eben diese Form einer bedingten Korrelation zu evaluieren, stellen der Begriff der bedingten Korrelation und der eng verwandte Begriff der partiellen Korrelation bereit. Intuitiv handelt es sich dabei um die Korrelation zweier Zufallsvariablen (z.B. Eiskonsum und Sonnenbrandinzidenz) nachdem aus beiden Zufallsvariablen der Einfluß einer dritten Zufallsvariable (z.B. Anzahl an Sommertagen) “herausgerechnet” wurde. Die Begriffe der bedingten und partiellen Korrelation sind dabei nicht auf das Szenario von drei Zufallsvariablen beschränkt, sondern können für beliebig viele Zufallsvariablen generalisiert werden. Wir beschränken uns in diesem Abschnitt allerdings auf das Szenario dreier Zufallsvariablen um die Grundlagen der Theorie zu verdeutlichen.
Wir gehen dabei wie folgt vor. In Kapitel 12.2 führen wir mit der bedingten Kovarianz und der bedingten Korrelation zunächst allgemeine Maße für den auf den Werten einer dritten Zufallsvariable bedingten linear-affinen Zusammenhang zweier Zufallsvariablen ein, verdeutlichen dann die Begriffe anhand des Szenarios dreier gemeinsam multivariat normalverteilter Zufallsvariablen und diskutieren schließlich den Zusammenhang zwischen bedingter Korrelation und paarweisen (unbedingten) Korrelation. In Kapitel 12.3 führen wir mit der partiellen Korrelation dann ein regressionsbasiertes Maß für den bedingten Zusammenhang zweier Zufallsvariablen ein. Dabei ergibt sich insbesondere, dass im Falle von gemeinsam multivariat normalverteilten Zufallsvariablen bedingte und partielle Korrelation identisch sind. Wir schließen diesen Abschnitt mit der Evaluation der partiellen Korrelation von Eiskonsum und Sonnenbrandinzidenz im Lichte des Wissens um die Anzahl an Sommertagen für den in Abbildung 43.1 visualisierten Beispieldatensatz.
43.2 Bedingte Korrelation
Wir definieren zunächst die bedingte Kovarianz und die bedingte Korrelation zweier Zufallsvariablen gegeben eine dritte Zufallsvariable.
Definition 43.1 (Bedingte Kovarianz und bedingte Korrelation) Gegeben seien drei Zufallsvariablen \(x,y,z\) einer gemeinsamen Verteilung \(\mathbb{P}_{x,y,z}(x,y,z)\). Weiterhin sei \(\mathbb{P}_{x, y \vert z}(x,y)\) die bedingte Verteilung von \(x\) und \(y\) gegeben \(z\). Dann heißt die Kovarianz von \(x\) und \(y\) in der Verteilung \(\mathbb{P}_{x, y \vert z}(x,y)\) die bedingte Kovarianz von \(x\) und \(y\) gegeben \(z\) und wird mit \(\mathbb{C}(x, y \vert z)\) bezeichnet. Weiterhin seien \(\mathbb{P}_{x, y \vert z}(x)\) und \(\mathbb{P}_{x, y \vert z}(y)\) die marginalen Verteilungen von \(x\) und \(y\) gegeben \(z\), respektive, und \(\mathbb{S}(x\vert z), \mathbb{S}(y\vert z)\) die Standardabweichungen von \(x\) und \(y\) hinsichtlich \(\mathbb{P}_{x, y \vert z}(y)\) und \(\mathbb{P}_{x, y \vert z}(x)\), respektive. Dann heißt die Korrelation von \(x\) und \(y\) in der Verteilung \(\mathbb{P}_{x, y \vert z}(x,y)\), \[\begin{equation} \rho(x, y \vert z):=\frac{\mathbb{C}(x, y \vert z)}{\mathbb{S}(x\vert z) \mathbb{S}(y\vert z)} \end{equation}\] die bedingte Korrelation von \(x\) und \(y\) gegeben \(z\)
Die bedingte Kovarianz zweier Zufallsvariablen ist also definiert als die Kovarianz zweier Zufallsvariablen in einer auf einer dritten Zufallsvariable bedingten Verteilung. Gleiches gilt für die bedingte Korrelation zweier Zufallsvariablen. Durch Vertauschen in obiger Definition kann man analog \(\rho(y,z\vert x)\) und \(\rho(x,z\vert y)\) definieren. Wir verdeutlichen Definition 43.1 als nächstes an einem Beispiel.
Beispiel
Die Zufallsvariablen \(x,y,z\) seien multivariat normalverteilt, d.h. für \(\gamma := (x,y,z)^{T}\) gelte, dass \[\begin{equation} \gamma \sim N(\mu, \Sigma) \end{equation}\] mit \[\begin{equation} \mu:= \begin{pmatrix} \mu_{y} \\ \mu_{x} \\ \mu_{z} \end{pmatrix} \mbox{ und } \Sigma:=\begin{pmatrix} \sigma_{x}^{2} & \sigma_{x,y}^{2} & \sigma_{x,z}^{2} \\ \sigma_{y,x}^{2} & \sigma_{y}^{2} & \sigma_{y, z}^{2} \\ \sigma_{z,x}^{2} & \sigma_{z,y}^{2} & \sigma_{z}^{2} \end{pmatrix} \end{equation}\] Wir nehmen an, dass wir die bedingte Korrelation von \(x\) und \(y\) gegeben \(z\) bestimmen wollen und wenden uns entprechend der bedingten Verteilung von \(x\) und \(y\) gegeben \(z\) zu. Nach Theorem 29.6 wissen wir, dass diese bedingte Verteilung ebenfalls eine Normalverteilung ist, deren Kovarianzmatrixparameter wir aus dem Kovarianzmatrixparameter der gemeinsamen Verteilung von \(x,y,z\) bestimmen können. Wir definieren zu diesem Zweck zunächst \[\begin{equation} \Sigma_{x,y} := \begin{pmatrix} \sigma_{x}^{2} & \sigma_{x,y}^{2} \\ \sigma_{y,x}^{2} & \sigma_{y}^{2} \end{pmatrix}, \Sigma_{z} := \left(\sigma_{z}^{2}\right) \mbox{ und } \Sigma_{(x,y), z} :=\Sigma_{z,(x,y)}^{T} := \begin{pmatrix} \sigma_{x,z}^{2} \\ \sigma_{y, z}^{2} \end{pmatrix} \end{equation}\] so dass für den Kovarianzmatrixparameter der gemeinsamen Verteilung von \(x,y,z\) gilt, dass \[\begin{equation} \Sigma = \begin{pmatrix} \Sigma_{x,y} & \Sigma_{(x,y), z} \\ \Sigma_{z,(x,y)} & \Sigma_{z} \end{pmatrix} \end{equation}\] Mit Theorem 4.8 ergibt sich der Kovarianzmatrixparameter des Zufallsvektors \((x,y)^{T}\) dann zu \[\begin{equation} \Sigma_{x, y \vert z} = \Sigma_{x,y}-\Sigma_{(x,y), z} \Sigma_{z}^{-1} \Sigma_{z,(x,y)} \end{equation}\] Mit den Eigenschaften von multivariaten Normalverteilungen gilt dann, dass die Diagonaleinträge von \(\Sigma_{x, y \vert z}\) den bedingten Varianzen von \(x\) und \(y\) gegeben \(z\) entsprechen und dass der Nichtdiagonaleintrag von \(\Sigma_{x, y \vert z}\) die bedingte Kovarianz von \(x\) und \(y\) gegeben \(z\) ist. In anderen Worten gilt \[\begin{equation} \Sigma_{x, y \vert z} = \begin{pmatrix} \mathbb{C}(x,x\vert z) & \mathbb{C}(x,y \vert z) \\ \mathbb{C}(y,x\vert z) & \mathbb{C}(y,y\vert z) \end{pmatrix} \end{equation}\] Die bedingte Korrelation \(\rho(x, y \vert z)\) von \(x\) und \(y\) gegeben \(z\) ergibt sich dann aus den Einträgen von \(\Sigma_{x, y \vert z}\) gemäß \[\begin{equation} \rho(x, y \vert z) = \frac{\mathbb{C}(x, y \vert z)}{\sqrt{\mathbb{C}(x,x\vert z)}\sqrt{\mathbb{C}(y, y\vert z)}} \end{equation}\] Sei konkret etwa der Kovarianzmatrixparameter von \((x,y,z)^{T}\) gegeben als \[\begin{equation} \Sigma := \begin{pmatrix} 1.0 & 0.5 & 0.9 \\ 0.5 & 1.0 & 0.5 \\ 0.9 & 0.5 & 1.0 \end{pmatrix} \end{equation}\] Dann ergibt sich \[\begin{equation} \rho(x,y)=0.50 \mbox{ und } \rho(x, y \vert z) \approx 0.13 \end{equation}\] Folgender R Code demonstriert die Auswertung dieser bedingten Korrelation.
rho(x,y) : 0.5
rho(x,y|z) : 0.13
43.3 Bedingte Korrelation bei Normalverteilung
Für den Fall dreier gemeinsam normalverteilter Zufallsvariablen eröffnet folgendes Theorem eine Möglichkeit, die bedingte Korrelation zweier dieser Zufallsvariablen gegeben die dritte auf Grundlage der (unbedingten) paarweisen Korrelationen der Zufallsvariablen zu bestimmen. So kann bei gemeinsamer Normalverteilung von \(x,y,z\) zum Beispiel \(\rho(x, y \vert z)\) aus den Korrelationen \(\rho(x,y), \rho(x,z)\), und \(\rho(y, z)\) bestimmt werden. Speziell gilt folgendes Theorem.
Theorem 43.1 (Bedingte Korrelation und Korrelationen bei Normalverteilung) \(x,y,z\) seien drei gemeinsam multivariat normalverteilte Zufallsvariablen. Dann gilt \[\begin{equation} \rho(x,y \vert z) = \frac{\rho(x,y)-\rho(x,z) \rho(y, z)}{\sqrt{\left(1-\rho(x,z)^{2}\right)} \sqrt{\left(1-\rho(y, z)^{2}\right)}} \end{equation}\]
Beweis. Ohne Beschränkung der Allgemeinheit betrachten wir den Fall eines standardisierten multivariat normalverteilten Zufallsvektors \(\gamma := (x,y,z)^{T}\) mit Kovarianzmatrixparameter \[\begin{equation} \Sigma := \begin{pmatrix} 1 & \rho(x,y) & \rho(x,z) \\ \rho(y, x) & 1 & \rho(y, z) \\ \rho(z, x) & \rho(z, y) & 1 \end{pmatrix} \end{equation}\] Wir definieren nun zunächst \[\begin{equation} \Sigma_{x,y} := \begin{pmatrix} 1 & \rho(x,y) \\ \rho(y, x) & 1 \end{pmatrix}, \Sigma_{z}:=(1) \mbox{ und } \Sigma_{(x,y), z}:=\Sigma_{z,(x,y)}^{T} := \begin{pmatrix} \rho(x,z) \\ \rho(y, z) \end{pmatrix}, \end{equation}\] so dass \[\begin{equation} \Sigma = \begin{pmatrix} \Sigma_{x,y} & \Sigma_{(x,y), z} \\ \Sigma_{z,(x,y)} & \Sigma_{z} \end{pmatrix}. \end{equation}\] Mit dem Theorem 29.6 ist dann die Kovarianzmatrix des Zufallsvektors \((x,y)\) gegeben durch \[\begin{equation} \Sigma_{x, y \vert z} = \Sigma_{x,y} - \Sigma_{(x,y), z} \Sigma_{z}^{-1} \Sigma_{z,(x,y)} \end{equation}\] Es ergibt sich also \[\begin{equation} \begin{aligned} \begin{pmatrix} \sigma_{x, x\vert z}^{2} & \sigma_{x, y \vert z}^{2} \\ \sigma_{y, x\vert z}^{2} & \sigma_{y, y\vert z}^{2} \end{pmatrix} & = \begin{pmatrix} 1 & \rho(x,y) \\ \rho(y, x) & 1 \end{pmatrix} - \begin{pmatrix} \rho(x,z) \\ \rho(y, z) \end{pmatrix}(1)^{-1} \begin{pmatrix} \rho(x,z) & \rho(y, z) \end{pmatrix} \\ & = \begin{pmatrix} 1 & \rho(x,y) \\ \rho(y, x) & 1 \end{pmatrix}- \begin{pmatrix} \rho(x,z) \rho(x,z) & \rho(x,z) \rho(y, z) \\ \rho(y, z) \rho(x,z) & \rho(y, z) \rho(y, z) \end{pmatrix} \\ & = \begin{pmatrix} 1-\rho(x,z)^{2} & \rho(x,y)-\rho(x,z) \rho(y, z) \\ \rho(y, x)-\rho(y, z) \rho(x,z) & 1-\rho(y, z)^{2} \end{pmatrix}. \end{aligned} \end{equation}\] Es ergibt sich also \[\begin{equation} \rho(x, y \vert z) = \frac{\sigma_{x, y \vert z}^{2}}{\sqrt{\sigma_{x, x\vert z}^{2}} \sqrt{\sigma_{y, y\vert z}^{2}}} =\frac{\rho(x,y)-\rho(x,z) \rho(y, z)}{\sqrt{1-\rho(x,z)^{2}} \sqrt{1-\rho(y, z)^{2}}} \end{equation}\] Im Falle des Vorliegens von Realisierungen von \(x,y,z\) ergibt sich ein entsprechender Schätzer für \(\rho(x, y \vert z)\) mit den Stichprobenkorrelationen \(r_{x,y}, r_{x,z}, r_{y, z}\) dann zu \[\begin{equation} r_{x, y \vert z} = \frac{r_{x,y}-r_{x,z} r_{y, z}}{\sqrt{\left(1-r_{x,z}^{2}\right)} \sqrt{\left(1-r_{y, z}^{2}\right)}} \end{equation}\]
43.4 Partielle Korrelation
Wir defininieren als nächstes die partielle Korrelation zweier Zufallsvariablen gegeben eine dritte Zufallsvariable.
Definition 43.2 (Partielle Korrelation.) \(x,y,z\) seien Zufallsvariablen mit linear-affinen Abhängigkeiten zwischen \(x\) und \(z\) sowie zwischen \(y\) und \(z\), \[\begin{equation} \begin{aligned} x & :=\beta_{0}^{x, z} + \beta_{1}^{x, z}z \\ y & :=\beta_{0}^{y, z}+ \beta_{1}^{y, z}z \end{aligned} \end{equation}\] mit Residualvariablen \[\begin{equation} \begin{aligned} & \varepsilon^{x, z} := x-\beta_{0}^{x, z} -\beta_{1}^{x, z}z \\ & \varepsilon^{y, z} := y-\beta_{0}^{y, z}-\beta_{1}^{y, z}z \end{aligned} \end{equation}\] Dann ist die partielle Korrelation von \(x\) und \(y\) mit auspartialisiertem \(z\) definiert als \[\begin{equation} \rho(x,y \backslash z):=\rho\left(\varepsilon^{x, z}, \varepsilon^{y, z}\right) . \end{equation}\]
Intuitiv entsprechen in obiger Definition die Zufallsvariable \(\varepsilon^{x, z}\) der Zufallsvariable \(x\), aus der der Einfluss von \(z\) “herausgerechnet” wurde, und die Zufallsvariable \(\varepsilon^{y, z}\) der Zufallsvariable \(y\), aus der der Einfluss von \(z\) “herausgerechnet” wurde. Damit entspricht \(\rho(x,y \backslash z)\) dann intuitiv der Korrelation von \(x\) und \(y\), aus denen jeweils der Einfluss von \(z\) “herausgerechnet” wurde. Wir geben als nächstes einen Schätzer für die partielle Korrelation zweier Zufallsvariablen gegeben eine dritte Zufallsvariable an.
Definition 43.3 (Partielle Stichprobenkorrelation) \(x,y,z\) seien Zufallsvariablen mit linear-affinen Abhängigkeiten zwischen \(y\) und \(z\) sowie zwischen \(x\) und \(z\) wie in der Definition der partiellen Korrelation. Weiterhin seien
- \(\left\{\left(x_{i}, y_{i}, z_{i}\right)\right\}_{i=1, \ldots, n}\) eine Menge von Realisierungen des Zufallsvektors \((x,y,z)^{T}\),
- \(\hat{\beta}_{0}^{x, z}, \hat{\beta}_{1}^{x, z}\) die Ausgleichsgeradenparameter für \(\left\{\left(x_{i}, z_{i}\right)\right\}_{i=1, \ldots, n}\),
- \(\hat{\beta}_{0}^{y, z}, \hat{\beta}_{1}^{y, z}\) die Ausgleichsgeradenparameter für \(\left\{\left(y_{i}, z_{i}\right)\right\}_{i=1, \ldots, n}\).
Schließlich seien für \(i=1, \ldots, n\)
- \(e_{i}^{x, z} := x_{i}-\hat{\beta}_{0}^{x, z} + \hat{\beta}_{1}^{x, z}z_{i}\)
- \(e_{i}^{y, z}:= y_{i}-\hat{\beta}_{0}^{y, z} + \hat{\beta}_{1}^{y, z}z_{i}\)
die Residualwerte der jeweiligen Ausgleichsgeraden. Dann heißt die Stichprobenkorrelation der Wertemenge \(\left\{\left(e_{i}^{y, z}, e_{i}^{x, z}\right)\right\}_{i=1, \ldots, n}\) partielle Stichprobenkorrelation der \(x_{i}\) und \(y_{i}\) mit auspartialisierten \(z_{i}\).
Für den Fall, dass \(x,y,z\) multivariat normalverteilt sind, gibt folgendes Theorem, auf dessen Beweis wir hier verzichten wollen, den Zusammenhang zwischen bedingter und partieller Korrelation an.
Theorem 43.2 (Bedingte und Partielle Korrelation bei Normalverteilung) \(x,y,z\) seien drei gemeinsam multivariat normalverteilte Zufallsvariablen. Dann gilt \[\begin{equation} \rho(x, y \vert z)=\rho(x,y \backslash z) \end{equation}\]
Man beachte, dass obiges Theorem im Falle dreier multivariat normalverteilter Zufallsvariablen gilt. Im Allgemeinen, also für beliebige Verteilungen der drei Zufallsvariablen gilt die Identität von bedingter und partieller Korrelationen nicht. Weitere Details in diesem Zusammenhang diskutieren zum Beispiel Lawrance (1976) und Baba et al. (2004).
Aus Theorem 43.2 folgt mit Theorem 43.2 dann unmittelbar, dass bei gemeinsamer Normalverteilung von \(x,y,z\) die partielle Korrelation \(\rho(x, y \vert z)\) ebenso wie die bedingte Korrelation \(\rho(x,y \backslash z)\) basierend auf den (unbedingten) Korrelationen \(\rho(x,y), \rho(x,z)\) und \(\rho(y, z)\) bestimmt werden kann, bzw. im Falle der jeweiligen Stichprobenäquivalente durch diese geschätzt werden kann.
Folgender R Code demonstriert die Auswertung der partiellen Stichprobenkorrelation basierend auf einem simulierten Datensatz dreier multivariat normalverteilter Zufallsvariablen. Dabei bestimmen wir die partielle Korrelation einmal basierend aus den Residualstichprobenkorrelation wie in Definition 43.3 und einmal basierend auf den paarweisen Stichprobenkorrelationen anhand von Theorem 43.2. Schließlich stellt das R Paket ppcor
mit pcor()
eine Funktion zur automatisierten Auswertung partieller Stichprobenkorrelationen bereit, auch ihre Anwendung demonstrieren wir untenstehend. Das Resultat ist natürlich in allen drei Fällen identisch.
# Modellformulierung und Datenrealisierung
library(MASS) # Multivariate Normalverteilung
set.seed(1) # reproduzierbare Daten
S = matrix(c( 1,.5,.9, # Kovarianzmatrixparameter \Sigma
.5, 1,.5,
.9,.5, 1),nrow=3,byrow=TRUE)
n = 1e6 # Anzahl Realisierungen
xyz = mvrnorm(n,rep(0,3),S) # Realisierungen
# Partielle Stichprobenkorrelation als Residualstichprobenkorrelation
bars = apply(xyz, 2, mean) # Stichprobenmittel
s = apply(xyz, 2, sd) # Stichprobenstandardabweichungen
c = cov(xyz) # Stichprobenkovarianzen
b_xz1 = c[1,3]/c[3,3] # beta_1 (x,z)
b_xz0 = bars[1] - b_xz1*bars[3] # beta_0 (x,z)
b_yz1 = c[2,3]/c[3,3] # beta_1 (y,z)
b_yz0 = bars[2] - b_yz1*bars[3] # beta_0 (y,z)
e_xz = xyz[,1] - b_xz1*xyz[,3] - b_xz0 # Residualwerte e^{x,z}
e_yz = xyz[,2] - b_yz1*xyz[,3] - b_yz0 # Residualwerte e^{y,z}
pr_e = cor(e_xz,e_yz) # \rho(x,y\z)
# Partielle Stichprobenkorrelation aus Stichprobenkorrelationen
r = cor(xyz) # Stichprobenkorrelationsmatrix
pr_r_n = r[1,2]-r[1,3]*r[2,3] # \rho(x,y\z) Formel Zähler
pr_r_d = sqrt((1-r[1,3]^2)*(1-r[2,3]^2)) # \rho(x,y\z) Formel Nenner
pr_r = pr_r_n/pr_r_d # \rho(x,y\z)
# partielle Stichprobenkorrelation aus Toolbox
library(ppcor) # Laden der Toolbox
pr_t = pcor(xyz) # \rho(x,y\z),\rho(x,z\y),\rho(y,z\x)
r(x,y) : 0.5
r(x,y/z) aus Residuenkorrelation : 0.13
r(x,y/z) aus Korrelationen : 0.13
r(x,y/z) aus Toolbox : 0.13
Anwendungsbeispiel
Mithilfe oben eingeführten R Codes wenden wir uns nun abschließend dem eingangs diskutierten Beispiel zum Zusammenhang von Eiskonsum und Sonnenbrandinzidenz zu. Wir nehmen an, dass zu jedem Wertepaar von Eiskonsum \(\left(x_{i}\right)\) und Sonnenbrandinzidenz \(\left(y_{i}\right)\) der korrespondierende Wert der Anzahl der Sommertage \(\left(z_{i}\right)\) im betrachteten Erhebungszeitraum und Land verfügbar ist. Dann eröffnet obige Theorie die Möglichkeit, die partielle Korrelation von Eiskonsum und Sonnenbrandinziden nach Korrektur für die Anzahl der Sommertage zu bestimmen.

Dazu stellt Abbildung 43.3 mit der Achsenbeschriftung Eiskonsum | Sommertage
die Residualwerte \[\begin{equation}
e_{i}^{x, z} := x_{i} -\ hat{\beta}_{0}^{x, z}+\hat{\beta}_{1}^{x, z}z_{i}
\end{equation}\] und mit der Achsenbeschriftung Sonnenbrandinzidenz | Sommertage die Residualwerte
\[\begin{equation}
e_{i}^{y, z} := y_{i}-\hat{\beta}_{0}^{y, z}+\hat{\beta}_{1}^{y, z}z_{i}
\end{equation}\] dar. Man erkennt, dass kein systematischer Zusammenhang hoher bzw. niedriger Werte von Eiskonsum | Sommertage
mit hohen bzw. niedrigen Werten von Sonnenbrandinzidenz | Sommertage
besteht. Die Korrelation dieser Residualwerte beträgt dementsprechend auch nur \(r=0.17\) und nicht, wie im Falle der nicht für die Kovariation mit der Anzahl der Sommertage korrigierten Werte von Eiskonsum und Sonnenbrandinzidenz, \(r=0.46\) (vgl. Abbildung 43.1). Der bei der nicht durch die Anzahl der Sommertage informierten Korrelationsanalyse implizierte Zusammenhang von Eiskonsum und Sonnenbrandinzidenz lässt sich also durch die Kovariation beider Variablen mit der Drittvariable Sommertage aufklären bzw. “wegerklären”.
43.5 Literaturhinweise
Die Theorie partielle und bedingter Korrelationen findet spätestens seit Beginn der modernen Korrelationsanalyse zu Beginn des 20. Jahrhunderts Beachtung, man vergleiche hierzu zum Beispiel Pearson (1920), Yule (1907) oder Fisher (1924).