45 Multivariate Deskriptivstatistiken
45.1 Datenanalyseszenarien
Wir wollen hier zunächst die im folgenden zu betrachtenden Datenanalyseverfahren anhand der Dimensionalität ihrer unabhängigen Variablen und abhängigen Variablen klassifizieren. Dazu bezeichnen wir wie üblich eine unabhängige Variable mit \(x\) und eine abhängige Variable mit \(y\). Weiterhin sei mit den Subskripten \(i\) und \(j\) bei \(x_{ij}\) und \(y_{ij}\) der Wert der \(j\)ten univariaten Komponente der jeweiligen Variable, beispielsweise ein Testwert, bei der \(i\)ten experimentellen Einheit, beispielsweise einer Proband:in, bezeichnet. Die Gesamtzahl experimenteller Einheiten sei mit \(n\) bezeichnet.
Tabelle 45.1 zeigt das Szenario einer univariaten unabhängigen Variable und einer univariaten abhängigen Variable. Typische in diesem Szenario genutzte Inferenzverfahren sind die Bestimmung der Korrelation von \(x_1\) und \(y_1\), die Durchführung einer einfachen linearen Regression von \(y_1\) auf \(x_1\) und, wenn \(x_1\) eine kategoriale Faktorvariable ist, T-Tests und Varianzanalysen.
\(x_{1}\) | \(y_1\) |
---|---|
\(x_{11}\) | \(y_{11}\) |
\(\vdots\) | \(\vdots\) |
\(x_{n1}\) | \(y_{n1}\) |
Tabelle 45.2 zeigt das Szenario einer multivariaten unabhängigen Variablen und einer univariaten abhängigen Variablen. Typische in diesem Szenario eingesetzte Inferenzverfahren sind die Bestimmung von multiplen und partiellen Korrelationen zwischen \(x_1,...,x_m\) und \(y_1\), die Durchführung von multiplen Regressionsanalysen und Kovarianzanalysen und generell alle datenanalytischen Spezialfälle des Allgemeinen Linearen Modells.
\(x_{1}\) | \(\cdots\) | \(x_{m}\) | \(y_{1}\) |
---|---|---|---|
\(x_{11}\) | \(\cdots\) | \(x_{1m}\) | \(y_{11}\) |
\(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) |
\(x_{n1}\) | \(\cdots\) | \(x_{nm}\) | \(y_{nm}\) |
Tabelle 45.3 zeigt das im Kontext von Einstichproben-T\(^2\)-Tests, der einfaktoriellen multivariaten Varianzanalyse und vielen Szenarien der prädiktiven Modellierung relevante Szenario. In diesem Fall ist die unabhängige Variable univariat und kodiert kategorial ein Faktorlevel bzw. eine Gruppenzugehörigkeit, während die abhängige Variable multivariat ist. Insbesondere in prädiktiven Modellierung wird die unabhängige Variable in diesem Kontext auch als Targetvariable oder Label und die Komponenten der abhängigen Variable als Features bezeichnet.
\(x_{1}\) | \(y_{1}\) | \(\cdots\) | \(y_{m}\) |
---|---|---|---|
\(x_{11}\) | \(y_{11}\) | \(\cdots\) | \(y_{1m}\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(x_{n1}\) | \(y_{n1}\) | \(\cdots\) | \(y_{nm}\) |
Tabelle 45.4 schließlich zeigt das Szenario einer multivariaten unabhängigen Variablen und einer multivariaten abhängigen Variablen. Dies ist das datenanalytische Szenario, das wir im Rahmen der Kanonischen Korrelationsanalyse genauer betrachten wollen und das generell durch das Multivariate Allgemeine Lineare Modell abgebildet und datenanalytisch behandelt werden kann.
\(x_1\) | \(\cdots\) | \(x_{m_x}\) | \(y_1\) | \(\cdots\) | \(y_{m_y}\) |
---|---|---|---|---|---|
\(x_{11}\) | \(\cdots\) | \(x_{1m_x}\) | \(y_{11}\) | \(\cdots\) | \(y_{1m_y}\) |
\(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) |
\(x_{n1}\) | \(\cdots\) | \(x_{nm_x}\) | \(y_{n1}\) | \(\cdots\) | \(y_{nm_y}\) |
45.2 Deskriptivstatistiken
Wir wollen nun einige Standarddeskriptivstatistiken zur Beschreibung multivariater Datensätze diskutieren. Dazu verallgemeinern wir zunächst die aus der univariaten Deskriptivstatistik bekannten Begriffe des Stichprobenmittels und der Stichprobenvarianz und betrachten dann mit den Mahalanobis-Distanzen multivariate Maße für das Verhältnis von Signal zu Rauschen. Wie immer entwickeln sich diese Begriffe vor dem Hintergrund der Annahme, dass es sich bei beobachteten Daten um Realisierungen entsprechender Zufallsvektoren handelt. Im Gegensatz zu der in Kapitel 45.1 betrachteten und aus dem empirischen Kontext bekannten Organisation von Daten experimenteller Einheiten in Zeilen und ihrer jeweiligen abhängigen Variablenkomponenten in Spalten ist dabei eine Organisation der zu einer experimentellen Einheit gehörenden Variablenkomponenten in Spaltenform zielführender und mit den Schreibweisen des univariaten Falles konsistenter.
Stichprobenmittel, -kovarianzmatrix, und -korrelationsmatrix
Definition 45.1 (Stichprobenmittel, -kovarianmatrix und -korrelationsmatrix) \(y_1,...,y_n\) sei eine Menge von \(m\)-dimensionalen Zufallsvektoren, genannt Stichprobe.
Ohne Beweis halten wir fest, dass analog zum univariaten Fall das Stichprobenmittel bei unabhängig und identisch verteilten Zufallsvektoren \(y_1,...,y_n\) ein unverzerrter Schätzer des Stichprobenvariablenerwartungswerts \(\mathbb{E}(y_i) \in \mathbb{R}^m, i = 1,...,n\) ist. Ebenso ist in diesem Fall die Stichprobenkovarianzmatrix ein unverzerrter Schätzer der Stichprobenvariablenkovarianzmatrix \(\mathbb{C}(y_i) \in \mathbb{R}^m, i = 1,...,n\). Zur konkreten Berechnung von Stichprobenmittel, Stichprobenkovarianzmatrix und Stichprobenkorrrelationsmatrix basierend auf einem Datensatz bieten sich die Aussagen des folgenden Theorems an.
Theorem 45.1 (Datenmatrix und Stichprobenstatistiken)
Es sei \[\begin{equation} y := \begin{pmatrix} y_1 & \cdots & y_n \end{pmatrix} \end{equation}\] eine \(m \times n\) , die durch die spaltenweise Konkatenation von \(n\) \(m\)-dimensionalen Zufallvektoren \(y_1, ...,y_n\) gegeben sei. Dann ergeben sichBeweis. Die Darstellung des Stichprobenmittels ergibt sich aus \[\begin{align} \begin{split} \bar{y} & := \frac{1}{n} \sum_{i=1}^ny_i \\ & = \frac{1}{n}\begin{pmatrix} \sum_{i=1}^ny_{i1} \\ \vdots \\ \sum_{i=1}^ny_{im} \end{pmatrix} \\ & = \frac{1}{n}\left(\begin{pmatrix}y_{11} & \cdots &y_{n1} \\ \vdots & \ddots & \vdots \\ y_{1m} & \cdots &y_{nm} \\ \end{pmatrix} \begin{pmatrix} 1 \\ \vdots \\ 1 \end{pmatrix} \right) \\ & = \frac{1}{n}y 1_{n}. \end{split} \end{align}\] Hinsichtlich der Darstellung der Stichprobenkovarianzmatrix halten wir zunächst fest, dass nach Definition gilt, dass \[\begin{align} \begin{split} C & := \frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})(y_i - \bar{y})^T \\ & = \frac{1}{n-1}\sum_{i=1}^n \left(y_iy_i^T-y_i\bar{y}^T - \bar{y}y_i^T+ \bar{y}\bar{y}^T\right) \\ & = \frac{1}{n-1}\left(\sum_{i=1}^ny_iy_i^T- \sum_{i=1}^ny_i\bar{y}^T - \sum_{i=1}^n \bar{y}y_i^T+ \sum_{i=1}^n \bar{y}\bar{y}^T\right) \\ & = \frac{1}{n-1}\left(\sum_{i=1}^ny_iy_i^T- n\bar{y}\bar{y}^T - n\bar{y}\bar{y}^T + n\bar{y}\bar{y}^T\right) \\ & = \frac{1}{n-1}\left(\sum_{i=1}^ny_iy_i^T- n\bar{y}\bar{y}^T\right). \end{split} \end{align}\] Mit \(1_{n}1_{n}^T = 1_{nn}\) ergibt sich dann weiterhin \[\begin{align} \begin{split} y\left(I_n - \frac{1}{n}1_{nn}\right)y^T & = \left(y I_n - \frac{1}{n}y 1_{nn}\right)y^T \\ & = yy^T - \frac{1}{n}y 1_{nn}y^T \\ & = \begin{pmatrix} y_1 & \cdots & y_n\end{pmatrix} \begin{pmatrix} y_1^T \\ \vdots \\ y_n^T\end{pmatrix} - \frac{1}{n}y 1_n 1_n^Ty^T \\ & = \sum_{i=1}^ny_iy_i^T- n\left(\frac{1}{n}y 1_n\right)\left(\frac{1}{n}1_n^Ty^T\right) \\ & = \sum_{i=1}^ny_iy_i^T- n\bar{y}\bar{y}^T \\ & = \frac{1}{n-1}\sum_{i=1}^n (y_i - \bar{y})(y_i - \bar{y})^T \\ & = C. \end{split} \end{align}\] Hinsichtlich der Korrelationsmatrix ergibt sich nach Definition und für ein beliebiges Indexpaar \(i,j\) mit \(1 \le i,j \le m\) schließlich, dass \[\begin{align} \begin{split} R_{{y}_{ij}} & = \frac{(C)_{ij}}{\sqrt{ (C)_{ii}}\sqrt{ (C)_{jj}}} \\ & = \frac{1}{\sqrt{(C)_{ii}}}(C)_{ij}\frac{1}{\sqrt{(C)_{jj}}} \\ & = (DCD)_{ij}. \end{split} \end{align}\]
Folgender R Code wendet die in Theorem 45.1 diskutierten Resultate auf einen Beispieldatensatz mit Datendimensionalität \(m = 4\) und Anzahl experimenteller Einheiten \(n := 12\) an.
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 0.380757 3.206102 0.7449730 -0.4244947 0.8556004 1.207538 3.3079784
[2,] 1.681932 1.070638 0.5125397 0.9248077 3.0000288 1.378733 0.6155732
[3,] 1.085641 4.176583 1.3350276 2.5364696 1.8840799 2.249181 5.0871665
[4,] 3.318340 3.675730 4.0601604 3.4111055 4.5314962 2.481606 4.3065579
[,8] [,9] [,10] [,11] [,12]
[1,] 1.105802 1.456999 0.9228471 0.6659992 0.965274
[2,] 3.869291 2.425100 1.7613529 3.0584830 2.886423
[3,] 3.017396 1.713699 1.3593945 3.4501871 2.981440
[4,] 2.463550 3.699024 3.4717201 3.3479052 3.943103
# Auswertung von Deskriptivstatistiken
n = ncol(Y) # Anzahl Datenvektorealisierungen
I_n = diag(n) # Einheitsmatrix I_n
J_n = matrix(rep(1,n^2), nrow = n) # 1_{nn}
y_bar = (1/n)* Y %*% J_n[,1] # Stichprobenmittel
C = (1/(n-1))*(Y %*% (I_n-(1/n)*J_n) %*% t(Y)) # Stichprobenkovarianzmatrix
D = diag(1/sqrt(diag(C))) # Kov-Korr-Transformationsmatrix
R = D %*% C %*% D # Stichprobenkorrelationsmatrix
[,1]
[1,] 1.199615
[2,] 1.932075
[3,] 2.573022
[4,] 3.559191
[,1] [,2] [,3] [,4]
[1,] 1.1450788 -0.29291622 0.91837375 0.16929650
[2,] -0.2929162 1.20170927 -0.09630563 -0.16923746
[3,] 0.9183737 -0.09630563 1.50573951 0.08718263
[4,] 0.1692965 -0.16923746 0.08718263 0.40266165
[,1] [,2] [,3] [,4]
[1,] 1.0000000 -0.24970431 0.69940198 0.2493218
[2,] -0.2497043 1.00000000 -0.07159407 -0.2432913
[3,] 0.6994020 -0.07159407 1.00000000 0.1119657
[4,] 0.2493218 -0.24329134 0.11196568 1.0000000
Mahalanobis-Distanzen
Abschließend wollen wir mit den sogenannten Mahalanobis-Distanzen multivariate Generalisierungen von aus der univariaten Anwendung bekannten Signal-zu-Rauschen-Maßen betrachten. Wir definieren den Begriff der Mahalanobis-Distanz wie folgt.
Definition 45.2 (Mahalanobis-Distanzen) \(x_1\) sei ein Zufallsvektor, eine Realisation eines Zufallsvektors, ein multivariater Erwartungswert oder ein multivariates Stichprobenmittel, \(x_2\) sei ein Zufallsvektor, eine Realisation eines Zufallsvektors, ein multivariater Erwartungswert oder ein multivariates Stichprobenmittel und \(X\) sei eine Kovarianzmatrix oder eine Stichprobenkovarianzmatrix. Dann heißt \[\begin{equation} D = \left(x_1 - x_2 \right)^TX^{-1}\left(x_1 - x_2\right) \end{equation}\] von \(x_1\) und \(x_2\) hinsichtlich \(X\).
Eine Mahalanobis-Distanz ist damit eine durch eine Kovarianzmatrix normalisierte quadrierte Euklidische Distanz (vgl. Kapitel 8.2). Ähnliche Maße für das Verhältnis eines Abstandes und einer Variabilität sind bekanntlich die \(z\)-Transformation \(z = (y - \mu)/\sigma\) für \(y \in \mathbb{R}\) und die Parameter \(\mu,\sigma^2>0\) einer univariaten Normalverteilung sowie Cohen’s \(d = (\bar{y}_1-\bar{y}_2)/s_{12}\) für zwei Stichprobenmittel \(\bar{y}_1\) und \(\bar{y}_2\) und ihre korrespondierende gepoolte Stichprobenstandardabweichung \(s_{12}\). Im Unterschied zur Mahalanobis-Distanz sind diese Maße allerdings nicht quadriert und damit Vorzeichen behaftet. In Analogie zur \(z\)-Transformation oder zu Cohen’s \(d\) wird allerdings auch bei Mahalanobis-Distanzen ein Abstand in Einheiten von Variabilität gemessen. Bei Cohen’s \(d\) bedeutet ja ein Wert von \(d = 1\) gerade, dass der Abstand von \(\bar{y}_1\) und \(\bar{y}_2\) eine gepoolte Standardabweichung beträgt. Ebenso verhält es sich mit den Mahalanobis-Distanzen.
Anhand von Abbildung 45.1 und Abbildung 45.2 wollen wir den Einfluss der Varianz und der Kovarianz von Komponenten der \(x_1\) und \(x_2\) auf ihre Mahalanobis-Distanz noch etwas genauer betrachten. Die Titel der Unterabbildungen von Abbildung 45.1 zeigen die Mahalanobis-Distanzen der Vektoren \(x_1 := (-1,-1)^T\) und \(x_2 := (1,1)^T\) bei Kovarianzmatrizen von \[\begin{equation} \Sigma_1 := \begin{pmatrix} 1.0 & 0.0 \\ 0.0 & 1.0\end{pmatrix}, \Sigma_2 := \begin{pmatrix} 0.5 & 0.0 \\ 0.0 & 0.5\end{pmatrix} \mbox{ und } \Sigma_3 := \begin{pmatrix} 1.5 & 0.0 \\ 0.0 & 1.5\end{pmatrix}, \end{equation}\] die mithilfe von Normalverteilungsisokonturen dargestellt sind. Für \(\Sigma_1\) entspricht die Mahalanobis-Distanz dabei der quadrierten Euklidischen Distanz von \(x_1\) und \(x_2\). An der Darstellung zu \(\Sigma_2\) erkennt man, dass im Fall sphärischer Kovarianzmatrizen eine geringere Komponentenvarianz von \(x_1\) und \(x_2\) zu einer größeren Mahalanobis-Distanz führt. Umgekehrt erkennt man an der Darstellung zu \(\Sigma_3\), dass im Fall sphärischer Kovarianzmatrizen eine höhere Komponentenvarianz von \(x_1\) und \(x_2\) in einer kleineren Mahalanobis-Distanz resultiert. Intuitiv nähert die Komponentenvarianz die Komponenten also an.

Die Titel der Unterabbildungen von Abbildung 45.2 zeigen die Mahalanobis-Distanzen derselben Vektoren bei Kovarianzmatrizen von \[\begin{equation} \Sigma_1 := \begin{pmatrix} 1.0 & 0.0 \\ 0.0 & 1.0\end{pmatrix}, \Sigma_2 := \begin{pmatrix} 1.0 & 0.9 \\ 0.9 & 1.0\end{pmatrix}\mbox{ und } \Sigma_3 := \begin{pmatrix*}[r] 1.0 & -0.9 \\ -0.9 & 1.0\end{pmatrix*}, \end{equation}\] Für \(\Sigma_1\) entspricht dabei wiederrum die die Mahalanobis-Distanz der quadrierten Euklidischen Distanz von \(x_1\) und \(x_2\). An der Darstellung zu \(\Sigma_2\) erkennt man, dass eine stark positive Kovarianz der Komponenten von \(x_1\) und \(x_2\) in einer kleineren Mahalanobis-Distanz resultiert. Umgekehrt erkennt man an der Darstellung zu \(\Sigma_3\), dass eine stark negative Kovarianz der Komponenten von \(x_1\) und \(x_2\) zu einer größeren Mahalanobis-Distanz führt. Intuitiv nähert also auch die Kovarianz von Komponenten \(x_1\) und \(x_2\) an. Alternativ kann man die Höhe einer Mahalanobis-Distanz dabei auch als ein Maß für die Unwahrscheinlichkeit der Realisierung zweier Werte eines Zufallsvektors bei einer gegebenen Kovarianzmatrix verstehen.

45.3 Literaturhinweise
Die Resultate zur Matrixdarstellung von Stichprobenmittel, Stichprobenkovarianzmatrix und Stichprobenkorrelationsmatrix folgen Rencher & Christensen (2012). Der Begriff der Mahalanobis-Distanz geht zurück auf Mahalanobis (1936).