25  Kovarianzen

25.1 Definition

Definition 25.1 (Kovarianz) Die Kovarianz zweier Zufallsvariablen \(\xi_1\) und \(\xi_2\) ist definiert als \[\begin{equation} \mathbb{C}(\xi_1,\xi_2) := \mathbb{E}\left((\xi_1-\mathbb{E}(\xi_1))(\xi_2-\mathbb{E}(\xi_2))\right). \end{equation}\]

Die Definition der Kovarianz nach Definition 25.1 lässt implizit, dass die in ihr auftauchenden Erwartungswerte unterschiedlicher Natur sind. Dabei geht die Definition der Kovarianz zunächst einmal davon aus, dass \(\xi_1\) und \(\xi_2\) die Komponenten eines Zufallsvektors \(\xi := (\xi_1,\xi_2)\) mit Ergebnisraum \(\mathcal{X}_1 \times \mathcal{X}_2\), gemeinsamer Verteilung \(\mathbb{P}(\xi_1,\xi_2)\) und marginalen Verteilungen \(\mathbb{P}(\xi_1)\) und \(\mathbb{P}(\xi_2)\) sind. Bei den Erwartungswerten \(\mathbb{E}(\xi_1)\) und \(\mathbb{E}(\xi_2)\) handelt es sich um die Erwartungswerte der Komponenten \(\xi_1\) und \(\xi_2\) bezüglich dieser Marginalverteilungen. Die Kovarianz selbst ist dann der Erwartungswert der Funktion \[ f : \mathcal{X}_1 \times \mathcal{X}_2 \to \mathcal{Z}, (x_1,x_2) \mapsto f(x_1,x_2) := (x_1 - \mathbb{E}(\xi_1))(x_2 - \mathbb{E}(\xi_2)) \tag{25.1}\] bezüglich der gemeinsamen Verteilung \(\mathbb{P}(\xi_1,\xi_2)\). Wir wollen dies am Beispiel eines diskreten Zufallsvektors verdeutlichen.

Beispiel

Es \(\xi := (\xi_1,\xi_2)\) ein diskreter Zufallsvektor mit Ergebnisraum \(\mathcal{X} := \{1,2\} \times \{1,2,3\}\) und der in Tabelle 25.1 dargestellten gemeinsamen WMF \(p(x_1,x_2)\) und marginalen WMFen \(p(x_1)\) und \(p(x_2)\).

Tabelle 25.1: Gemeinsame und marginale WMFen des Zufallsvektors \(\xi\)
\(p(x_1,x_2)\) \(x_2 = 1\) \(x_2 = 2\) \(x_2 = 3\) \(p(x_1)\)
\(x_1 = 1\) \(0.10\) \(0.05\) \(0.15\) \(0.30\)
\(x_1 = 2\) \(0.60\) \(0.05\) \(0.05\) \(0.70\)
\(p(x_2)\) \(0.70\) \(0.10\) \(0.20\)

Mit der Definition der Kovarianz von \(\xi_1\) und \(\xi_2\) gilt dann unter Beachtung von Gleichung 25.1 \[\begin{align} \begin{split} \mathbb{C}(\xi_1,\xi_2) & = \mathbb{E}(f(\xi_1,\xi_2)) \\ & = \sum_{x_1 = 1}^2 \sum_{x_2 = 1}^3 f(x_1, x_2)p(x_1,x_2) \\ & = \sum_{x_1 = 1}^2 \sum_{x_2 = 1}^3 (x_1-\mathbb{E}(\xi_1))(x_2-\mathbb{E}(\xi_2))p(x_1,x_2) \\ \end{split} \end{align}\] Einsetzen der Werte aus Tabelle 25.1 ergibt dann zunächst \[\begin{equation} \mathbb{E}(\xi_1) = \sum_{x_1 = 1}^2 x_1 p(x_1) = 1\cdot 0.3 + 2\cdot 0.7 = 1.7 \end{equation}\] und \[\begin{equation} \mathbb{E}(\xi_2) = \sum_{x_2=1}^3 x_2 p(x_2) = 1\cdot 0.7 + 2\cdot 0.1 + 3\cdot 0.2 = 1.5. \end{equation}\] und damit dann schließlich \[\begin{align} \begin{split} \mathbb{C}(\xi_1,\xi_2) & = \sum_{x_1 = 1}^2 \sum_{x_2 = 1}^3 \left(x_1-1.7\right)\left(x_2-1.5\right)p(x_1,x_2) \\ & = \sum_{x_1 = 1}^2 (x_1 -1.7)(1 - 1.5)p(x_1,1) + (x_1 -1.7)(2 - 1.5)p(x_1,2) + (x_1 -1.7)(3 - 1.5)p(x_1,3) \\ & = \quad (1 - 1.7)(1 - 1.5)p(1,1) + (1 - 1.7)(2 - 1.5)p(1,2) + (1 - 1.7)(3 - 1.5)p(1,3) \\ & \quad\quad\,\, (2 - 1.7)(1 - 1.5)p(2,1) + (2 - 1.7)(2 - 1.5)p(2,2) + (2 - 1.7)(3 - 1.5)p(2,3) \\ & = (-0.7)\cdot(-0.5)\cdot 0.10+ (-0.7)\cdot 0.5\cdot 0.05 + (-0.7)\cdot 1.5\cdot 0.15 \\ & \quad\,\, + 0.3\cdot(-0.5)\cdot 0.60 \,\, + 0.3\cdot 0.5\cdot 0.05 \quad\,\, + 0.3\cdot 1.5\cdot 0.05 \\ & = 0.035- 0.0175- 0.1575 - 0.09+ 0.0075+ 0.0225 \\ & = - 0.2. \end{split} \end{align}\] Die Kovarianz der Zufallsvariablen \(\xi_1\) und \(\xi_2\) mit der in obiger Tabelle festgelegter Verteilung ist also \(\mathbb{C}(\xi_1,\xi_2) = -0.2\). Im Gegensatz zur Varianz kann die Kovarianz also offenbar auch negative Werte annehmen.

25.2 Eigenschaften

Wir betrachten im Folgenden einige grundlegende Eigenschaften der Kovarianz.

Theorem 25.1 (Symmetrie der Kovarianz) \(\xi_1\) und \(\xi_2\) seien zwei Zufallsvariablen. Dann gilt \[\begin{equation} \mathbb{C}(\xi_1,\xi_2) = \mathbb{C}(\xi_2,\xi_1) \end{equation}\]

Beweis. Mit der Kommutativität der Multiplikation gilt \[\begin{equation} \mathbb{C}(\xi_1,\xi_2) = \mathbb{E}\left((\xi_1-\mathbb{E}(\xi_1))(\xi_2-\mathbb{E}(\xi_2))\right) = \mathbb{E}\left((\xi_2-\mathbb{E}(\xi_2))(\xi_1-\mathbb{E}(\xi_1))\right) = \mathbb{C}(\xi_2,\xi_1) \end{equation}\]

Wie das Berechnen von Varianzen wird auch das Berechnen von Kovarianzen manchmal durch folgendes Theorem erleichtert.

Theorem 25.2 (Kovarianzverschiebungssatz) \(\xi_1\) und \(\xi_2\) seien Zufallsvariablen. Dann gilt \[\begin{equation} \mathbb{C}(\xi_1,\xi_2) = \mathbb{E}(\xi_1\xi_2) - \mathbb{E}(\xi_1)\mathbb{E}(\xi_2). \end{equation}\]

Beweis. Mit Definition 25.1 gilt \[\begin{align} \begin{split} \mathbb{C}(\xi_1,\xi_2) & = \mathbb{E}\left((\xi_1-\mathbb{E}(\xi_1))(\xi_2-\mathbb{E}(\xi_2))\right) \\ & = \mathbb{E}\left(\xi_1\xi_2-\xi_1\mathbb{E}(\xi_2)-\mathbb{E}(\xi_1)\xi_2+\mathbb{E}(\xi_1)\mathbb{E}(\xi_2)\right) \\ & = \mathbb{E}(\xi_1\xi_2)-\mathbb{E}(\xi_1)\mathbb{E}(\xi_2)-\mathbb{E}(\xi_1)\mathbb{E}(\xi_2)+\mathbb{E}(\xi_1)\mathbb{E}(\xi_2) \\ & = \mathbb{E}(\xi_1\xi_2)-\mathbb{E}(\xi_1)\mathbb{E}(\xi_2). \end{split} \end{align}\]

Natürlich ist Theorem 25.2 nur dann wirklich nützlich, wenn \(\mathbb{E}(\xi_1\xi_2)\) leicht zu berechnen sind. Der Varianzverschiebungssatz nach Theorem 24.5 ergibt sich aus Theorem 25.2 für den Fall \(\xi_1 = \xi_2 := \xi\) anhand von \[\begin{equation} \mathbb{V}(\xi) = \mathbb{C}(\xi,\xi) = \mathbb{E}(\xi\xi) - \mathbb{E}(\xi)\mathbb{E}(\xi) = \mathbb{E}(\xi^2) - \mathbb{E}(\xi)\mathbb{E}(\xi). \end{equation}\]

Auch in Hinblick auf die Kovarianz \(\mathbb{C}(\xi_1,\xi_2)\) ist man daran interessiert, wie sich diese unter Anwendung linear-affiner Transformationen auf \(\xi_2\) und \(\xi_2\) verhält. Folgendes Resultat zeigt, dass die Kovarianz zweier Zufallsvariablen von ihrem Maßstab abhängt.

Theorem 25.3 (Kovarianz bei linear-affinen Transformationen) \(\xi_1\) und \(\xi_2\) seien Zufallsvariablen mit gemeinsamen Ergebnisraum \(\mathcal{X}_1 \times \mathcal{X}_2\) und es seien \[\begin{align} \begin{split} f_1 : \mathcal{X}_1 \to \mathcal{Z}_1, x_1 \mapsto f(x_1) := ax_1 + b \\ f_2 : \mathcal{X}_2 \to \mathcal{Z}_2, x_2 \mapsto f(x_2) := cx_2 + d \end{split} \end{align}\] für \(a,b,c,d\in \mathbb{R}\) zwei linear-affine Funktionen. Dann gilt \[\begin{equation} \mathbb{C}(f_1(\xi_1), f(\xi_2)) = \mathbb{C}(a\xi_1 + b, c\xi_2 + d) = ac\mathbb{C}(\xi_1,\xi_2). \end{equation}\]

Beweis. Es gilt \[\begin{align} \begin{split} \mathbb{C}(a\xi_1+b,c\xi_2+d) & = \mathbb{E}((a\xi_1+b-\mathbb{E}(a\xi_1+b))(c\xi_2+d-\mathbb{E}(c\xi_2+d))) \\ & = \mathbb{E}((a\xi_1+b-a\mathbb{E}(\xi_1)-b)(c\xi_2+d-c\mathbb{E}(\xi_2)-d)) \\ & = \mathbb{E}(a(\xi_1-\mathbb{E}(\xi_1))(c(\xi_2 -c\mathbb{E}(\xi_2))) \\ & = \mathbb{E}(ac((\xi_1-\mathbb{E}(\xi_1))(\xi_2 -c\mathbb{E}(\xi_2)))) \\ & = ac\mathbb{C}(\xi_1,\xi_2). \end{split} \end{align}\]

Mithilfe des Begriffes des Kovarianz ist es möglich, weitgreifenderer Aussagen über die Varianzen von Summen und Differenzen von Zufallsvariablen zu treffen als es in Kapitel 24 der Fall war, wo lediglich unabhängige Zufallsvariablen betrachtetet wurden. Mit dem folgenden Theorem betrachten wir zunächst den sehr allgemeinen Fall der Kovarianz zweier Zufallsvariablen, die sich als Linearkombinationen von \(n\) Zufallsvariablen \(\xi_1,...,\xi_n\) und \(m\) Zufallsvariablen \(\zeta_1,...,\zeta_m\) unter Addition reeller Konstanten ergeben. Hieraus ergeben sich dann eine Reihe von in der Anwendung, insbesondere in der Klassischen Testtheorie, wichtiger Spezialfälle.

Theorem 25.4 (Kovarianz von Linearkombinationen von Zufallsvariablen) Gegeben seien \(n\) Zufallsvariablen \(\xi_1,...,\xi_n\) und \(n+1\) reelle Konstanten \(a_0,a_1,...,a_n\) sowie \(m\) Zufallsvariablen \(\zeta_1,...,\zeta_m\) und \(m + 1\) reelle Konstanten \(b_0,b_1,...,b_m\). Dann gilt \[\begin{equation} \mathbb{C}\left(a_0 + \sum_{i=1}^n a_i \xi_i, b_0 + \sum_{j=1}^m b_j \zeta_j\right) = \sum_{i=1}^n \sum_{j=1}^m a_ib_j\mathbb{C}(\xi_i, \zeta_j). \end{equation}\]

Beweis. \[\begin{align*} \begin{split} & \mathbb{C}\left(a_0 + \sum_{i=1}^n a_i \xi_i, b_0 + \sum_{j=1}^m b_j \zeta_j \right) \\ & = \mathbb{E}\left( \left(a_0 + \sum_{i=1}^n a_i \xi_i - \mathbb{E}\left(a_0 + \sum_{i=1}^n a_i \xi_i\right)\right) \left(b_0 + \sum_{j=1}^m b_j \zeta_j - \mathbb{E}\left(b_0 + \sum_{j=1}^m b_j \zeta_j \right)\right) \right) \\ & = \mathbb{E}\left( \left(a_0 + \sum_{i=1}^n a_i \xi_i - a_0 - \mathbb{E}\left(\sum_{i=1}^n a_i \xi_i\right)\right) \left(b_0 + \sum_{j=1}^m b_j \zeta_j - b_0 - \mathbb{E}\left(\sum_{j=1}^m b_j \zeta_j \right)\right) \right) \\ & = \mathbb{E}\left( \left(\sum_{i=1}^n a_i \xi_i - \sum_{i=1}^n a_i \mathbb{E}(\xi_i) \right) \left(\sum_{j=1}^m b_j \zeta_j - \sum_{j=1}^m b_j \mathbb{E}(\zeta_j)\right) \right) \\ & = \mathbb{E} \left( \sum_{i=1}^n a_i \xi_i\sum_{j=1}^m b_j \zeta_j - \sum_{i=1}^n a_i \xi_i \sum_{j=1}^m b_j \mathbb{E}(\zeta_j) - \sum_{i=1}^n a_i \mathbb{E}(\xi_i)\sum_{j=1}^m b_j \zeta_j + \sum_{i=1}^n a_i \mathbb{E}(\xi_i) \sum_{j=1}^m b_j \mathbb{E}(\zeta_j) \right) \\ & = \mathbb{E}\left(\sum_{i=1}^n a_i \xi_i\sum_{j=1}^m b_j \zeta_j\right) - \mathbb{E}\left(\sum_{i=1}^n a_i \xi_i \sum_{j=1}^m b_j \mathbb{E}(\zeta_j)\right) - \mathbb{E}\left(\sum_{i=1}^n a_i \mathbb{E}(\xi_i)\sum_{j=1}^m b_j \zeta_j\right) + \mathbb{E}\left(\sum_{i=1}^n a_i \mathbb{E}(\xi_i) \sum_{j=1}^m b_j \mathbb{E}(\zeta_j)\right) \\ & = \sum_{i=1}^n \sum_{j=1}^m a_ib_j \mathbb{E}(\xi_i\zeta_j) - 2\sum_{i=1}^n \sum_{j=1}^m a_i b_j \mathbb{E}(\xi_i)\mathbb{E}(\zeta_j) + \sum_{i=1}^n\sum_{j=1}^m a_ib_j \mathbb{E}(\xi_i) \mathbb{E}(\zeta_j) \\ & = \sum_{i=1}^n \sum_{j=1}^m a_ib_j \left(\mathbb{E}(\xi_i\zeta_j) - 2 \mathbb{E}(\xi_i)\mathbb{E}(\zeta_j) +\mathbb{E}(\xi_i)\mathbb{E}(\zeta_j)\right) \\ & = \sum_{i=1}^n \sum_{j=1}^m a_ib_j \mathbb{E}\left((\xi_i - \mathbb{E}(\xi_i))(\zeta_j - \mathbb{E}(\zeta_j))\right) \\ & = \sum_{i=1}^n \sum_{j=1}^m a_ib_j\mathbb{C}(\xi_i, \zeta_j) \end{split} \end{align*}\]

Mit folgenden Theorem betrachten wir nun einen ersten Spezialfall von Theorem 25.4.

Theorem 25.5 (Kovarianz bei paarweiser Addition von Zufallsvariablen) \(\xi_1,\xi_2,\zeta_1,\zeta_2\) seien vier Zufallsvariablen. Dann gilt \[\begin{equation} \mathbb{C}(\xi_1 + \xi_2, \zeta_1 + \zeta_2) = \mathbb{C}(\xi_1,\zeta_1) + \mathbb{C}(\xi_1,\zeta_2) + \mathbb{C}(\xi_2,\zeta_1) + \mathbb{C}(\xi_2,\zeta_2). \end{equation}\]

Beweis. Es seien \(n := 2, m := 2, a_0 = b_0 := 0\) und \(a_i = b_i := 1\) für \(i = 1,2\). Dann gilt mit Theorem 25.4 \[\begin{align} \begin{split} \mathbb{C}\left(\xi_1 +\xi_2, \zeta_1 + \zeta_2 \right) & = \mathbb{C}\left(a_0 + \sum_{i=1}^2 a_i \xi_i, b_0 + \sum_{j=1}^2 b_j \zeta_j \right) \\ & = \sum_{i=1}^2 \sum_{j=1}^2 a_i b_j\mathbb{C}\left(\xi_i, \zeta_j \right) \\ & = \sum_{i=1}^2 \sum_{j=1}^2 \mathbb{C}\left(\xi_i, \zeta_j \right) \\ & = \mathbb{C}\left(\xi_1, \zeta_1\right) + \mathbb{C}\left(\xi_1, \zeta_2 \right) + \mathbb{C}\left(\xi_2, \zeta_1\right) + \mathbb{C}\left(\xi_2, \zeta_2 \right). \end{split} \end{align}\]

Folgendes Theorem besagt nun, wie man im Allgemeinen die Varianz einer Linearkombinationen von Zufallsvariablen unter Addition einer Konstante bestimmt werden kann.

Theorem 25.6 (Varianz einer Linearkombination von Zufallsvariablen) Gegeben seien \(n\) Zufallsvariablen \(\xi_1,...,\xi_n\) und \(n+1\) reelle Konstanten \(a_0,a_1,...,a_n\). Dann gilt \[\begin{equation} \mathbb{V}\left(a_0 + \sum_{i=1}^n a_i \xi_i \right) = \sum_{i=1}^n a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{i=1}^{n-1}\sum_{j= i+ 1}^n a_ia_j\mathbb{C}(\xi_i,\xi_j). \end{equation}\]

Beweis. Mit \(\mathbb{V}(\xi) = \mathbb{C}(\xi,\xi)\) und Theorem 25.4 gilt zunächst \[\begin{align} \begin{split} \mathbb{V}\left(a_0 + \sum_{i=1}^n a_i\xi_i\right) & = \mathbb{C}\left(a_0 + \sum_{i=1}^n a_i\xi_i, a_0 + \sum_{i=1}^n a_i\xi_i\right) \\ & = \mathbb{C}\left(a_0 + \sum_{i=1}^n \xi_i, a_0 + \sum_{j=1}^n a_j \xi_j \right) \\ & = \sum_{i=1}^n \sum_{j=1}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^n\sum_{\substack{j=1 \\ j = i}}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) + \sum_{i=1}^n \sum_{\substack{j=1 \\ j \neq i}}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^n a_i a_i\mathbb{C}(\xi_i,\xi_i) + \sum_{i=1}^n \sum_{\substack{j=1 \\ j \neq i}}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^n a_i^2\mathbb{V}(\xi_i) + \sum_{i=1}^n \sum_{\substack{j=1 \\ j \neq i}}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^n a_i^2\mathbb{V}(\xi_i) + 2 \sum_{i=1}^{n-1}\sum_{j= i+ 1}^na_ia_j \mathbb{C}(\xi_i,\xi_j), \end{split} \end{align}\] Dabei wurde in der vierten Gleichung die Doppelsumme in solche Terme aufgespalten für die \(i = j\) und für die \(i \neq j\) und in siebten Gleichung ausgenutzt, dass \[\begin{equation} a_ia_j\mathbb{C}(\xi_i,\xi_j) = a_ja_i\mathbb{C}(\xi_j,\xi_i). \end{equation}\] Wir verdeutlichen die darausfolgende Identität \[\begin{equation} \sum_{i=1}^n \sum_{\substack{j=1 \\ j \neq i}}^n a_ia_j \mathbb{C}(\xi_i,\xi_j) = 2 \sum_{i=1}^{n-1}\sum_{j= i+ 1}^na_ia_j \mathbb{C}(\xi_i,\xi_j), \end{equation}\] am Beispiel \(n = 3\) untenstehend. Analog mag man sich vorstellen, über alle Elemente außer der Diagonalelemente der \(i = 1,...,n\) Zeilen und \(j = 1,...,n\) Spalten einer symmetrischen Matrix mit Einträgen \(a_ia_j\mathbb{C}(\xi_i,\xi_j)\) zu summieren. Die linke Seite oberer Gleichung entspricht dann dem zeilenweisen Vorgehen der Summationsbildung für alle Spalteneinträge außer dem, der in der Spalte der jeweils betrachteten Zeile steht, d.h. dem Diagonaleintrag. Die rechte Seite der obigen Gleichung entspricht dann dem Vorgehen, die Symmetrie der Matrix auszunutzen, also die Tatsache zu berücksichtigen, dass die Einträge der Matrix rechts oberhalb und links unterhalb der Diagonalen identisch sind, so dass es genügt, die Einträge der oberen linke Hälfte aufzuaddieren und zu verdoppeln. Dabei werden für jede Zeile \(i = 1,...,n\) nur gerade die Spalten \(j = i+1,...,n\) betrachtet, die rechts von der Diagonale stehen und ihre Einträge aufsummiert. In der letzten Zeile steht dabei nur ein Diagonalelement, das nicht zur Summe gehört, weshalb der Index der äußeren Summe nur bis \(n-1\) läuft. Konkret ergibt sich für \(n := 3\) \[\begin{align} \begin{split} & \sum_{i=1}^3\sum_{\substack{j=1 \\ j \neq i}}^3 a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{\substack{j=1 \\ j \neq 1}}^3 a_1a_j\mathbb{C}(\xi_1,\xi_j) + \sum_{\substack{j=1 \\ j \neq 2}}^3 a_2a_j\mathbb{C}(\xi_2,\xi_j) + \sum_{\substack{j=1 \\ j \neq 3}}^3 a_3a_j\mathbb{C}(\xi_3,\xi_j)\\ & = a_1a_2\mathbb{C}(\xi_1,\xi_2) + a_1a_3\mathbb{C}(\xi_1,\xi_3) + a_2a_1\mathbb{C}(\xi_2,\xi_1) + a_2a_3\mathbb{C}(\xi_2,\xi_3) + a_3a_1\mathbb{C}(\xi_3,\xi_1) + a_3a_2\mathbb{C}(\xi_3,\xi_2)\\ & = a_1a_2\mathbb{C}(\xi_1,\xi_2) + a_2a_1\mathbb{C}(\xi_2,\xi_1) + a_1a_3\mathbb{C}(\xi_1,\xi_3) + a_31a_1\mathbb{C}(\xi_3,\xi_1) + a_2a_3\mathbb{C}(\xi_2,\xi_3) + a_3a_2\mathbb{C}(\xi_3,\xi_2)\\ & = 2\mathbb{C}(\xi_1,\xi_2) + 2\mathbb{C}(\xi_1,\xi_3) + 2\mathbb{C}(\xi_2,\xi_3)\\ & = 2a_1a_2\left(\mathbb{C}(\xi_1,\xi_2) + a_1a_3\mathbb{C}(\xi_1,\xi_3) + a_2a_3\mathbb{C}(\xi_2,\xi_3)\right)\\ & = 2\left(\sum_{j=2}^3 a_1a_j\mathbb{C}(\xi_1,\xi_j) + \sum_{j=3}^3 a_2a_j\mathbb{C}(\xi_2,\xi_j)\right)\\ & = 2\left(\sum_{j=1+1}^3 a_1a_j\mathbb{C}(\xi_1,\xi_j) + \sum_{j=2+1}^3 a_2a_j\mathbb{C}(\xi_2,\xi_j)\right)\\ & = 2\sum_{i=1}^{2}\sum_{j=i+1}^3 a_ia_j\mathbb{C}(\xi_i,\xi_j). \end{split} \end{align}\]

Theorem 25.7 (Varianzen spezieller Linearkombinationen von Zufallsvariablen)  

(1) (Varianz bei Addition zweier Zufallsvariablen). Gegeben seien zwei Zufallsvariablen \(\xi\) und \(\zeta\). Dann gilt \[\begin{equation} \mathbb{V}(\xi + \zeta) = \mathbb{V}(\xi) + \mathbb{V}(\zeta) + 2\mathbb{C}(\xi,\zeta) \end{equation}\] (2) (Varianz bei Subtraktion zweier Zufallsvariablen). Gegeben seien zwei Zufallsvariablen \(\xi\) und \(\zeta\). Dann gilt \[\begin{equation} \mathbb{V}(\xi - \zeta) = \mathbb{V}(\xi) + \mathbb{V}(\zeta) - 2\mathbb{C}(\xi,\zeta) \end{equation}\]

Beweis. (1) Es seien \(n := 2\), \(\xi_1 := \xi\), \(\xi_2 := \zeta\), \(a_0 := 0\), \(a_1 := 1\) und \(a_2 := 1\). Dann gilt mit dem Theorem zur Varianz einer Linearkombination von Zufallsvariablen \[\begin{align} \begin{split} \mathbb{V}(\xi + \zeta) & = \mathbb{V}(a_0 + a_1\xi_1 + a_2\xi_2) \\ & = \mathbb{V}\left(a_0 + \sum_{i=1}^2 a_i \xi_i \right) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{i=1}^{2-1}\sum_{j = i+ 1}^2 a_i a_j\mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{i=1}^{1}\sum_{j = i + 1}^2 a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{j = 1 + 1}^2 a_ia_j \mathbb{C}(\xi_1,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{j = 2}^2 a_1a_j\mathbb{C}(\xi_1,\xi_j) \\ & = a_1^2\mathbb{V}(\xi_1) + a_2^2\mathbb{V}(\xi_2) + 2 a_1a_2\mathbb{C}(\xi_1,\xi_2) \\ & = 1^2 \cdot \mathbb{V}(\xi) + 1^2 \cdot \mathbb{V}(\zeta) + 2 \cdot 1 \cdot 1 \cdot \mathbb{C}(\xi,\zeta) \\ & = \mathbb{V}(\xi) + \mathbb{V}(\zeta) + 2 \mathbb{C}(\xi,\zeta). \\ \end{split} \end{align}\] (2) Es seien \(n := 2\), \(\xi_1 := \xi\), \(\xi_2 := \zeta\), \(a_0 := 0\), \(a_1 := 1\) und \(a_2 := -1\). Dann gilt mit dem Theorem zur Varianz einer Linearkombination von Zufallsvariablen \[\begin{align} \begin{split} \mathbb{V}(\xi - \zeta) & = \mathbb{V}(a_0 + a_1\xi_1 + a_2\xi_2) \\ & = \mathbb{V}\left(a_0 + \sum_{i=1}^2 a_i \xi_i \right) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{i=1}^{2-1}\sum_{j = i+ 1}^2 a_i a_j\mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{i=1}^{1}\sum_{j = i + 1}^2 a_ia_j \mathbb{C}(\xi_i,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{j = 1 + 1}^2 a_ia_j \mathbb{C}(\xi_1,\xi_j) \\ & = \sum_{i=1}^2 a_i^2 \mathbb{V}(\xi_i) + 2 \sum_{j = 2}^2 a_1a_j\mathbb{C}(\xi_1,\xi_j) \\ & = a_1^2\mathbb{V}(\xi_1) + a_2^2\mathbb{V}(\xi_2) + 2 a_1a_2\mathbb{C}(\xi_1,\xi_2) \\ & = 1^2\cdot \mathbb{V}(\xi) + (-1)^2 \cdot \mathbb{V}(\zeta) + 2 \cdot 1 \cdot (-1)\cdot \mathbb{C}(\xi,\zeta) \\ & = \mathbb{V}(\xi) + \mathbb{V}(\zeta) - 2 \mathbb{C}(\xi,\zeta). \\ \end{split} \end{align}\]

25.3 Bedingte Kovarianz

Wie den Erwartungswert und die Varianz kann man auch die Kovarianz in einer bedingten gemeinsamen Verteilung zweier Zufallsvariablen betrachten. Dies führt auf den Begriff der bedingten Kovarianz.

Definition 25.2 (Bedingte Kovarianz) Gegeben sei ein Zufallsvektor \(\xi := (\xi_1,\xi_2,\xi_3)\) mit Ergebnisraum \(\mathcal{X} := \mathcal{X}_1 \times \mathcal{X}_2\times \mathcal{X}_3\) und WMF oder WDF \(p(x_1,x_2,x_3)\) und bedingter WMF oder WDF \(p(x_1,x_2|x_3)\) für alle \(x_3 \in \mathcal{X}_3\). Dann ist die bedingte Kovarianz von \(\xi_1\) und \(\xi_2\) gegeben \(\xi_3 = x_3\) definiert als \[\begin{equation} \mathbb{C}(\xi_1,\xi_2|\xi_3 = x_3) = \mathbb{E} \left( \left(\xi_1 - \mathbb{E}\left(\xi_1|\xi_3 = x_3\right)\right) \left(\xi_2 - \mathbb{E}\left(\xi_2|\xi_3 = x_3\right)\right)|\xi_3 = x_3 \right) \end{equation}\]

Die bedingte Kovarianz ist also im Sinne des bedingten Erwartungswerts des Zufallsvektors \((\xi_1,\xi_2)\) definiert und ist, wie der bedingte Erwartungswert und die bedingte Varianz im Allgemeinen eine Zufallsvariable dar. Schließlich halten wir fest, dass auch für die bedingte Kovarianz der Kovarianzverschiebungssatz gilt.

Theorem 25.8 (Verschiebungssatz der bedingten Kovarianz) Gegeben sei ein Zufallsvektor \(\xi := (\xi_1,\xi_2,\xi_3)\). Dann gilt \[\begin{equation} \mathbb{C}(\xi_1, \xi_2|\xi_3) = \mathbb{E}\left(\xi_1\xi_2|\xi_3\right) - \mathbb{E}\left(\xi_1|\xi_3\right)\mathbb{E}\left(\xi_2|\xi_3\right). \end{equation}\]

Beweis. Ein Beweis ergibt sich durch die Ersetzung der entsprechenden Erwartungswerte im Beweis von Theorem 25.2 durch die entsprechenden bedingten Erwartungswerte.

25.4 Kovarianzmatrizen

Das multivariate Analogon der Varianz einer Zufallsvariable ist die Kovarianzmatrix eines Zufallsvektors. Diese enkodiert neben den Varianzen der Komponenten des Zufallsvektors auch ihre paarweisen Kovarianzen und ist wie folgt definiert.

Definition 25.3 (Kovarianzmatrix eines Zufallsvektors) \(\xi\) sei ein \(n\)-dimensionaler Zufallvektor. Dann ist die Kovarianzmatrix von \(\xi\) definiert als die \(n \times n\) Matrix \[\begin{equation} \mathbb{C}(\xi) := \mathbb{E}\left((\xi - \mathbb{E}(\xi))(\xi - \mathbb{E}(\xi))^T \right). \end{equation}\]

Die Kovarianzmatrix ist in Definition 25.3 formal analog zur Kovarianz zweier Zufallsvariablen definiert. Eine direkte Rückführung des Begriffs der Kovarianzmatrix eines Zufallsvektors auf den Begriff aus dem univariaten Kontext bekannten Begriff der Kovarianz zweier Zufallsvariablen erlaubt folgendesTheorem.

Theorem 25.9 (Eigenschaften der Kovarianzmatrix) \(\xi\) sei ein \(m\)-dimensionaler Zufallsvektor und \(\mathbb{C}(\xi)\) sei seine Kovarianzmatrix. Dann gelten

(1) (Elemente) Die Elemente von \(\mathbb{C}(\xi)\) sind die Kovarianzen der Komponenten von \(\xi\), \[\begin{equation} \mathbb{C}(\xi) = \left(\mathbb{C}(\xi_i,\xi_j)\right)_{1 \le i,j \le m}. \end{equation}\]

(2) (Kovarianzmatrixverschiebungssatz) Es gilt \[\begin{equation} \mathbb{C}(\xi) = \mathbb{E}\left(\xi\xi^T\right) - \mathbb{E}(\xi)\mathbb{E}(\xi)^T. \end{equation}\] (3) (Linear-affine Transformation) Für \(A \in \mathbb{R}^{n \times m}\) und \(b \in \mathbb{R}^n\) gilt \[\begin{equation} \mathbb{C}(A\xi +b) = A\mathbb{C}(\xi)A^T. \end{equation}\] (4) (Matrixeigenschaften) \(\mathbb{C}(\xi)\) ist symmetrisch und positiv-semidefinit.

Beweis. (1) Es gilt \[\begin{align} \begin{split} \mathbb{C}(\xi) & := \mathbb{E}\left((\xi - \mathbb{E}(\xi))(\xi - \mathbb{E}(\xi))^T \right) \\ & = \mathbb{E} \left( \left( \begin{pmatrix} \xi_1 \\ \vdots \\ \xi_n \end{pmatrix} - \begin{pmatrix} \mathbb{E}(\xi_1) \\ \vdots \\ \mathbb{E}(\xi_n) \end{pmatrix} \right) \left( \begin{pmatrix} \xi_1 \\ \vdots \\ \xi_n \end{pmatrix} - \begin{pmatrix} \mathbb{E}(\xi_1) \\ \vdots \\ \mathbb{E}(\xi_n) \end{pmatrix} \right)^T \right) \\ & = \mathbb{E} \left( \begin{pmatrix} \xi_1 - \mathbb{E}(\xi_1) \\ \vdots \\ \xi_n - \mathbb{E}(\xi_n) \end{pmatrix} \begin{pmatrix} \xi_1 - \mathbb{E}(\xi_1)\\ \vdots \\ \xi_n - \mathbb{E}(\xi_n) \end{pmatrix}^T \right) \\ & = \mathbb{E} \left( \begin{pmatrix} \xi_1 - \mathbb{E}(\xi_1) \\ \vdots \\ \xi_n - \mathbb{E}(\xi_n) \end{pmatrix} \begin{pmatrix} \xi_1 - \mathbb{E}(\xi_1) & \dots & \xi_n - \mathbb{E}(\xi_n) \end{pmatrix} \right) \\ & = \mathbb{E} \begin{pmatrix} (\xi_1 - \mathbb{E}(\xi_1))(\xi_1 - \mathbb{E}(\xi_1)) & \dots & (\xi_1 - \mathbb{E}(\xi_1))(\xi_n - \mathbb{E}(\xi_n) \\ \vdots & \ddots & \vdots \\ (\xi_n - \mathbb{E}(\xi_n))(\xi_1 - \mathbb{E}(\xi_1)) & \dots & (\xi_n - \mathbb{E}(\xi_n))(\xi_n - \mathbb{E}(\xi_n)) \\ \end{pmatrix} \\ & = \left(\mathbb{E}\left((\xi_i - \mathbb{E}(\xi_i))(\xi_j - \mathbb{E}(\xi_j)) \right) \right)_{1 \le i,j \le n} \\ & = \left(\mathbb{C}(\xi_i,\xi_j)\right)_{1 \le i,j \le n}. \\ \end{split} \end{align}\]

(2) Mit den Eigenschaften von Erwartungswerten gilt \[\begin{align} \begin{split} \mathbb{C}(\xi) & = \mathbb{E}\left((\xi - \mathbb{E}(\xi))(\xi - \mathbb{E}(\xi))^T \right) \\ & = \mathbb{E}\left(\xi\xi^T - \xi\mathbb{E}(\xi)^T - \mathbb{E}(\xi)\xi^T + \mathbb{E}(\xi)\mathbb{E}(\xi)^T \right) \\ & = \mathbb{E}\left(\xi\xi^T\right) - \mathbb{E}(\xi)\mathbb{E}(\xi)^T - \mathbb{E}(\xi)\mathbb{E}(\xi)^T + \mathbb{E}(\xi)\mathbb{E}(\xi)^T \\ & = \mathbb{E}\left(\xi\xi^T\right) - \mathbb{E}(\xi)\mathbb{E}(\xi)^T. \\ \end{split} \end{align}\]

(3) Mit den Eigenschaften von Erwartungswerten gilt \[\begin{align} \begin{split} \mathbb{C}(A\xi+b) & = \mathbb{E}\left((A\xi+b-\mathbb{E}(A\xi+b))(A\xi+b-\mathbb{E}(A\xi+b))^T \right) \\ & = \mathbb{E}\left((A\xi+b-A\mathbb{E}(\xi)-b)(A\xi+b-A\mathbb{E}(\xi)-b)^T \right) \\ & = \mathbb{E}\left((A(\xi-\mathbb{E}(\xi)))(A(\xi-\mathbb{E}(\xi)))^T \right) \\ & = \mathbb{E}\left(A(\xi-\mathbb{E}(\xi))(\xi-\mathbb{E}(\xi))^T A^T\right) \\ & = A\mathbb{E}\left((\xi-\mathbb{E}(\xi))(\xi-\mathbb{E}(\xi))^T\right)A^T \\ & = A\mathbb{C}(\xi)A^T. \\ \end{split} \end{align}\]

(4) Die Symmetrie von \(\mathbb{C}(\xi)\) folgt aus der Symmetrie der Kovarianz einer Zufallsvariable mit \[\begin{equation} \mathbb{C}(\xi_i,\xi_j) = \mathbb{C}(\xi_j, \xi_i) \mbox{ für alle } i = 1,...,m, j = 1,...,m. \end{equation}\] Um die positive Semidefinitheit von \(\mathbb{C}(\xi)\) nachzuweisen, ist zu zeigen, dass \(a^T\mathbb{C}(\xi)a \ge 0\) für alle \(a\in \mathbb{R}^m\) mit \(a \neq 0_m\). Sei also \(a \in \mathbb{R}^m\) mit \(a\neq 0\). Dann gilt mit Aussage (3) für \(A := a^T \in \mathbb{R}^{1\times m}\), dass \[\begin{equation} a^T\mathbb{C}(\xi)a = \mathbb{C}(a^T\xi). \end{equation}\] Weiterhin gilt mit der Definition der Kovarianzmatrix aber, dass \[\begin{equation} \mathbb{C}(a^T\xi) = \mathbb{E}\left(\left(a^T\xi-\mathbb{E}(a^T\xi)\right)^2\right) = \mathbb{V}\left(a^T\xi\right). \end{equation}\] Da mit den Eigenschaften der Varianz die Varianz der Zufallsvariable \(a^T\xi\) aber immer nichtnegativ ist, folgt \[\begin{equation} a^T\mathbb{C}(\xi)a = \mathbb{V}(a^T\xi)\ge 0 \end{equation}\] und damit die positive Semidefinitheit von \(\mathbb{C}(\xi)\).

Die Diagonalelemente von \(\mathbb{C}(\xi)\) sind die Varianzen der Komponenten von \(\xi\), da \[\begin{equation} \mathbb{V}(\xi_i) = \mathbb{C}(\xi_i,\xi_i) \mbox{ für } i = 1,...m. \end{equation}\] Eigenschaften (2) und (3) sind im Wesentlichen analog zu den Eigenschaften der Varianz.

Die Kovarianzmatrix eines Zufallsvektors \(\xi\) ist also die Matrix der Kovarianzen der Komponenten von \(\xi\). Damit ist auch die Kovarianzmatrix direkt im Sinne des Begriffs der Kovarianz von Zufallsvektoren gegeben. Da die Kovarianz einer Zufallsvariable mit sich selbst bekanntlich ihre Varianz ist, enthält die Kovarianzmatrix auf ihrer Diagonalen die Varianzen der Komponenten von \(\xi\).

Folgendes Theorem dokumentiert eine Schreibweise für die Kovarianzmatrix eines partitionierten Zufallsvektors im Sinne von Erwartungswerten von Zufallvektorprodukten an, die zum Beispiel im Rahmen der Kanonischen Korrelationsanalyse hilfreich ist.

Theorem 25.10 (Kovarianzmatrizen von Zufallsvektoren) Es seien \[\begin{equation} \zeta = \begin{pmatrix} \xi \\ \upsilon \end{pmatrix} \mbox{ mit } \mathbb{E}(\zeta) := 0_m \end{equation}\] ein \(m_\xi + m_\upsilon\)-dimensionaler Zufallsvektor und sein Erwartungswertvektor, respektive. Dann kann die \(m \times m\) Kovarianzmatrix von \(\zeta\) geschrieben werden als \[\begin{equation} \mathbb{C}(\zeta) = \begin{pmatrix} \Sigma_{\xi\xi} & \Sigma_{\xi_1\xi_2} \\ \Sigma_{\upsilon\xi} & \Sigma_{\upsilon\upsilon} \\ \end{pmatrix} \in \mathbb{R}^{m \times m} \end{equation}\] wobei \[\begin{align} \begin{split} \Sigma_{\xi\xi} & := \mathbb{E}\left(\xi\xi^T \right) \in \mathbb{R}^{m_\xi \times m_\xi}\\ \Sigma_{\xi_1\xi_2} & := \mathbb{E}\left(\xi_1\xi_2^T \right) \in \mathbb{R}^{m_\xi \times m_\upsilon}\\ \Sigma_{\upsilon\xi} & := \mathbb{E}\left(\upsilon\xi^T \right) \in \mathbb{R}^{m_\upsilon \times m_\xi}\\ \Sigma_{\upsilon\upsilon} & := \mathbb{E}\left(\upsilon\upsilon^T\right) \in \mathbb{R}^{m_\xi \times m_\upsilon} \end{split} \end{align}\]

Beweis. Nach Definition der Kovarianzmatrix eines Zufallsvektors gilt \[\begin{align} \begin{split} \mathbb{C}(z) & = \mathbb{E}\left((\zeta - \mathbb{E}(\zeta))(\zeta - \mathbb{E}(\zeta))^T \right) \\ & = \mathbb{E}\left((\zeta - 0_m)(\zeta - 0_m)^T \right) \\ & = \mathbb{E}\left(\zeta\zeta^T\right)\\ & = \mathbb{E}\left(\begin{pmatrix} \xi \\ \upsilon \end{pmatrix} \begin{pmatrix} \xi^T & \upsilon^T \end{pmatrix} \right) \\ & = \mathbb{E}\left(\begin{pmatrix} \xi\xi^T & \xi_1\xi_2^T \\ \upsilon\xi^T & \upsilon\upsilon^T \end{pmatrix}\right) \\ & = \begin{pmatrix} \mathbb{E}\left(\xi\xi^T\right) & \mathbb{E}\left(\xi_1\xi_2^T\right) \\ \mathbb{E}\left(\upsilon\xi^T\right) & \mathbb{E}\left(\upsilon\upsilon^T\right) \end{pmatrix} \\ & = \begin{pmatrix} \Sigma_{\xi\xi} & \Sigma_{\xi_1\xi_2} \\ \Sigma_{\upsilon\xi} & \Sigma_{\upsilon\upsilon} \\ \end{pmatrix} \end{split} \end{align}\]

Schließlich ist man in manchen Anwendungen an einer normalisierten, maßstabsunabhängigen Repräsentation der Kovarianzen eines Zufallsvektors interessiert. Wie im univariaten Fall bietet sich hierfür die Normalisierung der Kovarianz zweier Zufallsvariablen mithilfe ihrer jeweiligen Varianzen im Sinne einer Korrelation an. Diese Überlegung führt auf den Begriff der Korrelationsmatrix eines Zufallsvektors.

Definition 25.4 (Korrelationsmatrix) \(\xi\) sei ein \(n\)-dimensionaler Zufallsvektor. Dann ist die Korrelationsmatrix von \(\xi\) definiert als die \(n \times n\) Matrix \[\begin{equation} \mathbb{R}(\xi) := \left(\rho_{ij} \right)_{1 \le i,j\le n} = \left(\frac{\mathbb{C}(\xi_i,\xi_j)}{\sqrt{\mathbb{V}(\xi_i)}\sqrt{\mathbb{V}(\xi_j)}}\right)_{1 \le i,j\le n}. \end{equation}\]

Da es sich bei den Varianzen der Komponenten von \(\xi\) um die Diagonalelement der Kovarianzmatrix von \(\xi\) handelt, ist die Korrelationsmatrix natürlich in der Kovarianzmatrix implizit. Weiterhin gelten, wie immer für Korrelationen, für die Einträge \(\rho_{ij}, 1 \le i,j \le n\) der Korrelationsmatrix, dass \[\begin{equation} \rho_{ij} \in [-1,1] \mbox{ für } 1 \le i,j \in n \mbox{ und } \rho_{ii} = 1 \mbox{ für } 1 \le i \le n. \end{equation}\]