23  Erwartungswerte

23.1 Definition

Definition 23.1 (Erwartungswert einer Zufallsvariable) \((\Omega, \mathcal{A},\mathbb{P})\) sei ein Wahrscheinlichkeitsraum und \(\xi\) sei eine Zufallsvariable. Dann ist der Erwartungswert von \(\xi\) definiert als

  • \(\mathbb{E}(\xi) := \sum_{x \in \mathcal{X}} x\,p(x)\), wenn \(\xi : \Omega \to \mathcal{X}\) diskret mit WMF \(p\) ist.
  • \(\mathbb{E}(\xi) := \int_{-\infty}^\infty x \,p(x)\,dx\), wenn \(\xi : \Omega \to \mathbb{R}\) kontinuierlich mit WDF \(p\) ist.

Der Erwartungswert ist also eine skalare Zusammenfassung der Verteilung einer Zufallsvariable. Eine Definition des Erwartungswertes, die ohne eine Fallunterscheidung in kontinuierliche und diskrete Zufallsvariablen auskommt, ist möglich, erfordert aber mit der Einführung des Lebesgue-Integrals einigen technischen Aufwand. Wir verweisen dafür auf die weiterführende Literatur (vgl. Schmidt (2009), Meintrup & Schäffler (2005)). Intuitiv entspricht der Erwartungswert einer Zufallsvariable dem im langfristigen Mittel zu erwartenden Wert der Zufallsvariable. Wir betrachten drei Beispiele für Definition 23.1.

Beispiele

Theorem 23.1 (Erwartungswert einer diskreten Zufallsvariable) \(\xi\) sei eine Zufallsvariable mit Ergebnisraum \(\mathcal{X} := \{-1,0,1\}\) und WMF
\[\begin{equation} p(-1) = \frac{1}{4}, \quad p(0) = \frac{1}{2}, \quad p(1) = \frac{1}{4}. \end{equation}\] Dann gilt \[\begin{equation} \mathbb{E}(\xi) = 0. \end{equation}\]

Beweis. Nach Definition 23.1 ergibt sich \[\begin{align} \begin{split} \mathbb{E}(\xi) & = \sum_{x \in \mathcal{X}} x p(x) \\ & = -1 \cdot p(-1) + 0 \cdot p(0) + 1 \cdot p(1) \\ & = -1 \cdot \frac{1}{4} + 0 \cdot \frac{1}{2} + 1 \cdot \frac{1}{4} \\ & = 0. \end{split} \end{align}\]

Theorem 23.2 (Erwartungswert einer Bernoulli Zufallsvariable) Es sei \(\xi \sim \mbox{Bern}(\mu)\). Dann gilt \(\mathbb{E}(\xi) = \mu\).

Beweis. \(\xi\) ist diskret mit \(\mathcal{X} = \{0,1\}\). Also gilt nach Definition 23.1 \[\begin{align} \begin{split} & = \sum_{x \in \{0,1\}} x\,\mbox{Bern}(x;\mu) \\ & = 0\cdot \mu^0 (1 - \mu)^{1-0} + 1\cdot \mu^1 (1 - \mu)^{1-1} \\ & = 1\cdot \mu^1 (1 - \mu)^{0} \\ & = \mu. \end{split} \end{align}\]

Theorem 23.3 (Erwartungswert einer normalverteilten Zufallsvariable) Es sei \(\xi \sim N(\mu,\sigma^2)\). Dann gilt \(\mathbb{E}(\xi) = \mu\).

Beweis. Wir verzichten auf einen Beweis.

In Verallgemeinerung von Definition 23.1 gilt folgende Definition für den Erwartungswert einer Funktion einer Zufallsvariable.

Definition 23.2 (Erwartungswert einer Funktion einer Zufallsvariable) \((\Omega, \mathcal{A},\mathbb{P})\) sei ein Wahrscheinlichkeitsraum, \(\xi\) sei eine Zufallsvariable mit Ergebnisraum \(\mathcal{X}\) und \(f: \mathcal{X} \to \mathcal{Z}\) sei eine Funktion mit Zielmenge \(\mathcal{Z}\). Dann ist der Erwartungswert der Funktion \(f\) der Zufallsvariable \(\xi\) definiert als

  • \(\mathbb{E}(f(\xi)) := \sum_{x \in \mathcal{X}} f(x)\,p(x)\), wenn \(\xi : \Omega \to \mathcal{X}\) diskret mit WMF \(p\) ist,
  • \(\mathbb{E}(f(\xi)) := \int_{-\infty}^\infty f(x) \,p(x)\,dx\), wenn \(\xi : \Omega \to \mathbb{R}\) kontinuierlich mit WDF \(p\) ist.

Der Erwartungswert einer Zufallsvariable ergibt sich anhand von Definition 23.2 als der Spezialfall, in dem gilt, dass \[\begin{equation} f : \mathcal{X} \to \mathcal{Z}, x \mapsto f(x) := x. \end{equation}\] In der englischsprachigen Literatur ist Definition 23.2 auch als law of the unconscious statistician bekannt und wird oft auch direkt zur Definition des Erwartungswertes herangezogen. Folgendes Theorem gibt ein erstes Beispiel für den Erwartungswert einer Funktion einer Zufallsvariable.

Theorem 23.4 (Erwartungswert bei linear-affiner Transformation einer Zufallsvariable) \(\xi\) sei eine Zufallsvariable mit Ergebnisraum \(\mathcal{X}\) und es sei \[\begin{equation} f : \mathcal{X} \to \mathcal{Z}, x \mapsto f(x) := ax + b \mbox{ für } a,b \in \mathbb{R} \end{equation}\] eine linear-affine Funktion. Dann gilt \[\begin{equation} \mathbb{E}(f(\xi)) = \mathbb{E}(a\xi + b) = a\mathbb{E}(\xi) + b. \end{equation}\]

Beweis. Die Aussage des Theorems folgt mit den Linearitätseigenschaften von Summen und Integralen. Wir betrachten den Fall einer diskreten Zufallsvariable \(\xi\) mit endlichem Ergebnisraum \(\mathcal{X}\) und WMF \(p\). Es gilt \[\begin{align} \begin{split} \mathbb{E}(f(\xi)) & = \mathbb{E}(a\xi + b) \\ & = \sum_{x \in \mathcal{X}} (ax + b)p(x) \\ & = \sum_{x \in \mathcal{X}} axp(x) + b p(x) \\ & = a\sum_{x \in \mathcal{X}} xp(x) + b \sum_{x \in \mathcal{X}} p(x) \\ & = a\mathbb{E}(\xi) + b. \end{split} \end{align}\]

In Analogie zu Definition 23.2 definiert man für die Funktion eines Zufallsvektors den Erwartungswert dieser Transformation wie folgt.

Definition 23.3 (Erwartungswert einer Funktion eines Zufallsvektors) \((\Omega, \mathcal{A},\mathbb{P})\) sei ein Wahrscheinlichkeitsraum, \(\xi\) sei ein Zufallsvektor mit Ergebnisraum \(\mathcal{X}\) und \(f: \mathcal{X} \to \mathcal{Z}\) sei eine Funktion mit Zielmenge \(\mathcal{Z}\). Dann ist der Erwartungswert der Funktion \(f\) des Zufallsvektors \(\xi\) definiert als

  • \(\mathbb{E}(f(\xi)) := \sum_{x \in \mathcal{X}} f(x)\,p(x)\), wenn \(\xi : \Omega \to \mathcal{X}\) diskret mit WMF \(p\) ist,
  • \(\mathbb{E}(f(\xi)) := \int_{-\infty}^\infty f(x) \,p(x)\,dx\), wenn \(\xi : \Omega \to \mathbb{R}\) kontinuierlich mit WDF \(p\) ist.

23.2 Eigenschaften

Theorem 23.5 (Erwartungswert bei linear-affiner Kombination) \(\xi\) sei ein \(n\)-dimensionaler Zufallsvektor mit Komponenten \(\xi_1,...,\xi_n\) und Ergebnisraum \(\mathcal{X} := \mathcal{X}_1 \times \cdots \times \mathcal{X}_n\). Weiterhin sei \[\begin{equation} f : \mathcal{X} \to \mathcal{Z}, x \mapsto f(x) := a_0 + \sum_{i=1}^n a_ix_i \mbox{ für } a_0,...,a_n \in \mathbb{R}. \end{equation}\] eine linear-affine Kombination der Komponenten von \(\xi\). Dann gilt \[\begin{equation} \mathbb{E}(f(\xi)) = \mathbb{E}\left(a_0 +\sum_{i=1}^n a_i\xi_i \right) = a_0 + \sum_{i = 1}^n a_i \mathbb{E}(\xi_i). \end{equation}\]

Beweis. Wie unten gezeigt, folgt das Theorem mit den Linearitätseigenschaften von Summen und Integralen, sowie Fubini’s Theorem zur Vertauschung von Summations- bzw. Integrationsreihenfolge. Zur Vereinfachung der Notation schreiben wir untenstehend \(\sum_{x_i \in \mathcal{X}_i}\) als \(\sum_{x_i}\). Es gilt dann \[\begin{align} \begin{split} \mathbb{E}(f(\xi)) & = \mathbb{E}\left(a_0 + \sum_{i=1}^{n} a_i\xi_i\right) \\ & = \mathbb{E}(a_0 + a_1\xi_1 + \cdots + a_{n}\xi_{n}) \\ & = \sum_{x_1}\cdots\sum_{x_n} (a_0 + a_1x_1 + \cdots a_{n}x_{n})p(x_1,...,x_{n}) \\ & = \sum_{x_1}\cdots\sum_{x_n} a_0p(x_1,...,x_n) + a_1x_1p(x_1,...,x_n) + \cdots + a_nx_np(x_1,...,x_n) \\ & = \sum_{x_1}\cdots\sum_{x_n} a_0p(x_1,...,x_n) + \sum_{x_1}\cdots\sum_{x_n} a_1x_1p(x_1,...,x_n) + \cdots + \sum_{x_1}\cdots\sum_{x_n} a_nx_np(x_1,...,x_n) \\ & = a_0\sum_{x_1}\cdots\sum_{x_n}p(x_1,...,x_n) + a_1\sum_{x_1}\cdots\sum_{x_n} x_1p(x_1,...,x_n) + \cdots + a_n\sum_{x_n}\cdots\sum_{x_1} x_np(x_1,...,x_n) \\ & = a_0 + a_1\sum_{x_1}x_1 \sum_{x_2} \cdots\sum_{x_n} p(x_1,...,x_n) + \cdots + a_n\sum_{x_n}x_n \sum_{x_{n-1}} \cdots\sum_{x_1} p(x_1,...,x_n) \\ & = a_0 + a_1\sum_{x_1}x_1 p(x_1) + \cdots + a_n\sum_{x_n}x_n p(x_n) \\ & = a_0 + a_1\mathbb{E}(\xi_1) + \cdots + a_n\mathbb{E}(\xi_n) \\ & = a_0 + \sum_{i=1}^n a_i\mathbb{E}(\xi_i) \end{split} \end{align}\]

23.3 Bedingter Erwartungswert

Betrachtet man bei der Bildung eines Erwartungswertes nun anstelle der Verteilung einer Zufallsvariable die bedingte Verteilung einer Zufallsvariable, so ist man entsprechend auf den Begriff des bedingten Erwartungswerts geführt.

Definition 23.4 (Bedingter Erwartungswert) Gegeben sei ein Zufallsvektor \(\xi := (\xi_1,\xi_2)\) mit Ergebnisraum \(\mathcal{X} := \mathcal{X}_1 \times \mathcal{X}_2\), WMF oder WDF \(p(x_1,x_2)\) und bedingter WMF oder WDF \(p(x_1|x_2)\) für alle \(x_2 \in \mathcal{X}_2\). Dann ist der bedingte Erwartungswert von \(\xi_1\) gegeben \(\xi_2 = x_2\) definiert als

  • \(\mathbb{E}(\xi_1|\xi_2 = x_2) := \sum_{x_1 \in \mathcal{X}_1}x_1p(x_1|x_2)\), wenn \(\xi\) ein diskreter Zufallsvektor ist.
  • \(\mathbb{E}(\xi_1|\xi_2 = x_2) := \int_{\mathcal{X}_1}x_1p(x_1|x_2)\,dx_1\), wenn \(\xi\) ein kontinuierlicher Zufallsvektor ist.

Der bedingte Erwartungswert einer Zufallsvariable ist also der Erwartungswert einer Zufallsvariable in einer bedingten Verteilung. Man beachte, dass wir in Definition 23.4 den bedingten Erwartungswert für einen festen Wert \(x_2\) von \(\xi_2\) definiert habe. Bei einem festen Wert \(x_2\) von \(\xi_2\) ist \(\mathbb{E}(\xi_1|\xi_2 = x_2)\) damit ein fester Wert und durch Austauschen der Subskripte erhält man entsprechend \(\mathbb{E}(\xi_2|\xi_1 = x_1)\).

Allgemein ist \(\mathbb{E}(\xi_1|\xi_2)\) allerdings eine Zufallsvariable, da \(\xi_2\) eine Zufallsvariable ist und nur mit einer gewissen Wahrscheinlichkeit einen Wert \(\xi_2 = x_2\) annimmt. Wir werden später sehen, dass analog zu Definition 23.4 bedingte Varianzen, bedingte Kovarianzen und bedingte Korrelationen definiert werden. In der Psychologie ist der Begriff des bedingten Erwartungswerts zentral, denn in der klassischen Testtheorie sind die wahren Werte von Personen bei Testmessungen
als bedingte Erwartungswerte definiert. Zur Verdeutlichung von Definition 23.4 betrachten wir ein Beispiel für einen diskreten Zufallsvektor.

Beispiel

Für einen zweidimensionalen Zufallsvektor \(\xi:= (\xi_1,\xi_2)\), der Werte in \(\mathcal{X} := \mathcal{X}_1 \times \mathcal{X}_2\) mit \(\mathcal{X}_1 := \{1,2,3\}\) und \(\mathcal{X}_2 = \{1,2,3,4\}\) annehme seien bedingte WMFen für \(p(x_2|x_1)\) für alle \(x_1 \in \mathcal{X}_1\) wie in Tabelle 23.1 spezifiziert

Tabelle 23.1: Bedingte Wahrscheinlichkeitsverteilung von \(x_2\) gegeben \(x_1\)
\(p(x_2|x_1)\) \(x_2 = 1\) \(x_2 = 2\) \(x_2 = 3\) \(x_2 = 4\)
\(p(x_2|x_1 = 1)\) \(\frac{1}{4}\) \(0\) \(\frac{1}{2}\) \(\frac{1}{4}\)
\(p(x_2|x_1 = 2)\) \(\frac{1}{3}\) \(\frac{2}{3}\) \(0\) \(0\)
\(p(x_2|x_1 = 3)\) \(0\) \(\frac{1}{3}\) \(\frac{1}{3}\) \(\frac{1}{3}\)

Dann ergeben sich die bedingten Erwartungswerte \[\begin{align} \begin{split} \mathbb{E}(\xi_2|\xi_1 = 1) & = \sum_{x_2 \in \mathcal{X}_2}x_2p(x_2|x_1 = 1) = 1 \cdot \frac{1}{4} + 2 \cdot 0 + 3 \cdot \frac{1}{2} + 4 \cdot \frac{1}{4} = \frac{11}{4} \\ \mathbb{E}(\xi_2|\xi_1 = 2) & = \sum_{x_2 \in \mathcal{X}_2}x_2p(x_2|x_1 = 2) = 1 \cdot \frac{1}{3} + 2 \cdot \frac{2}{3} + 3 \cdot 0 + 4 \cdot 0 = \frac{5}{3} \\ \mathbb{E}(\xi_2|\xi_1 = 3) & = \sum_{x_2 \in \mathcal{X}_2}x_2p(x_2|x_1 = 3) = 1 \cdot 0 + 2 \cdot \frac{1}{3} + 3 \cdot \frac{1}{3} + 4 \cdot \frac{1}{3} = \frac{8}{3}. \end{split} \end{align}\]

Das folgende Theorem, der sogenannte Satz vom iterierten Erwartungswert, stellt einen Zusammenhang zwischen dem (marginalen) Erwartungswert einer Zufallsvariable und dem bedingten Erwartungswert dieser Zufallsvariable her. Das Theorem wird manchmal auch als Satz vom totalen Erwartungswert bezeichnet.

Theorem 23.6 (Satz vom iterierten Erwartungswert) Gegeben sei ein Zufallsvektor \(\xi := (\xi_1,\xi_2)\). Dann gilt \[\begin{equation} \mathbb{E}(\xi_1) = \mathbb{E}\left(\mathbb{E}\left(\xi_1|\xi_2\right)\right). \end{equation}\]

Beweis. Wir beschränken uns auf den Beweis für einen diskreten Zufallsvektor, der Beweis für einen kontinuierlichen Zufallsvektor folgt analog. Es gilt \[\begin{align} \begin{split} \mathbb{E}(\xi_1) & = \sum_{x_1\in \mathcal{X}_1}x_1p(x_1) \\ & = \sum_{x_1 \in \mathcal{X}_1}x_1\sum_{x_2 \in \mathcal{X}_2} p(x_1,x_2) \\ & = \sum_{x_1\in \mathcal{X}_1}x_1\sum_{x_2 \in \mathcal{X}_2} p(x_1|x_2)p(x_2) \\ & = \sum_{x_1\in \mathcal{X}_1}\sum_{x_2 \in \mathcal{X}_2} x_1 p(x_1|x_2)p(x_2) \\ & = \sum_{x_2\in \mathcal{X}_2}\sum_{x_1 \in \mathcal{X}_1} x_1 p(x_1|x_2)p(x_2) \\ & = \sum_{x_2\in \mathcal{X}_2}\mathbb{E}(\xi_1|\xi_2 = x_2)p(x_2) \\ & = \mathbb{E}\left(\mathbb{E}(\xi_1|\xi_2 )\right). \\ \end{split} \end{align}\]

Offenbar bezeichnen die verschiedenen Erwartungswerte in Theorem 23.6 Erwartungswert bezüglich unterschiedlicher Verteilungen: der Erwartungswert auf der linken Seite der Gleichung bezeichnet den Erwartungswert bezüglich der marginalen Verteilung von \(\xi_1\), der äußere Erwartungswert auf der rechten Seite der Gleichung bezeichnet den Erwartungswert bezüglich der marginalen Verteilung von \(\xi_2\) und der innere Erwartungswert auf der rechten Seite der Gleichung bezeichnet den bedingten Erwartungswert von \(\xi_1\) gegeben \(\xi_2\)

Meintrup, D., & Schäffler, S. (2005). Stochastik: Theorie und Anwendungen. Springer.
Schmidt, K. D. (2009). Maß und Wahrscheinlichkeit. Springer.