20  Elementare Wahrscheinlichkeiten

In diesem Abschnitt führen wir mit den Begriffen der gemeinsamen Wahrscheinlichkeit zweier Ereignisse und der bedingten Wahrscheinlichkeit eines Ereignisses zwei elementare Formen von Wahrscheinlichkeiten ein. Intuitiv bezieht sich der Begriff der gemeinsamen Wahrscheinlichkeit auf die Wahrscheinlichkeit des “gleichzeitigen” Eintretens zweier Ereignisse \(A\) und \(B\) und der Begriff der bedingten Wahrscheinlichkeit auf die Wahrscheinlichkeit des Eintretens eines Ereignisses \(A\), “wenn man um das Eintreten eines anderen Ereignisses \(B\) weiß”. Ist es für die Wahrscheinlichkeit eines Ereignisses \(A\) unerheblich, ob ein Ereignis \(B\) eingetreten ist oder nicht, so nennt man \(A\) und \(B\) unabhängige Ereignisse. Intuitiv modellieren unabhängige Ereignisse die Abwesenheit gegenseitiger Einflüsse.

20.1 Gemeinsame Wahrscheinlichkeiten

Der Begriff der gemeinsamen Wahrscheinlichkeit zweier Ereignisse ist wie folgt definiert.

Definition 20.1 (Gemeinsame Wahrscheinlichkeit) \((\Omega, \mathcal{A}, \mathbb{P})\) sei ein Wahrscheinlichkeitsraum und es seien \(A,B \in \mathcal{A}\). Dann heißt \[\begin{equation} \mathbb{P}(A \cap B) \end{equation}\] die gemeinsame Wahrscheinlichkeit von \(A\) und \(B\).

Wie oben angemerkt entspricht \(\mathbb{P}(A \cap B)\) der Wahrscheinlichkeit dafür, dass die Ereignisse \(A\) und \(B\) “gleichzeitig” eintreten. Dies verdeutlicht man sich am besten vor dem Hintergrund der Mechanik des Wahrscheinlichkeitsraummodells. Danach ist \(\mathbb{P}(A \cap B)\) eben die Wahrscheinlichkeit, dass in einem Durchgang eines Zufallsvorgangs ein \(\omega\) realisiert wird, für das sowohl \(\omega \in A\) als auch \(\omega \in B\) gelten.

Beispiel

Als erstes Beispiel für eine gemeinsame Wahrscheinlichkeit zweier Ereignisse wollen wir wieder das Wahrscheinlichkeitsraummodell des Werfens eines fairen Würfels betrachten. Seien dazu \(A\) das Ereignis “Es fällt eine gerade Augenzahl”, also \(A := \{2,4,6\}\) und \(B\) das Ereignis “Es fällt eine Augenzahl größer als drei”, also \(B := \{4,5,6\}\). Mengentheoretisch gilt dann \[\begin{equation} A \cap B = \{2,4,6\} \cap \{4,5,6\} = \{4,6\}. \end{equation}\] Die Interpretation von \(A \cap B = \{4,6\}\) ist dabei gerade “Es fällt eine gerade Augenzahl und diese Augenzahl ist größer als Drei”. Bei Annahme der Fairness des Würfels, also für \(\mathbb{P}(\{4\}) = \mathbb{P}(\{6\}) := 1/6\) können wir mithilfe der \(\sigma\)-Additivität von \(\mathbb{P}\) die Wahrscheinlichkeit dieses Ereignisses leicht berechnen. Es ergibt sich \[\begin{align} \begin{split} \mathbb{P}(A \cap B) & = \mathbb{P}(\{2,4,6\} \cap \{4,5,6\}) \\ & = \mathbb{P}(\{4,6\}) \\ & = \mathbb{P}(\{4\}) + \mathbb{P}(\{6\}) \\ & = \frac{1}{6} + \frac{1}{6} \\ & = \frac{1}{3}. \end{split} \end{align}\]

Beim Nachdenken über gemeinsame Wahrscheinlichkeiten ist es natürlich wichtig, die gemeinsame Wahrscheinlichkeit \(\mathbb{P}(A \cap B)\) nicht mit der Wahrscheinlichkeit \(\mathbb{P}(A \cup B)\) des Ereignisses \(A \cup B\) zur verwechseln. Es sei daran erinnert, dass die Vereinigung zweier Mengen \(\cup\) dem inklusiven oder, also einem und/oder entspricht (vgl. Kapitel 1.3 und Kapitel 2.2). Das Ereignis \(A \cup B\) entspricht also dem Ereignis, dass das Ereignis \(A\) und/oder das Ereignis \(B\) eintritt. Insbesondere ist \(\omega \in A \cup B\) also auch schon dann erfüllt, wenn für das Ergebnis eines Durchgangs eines Zufallsvorgangs nur \(\omega \in A\) oder nur \(\omega \in B\) gilt. Konkret ergibt sich etwa für die Ereignisse \(A := \{2,4,6\}\) und \(B := \{4,5,6\}\) aus obigem Würfelbeispiel \[\begin{equation} A \cup B = \{2,4,6\} \cup \{4,5,6\} = \{2,4,5,6\} \end{equation}\] mit der Interpretation “Es fällt eine gerade Augenzahl und/oder es fällt eine Augenzahl größer als drei”. Für die entsprechende Wahrscheinlichkeit ergibt sich \[\begin{equation} \mathbb{P}(\{2,4,5,6\}) = \frac{2}{3}, \end{equation}\] sodass in diesem Fall offenbar \(\mathbb{P}(A \cap B) \neq \mathbb{P}(A \cup B)\) gilt.

Mithilfe folgenden Theorems wollen wir in diesem Abschnitt schließlich noch einige nützliche Eigenschaften zum Rechnen mit Wahrscheinlichkeiten festhalten, die sich direkt aus der Verbindung von Mengenverknüpfungen und der \(\sigma\)-Additivität von Wahrscheinlichkeitsmaßen ergeben. Wir visualisieren die entsprechenden Aussagen in Abbildung 20.1 mithilfe von Venn-Diagrammen.

Abbildung 20.1: Venn-Diagramme zu Theorem 20.1. Die hellblau unterlegten Flächen entsprechen jeweils den Wahrscheinlichkeiten von Interesse

Theorem 20.1 (Weitere Eigenschaften von Wahrscheinlichkeiten) \((\Omega, \mathcal{A}, \mathbb{P})\) sei ein Wahrscheinlichkeitsraum und es seien \(A,B \in \mathcal{A}\) Ereignisse. Dann gelten

  1. \(\mathbb{P}(A^c) = 1 - \mathbb{P}(A)\).
  2. \(A \subset B \Rightarrow \mathbb{P}(A) \le \mathbb{P}(B)\).
  3. \(\mathbb{P}(A \cap B^c) = \mathbb{P}(A) - \mathbb{P}(A \cap B)\)
  4. \(\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B)\).

Beweis. Die zweite, dritte, und vierte Aussage dieses Theorems basieren auf elementaren mengentheoretischen Aussagen und der \(\sigma\)-Additivität von \(\mathbb{P}\). Wir wollen diese elementaren mengentheoretischen Aussagen hier nicht beweisen, sondern verweisen jeweils auf die Intuition, die durch die Venn-Diagramme in Abbildung 20.2 vermittelt wird.

Zu 1.: Wir halten zunächst fest, dass aus \(A^c := \Omega \setminus A\) folgt, dass \(A^c \cup A = \Omega\) und dass \(A^c \cap A = \emptyset\). Mit der Nomiertheit und der \(\sigma\)-Additivität von \(\mathbb{P}\) folgt dann \[\begin{equation} \mathbb{P}(\Omega) = 1 \Leftrightarrow \mathbb{P}(A^c \cup A) = 1 \Leftrightarrow \mathbb{P}(A^c) + \mathbb{P}(A) = 1 \Leftrightarrow \mathbb{P}(A^c) = 1 - \mathbb{P}(A). \end{equation}\]

Zu 2.: Zunächst gilt (vgl. Abbildung A) \[\begin{equation} A \subset B \Rightarrow B = A \cup (B \cap A^c) \mbox{ mit } A \cap (B \cap A^c) = \emptyset. \end{equation}\] Mit der \(\sigma\)-Additivät von \(\mathbb{P}\) folgt dann aber \[\begin{equation} \mathbb{P}(B) = \mathbb{P}(A) + \mathbb{P}(B \cap A^c). \end{equation}\] Mit \(\mathbb{P}(B \cap A^c) \ge 0\) folgt dann \(\mathbb{P}(A) \le \mathbb{P}(B)\).

Zu 3.: Zunächst gilt (vgl. Abbildung B) \[\begin{equation} (A \cap B) \cap (A \cap B^c) = \emptyset \mbox{ und } A = (A \cap B) \cup (A \cap B^c). \end{equation}\] Mit der \(\sigma\)-Additivität von \(\mathbb{P}\) folgt dann \[\begin{align} \begin{split} \mathbb{P}(A) = \mathbb{P}(A \cap B) + \mathbb{P}(A \cap B^c) \Leftrightarrow \mathbb{P}(A \cap B) = \mathbb{P}(A) - \mathbb{P}(A \cap B^c) \end{split} \end{align}\]

Zu 4.: Zunächst gilt (vgl. Abbildung C) \[\begin{equation} B \cap (A \cap B^c) = \emptyset \mbox{ und } A \cup B = B \cup (A \cap B^c). \end{equation}\] Mit der \(\sigma\)-Additivität von \(\mathbb{P}\) folgt dann \[\begin{equation} \mathbb{P}(A \cup B) = \mathbb{P}(B) + \mathbb{P}(A \cap B^c). \end{equation}\] Mit 3. folgt dann \[\begin{equation} \mathbb{P}(A \cup B) = \mathbb{P}(B) + \mathbb{P}(A) - \mathbb{P}(A \cap B). \end{equation}\]

Abbildung 20.2: Venn-Diagramme zum Beweis von Theorem 20.1

20.2 Bedingte Wahrscheinlichkeiten

Wir wenden uns nun dem Begriff der bedingten Wahrscheinlichkeit zu.

Definition 20.2 (Bedingte Wahrscheinlichkeit) \((\Omega,\mathcal{A}, \mathbb{P})\) sei ein Wahrscheinlichkeitsraum und \(A, B\in \mathcal{A}\) seien Ereignisse mit \(\mathbb{P}(B) > 0\). Die bedingte Wahrscheinlichkeit des Ereignisses \(A\) gegeben das Ereignis \(B\) ist definiert als \[\begin{equation} \mathbb{P}(A|B) := \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}. \end{equation}\]

Wir halten fest: Die bedingte Wahrscheinlichkeit \(\mathbb{P}(A|B)\) eines Ereignisses \(A\) gegeben ein Ereignis \(B\) ist die mit \(1/\mathbb{P}(B)\) skalierte gemeinsame Wahrscheinlichkeit \(\mathbb{P}(A \cap B)\) der Ereignisse \(A\) und \(B\). Legt man in der Formulierung eines probabilistischen Modells also die gemeinsame Wahrscheinlichkeit \(\mathbb{P}(A \cap B)\) sowie die Wahrscheinlichkeit \(\mathbb{P}(B) > 0\) des Ereignisses \(B\) fest, so legt man insbesondere auch die bedingte Wahrscheinlichkeit \(\mathbb{P}(A|B)\) des Ereignisses \(A\) gegeben das Ereignis \(B\) fest. Wir weisen ferner darauf hin, dass es keinen Grund gibt, die bedingten Wahrscheinlichkeiten \[\begin{equation} \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} \mbox{ und } \mathbb{P}(B|A) = \frac{\mathbb{P}(B \cap A)}{\mathbb{P}(A)} = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(A)} \end{equation}\] zu verwechseln (vgl. Herzog & Ostwald (2013)). Insbesondere folgt aus \(\mathbb{P}(A) \neq \mathbb{P}(B)\) immer direkt \(\mathbb{P}(A|B) \neq \mathbb{P}(B|A)\). Schließlich sei angemerkt, dass eine Verallgemeinerung der bedingten Wahrscheinlichkeit in Definition 20.2 auf den Fall \(\mathbb{P}(B) = 0\) möglich, aber technisch aufwändig ist. Wir verweisen dafür auf die weiterführende Literatur, z.B. Meintrup & Schäffler (2005) und Schmidt (2009).

Beispiele

Würfeln mit einem Würfel

Als erstes Beispiel für eine bedingte Wahrscheinlichkeit betrachten wir erneut das Modell \((\Omega, \mathcal{A}, \mathbb{P})\) des fairen Würfels. Wir wollen die bedingte Wahrscheinlichkeit für das Ereignis “Es fällt eine gerade Augenzahl” gegeben das Ereignis “Es fällt eine Zahl größer als drei” berechnen. Wir haben oben bereits gesehen, dass das Ereignis “Es fällt eine gerade Augenzahl” der Teilmenge \(A := \{2,4,6\}\) von \(\Omega\) entspricht, und dass das Ereignis “Es fällt eine Zahl größer als drei” der Teilmenge \(B := \{4,5,6\}\) von \(\Omega\) entspricht. Weiterhin haben wir gesehen, dass unter der Annahme, dass der modellierte Würfel fair ist, gilt, dass \[\begin{align} \begin{split} \mathbb{P}(\{2,4,6\}) = \mathbb{P}(\{2\}) + \mathbb{P}(\{4\}) + \mathbb{P}(\{6\}) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{3}{6} \end{split} \end{align}\] und dass \[\begin{align} \begin{split} \mathbb{P}(\{4,5,6\}) = \mathbb{P}(\{4\}) + \mathbb{P}(\{5\}) + \mathbb{P}(\{6\}) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{3}{6}. \end{split} \end{align}\] Schließlich hatten wir auch gesehen, dass das Ereignis \(A \cap B\), also das Ereignis “Es fällt eine gerade Augenzahl, die größer als drei ist”, die Wahrscheinlichkeit \[\begin{align} \begin{split} \mathbb{P}(A \cap B) = \mathbb{P}(\{2,4,6\} \cap \{4,5,6\}) = \mathbb{P}(\{4,6\}) = \mathbb{P}(\{4\}) + \mathbb{P}(\{6\}) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6} \end{split} \end{align}\] hat. Nach Definition der bedingten Wahrscheinlichkeit ergibt sich dann direkt \[\begin{align} \begin{split} \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(\{4,6\})}{\mathbb{P}(\{4,5,6\})} = \frac{2}{6}\cdot\frac{6}{3} = \frac{2}{3}. \end{split} \end{align}\]

In diesem Zusammenhang bietet sich eine Interpretation der bedingten Wahrscheinlichkeit \(\mathbb{P}(A|B)\) als eine Abnahme subjektiver Unsicherheit bzw. als Zugewinn an subjektiver Information gegenüber der unbedingten Wahrscheinlichkeit \(\mathbb{P}(A)\) an: Wenn man weiß, dass eine Augenzahl größer als drei gefallen ist, dass also das Ereignis \(\omega \in B\) vorliegt ist, ist die Wahrscheinlichkeit, dass es sich bei \(\omega\) um eine gerade Augenzahl handelt \(2/3\). Wenn man dagegen nicht weiß, dass das Ereignis \(\omega \in B\) vorliegt (und auch sonst keine Information über \(\omega\) hat) ist die Wahrscheinlichkeit für das Fallen einer geraden Augenzahl nur \(1/2\). Bedingen auf dem Vorliegen eines Ereignisses entspricht also der Einbeziehung von Information und damit der Abnahme von Unsicherheit in wahrscheinlichkeitstheoretische Modellen. Dies ist die Grundlage der Bayesianischen Statistik. Eine ähnliche Interpretation bietet sich auch im Rahmen folgenden, vielleicht lebensnäheren Beispiels an.

Wert eines BDI-II Items

Wir betrachten erneut das Beispiel für den Wert einer Patient:in für das Item “Traurigkeit” der deutschen Version des BDI-II. Wir haben oben den möglichen Itemantworten (0), (1), (2), (3) die Wahrscheinlichkeiten \[\begin{equation} \mathbb{P}(\{0\}) := \frac{2}{10}, \quad \mathbb{P}(\{1\}) := \frac{3}{10}, \quad \mathbb{P}(\{2\}) := \frac{4}{10}, \quad \mathbb{P}(\{3\}) := \frac{1}{10}, \quad \end{equation}\] zugeordnet. Wir nehmen nun an, dass wir von einer Patient:in wissen, dass sie einen Wert größer als (1) gewählt hat und fragen nach den Wahrscheinlichkeiten, dass die Patient:in den Wert (2) oder (3) gewählt hat. Dazu betrachten wir zunächst die Wahrscheinlichkeit des Ereignisses “Die Patient:in hat einen Wert größer als (1) gewählt”. Offenbar entspricht dies der Teilmenge \(B := \{2,3\}\) von \(\Omega\). Mit der \(\sigma\)-Additivität ergibt sich für die Wahrscheinlichkeit für dieses Ereignis wie oben gesehen \(\mathbb{P}(\{2,3\}) = 1/2\). Wir betrachten also die in Tabelle 20.1 aufgeführten Ereignisse.

Tabelle 20.1: Ereignisse bei Bearbeitung eines BDI-II Items
Beschreibung Mengenform
Die Patient:in hat einen Wert größer als (1) gewählt \(\omega \in B := \{2,3\}\)
Die Patient:in hat Antwort (2) gewählt \(\omega \in A_1 := \{2\}\)
Die Patient:in hat Antwort (3) gewählt \(\omega \in A_2 := \{3\}\)

Es ergeben sich \[\begin{equation} \mathbb{P}(A_1|B) = \frac{\mathbb{P}(A_1 \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(\{2\} \cap \{2,3\})}{\mathbb{P}(\{2,3\})} = \frac{\mathbb{P}(\{2\})}{\mathbb{P}(\{2,3\})} = \frac{4}{10} \cdot \frac{2}{1} = \frac{8}{10} \end{equation}\] und \[\begin{equation} \mathbb{P}(A_2|B) = \frac{\mathbb{P}(A_2 \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(\{3\} \cap \{2,3\})}{\mathbb{P}(\{2,3\})} = \frac{\mathbb{P}(\{3\})}{\mathbb{P}(\{2,3\})} = \frac{1}{10} \cdot \frac{2}{1} = \frac{2}{10}. \end{equation}\] Man beachte, dass \[\begin{equation} \mathbb{P}(A_1|B) + \mathbb{P}(A_2|B) = \frac{8}{10} + \frac{2}{10} = 1. \end{equation}\]

Basierend auf der Defintion der bedingten Wahrscheinlichkeit eines Ereignisses unter der Bedingung des Eintretens eines festen Ereignisses \(B\) kann man ein Wahrscheinlichkeitsmaß definieren, das die Wahrscheinlichkeiten aller Ereignisse des Ereignissystems unter der Bedingung des Eintretens eines festen Ereignisses \(B\) angibt. Man nennt dieses Wahrscheinlichkeitsmaß die bedingte Wahrscheinlichkeit gegeben Ereignis \(B\).

Theorem 20.2 (Bedingte Wahrscheinlichkeit) Für ein festes \(B \in \mathcal{A}\) mit \(\mathbb{P}(B) > 0\) sei \[\begin{equation} \mathbb{P}(\cdot|B) : \mathcal{A} \to [0,1], A \mapsto \mathbb{P}(A|B) := \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} \end{equation}\] Dann ist \(\mathbb{P}(\cdot|B)\) ein Wahrscheinlichkeitsmaß und heißt die bedingte Wahrscheinlichkeit gegeben Ereignis \(B\).

Beweis. Wir weisen die definierenden Eigenschaften eines Wahrscheinlichkeitsmaßes nach.

(1) \(\mathbb{P}(A|B) \ge 0\) für alle \(A \in \mathcal{A}\)

Nach Definition der bedingten Wahrscheinlichkeit gilt \(\mathbb{P}(A|B) = \mathbb{P}(A \cap B)/\mathbb{P}(B)\) mit \(\mathbb{P}(B)>0\). Mit dem Theorem zur Abgeschlossenheit von \(\sigma\)-Algebren bezüglich Durchschnitten und der Definition von \(\mathbb{P}\) gilt \(\mathbb{P}(A \cap B) \ge 0\) und damit folgt die Aussage.

(2) \(\mathbb{P}(\Omega|B) = 1\).

Es gilt \[\begin{equation} \mathbb{P}(\Omega|B) = \frac{\mathbb{P}(\Omega \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(B)}{\mathbb{P}(B)} = 1. \end{equation}\]

(3) \(\mathbb{P}\left(\cup_{i=1}^\infty A_i|B \right) = \sum_{i=1}^\infty \mathbb{P}(A_i|B)\) für paarweise disjunkte \(A_1,A_2,... \in \mathcal{A}\).

Mit den Assoziativ- und Distributivgesetzen von Vereinigung und Durchschnitt gilt zunächst, dass \[\begin{equation} \left(\cup_{i=1}^\infty A_i\right) \cap B = \left(A_1 \cup A_2 \cup \cdots \right) \cap B = \left(A_1 \cap B\right) \cup \left(A_2 \cap B\right) \cup \cdots = \cup_{i=1}^\infty \left(A_i \cap B\right). \end{equation}\] Weiterhin gilt mit \(A_i \cap A_j = \emptyset\) und den Assoziativ- und Distributivgesetzen von Vereinigung und Durchschnitt, dass auch die \(A_i \cap B\) für \(i = 1,2,...\) paarweise disjunkt sind, denn \[\begin{equation} \left(A_i \cap B\right) \cap \left(A_j \cap B\right) = \left(A_i \cap A_j\right) \cap (B \cap B) = \emptyset \cap B = \emptyset. \end{equation}\] Mit der \(\sigma\)-Additivität von \(\mathbb{P}\) folgt damit dann, dass \[\begin{align} \begin{split} \mathbb{P}\left(\cup_{i=1}^\infty A_i|B \right) & = \frac{\mathbb{P}\left(\left(\cup_{i=1}^\infty A_i\right) \cap B\right)}{\mathbb{P}(B)} \\ & = \frac{\mathbb{P}\left(\cup_{i=1}^\infty \left(A_i \cap B\right) \right)}{\mathbb{P}(B)} \\ & = \frac{\sum_{i=1}^\infty \mathbb{P}\left(A_i \cap B\right)}{\mathbb{P}(B)} \\ & = \sum_{i=1}^\infty \frac{\mathbb{P}\left(A_i \cap B\right)}{\mathbb{P}(B)} \\ & = \sum_{i=1}^\infty \mathbb{P}(A_i|B). \end{split} \end{align}\]

Man beachte, dass bei der bedingten Wahrscheinlichkeit \(\mathbb{P}(\cdot|B)\) die Rechenregeln der Wahrscheinlichkeitstheorie für die Ereignisse links des Strichs gelten. Insbesondere definiert \(\mathbb{P}(\cdot \vert B)\) im Gegensatz zu \(\mathbb{P}(\cdot \cap B)\) ein Wahrscheinlichkeitsmaß für alle \(A \in \mathcal{A}\). So gelten beispielsweise für \(0 < \mathbb{P}(B) < 1\), dass \(\mathbb{P}(\Omega|B) = 1\) ist, aber dass \(\mathbb{P}(\Omega \cap B) = \mathbb{P}(B) < 1\) ist. Man sagt deshalb auch, dass \(\mathbb{P}(\cdot \vert B)\) normalisiert ist, \(\mathbb{P}(\cdot \cap B)\) dagegen nicht.

Zum Schluss dieses Abschnittes wollen wir noch drei technische Konsequenzen der Definition der bedingten Wahrscheinlichkeit betrachten, die wir als Theoreme formulieren.

Das erste Theorem betrifft den Zusammenhang von gemeinsamen und bedingten Wahrscheinlichkeiten und reiteriert, wie gemeinsame Wahrscheinlichkeiten aus bedingten und totalen Wahrscheinlichkeiten berechnet werden können.

Theorem 20.3 (Gemeinsame und bedingte Wahrscheinlichkeiten) Es seien \((\Omega,\mathcal{A}, \mathbb{P})\) ein Wahrscheinlichkeitsraum und \(A,B\in \mathcal{A}\) mit \(\mathbb{P}(A) > 0\) und \(P(B)>0\). Dann gilt \[\begin{equation} \mathbb{P}(A \cap B) = \mathbb{P}(A|B)\mathbb{P}(B) = \mathbb{P}(B|A)\mathbb{P}(A). \end{equation}\]

Beweis. Mit der Definition der jeweiligen bedingten Wahrscheinlichkeit folgen direkt \[\begin{equation} \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} \Leftrightarrow \mathbb{P}(A \cap B) =\mathbb{P}(A|B)\mathbb{P}(B) \end{equation}\] und \[\begin{equation} \mathbb{P}(B|A) = \frac{\mathbb{P}(B \cap A)}{\mathbb{P}(A)} \Leftrightarrow \mathbb{P}(A \cap B) =\mathbb{P}(B|A)\mathbb{P}(A). \end{equation}\]

Ebenso wie das Festlegen von \(\mathbb{P}(A \cap B)\) und \(\mathbb{P}(A)\) die bedingte Wahrscheinlichkeit \(\mathbb{P}(B|A)\) festlegt, legt das Festlegen von \(\mathbb{P}(A)\) und \(\mathbb{P}(B|A)\) also die gemeinsame Wahrscheinlichkeit \(\mathbb{P}(A \cap B)\) fest.

Das nachfolgende sogenannte Gesetz der totalen Wahrscheinlichkeit besagt, wie basierend auf gemeinsamen Wahrscheinlichkeiten unbedingte, sogenannte totale Wahrscheinlichkeiten berechnet werden können.

Theorem 20.4 (Gesetz der totalen Wahrscheinlichkeit) \((\Omega,\mathcal{A},\mathbb{P})\) sei ein Wahrscheinlichkeitsraum und \(A_1,...,A_k\) mit \(\mathbb{P}(A_i) > 0\) sei eine Partition von \(\Omega\). Dann gilt für jedes \(B \in \mathcal{A}\), dass \[\begin{equation} \mathbb{P}(B) = \sum_{i=1}^k \mathbb{P}(B \cap A_i) = \sum_{i=1}^k \mathbb{P}(B|A_i)\mathbb{P}(A_i). \end{equation}\]

Beweis. Für \(i = 1,...,k\) sei \(C_i := B \cap A_i\), sodass \(\cup_{i=1}^k C_i = B\) und \(C_i \cap C_j = \emptyset\) für \(1 \le i,j \le k,i \neq j\). Wir verdeutlichen diese Festlegungen in Abbildung 20.3 mithilfe eines Venn-Diagramms.

Abbildung 20.3: Venn-Diagramm zum Beweis von Theorem 20.4.

Also gilt mit der Definition der bedingten Wahrscheinlichkeit für \(\mathbb{P}(A_i) > 0\), dass \[\begin{equation} \mathbb{P}(B) = \sum_{i=1}^k \mathbb{P}(C_i) = \sum_{i=1}^k \mathbb{P}(B \cap A_i) = \sum_{i=1}^k \mathbb{P}(B|A_i)\mathbb{P}(A_i). \end{equation}\]

Intuitiv entspricht \(\mathbb{P}(B)\) also der gewichteten Summe der bedingten Wahrscheinlichkeiten \(\mathbb{P}(B|A_i)\) wobei die Wichtungsfaktoren gerade die unbedingten Wahrscheinlichkeiten \(\mathbb{P}(A_i)\) für \(i = 1,..,k\) sind. Die Forderung \(\mathbb{P}(A_i) > 0\) für alle \(i = 1,...,k\) ist hier notwendig, um die Darstellung von \(\mathbb{P}(B \cap A_i)\) mithilfe von Definition 20.2 zu gewährleisten.

Beispiel

Als Beispiel für die Darstellung der Wahrscheinlichkeit eines Ereignisses mithilfe des Gesetzes der totalen Wahrscheinlichkeit betrachten wir das Wahrscheinlichkeitsraummodell des fairen Würfels. Für den Ergebnisraum \(\Omega := \{1,2,3,4,5,6\}\) betrachten wir das Ereignis \(B := \{2,4,6\}\) (“Es fällt eine gerade Zahl”) mit Wahrscheinlichkeit \(\mathbb{P}(B) = \frac{1}{2}\) sowie die Partition \(A_1 := \{1,2\}\), \(A_2 := \{3\}\), \(A_3 := \{4,5\}\), \(A_4 := \{6\}\) von \(\Omega\). Dann gelten offenbar

\[\begin{equation} \begin{array}{lllllll} \mathbb{P}\left(B \cap A_1\right) & = & \mathbb{P}\left(\{2,4,6\} \cap \{1,2\}\right) & = & \mathbb{P}\left(\{2\}\right) & = & \frac{1}{6} \\ \mathbb{P}\left(B \cap A_2\right) & = & \mathbb{P}\left(\{2,4,6\} \cap \{3\}\right) & = & \mathbb{P}\left(\emptyset\right) & = & 0 \\ \mathbb{P}\left(B \cap A_3\right) & = & \mathbb{P}\left(\{2,4,6\} \cap \{4,5\}\right) & = & \mathbb{P}\left(\{4\}\right) & = & \frac{1}{6} \\ \mathbb{P}\left(B \cap A_4\right) & = & \mathbb{P}\left(\{2,4,6\} \cap \{6\}\right) & = & \mathbb{P}\left(\{6\}\right) & = & \frac{1}{6} \end{array} \end{equation}\]

Damit ergibt sich dann \[\begin{align} \begin{split} \sum_{i=1}^4 \mathbb{P}(B \cap A_i) & = \mathbb{P}(B \cap A_1) + \mathbb{P}(B \cap A_2) + \mathbb{P}(B \cap A_3) + \mathbb{P}(B \cap A_4) \\ & = \frac{1}{6} + 0 + \frac{1}{6} + \frac{1}{6} \\ & = \frac{1}{2} \end{split} \end{align}\] und somit \[\begin{equation} \mathbb{P}(B) = \sum_{i=1}^4 \mathbb{P}(B \cap A_i). \end{equation}\] Man beachte, dass die Partitionseigenschaft von \(A_1,A_2,A_3,A_4\) esseztiell für die Validität des Theorems in diesem Beispiel ist. Wäre beispielsweise \(A_4 = \{4,6\}\) und damit \(A_3\) und \(A_4\) nicht disjunkt, so ergäbe die rechte Seite des Gesetzes von der totalen Wahrscheinlichkeit einen Wert größer \(\mathbb{P}(B)\). Ergäbe die Vereinigung der \(A_1,A_2,A_3,A_4\) dagegen nicht \(\Omega\), weil zum Beispiel \(A_4 = \emptyset\), so ergäbe sich umgekehrt ein Wert kleiner \(\mathbb{P}(B)\).

Schließlich betrachten wir mit dem Bayesschen Theorem eine Formel zur alternativen Berechnung von bedingten Wahrscheinlichkeiten.

Theorem 20.5 (Bayessches Theorem) \((\Omega,\mathcal{A},\mathbb{P})\) sei ein Wahrscheinlichkeitsraum und \(A_1, ...,A_k\) sei eine Partition von \(\Omega\) mit \(\mathbb{P}(A_i) > 0\) für alle \(i = 1,...,k\). Wenn \(\mathbb{P}(B) > 0\) gilt, dann gilt für jedes \(i = 1,...,k\), dass \[\begin{equation} \mathbb{P}(A_i|B) = \frac{\mathbb{P}(B|A_i)\mathbb{P}(A_i)}{\sum_{i=1}^k \mathbb{P}(B|A_i)\mathbb{P}(A_i)}. \end{equation}\]

Beweis. Mit der Definition der bedingten Wahrscheinlichkeit und dem Gesetz der totalen Wahrscheinlichkeit gilt \[\begin{equation} \mathbb{P}(A_i|B) = \frac{\mathbb{P}(A_i \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(B|A_i)\mathbb{P}(A_i)}{\mathbb{P}(B)} = \frac{\mathbb{P}(B|A_i)\mathbb{P}(A_i)}{\sum_{i=1}^k \mathbb{P}(B|A_i)\mathbb{P}(A_i)}. \end{equation}\]

Man beachte, dass das Theorem von Bayes unabhängig von der Frequentistischen oder Bayesianischen Interpretation der Wahrscheinlichkeit ist und lediglich eine Aussage zum Rechnen mit bedingten Wahrscheinlichkeiten macht. Im Rahmen der Frequentistischen Inferenz wird das Theorem von Bayes allerdings recht selten benutzt. Im Rahmen der Bayesianischen Inferenz dagegen ist das Theorem von Bayes zentral. In diesem Kontext wird \(\mathbb{P}(A_i)\) dann oft die Prior-Wahrscheinlichkeit des Ereignisses \(A_i\) und \(\mathbb{P}(A_i|B)\) die Posterior-Wahrscheinlichkeit des Ereignisses \(A_i\) genannt. Wie oben erläutert entspricht \(\mathbb{P}(A_i|B)\) der Wahrscheinlichkeit von \(A_i\), wenn man um das Eintreten von \(B\) weiß.

In der Anwendung werden die hier als Gesetz der totalen Wahrscheinlichkeit (Theorem 20.4), Theorem zu Gemeinsamen und bedingten Wahrscheinlichkeiten (Theorem 20.3) und Bayessches Theorem (Theorem 20.5) formulierten Resultate oft als die zentrale Rechenregeln der Wahrscheinlichkeitstheorie genutzt. In der Praxis werden sie dabei meist als Summationsregel, Multiplikationsregel und Bayesregel bezeichnet (vgl. Tabelle 20.2).

Tabelle 20.2: Zentrale Rechenregeln der Wahrscheinlichkeitstheorie
Rechenregel Wahrscheinlichkeitsraumform
Multiplikationsregel \(\mathbb{P}(A \cap B) = \mathbb{P}(B|A) \, \mathbb{P}(A)\)
Summenregel \(\mathbb{P}(B) = \sum_{i=1}^k \mathbb{P}(B \cap A_i)\), wenn \(\Omega = \cup_{i=1}^k A_i\) und \(A_i \cap A_j = \emptyset\)
Bayesregel \(\mathbb{P}(A|B) = \frac{\mathbb{P}(B|A)\mathbb{P}(A)}{\mathbb{P}(B)}\), wenn \(\mathbb{P}(B)>0\)

20.3 Unabhängige Ereignisse

Die Unabhängigkeit von Ereignissen dient der Modellierung der Abwesenheit von gegenseitigen Einflüssen von Ereignissen. Ihre Definition besagt, dass sich die gemeinsame Wahrscheinlichkeit zweier Ereignisse aus dem Produkt der Wahrscheinlichkeiten der einzelnen Ereignisse ergeben soll. Man spricht in diesem Kontext auch von der Faktorisierung der gemeinsamen Wahrscheinlichkeit der Ereignisse. Der Sinn dieser Definition erschließt sich dann im Lichte des Begriffs der bedingten Wahrscheinlichkeit in Theorem 20.6. Wir betrachten zunächst die Definition.

Definition 20.3 (Unabhängige Ereignisse) Zwei Ereignisse \(A \in \mathcal{A}\) und \(B \in \mathcal{A}\) heißen unabhängig, wenn \[\begin{equation} \mathbb{P}(A \cap B) = \mathbb{P}(A)\mathbb{P}(B). \end{equation}\] Eine Menge von Ereignissen \(\{A_i|i \in I\}\subset \mathcal{A}\) mit beliebiger Indexmenge \(I\) heißt unabhängig, wenn für jede endliche Untermenge \(J \subseteq I\) gilt, dass \[\begin{equation} \mathbb{P}\left(\cap_{j \in J} A_j \right) = \prod_{j \in J}\mathbb{P}(A_j). \end{equation}\]

Man beachte, dass die Unabhängigkeit bestimmter Ereignissen in der Definition eines probabilistischen Modells vorausgesetzt werden kann oder auch aus der Definition eines probabilistischen Modells folgen kann. Sind zwei Ereignisse nicht unabhängig, so sagt man auch, dass diese Ereignisse abhängig sind. Der Sinn der Produkteigenschaft bei Unabhängkeit erschließt sich, wie wir unten zeigen, im Kontext bedingter Wahrscheinlichkeiten. Zunächst geben wir ein Beispiel, das den Zusammenhang zwischen Unabhängigkeit und paarweiser Unabhängigkeit von Ereignissen verdeutlicht.

Beispiel

Unabhängige Ereignisse sind nach Definition immer auch paarweise unabhängig. Beispielsweise gilt für die Menge \(\{A_i| i \in \{1,2,3\}\}\) von Ereignissen und die möglichen Untermengen \(J_1 := \{1,2\}\), \(J_2 := \{1,3\}\), \(J_3 := \{2,3\}\), \(J := \{1,2,3\}\) von \(I = \{1,2,3\}\), dass die Definitionsbedingung der Unabhängigkeit von \(A_1,A_2,A_3\) die Aussagen \[\begin{align} \begin{split} \mathbb{P}\left(A_1 \cap A_2\right) & = \mathbb{P}\left(A_1\right)\mathbb{P}\left(A_2\right) \\ \mathbb{P}\left(A_1 \cap A_3\right) & = \mathbb{P}\left(A_1\right)\mathbb{P}\left(A_3\right) \\ \mathbb{P}\left(A_2 \cap A_3\right) & = \mathbb{P}\left(A_2\right)\mathbb{P}\left(A_3\right) \\ \mathbb{P}\left(A_1 \cap A_2 \cap A_3\right) & = \mathbb{P}\left(A_1\right)\mathbb{P}\left(A_2\right)\mathbb{P}\left(A_2\right) \end{split} \end{align}\] impliziert. Andersherum kann aus der paarweisen Unabhängigkeit von Ereignissen nicht auf die Unabhängigkeit von Ereignissen geschlossen werden, wie folgendes Beispiel zeigt (vgl. DeGroot & Schervish (2012)). Betrachten wir das Modell des zweifachen Werfens einer fairen Münze mit dem Ergebnisraum \[\begin{equation} \Omega := \{HH, HT, TH, TT\} \end{equation}\] mit den Elementareigniswahrscheinlichkeiten \[\begin{equation} \mathbb{P}\{HH\} = \mathbb{P}\{HT\} = \mathbb{P}\{TH\} = \mathbb{P}\{TT\} = \frac{1}{4} \end{equation}\] Dann sind die in Tabelle 20.3 aufgelisteten Ereignisse zwar paarweise unabhängig, aber nicht unabhängig.

Tabelle 20.3: Münzwurfbeispiel zur Unabhängigkeit
Verbale Beschreibung Mengenform
Im ersten Wurf fällt Kopf \(A_1 := \{HH, HT\}\)
Im zweiten Wurf fällt Kopf \(A_2 := \{HH, TH\}\)
In beiden Würfen fällt das gleiche Ergebnis \(A_3 := \{HH, TT\}\)

Es gelten hier offenbar \[\begin{equation} \mathbb{P}\left(A_1 \right) = \mathbb{P}\left(A_2 \right)= \mathbb{P}\left(A_2 \right) = \frac{1}{2}, \end{equation}\] sowie \[\begin{align} \begin{split} \mathbb{P}\left(A_1 \cap A_2 \right) & = \mathbb{P}\left(\{HH\}\right) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mathbb{P}\left(A_1 \right)\mathbb{P}\left(A_2 \right), \\ \mathbb{P}\left(A_1 \cap A_3 \right) & = \mathbb{P}\left(\{HH\}\right) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mathbb{P}\left(A_2 \right)\mathbb{P}\left(A_3 \right), \\ \mathbb{P}\left(A_2 \cap A_3 \right) & = \mathbb{P}\left(\{HH\}\right) = \frac{1}{4} = \frac{1}{2} \cdot \frac{1}{2} = \mathbb{P}\left(A_1 \right)\mathbb{P}\left(A_3 \right). \\ \end{split} \end{align}\] Die Ereignisse sind also paarweise unabhängig. Allerdings gilt auch \[\begin{equation} \mathbb{P}\left(A_1 \cap A_2 \cap A_3 \right) = \mathbb{P}\left(\{HH\}\right) = \frac{1}{4} \neq \frac{1}{8} = \frac{1}{2} \cdot \frac{1}{2} \cdot \frac{1}{2} = \mathbb{P}\left(A_1\right)\mathbb{P}\left(A_2\right)\mathbb{P}\left(A_3\right) \end{equation}\] und die Ereignisse \(A_1, A_2, A_3\) sind damit nicht unabhängig.

Abschließend wollen wir mit dem Zusammenhang zwischen Unabhängigkeit und bedingter Wahrscheinlichkeit den Sinn der Produkteigenschaft bei Unabhängkeit erläutern.

Theorem 20.6 (Bedingte Wahrscheinlichkeit unter Unabhängigkeit) \((\Omega,\mathcal{A}, \mathbb{P})\) sei ein Wahrscheinlichkeitsraum und \(A,B\in \mathcal{A}\) seien unabhängige Ereignisse mit \(\mathbb{P}(B) > 0\). Dann gilt \[\begin{equation} \mathbb{P}(A|B) = \mathbb{P}(A). \end{equation}\]

Beweis. Unter den Annahmen des Theorems gilt \[\begin{equation} \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(A)\mathbb{P}(B)}{\mathbb{P}(B)} = \mathbb{P}(A). \end{equation}\]

Bei gegebener Unabhängigkeit zweier Ereignisse \(A\) und \(B\) ist es für die Wahrscheinlichkeit des Ereignisses \(A\) also unerheblich, ob auch \(B\) eintritt oder nicht, die Wahrscheinlichkeit \(\mathbb{P}(A)\) bleibt gleich. Damit wird die Unabhängigkeit von Ereignissen also gerade als Faktorisierung der gemeinsamen Wahrscheinlichkeit von \(A\) und \(B\) modelliert, damit \(\mathbb{P}(A|B) = \mathbb{P}(A)\) folgt. Aus Sicht der Modellierung subjektiver Unsicherheit durch Wahrscheinlichkeiten bedeutet die Unabhängigkeit zweier Ereignisse also, dass das Wissen um das Vorliegen eines der beiden Ereignisse die Wahrscheinlichkeit für das Vorliegen des anderen Ereignisses nicht ändert. Andersherum bedeutet die Abhängigkeit zweier Ereignisse, dass das Wissen um das Vorliegen eines der beiden Ereignisse die Wahrscheinlichkeit für das Vorliegen des anderen Ereignisses verändert, also entweder erhöht oder verringert.

Beispiel

Wir wollen den Zusammenhang von Unabhängigkeit, bedingter Wahrscheinlickeit und Faktorisierung der gemeinsamen Wahrscheinlichkeit am Beispiel des Modells des fairen Würfels verdeutlichen. Dazu betrachten wir das Ereignis \(A := \{2,4,6\}\) (“Es fällt eine gerade Zahl”) und das Ereignis \(B := \{3,4,5,6\}\) (“Es fällt eine Zahl größer als zwei”). Intuitiv verändert sich die Wahrscheinlichkeit dafür, dass eine gerade Zahl gefallen ist, nicht, wenn man weiß, dass eine Zahl größer als zwei gefallen ist: Hat man die Information, dass eine Zahl größer als zwei gefallen ist, so entsprechen drei von sechs Fällen dem Ereignis des Fallens einer geraden Zahl; hat man die Information, so entsprechen zwei von vier Fällen dem Ereignis des Fallens einer geraden Zahl. Der relative Anteil der dem Ereignis “Es fällt eine gerade Zahl” entsprechenden Fälle bleibt also angesichts des Nichtvorliegens oder des Vorliegens der Information “Es fällt eine Zahl größer als zwei” gleich.

Formal stellen wir zunächst die Faktorisierung der gemeinsamen Wahrscheinlichkeit der beiden Ereignisse, also des Ereignisses “Es fällt eine gerade Zahl und diese ist größer als zwei” in das Produkt der Wahrscheinlichkeiten der beiden Ereignisse fest. Es gilt hier mit der \(\sigma\)-Addivität von \(\mathbb{P}\) \[\begin{align} \begin{split} \mathbb{P}(A \cap B) & = \mathbb{P}\left(\{2,4,6\} \cap \{3,4,5,6\}\right)\\ & = \mathbb{P}\left(\{4,6\}\right)\\ & = \frac{2}{6}\\ & = \frac{1}{2}\cdot\frac{2}{3}\\ & = \mathbb{P}(\{2,4,6\})\cdot\mathbb{P}(\{3,4,5,6\})\\ & = \mathbb{P}(A)\mathbb{P}(B)\\ \end{split} \end{align}\] Die gemeinsame Wahrscheinlichkeit von \(A\) und \(B\) lässt sich also als das Produkt der Wahrscheinlichkeiten von \(A\) und \(B\) schreiben. Für die bedingte Wahrscheinlichkeit von \(A\) gegeben \(B\) gilt ferner \[\begin{align} \begin{split} \mathbb{P}(A|B) & = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}\\ & = \frac{\mathbb{P}\left(\{4,6\}\right)}{\mathbb{P}(\{3,4,5,6\})}\\ & = \frac{1}{3} \cdot \frac{3}{2}\\ & = \frac{1}{2}\\ & = \mathbb{P}(\{2,4,6\})\\ & = \mathbb{P}(A) \end{split} \end{align}\] Also sind in diesem Beispiel sowohl Definition 20.3 als auch Theorem 20.6 erfüllt.

Die Eigenschaft von Ereignissen, unabhängig zu sein, sollte nicht damit verwechselt werden, dass Ereignisse disjunkt sein können. Tatsächlich gilt folgendes Theorem.

Theorem 20.7 (Disjunktheit und Abhängigkeit von Ereignissen) \(A \in \mathcal{A}\) und \(B \in \mathcal{A}\) seien zwei disjunkte Ereignisse mit \(\mathbb{P}(A)>0\) und \(\mathbb{P}(B)>0\). Dann sind \(A\) und \(B\) abhängige Ereignisse.

Beweis. Zum einen aufgrund der Disjunktheit von \(A\) und \(B\), dass \[\begin{equation} \mathbb{P}(A \cap B) = \mathbb{P}(\emptyset) = 0 \end{equation}\] Zum anderen gilt
\[\begin{equation} \mathbb{P}(A)\mathbb{P}(B) > 0, \end{equation}\] da nach Annahme sowohl \(\mathbb{P}(A)>0\) als auch \(\mathbb{P}(B)>0\) gelten. Also gilt \[\begin{equation} \mathbb{P}(A \cap B) \neq \mathbb{P}(A)\mathbb{P}(B) \end{equation}\] und nach Definition 20.3 sind \(A\) und \(B\) damit nicht unabhängig, also abhängig.

Beispiel

Wir wollen Theorem 20.7 am Beispiel des fairen Würfels verdeutlichen. Dazu sei \(A = \{2,4,6\}\) das Ereignis “Es fällt eine gerade Zahl” und \(B = \{1,3,5\}\) das Ereignis “Es fällt eine ungerade Zahl”. Intuitiv sind die Ereignisse abhängig, da die Information das eine gerade Zahl gefallen ist die
subjektive Wahrscheinlichkeit dafür, dass eine ungerade Zahl gefallen ist auf null absenkt. Formal gilt einerseits \[\begin{equation} \mathbb{P}(A)\mathbb{P}(B) = \frac{1}{2}\cdot \frac{1}{2} = \frac{1}{4}, \end{equation}\] aber \[\begin{equation} \mathbb{P}(A \cap B) = \mathbb{P}\left(\{2,4,6\} \cap \{1,3,5\}\right) = \mathbb{P}\left(\emptyset\right) = 0. \end{equation}\] Zum anderen gilt auch \[\begin{equation} \mathbb{P}(A|B) = \frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)} = \frac{\mathbb{P}(\emptyset)}{\mathbb{P}(B)} = \frac{0}{\mathbb{P}(B)} = 0 \neq = \frac{1}{2} = \mathbb{P}(\{2,4,6\}) = \mathbb{P}(A). \end{equation}\]

20.4 Literaturhinweise

Viele der in diesem Abschnitt eingeführten Begrifflichkeiten sind auf engste mit der geschichtlichen Genese der Wahrscheinlichkeitstheorie verwoben, sodass keine einzelnen Referenzen angegeben werden sollen. Einen Einstieg in die Geschichte der Wahrscheinlichkeitstheorie der letzten zwei Jahrhunderte bietet Hald (1990), einen Überblick über modernere Entwicklungen gibt Von Plato (1994). Das Theorem von Bayes wird allgemein auf Bayes (1763) zurückgeführt, auch wenn es nicht das eigentliche Hauptthema dieser Arbeit ist.

Selbstkontrollfragen

  1. Geben Sie die Definition der gemeinsamen Wahrscheinlichkeit zweier Ereignisse wieder.
  2. Erläutern Sie die intuitive Bedeutung der gemeinsamen Wahrscheinlichkeit zweier Ereignisse.
  3. Geben Sie das Theorem zu weiteren Eigenschaften von Wahrscheinlichkeiten wieder.
  4. Geben Sie die Definition der bedingten Wahrscheinlichkeit eines Ereignisses wieder.
  5. Geben Sie das Theorem zur bedingten Wahrscheinlichkeit wieder.
  6. Geben Sie das Theorem zu gemeinsamen und bedingten Wahrscheinlichkeiten wieder.
  7. Geben Sie das Gesetz der totalen Wahrscheinlichkeit wieder.
  8. Geben Sie das Theorem von Bayes wieder.
  9. Geben Sie den Beweis des Theorems von Bayes wieder.
  10. Geben Sie die Definition der Unabhängigkeit zweier Ereignisse wieder.
  11. Geben Sie das Theorem zur bedingten Wahrscheinlichkeit unter Unabhängigkeit wieder.
  12. Geben Sie den Beweis des Theorems zur bedingten Wahrscheinlichkeit unter Unabhängigkeit wieder.
  13. Erläutern Sie das Theorem zur bedingten Wahrscheinlichkeit unter Unabhängigkeit.

Lösungen

  1. Siehe Definition 20.1.
  2. Siehe Bemerkungen zu Definition 20.1.
  3. Siehe Theorem 20.1.
  4. Siehe Definition 20.2.
  5. Siehe Theorem 20.2.
  6. Siehe Theorem 20.3.
  7. Siehe Theorem 20.4.
  8. Siehe Theorem 20.5.
  9. Siehe Beweis zu Theorem 20.5.
  10. Siehe Definition 20.3.
  11. Siehe Theorem 20.6.
  12. Siehe Beweis zu Theorem 20.6.
  13. Siehe Bemerkungen Theorem 20.6.
Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. By the late Rev. Mr. Bayes, F. R. S. communicated by Mr. Price, in a letter to John Canton, A. M. F. R. S. Philosophical Transactions of the Royal Society of London, 53, 370–418. https://doi.org/10.1098/rstl.1763.0053
DeGroot, M. H., & Schervish, M. J. (2012). Probability and Statistics (4th ed). Addison-Wesley.
Hald, A. (1990). A History of Probability and Statistics and Their Applications before 1750. Wiley.
Herzog, S., & Ostwald, D. (2013). Sometimes Bayesian Statistics Are Better. Nature, 494(7435), 35–35. https://doi.org/10.1038/494035b
Meintrup, D., & Schäffler, S. (2005). Stochastik: Theorie und Anwendungen. Springer.
Schmidt, K. D. (2009). Maß und Wahrscheinlichkeit. Springer.
Von Plato, J. (1994). Creating Modern Probability: Its Mathematics, Physics, and Philosophy in Historical Perspective. Cambridge University Press.