40  T-Tests

40.1 Einstichproben-T-Tests

Anwendungsszenario

Das Anwendungsszenario eines Einstichproben-T-Test ist bekanntlich dadurch gekennzeichnet, dass \(n\) univariate Datenpunkte einer Stichprobe (Gruppe) randomisierter experimenteller Einheiten betrachtet werden, von denen angenommen wird, dass sie Realisierungen von \(n\) unabhängigen und identisch normalverteilten Zufallsvariablen sind. Hinsichtlich der identischen univariaten Normalverteilungen \(N\left(\mu, \sigma^{2}\right)\) dieser Zufallsvariablen wird angenommen, dass sowohl der Erwartungswertparameter \(\mu\) als auch der Varianzparameter \(\sigma^{2}\) unbekannt sind. Schließlich wird vorausgesetzt, dass ein Interesse an einem inferentiellen Vergleich des unbekannten Erwartungswertparameters \(\mu\) mit einen vorgebenenen Wert \(\mu_{0}\) (z.B. \(\mu_{0}:=0\) ) besteht.

Anwendungsbeispiel

Für ein konkretes Anwendungsbeispiel betrachten wir die Analyse von Pre-PostInterventions-BDI-Differenzwerten einer Gruppe von \(n=12\) Patient:innen wie in Tabelle 40.1 dargestellt. Die ersten beiden Spalten dieser Tabelle listen die patientenspezifische BDI Werte vor (PreBDI) und nach (PosBDI) der psychotherapeutischen Intervention, die dritte Spalte dBDI zeigt die entsprechenden PreBDI-PosBDI Differenzwerte. Ein positiver Wert entspricht hier einer Verbesserung der Depressionssymptomatik und ein negativer Wert einer Verschlechterung der Depressionssymptomatik

Tabelle 40.1: Pre- und Post-Intervention BDI Werte
PreBDI PosBDI dBDI
29 28 1
32 26 6
33 29 4
28 26 2
31 30 1
32 27 5
33 27 6
30 27 3
29 27 2
30 28 2
33 29 4
31 25 6

Bei der Anwendung eines Einstichproben-T-Tests auf die dBDI Daten dieses Datensatzes nehmen wir also an, dass die dBDI Daten Realisierungen von \(n=12\) unabhängig normalverteilten Zufallsvariablen \(y_i \sim N\left(\mu, \sigma^{2}\right)\) sind. Wir nehmen weiterhin an, dass wir daran interessiert sind, unsere Unsicherheit beim inferentiellen Vergleich des wahren, aber unbekannten, Erwartungswertparameters \(\mu\) mit einem Vergleichswert \(\mu_{0}\) im Sinne eines Hypothesentests zu quantifizieren.

Unabhängig von diesem inferenzstatistischen Vorgehen betrachten wir zunächst die deskriptiven Statistiken der dBDI Daten, wie in Tabelle 40.2 dargestellt. Es fällt insbesondere auf, dass das Stichprobenmittel im Vergleich zur Standardabweichung relativ klein ist. Im Gruppenmittel unterscheiden sich die PreBDI und PosBDI also zwar in positiver Richtung, was eine Verringerung der Depressionssymptomatik impliziert, allerdings streuen die Daten auch über Patient:innen deutlich, wie auch bereits aus Tabelle 40.1 ersichtlich.

Tabelle 40.2: Deskriptivstatistiken der Pre-Post BDI Differenzwerte
n Max Min Median Mean Var Std
F2F 12 6 1 3.5 3.5 3.73 1.93

Modellformulierung

Wir definieren nun das Einstichproben-T-Test-Modell wie folgt.

Definition 40.1 (Einstichproben-T-Test-Modell) Für \(i=1, \ldots, n\) seien \(y_i\) Zufallsvariablen, die die \(n\) Datenpunkte eines Einstichproben-T-Test-Szenarios modellieren. Dann hat das Einstichproben-T-Test-Modell die strukturelle Form \[\begin{equation} y_i = \mu+\varepsilon_{i} \mbox{ mit } \varepsilon_{i} \sim N\left(0, \sigma^{2}\right) \mbox{ u.i.v für } i=1, \ldots, n \mbox{ mit } \mu \in \mathbb{R} \mbox{ und } \sigma^{2}>0, \end{equation}\] die Datenverteilungsform \[\begin{equation} y_i \sim N\left(\mu, \sigma^{2}\right) \mbox{ u.i.v für } i=1, \ldots, n \mbox{ mit } \mu \in \mathbb{R} \mbox{ und } \sigma^{2}>0, \end{equation}\] und für den Datenvektor \(y=\left(y_1, \ldots, y_n\right)^{T}\) die Designmatrixform \[\begin{equation} y = X\beta+\varepsilon \mbox{ mit } X:=1_{n} \in \mathbb{R}^{n \times 1}, \beta:=\mu \in \mathbb{R}, \varepsilon \sim N\left(0_{n}, \sigma^{2} I_{n}\right) \mbox{ und } \sigma^{2}>0. \end{equation}\]

Das Modell des Einstichproben-T-Tests ist offenbar mit dem dem Modell unabhängiger und identisch normalverteilter Zufallsvariablen identisch (vgl. Kapitel 36). Die Äquivalenz von struktureller, Datenverteilungs- und Designmatrixform des Einstichproben-T-TestModells wurde in Kapitel 36 bereits ausführlich diskutiert. Die Simulation von Daten basierend auf dem Einstichproben-T-Test-Modell hat dementsprechend die gleiche Form wie die Simulation unabhängig und identisch normalverteilter Zufallsvariablen. Unterer R Code demonstriert dies.

# Modellformulierung
library(MASS)                                                         # Multivariate Normalverteilung
n      = 12                                                           # Anzahl von Datenpunkten
p      = 1                                                            # Anzahl von Betaparameter
X      = matrix(rep(1,n), nrow = n)                                   # Designmatrix
I_n    = diag(n)                                                      # n x n Einheitsmatrix
beta   = 5                                                            # wahrer, aber unbekannter, Betaparameter
sigsqr = 14                                                           # wahrer, aber unbekannter, Varianzparameter

# Datenrealisierung
y      = mvrnorm(1, X %*% beta, sigsqr*I_n)                           # eine Realisierung eines n-dimensionalen ZVs

Modellschätzung

Da die Form des Einstichproben-T-Test-Modells mit dem Szenario unabhängig und identisch normalverteilter Zufallsvariablen identisch ist, trifft dies auch auf die entsprechenden Beta- und Varianzparameterschätzer zu. Es ergibt sich also folgendes Theorem, das bereits in Kapitel 37 bewiesen wurde.

Theorem 40.1 (Parameterschätzer im Einstichproben-T-Test-Modell) Gegeben sei die Designmatrixform des Einstichproben-T-Test-Modells. Dann ergeben sich für den Betaparameterschätzer \[\begin{equation} \hat{\beta}=\frac{1}{n} \sum_{i=1}^{n} y_i=: \bar{y} \end{equation}\] und für den Varianzparameterschätzer \[\begin{equation} \hat{\sigma}^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(y_i-\bar{y}\right)^{2}=: s_{y}^{2} \end{equation}\] \(\bar{y}\) und \(s_{y}^{2}\) bezeichnen hier also wiederum das Stichprobenmittel und die Stichprobenvarianz der Zufallsvariablen \(y_{1}, \ldots, y_{n}\).

40.2 Modellevaluation

Basierend auf Definition 38.1 formulieren wir nun die T-Teststatistik für das Einstichproben-T-Test Szenario und geben ihre frequentistische Verteilung an.

Theorem 40.2 (T-Teststatistik des Einstichproben-T-Tests) Gegeben sei die Designmatrixform des Einstichproben-T-Test-Modells. Dann ergibt sich für die T-Teststatistik mit \[\begin{equation} c:=1 \mbox{ und } c^{T} \beta_{0}=: \mu_{0}, \end{equation}\] dass \[\begin{equation} T = \sqrt{n}\left(\frac{\bar{y}-\mu_{0}}{s_{y}}\right) \end{equation}\] und es gilt, dass \[\begin{equation} T \sim t(\delta, n-1) \mbox{ mit } \delta=\sqrt{n}\left(\frac{\mu-\mu_{0}}{\sigma}\right). \end{equation}\]

Beweis. Mit Theorem 38.1 gilt \[\begin{equation} T =\frac{c^{T} \hat{\beta}-c^{T} \beta_{0}}{\sqrt{\hat{\sigma}^{2} c^{T}\left(X^{T} X\right)^{-1} c}} =\frac{1^{T} \bar{y}-1^{T} \mu_{0}}{\sqrt{s_{y}^{2} 1^{T}\left(1_{n}^{T} 1_{n}\right)^{-1} 1}} =\sqrt{n}\left(\frac{\bar{y}-\mu_{0}}{s_{y}}\right) . \end{equation}\] Weiterhin gilt mit demselben Theorem \[\begin{equation} \delta =\frac{c^{T} \beta-c^{T} \beta_{0}}{\sqrt{\sigma^{2} c^{T}\left(X^{T} X\right)^{-1} c}} =\frac{1^{T} \mu-1^{T} \mu_{0}}{\sqrt{\sigma^{2} 1^{T}\left(1_{n}^{T} 1_{n}\right)^{-1} 1}}=\sqrt{n}\left(\frac{\mu-\mu_{0}}{\sigma}\right). \end{equation}\]

Die Formen der T-Teststatistik und ihre Verteilung im Einstichproben-T-Test-Spezialfall des ALMs sind also natürlicherweise mit den entsprechenden Formen im ALM-freien Kontext identisch. Die enstprechende Theorie zu Konfidenzintervallen und der Kontrolle des Testumfangs bei Einstichproben-T-Tests sowie der Gebrauch der Testgütefunktion zur Evaluation der Testtrennschärfe (Power) folgt also analog.

Anwendungsbeispiel

Folgender R Code demonstriert die Evaluation eines 95%-Konfidenzintervalls für den Erwartungswertparameter \(\mu\) sowie Durchführung eines zweiseitigen Einstichproben-T-Tests mit einfacher Nullhypothese \(\Theta_{0}:=\{0\}\) und Signifikanzlevel \(\alpha_{0}:=0.05\) für das oben skizzierte Anwendungsbeispiel.

# Datenanalyse
D           = read.csv("./_data/507-t-tests.csv")                        # Laden des Datensatzes
y           = D$dBDI[D$COND == "F2F"]                                    # Post-Pre Differenzwerte
n           = length(y)                                                  # Anzahl Datenpunkte
p           = 1                                                          # Anzahl Betaparameter
c           = 1                                                          # Kontrastgewichtsvektor
mu_0        = 0                                                          # Nullhypothesenparameter       
delta       = 0.95                                                       # Konfidenzlevel
alpha_0     = 0.05                                                       # Signifikanzlevel  
X           = matrix(rep(1,n), nrow = n)                                 # Einstichproben-T-Test Designmatrix 
beta_hat    = solve(t(X)%*%X)%*%t(X)%*%y                                 # Betaparameterschätzer
eps_hat     = y - X %*% beta_hat                                         # Residuenvektor 
sigsqr_hat  = (t(eps_hat) %*% eps_hat)/(n-p)                             # Varianzparameterschätzer
t_delta     = qt((1+delta)/2,n-1)                                        # \Psi^{-1}(1+\delta)/2, n-1)
lambda      = diag(solve(t(X) %*% X))                                    # \lambda_j Werte
kappa_u     = beta_hat - sqrt(sigsqr_hat*lambda)*t_delta                 # untere Konfidenzintervallgrenze
kappa_o     = beta_hat + sqrt(sigsqr_hat*lambda)*t_delta                 # obere Konfidenzintervallgrenze
t_num       = t(c) %*% beta_hat - mu_0                                   # Zähler der Einstichproben-T-Teststatistik
t_den       = sqrt(sigsqr_hat %*% t(c) %*% solve(t(X) %*% X) %*% c)      # Nenner der Einstichproben-T-Teststatistik
t           = t_num/t_den                                                # Wert der Einstichproben-T-Teststatistik
pval        = 2*(1 - pt(abs(t), n-1))                                    # p-Wert bei zweiseitigem Einstichproben-T-Test
k_alpha_0   = qt(1-alpha_0/2, n-1)                                       # kritischer Wert 
if(abs(t) > k_alpha_0){phi = 1} else {phi = 0}                           # Einstichproben-T-Test
Betaparameterschätzer            :  3.5 
95%-Konfidenzintervall          :  2.27 4.73 
Varianzparameterschätzer        :  3.73 
alpha_0                         :  0.05 
Kritischer Wert                 :  2.2 
Einstichproben-T-Teststatistik  :  6.28 
phi                             :  1 
p-Wert                          :  0

Die Nullhypothese wird in diesem Fall bei einem einem kritischen Wert von \(k_{0.05}=2.20\) und einem Wert der T-Statistik von \(T=3.91\) abgelehnt. Das \(95/\%\)-Konfidenzintervall für den wahren, aber unbekannten, Erwartungswertparameter ist \([2.26, 8.07]\), überdeckt also den Nullhypothesenparameterwert \(\mu_0=0\) nicht.

40.3 Zweistichproben-T-Tests

Anwendungsszenario

Das Anwendungsszenario eines Zweistichproben-T-Tests für unabhängige Stichproben ist bekanntlich dadurch gekennzeichnet, dass insgesamt \(n\) univariate Datenpunkte zweier Stichproben (Gruppen) randomisierter experimenteller Einheiten betrachtet werden. Es wird dabei insbesondere angenommen, dass die \(n_{1}\) univariaten Datenpunkte der ersten Gruppe Realisierungen von \(n_{1}\) unabhängigen und identisch normalverteilten Zufallsvariablen mit Erwartungswertparameter \(\mu_{1}\) und Varianzparameter \(\sigma^{2}\) sind, während weiterhin angenommen wird, dass die \(n_{2}\) univariaten Datenpunkte der zweiten Gruppe Realisierungen von \(n_{2}\) unabhängigen und identisch normalverteilten Zufallsvariablen mit Erwartungswertparameter \(\mu_{2}\) und Varianzparameter \(\sigma^{2}\) sind. Es wird also insbesondere angenommen, dass sich die wahren, aber unbekannten, Erwartungswertparameter beider Gruppen von Zufallsvariablen unterscheiden können, die Varianzparameter beider Gruppen dagegen werden als identisch angenommen. Schließlich wird voraussgesetzt, dass ein Interesse am inferentiellen Vergleich der unbekannten Erwartungswertparameter \(\mu_{1}\) und \(\mu_{2}\) besteht, so zum Beispiel ihrer Gleichheit \(\mu_{1}=\mu_{2}\) oder Verschiedenheit \(\mu_{1} \neq \mu_{2}\).

Anwendungsbeispiel

Für ein konkretes Anwendungsbeispiel betrachten wird die Analyse von Pre-Post-Interventions-BDI-Differenzwerten zweier Gruppen von je 12 Patient:innen in unterschiedlichen Therapiesettings, wie in Tabelle 40.3 dargestellt. Die erste Spalte der Tabelle (COND) listet das patientenspezifische Therapiesetting (F2F: face-to-face, ONL: online) auf. Die zweite Spalte der Tabelle (dBDI) listet die entsprechenden patientenspezifischen Pre-Post-Interventions-BDI-Differenzwerte auf. Positive Werte entsprechen hier erneut einer Abnahme der Depressionssymptomatik, negative Werte einer Zunahme der Depressionssymptomatik.

Tabelle 40.3: Pre-Post-BDI Differenzwerte für zwei Stichproben
COND dBDI
F2F 1
F2F 6
F2F 4
F2F 2
F2F 1
F2F 5
F2F 6
F2F 3
F2F 2
F2F 2
F2F 4
F2F 6
ONL 9
ONL 2
ONL 10
ONL -1
ONL 4
ONL 11
ONL 10
ONL 15
ONL 4
ONL 5
ONL 10
ONL 10

Zu Anwendung eines Zweistichproben-T-Tests auf die dBDI Daten nehmen wir an, dass die 12 Datenpunkte der F2F Therapiegruppe Realisierungen von \(n_{1}=12\) unabhängig und identisch normalverteilten Zufallsvariablen \(y_{1j} \sim N\left(\mu_{1}, \sigma^{2}\right)\) mit \(j=1, \ldots, n_{1}\) sind und dass die 12 Datenpunkte der ONL Therapiegruppe Realisierungen von \(n_{2}=12\) unabhängig und identisch normalverteilten Zufallsvariablen \(y_{2j} \sim N\left(\mu_{2}, \sigma^{2}\right)\) mit \(j=1, \ldots, n_{2}\) sind.

Unabhängig von dem unten beschriebenen inferenzstatistischen Vorgehen betrachten wir auch hier zunächst die deskriptiven Statistiken der Therapiesetting-spezifischen dBDI Werte. Diese sind in Tabelle 40.4 aufgeführt.

Tabelle 40.4: Deskriptivstatistiken der Pre-Post BDI Differenzwerte bei unterschiedlichen Therapiesettings
n Max Min Median Mean Var Std
F2F 12 6 1 3.5 3.50 3.73 1.93
ONL 12 15 -1 9.5 7.42 20.81 4.56

Modellformulierung

Mit dem Index \(i\) für die Gruppen und dem Index \(j\) für die experimentellen Einheiten in jeder Gruppe definieren wir das Zweistichproben-T-Test-Modell wie folgt.

Definition 40.2 (Zweistichproben-T-Test-Modell) Für \(i=1,2\) und \(j=1,\ldots,n_{i}\) seien \(y_{ij}\) Zufallsvariablen, die die \(n=n_{1}+n_{2}\) Datenpunkte eines Zweistichproben-T-Test Szenarios modellieren. Dann hat das Zweistichproben-T-Test-Modell die strukturelle Form \[\begin{equation} y_{ij} = \mu_{i}+\varepsilon_{ij} \mbox{ mit } \varepsilon_{ij} \sim N\left(0, \sigma^{2}\right) \mbox{ u.i.v. mit } \mu_{i} \in \mathbb{R} \mbox{ und } \sigma^{2}>0, \end{equation}\] die Datenverteilungsform \[\begin{equation} y_{ij} \sim N\left(\mu_{i}, \sigma^{2}\right) \mbox{ u.i.v. mit } \mu_{i} \in \mathbb{R} \mbox{ und } \sigma^{2}>0, \end{equation}\] und für den \(n\)-dimensionalen Datenvektor definiert als \[\begin{equation} y := \left(y_{11}, \cdots, y_{1n_{1}}, y_{21}, \cdots, y_{2n_{2}}\right)^{T} \end{equation}\] die Designmatrixform \[\begin{equation} y = X\beta+\varepsilon \end{equation}\] mit \[\begin{equation} X:= \begin{pmatrix} 1_{n_{1}} & 0_{n_{1}} \\ 0_{n_{2}} & 1_{n_{2}} \end{pmatrix} \in \mathbb{R}^{n \times 2}, \beta:= \begin{pmatrix} \mu_{1} \\ \mu_{2} \end{pmatrix} \in \mathbb{R}^{2}, \varepsilon \sim N\left(0_{n}, \sigma^{2} I_{n}\right), \sigma^{2}>0 . \end{equation}\]

Die hier gewählte Definition des Zweistichproben-T-Test-Modells in Designmatrixform ist nicht die einzig mögliche, jedoch diejenige, unter der sich am klarsten die Äquivalenz zum Zweistichproben-T-Test-Modell im ALM-freien Kontext erkennen lässt. In Kapitel 47 lernen wir eine alternative Parameterisierung auch des Zweistichproben-T-Test-Modells kennen. Wie schon beim Szenario des Einstichproben-T-Tests ergibt sich die Äquivalenz der in Definition 40.2 formulierten Modellformen mit den Ergebnissen in Kapitel 36. Die Simulation von Daten basierend auf dem Zweistichproben-T-Test-Modell ist, bis auf die Definition von Designmatrix und Betaparametervektor mit den bisher bekannten Simulationen von ALM Spezialfällen identisch, wie folgender R Code demonstriert.

# Modellformulierung
library(MASS)                                # Multivariate Normalverteilung
n_1    = 12                                  # Anzahl von Datenpunkten Gruppe 1
n_2    = 12                                  # Anzahl von Datenpunkten Gruppe 2
n      = n_1 + n_2                           # Gesamtanzahl Datenpunkte
p      = 2                                   # Anzahl von Betaparameter
X      = matrix(c(rep(1,n_1), rep(0,n_1),    # Designmatrix
                  rep(0,n_2), rep(1,n_2)),
                  nrow  = n)
I_n    = diag(n)                             # n x n Einheitsmatrix
beta   = matrix(c(1,2), nrow = p)            # wahrer, aber unbekannter, Betaparameter
sigsqr = 10                                  # wahrer, aber unbekannter, Varianzparameter

# Datenrealisierung
y      = mvrnorm(1, X %*% beta, sigsqr*I_n)  # eine Realisierung eines n-dimensionalen ZVs

Modellschätzung

Die beiden Betaparameterkomponenten des Zweistichproben-T-Test-Modells in Designmatrixform werden wenig überraschend durch die entsprechenden Gruppenstichprobenmittel geschätzt. Für den Varianzparameterschätzer ergibt sich die sogenannte gepoolte Stichprobenvarianz. Dies sind die beiden Kernaussagen folgenden Theorems.

Theorem 40.3 (Parameterschätzung im Zweistichproben-T-Test-Modell) Gegeben sei die Designmatrixform des Zweistichproben-T-Test-Modells. Dann ergeben sich für den Betaparameterschätzer \[\begin{equation} \hat{\beta} =\begin{pmatrix} \frac{1}{n_{1}} \sum_{j=1}^{n_{1}} y_{1j} \\ \frac{1}{n_{2}} \sum_{j=1}^{n_{2}} y_{2j} \end{pmatrix}=:\begin{pmatrix} \bar{y}_{1} \\ \bar{y}_{2} \end{pmatrix} \end{equation}\] und für den Varianzparameterschätzer \[\begin{equation} \hat{\sigma}^{2} = \frac{\sum_{j=1}^{n_{1}}\left(y_{1j}-\bar{y}_{1}\right)^{2}+\sum_{j=1}^{n_{2}}\left(y_{2j}-\bar{y}_{2}\right)^{2}}{n_{1}+n_{2}-2} =: s_{12}^{2} \end{equation}\]

Beweis. Für \(i=1,2\) sei \(y_i:=\left(y_{i1}, \ldots, y_{i n_{i}}\right)^{T}\). Dann ergibt sich für den Betaparameterschätzer \[\begin{align} \begin{split} \hat{\beta} & = \left(X^{T} X\right)^{-1} X^{T} y \\ & = \left(\begin{pmatrix} 1_{n_{1}} & 0_{n_{2}} \\ 0_{n_{1}} & 1_{n_{2}} \end{pmatrix} \begin{pmatrix} 1_{n_{1}} & 0_{n_{1}} \\ 0_{n_{2}} & 1_{n_{2}} \end{pmatrix}\right)^{-1} \begin{pmatrix} 1_{n_{1}} & 0_{n_{2}} \\ 0_{n_{1}} & 1_{n_{2}} \end{pmatrix} \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} \\ & = \begin{pmatrix} n_{1} & 0 \\ 0 & n_{2} \end{pmatrix}^{-1} \begin{pmatrix} \sum_{j=1}^{n_{1}} & y_{1j} \\ \sum_{j=1}^{n_{2}} y_{2j} \end{pmatrix} \\ & = \begin{pmatrix} n_{1}^{-1} & 0 \\ 0 & n_{2}^{-1} \end{pmatrix} \begin{pmatrix} \sum_{j=1}^{n_{1}} & y_{1j} \\ \sum_{j=1}^{n_{2}} & y_{2j} \end{pmatrix} \\ & = \begin{pmatrix} \frac{1}{n_{1}} \sum_{j=1}^{n_{1}} y_{1j} \\ \frac{1}{n_{2}} \sum_{j=1}^{n_{2}} y_{2j} \end{pmatrix} \\ & =: \begin{pmatrix} \bar{y}_{1} \\ \bar{y}_{2} \end{pmatrix} \end{split} \end{align}\] Gleichsam ergibt sich für Varianzparameterschätzer mit \(n=n_{1}+n_{2}\) und \(p=2\) \[\begin{align} \begin{split} \hat{\sigma}^{2} & =\frac{(y - X \hat{\beta})^{T}(y - X \hat{\beta})}{n-p} \\ & =\frac{1}{n_{1}+n_{2}-2} \left( \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix}- \begin{pmatrix} 1_{n_{1}} & 0_{n_{1}} \\ 0_{n_{2}} & 1_{n_{2}} \end{pmatrix} \begin{pmatrix} \bar{y}_{1} \\ \bar{y}_{2} \end{pmatrix}\right)^{T} \left(\begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} -\begin{pmatrix} 1_{n_{1}} & 0_{n_{1}} \\ 0_{n_{2}} & 1_{n_{2}} \end{pmatrix}\begin{pmatrix} \bar{y}_{1} \\ \bar{y}_{2} \end{pmatrix}\right) \\ & = \frac{1}{n_{1}+n_{2}-2} \begin{pmatrix} y_{11}-\bar{y}_{1} \\ \vdots \\ y_{1 n_{1}}-\bar{y}_{1} \\ y_{21}-\bar{y}_{2} \\ \vdots \\ y_{2 n_{2}}-\bar{y}_{2} \end{pmatrix}\begin{pmatrix} y_{11}-\bar{y}_{1} \\ \vdots \\ y_{1 n_{1}}-\bar{y}_{1} \\ y_{21}-\bar{y}_{2} \\ \vdots \\ y_{2 n_{2}}-\bar{y}_{2} \end{pmatrix} \\ & = \frac{\sum_{j=1}^{n_{1}}\left(y_{1j}-\bar{y}_{1}\right)^{2}+\sum_{j=1}^{n_{2}}\left(y_{2j}-\bar{y}_{2}\right)^{2}}{n_{1}+n_{2}-2} \\ = & : s_{12}^{2} . \end{split} \end{align}\]

Man beachte, dass sich die Stichprobenvarianz \(s_{y}^{2}\) der Komponenten von y im Allgemeinen von der gepoolten Stichprobenvarianz \(s_{12}^{2}\) unterscheidet. Dies ist nicht zuletzt dadurch bedingt, dass die Stichprobenvarianz basierend auf dem Gesamtstichprobenmittel \(\bar{y}\), die gepoolte Stichprobenvarianz dagegen basierend auf den gruppenspezifischen Stichprobenmittel \(\bar{y}_{1}\) und \(\bar{y}_{2}\) ermittelt wird. Wir wollen das Konzept der gepoolten Stichprobenvarianz hier aber nicht weiter vertiefen.

Modellevaluation

Basierend auf Theorem 38.1 formulieren wir nun die T-Teststatistik für das in Definition 40.2 in Designmatrixform definierte Zweistichproben-T-Test-Modell und geben ihre frequentistische Verteilung an.

Theorem 40.4 (T-Teststatistik des Zweistichproben-T-Tests) Gegeben sei die Designmatrixform des Zweistichproben-T-Tests. Dann ergibt sich für die T-Teststatistik mit \[\begin{equation} c:=(1,-1)^{T} \mbox{ und } c^{T} \beta_{0}=: \mu_{0}, \end{equation}\] dass \[\begin{equation} T =\sqrt{\frac{n_{1} n_{2}}{n_{1}+n_{2}}} \left(\frac{\bar{y}_{1}-\bar{y}_{2}-\mu_{0}}{s_{12}}\right) \end{equation}\] und es gilt \[\begin{equation} T \sim t\left(\delta, n_{1}+n_{2}-2\right) \mbox{ mit } \delta=\sqrt{\frac{n_{1} n_{2}}{n_{1}+n_{2}}}\left(\frac{\mu_{1}-\mu_{2}-\mu_{0}}{\sigma}\right) . \end{equation}\]

Beweis. Mit Theorem 38.1 gilt zunächst für die Zähler von \(T\) und \(\delta\), dass \[\begin{equation} c^{T} \hat{\beta}-c^{T} \beta_{0} =\begin{pmatrix} 1 & -1 \end{pmatrix} \begin{pmatrix} \bar{y}_{1} \\ \bar{y}_{2} \end{pmatrix}-\mu_{0} =\bar{y}_{1}-\bar{y}_{2}-\mu_{0} \end{equation}\] und \[\begin{equation} c^{T} \beta-c^{T} \beta_{0} =\begin{pmatrix} 1 & -1 \end{pmatrix} \begin{pmatrix} \mu_{1} \\ \mu_{2} \end{pmatrix}-\mu_{0} =\mu_{1}-\mu_{2}-\mu_{0} \end{equation}\] respektive. Weiterhin gilt für die Nenner von \(T\) und \(\delta\), dass \[\begin{equation} c^{T}\left(X^{T}X\right)^{-1}c = \begin{pmatrix} 1 & -1 \end{pmatrix} \begin{pmatrix} n_{1}^{-1} & 0 \\ 0 & n_{2}^{-1} \end{pmatrix} \begin{pmatrix} 1 \\ -1 \end{pmatrix} = \begin{pmatrix} n_{1}^{-1} & -n_{2}^{-1} \end{pmatrix} \begin{pmatrix} 1 \\ -1 \end{pmatrix} =\frac{1}{n_{1}}+\frac{1}{n_{2}} \end{equation}\] Außerdem gilt \[\begin{equation} \left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)^{-\frac{1}{2}}=\left(\frac{n_{2}}{n_{1} n_{2}}+\frac{n_{1}}{n_{1} n_{2}}\right)^{-\frac{1}{2}}=\left(\frac{n_{1}+n_{2}}{n_{1} n_{2}}\right)^{-\frac{1}{2}}=\left(\frac{n_{1} n_{2}}{n_{1}+n_{2}}\right)^{\frac{1}{2}} \end{equation}\] Zusammengenommen folgt direkt, dass \[\begin{equation} T = \sqrt{\frac{n_{1} n_{2}}{n_{1}+n_{2}}} \left(\frac{\bar{y}_{1}-\bar{y}_{2}-\mu_{0}}{s_{12}}\right) \mbox{ und } \delta=\sqrt{\frac{n_{1} n_{2}}{n_{1}+n_{2}}}\left(\frac{\mu_{1}-\mu_{2}-\mu_{0}}{\sigma}\right) . \end{equation}\]

Die Formen der T-Teststatistik und ihre Verteilung im Zweistichproben-T-Test Modell in Designmatrixform sind also wiederum natürlicherweise mit den entsprechenden Formen im ALM-freien Kontext identisch. Die enstprechende zur Kontrolle des Testumfangs bei Zweistichproben-T-Tests sowie der Gebrauch der Testgütefunktion zur Evaluation der Testtrennschärfe (Power) folgt also analog.

Anwendungsbeispiel

Folgender R Code demonstriert die Evaluation von 95%-Konfidenzintervallen für die Erwartungswertparameter \(\mu_{1}\) und \(\mu_{2}\) sowie Durchführung eines zweiseitigen ZweistichprobenT-Tests mit Nullhypothese \[\begin{equation} \Theta_{0} := \left\{ \begin{pmatrix} \mu_{1} \\ \mu_{2} \end{pmatrix} \in \mathbb{R}^{2} \mid \mu_{1}=\mu_{2} \right\} \end{equation}\] und Signifikanzlevel \(\alpha_{0}:=0.05\) für das oben skizzierte Anwendungsbeispiel.

# Dateneinlesen
D           = read.csv("./_data/507-t-tests.csv")               # Dataframe
y_1         = D$dBDI[D$COND == "F2F"]                           # BDI Differenzwerte in der F2F Gruppe
y_2         = D$dBDI[D$COND == "ONL"]                           # BDI Differenzwerte in der ONL Gruppe

# Modellformulierung
n_1         = length(y_1)                                       # Anzahl Datenpunkte Gruppe 1 (F2F)
n_2         = length(y_1)                                       # Anzahl Datenpunkte Gruppe 2 (ONL)
n           = n_1 + n_2                                         # Gesamtanzahl Datenpunkte
y           = matrix(c(y_1, y_2), nrow = n)                     # Datenvektor
p           = 2                                                 # Anzahl Betaparameter
X           = matrix(c(rep(1,n_1), rep(0,n_2),                  # Zweistichproben-T-Test Designmatrix
                       rep(0,n_1), rep(1,n_2)),
              nrow = n)

# Parameterschätzng
beta_hat    = solve(t(X) %*% X) %*% t(X) %*% y                  # Betaparameterschätzer
eps_hat     = y - X %*% beta_hat                                # Residuenvektor
sigsqr_hat  = (t(eps_hat) %*% eps_hat) /(n-p)                   # Varianzparameterschätzer

# Konfidenzintervall
delta       = 0.95                                              # Konfidenzbedingung
t_delta     = qt((1+delta)/2,n-1)                               # \Psi^{-1}((1+\delta)/2,n-1)
lambda      = diag(solve(t(X) %*% X))                           # \lambda_j Werte
kappa       = matrix(rep(NaN,p*2), nrow = p)                    # \beta_j Konfidenintervall array
for(j in 1:p){                                                  # Iteration über \beta_j
  kappa[j,1] = beta_hat[j]-sqrt(sigsqr_hat*lambda[j])*t_delta   # untere KI Grenze
  kappa[j,2] = beta_hat[j]+sqrt(sigsqr_hat*lambda[j])*t_delta}  # obere KI Grenze

# Hypothesentest
c           = matrix(c(1,-1), nrow = 2)                         # Kontrastgewichtsvektor
mu_0        = 0                                                 # Nullhypothese H_0
alpha_0     = 0.05                                              # Signifikanzniveau
k_alpha_0   = qt(1 - (alpha_0/2), n-1)                          # kritischer Wert
t_num       = t(c) %*% beta_hat - mu_0                          # T-Teststatistik Zähler
t_den       = sqrt(sigsqr_hat*t(c) %*% solve(t(X) %*% X)%*%c)   # T-Teststatistik Nenner
t           = t_num/t_den                                       # T-Teststatistik
if(abs(t) >= k_alpha_0){phi = 1} else {phi = 0}                 # Test 1_{|T(X) >= k_alpha_0|}
pval      = 2*(1-pt(abs(t), n_1+n_2-2))                         # p-Wert
Betaparameterschätzer            :  3.5 7.42 
95%-Konfidenzintervalle         :  1.41 5.32 5.59 9.51 
Varianzparameterschätzer        :  12.27 
alpha_0                         :  0.05 
Kritischer Wert                 :  2.07 
Einstichproben-T-Teststatistik  :  -2.74 
phi                             :  1 
p-Wert                          :  0.01

Die Nullhypothese würde in diesem Fall bei einem kritischen Wert von \(k_{0.05}=2.07\) und einem Wert der T-Statistik von \(T=-033\) nicht verworfen werden. Inferenzstatisch besteht also keine Evidenz dafür, dass sich der wahre, aber unbekannte Erwartungswertparameter im F2F Therapiesetting vom wahren, aber unbekannte Erwartungswertparameter im ONL Therapiesetting unterscheidet. Die 95%Konfidenzintervalle für die wahren, aber unbekannten, Erwartungswertparameter \(\mu_{1}\) und \(\mu_{2}\) sind \([2.60,7.74]\) und \([3.18,8.32]\), respektive.

40.4 Literaturhinweise

Obwohl die frequentistische Literatur der ersten Hälfte des 20. Jahrhunderts von der Äquivalenz regressions- und varianzanalytischer linearer Modelle durchdrungen ist, fällt es schwer eine definite Quelle anzugeben, die hinsichtlich der Beschreibung von T-Tests als Spezialfälle des ALM Priorität hätte. Es sei hier deshalb eher allgemein auf Fisher (1925) und Fisher (1935) verwiesen.

Fisher, R. A. (1925). Theory of Statistical Estimation. Mathematical Proceedings of the Cambridge Philosophical Society, 22(5), 700–725. https://doi.org/10.1017/S0305004100009580
Fisher, R. A. (1935). The Design of Experiments (1. ed). Hafner Press.