49 Psychologische Tests
Tests und Fragebögen sind in der alltäglichen Erfahrung unterschiedlicher Natur. Mit dem Begriff Test verbindet man vermutlich am ehesten kleinere Prüfungen, bei denen es korrekte Antworten gibt und eine Leistungsfähigkeit überprüft wird. Mit dem Begriff des Fragebogens verbindet man vermutlich mehr oder weniger interessante Sammlungen von Fragen, bei denen man eventuell zu einem wahrheitsgemäßen Antwortverhalten aufgefordert wird, bei denen es aber auch klar ist, dass es keine richtigen oder falschen Antworten gibt. Obwohl mit Tests und Fragebögen in der alltäglichen Erfahrung also durchaus unterschiedliche Verfahren verbunden sind, unterscheidet die psychologische Testtheorie zwischen diesen nicht grundlegend. Historisch ist die Analyse von Testdaten sicherlich zunächst durch die Analyse von Leistungstestdaten geprägt, allerdings werden heutzutage die dort entwickelten Konzepte der Testtheorie auf die gleiche Art und Weise zur Analyse von klinischen Fragebogendaten genutzt. In diesem Abschnitt wollen wir zunächst einen kurzen Überblick zum Begriff des Psychologischen Tests geben, die sogenannten Testgütekriterien auflisten, einige gängige Normierungen von Testrohdaten vorstellen und schließlich kurz die drei wesentlichen Testtheorien skizzieren.
49.1 Zum Begriff des psychologische Tests
Um uns dem Testbegriff zu nähern, betrachten wir zunächst die Definitionen eines Tests nach Moosbrugger & Kelava (2012), Bühner (2010) und Krauth (1995).
Nach Moosbrugger & Kelava (2012) ist ein psychologischer Test “ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung”.
Nach Bühner (2010) ist ein “psychometrischer Test ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale (vgl. Lienert & Raatz (1998), S.1). Das Ziel eines psychometrischen Tests besteht darin, die absolute oder relative Ausprägung einer Eigenschaft, einer Fähigkeit oder eines Zustands bei einer oder mehreren Personen zu messen oder eine qualitative Aussage zu treffen, welcher Personenklasse Personen zugeordnet werden können (vgl. Rost (2004)). Psychometrische Tests sind nach der Klassischen oder Probabilistischen Testtheorie entwickelt, sind theoretisch fundiert und genügen genau definierten Gütekriterien (Haupt- und Nebengütekriterien).”
Nach Krauth (1995) schließlich “besteht ein psychologischer Test aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, also aus manifesten Variablen. Eine Skala ordnet den Reaktionsmustern der manifesten Variablen die Ausprägungen einer oder mehrerer latenter Variablen zu. Somit fungiert ein Test als Messinstrument zur Erfassung nicht direkt beobachtbarer (latenter) Variablen, deren Existenz für Personen und gelegentlich auch für Tiere postuliert wird.”
Nach diesen Definitionen ist psychologischen Tests also gemein, dass sie Verfahren zur Messung psychologischer Eigenschaften darstellen und sich dadurch auszeichnen, dass sie einer wissenschaftlichen Qualitätssicherung unterliegen.
Generell lassen sich psychologische Tests in verschiedene Kategorien unterteilen:
- Leistungstests. Dazu gehören Entwicklungstests, Intelligenztests, allgemeine Leistungstests, Schultests sowie spezielle Funktionsprüfungs- und Eignungstests.
- Psychometrische Persönlichkeitstests. Hierunter fallen klinische Tests, Persönlichkeitsstrukturtests, Einstellungstests und Interessentests.
- Persönlichkeitsentfaltungs-Verfahren. Diese umfassen Formdeuteverfahren, verbal-thematische Verfahren sowie zeichnerische und gestalterische Verfahren.
Im Kontext der Klinischen Psychologie und Psychotherapie sind sicherlich klinische Tests von vorherrschendem Interesse. Beispiele für klinische Tests sind etwa
- BDI-II (Beck Depressions-Inventar II, Beck et al. (1996), Hautzinger et al. (2006)), ein klinischer Test zur Messung der Schwere einer Depression. Er basiert auf den diagnostischen Kriterien einer Major Depression nach dem DSM-IV und fragt typische depressive Symptome ab.
- BSI (Brief Symptom Inventory, Derogatis & Melisaratos (1983)), ein klinischer Test, der psychische Belastungen und Symptome erfasst. Der BSI deckt neun Symptomdimensionen ab: Somatisierung, Zwanghaftigkeit, Unsicherheit im Sozialkontakt, Depressivität, Ängstlichkeit, Aggressivität/Feindseligkeit, phobische Angst, paranoides Denken und Psychotizismus.
- BSL-23 (Borderline-Symptomliste 23, Bohus et al. (2009)), ein klinischer Test zur Erfassung der Schwere von Borderline-spezifischen Symptomen. Er misst typische emotionale, kognitive und Verhaltensmuster bei Borderline-Persönlichkeitsstörung.
Psychologische Test bestehen dabei in der Regel aus Items, die als Grundbausteine des Tests fungieren. Items stellen allgemein Reize dar, auf die eine Reaktion erwartet und registriert wird. Das Standardbeispiel für ein Item ist eine Frage mit entsprechenden Antwortmöglichkeiten. Beispielsweise umfasst der BDI-II 21 Items zur Bewertung des Schweregrads einer Depression auf einer Skala von 0 bis 3. Das Item zum Thema Traurigkeit dabei lautet:
Suchen Sie eine Aussage heraus, die am besten beschreibt, wie Sie sich in den letzten zwei Wochen, einschlißelich heute, gefühlt haben:
49.2 Testgütekriterien
Im wissenschaftlichen Diskurs haben sich eine Reihe von Qualitätsanforderungen an psychologische Tests herausgebildet, die ein Test, um wissenschaftlich anerkannt zu sein, idealerweise erfüllt (vgl. Moosbrugger & Kelava (2012)). Grundlegend sind die Kriterien der Objektivität, Reliabilität und Validität
- Objektivität. Ein Test ist objektiv, wenn seine Durchführung, Auswertung und Interpretation unabhängig von den Testleitenden ist. Die Objektivität eines Testverfahrens wird meist durch eine entsprechende Manualisierung sichergestellt.
- Reliabilität. Ein Test ist reliabel, wenn er das zu messende Merkmal exakt und ohne Messfehler erfasst. Wichtige Unterarten der Reliabilität sind Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität und interne Konsistenz. Reliabilitäten werden in der Regel durch Korrelationen erfasst. Die Klassische Testtheorie stellt einen theoretischen Überbau zur Einordnung und quantitativen Definition von Retest-, Paralleltest, und Testhalbierungsreliabilität dar und entwickelt beispielsweise mit Cronbach’s \(\alpha\) (Cronbach (1951)) Maße für die interne Konsistenz von psychologischen Tests.
- Validität. Ein Test ist valide, wenn er tatsächlich das misst, was er messen soll. Unterschieden werden Inhaltsvalidität, Augenscheinvalidität, Kriteriumsvalidität, Konstruktvalidität und, im Kontext der Testentwicklung faktorielle Validität. Inhalts- und Augenscheinvalidität werden in der Regel durch Expert:inneneinschätzungen belegt, Kriteriumsvalidität durch Korrelation mit einem geeigneten externen Kriterium, z.B. einer klinischen Diagnose. Die Etablierung der Konstruktvalidität eines Tests ist eine weitreichende Forderung, die vermutlich selten erfüllt wird (vgl. Borsboom et al. (2004)). Belege für die die faktorielle Validät schließlich tauchen häufig in Textmanualen auf und beziehen sich auf die Ergebnisse von Faktorenanalysen.
Neben den obigen Gütekriterien erfüllt ein wissenschaftlich anerkanntes Testverfahren idealerweise auch noch folgende sogenannten Nebengütekriterien:
- Skalierung. Die Testwerte sollten die qualitativen Merkmalsrelationen im Sinne der Repräsentationstheorie des Messen adäquat abbilden.
- Normierung. Das Bezugssystem ermöglicht die Vergleichbarkeit der Testwerte mit einer Eichstichprobe.
- Testökonomie. Ein Test sollte mit möglichst geringem Zeit- und Ressourcenaufwand auswertbar sein. Die Digitalisierung der Antworterhebung und automatisierte Auswertung mithilfe von Computersoftware wären ein erster Schritt in dieser Richtung.
- Nützlichkeit. Der Test sollte praktische Relevanz besitzen und einen positiven Nutzen bieten.
- Zumutbarkeit. Die Belastung der Testperson sollte in einem angemessenen Verhältnis zum Nutzen stehen.
- Unverfälschbarkeit. Das Testergebnis sollte nicht durch bewusstes Verhalten verfälscht werden können. Dies ist bei den meisten klinischen Verfahren, die auf einer Selbsteinschätzung beruhen, sicherlich nicht der Fall.
- Fairness. Der Test darf keine systematische Benachteiligung bestimmter Gruppen verursachen. Dieses Kriterium ist im klinischen Kontext vermutlich eher von untergeordnerter Relevanz.
49.3 Normwerte
Primäres quantitatives Ergebnis eines psychologischen Tests oder auch eines einzelnen Items eines Tests ist zunächst einmal ein Rohwert. Beispielsweise sind die möglichen Rohwerte bei Beantwortung des oben aufgeführten Traurigkeitsitems des BDI-II die Zahlen 0,1,2, und 3. Der Rohwert eines Testergebnisses über mehrere Items ergibt sich häufig als die Summe der Rohwerte der einzelnen Items als sogenannter Summenscore. So variieren die Summenscores des BDI-II beispielsweise zwischen 0 und 63, wobei Werte zwischen 0 und 13 einer minimalen, Werte zwischen 14 und 19 einer leichten, Werte zwischen 20 und 28 einer mäßigen und Werte zwischen 29 und 63 einer schweren Depressionssymptomatik entsprechen. Die Rohwerte des BSI und des BSL-23 ergen sich durch Summation der einzelnen Itemwerte, mit den möglichen Ausprägungen 0,1,2,3,4 und Division durch die beantwortete Itemanzahl, wodurch sich dann ein Mittelwertscore im Bereich 0 bis 4 ergibt.
Um ein gewisses Maß an Vergleichbarkeit zwischen den Wertausprägungen verschiedener klinischer Testverfahren zu gewährleisten und ein einzelnes Testergebnis vor dem Hintegrund der üblichen Verteilungen von Testergebnissen einzuordnen, werden Testergebnisse oft normiert (vgl. De Beurs et al. (2022)). Dazu ist es zunächst einmal nötig, Testergebnisse von einer hinreichend großen Stichprobe von gesunden oder klinisch auffälligen Proband:innen zu erheben. Diese Testergebnisse seien im Folgenden als Testrohwerte \(y^{(i)}\) für \(i = 1,...,n\) bezeichnet, wobei \(n\) der Stichprobenumfang ist. Die Resultate solcher groß angelegter Studien sind in der Regel in den entsprechenden Testmanualen dokumentiert. Legt man dann die Annahme zugrunde, dass die Testergebnisse in der entsprechenden Stichprobe einer Normalverteilung folgen, deren Erwartungswertparameter man durch das entsprechende Stichprobenmittel und deren Varianzparameter man durch die entsprechende Stichprobenvarianz schätzen kann, so ergeben sich, basierend auf dem Theorem zur linearen Transformation normalverteilter Zufallsvariablen eine Reihe von Möglichkeiten, die Testrohwerte zu standardisieren. Üblicherweise trifft man in diesem Zusammenhang auf Z Scores und T Scores, seltener auf Stanines oder Stens.
Um die Bedeutung dieser standardisierten Testwerte zu verstehen, erinnern wir zunächst an die Verteilung der Wahrscheinlichkeitsmasse einer normalverteilten Zufallsvariable. Bekanntlich gelten (vgl. Abbildung 49.1, nach Seashore (1955) und De Beurs et al. (2022)) \[\begin{align} \begin{split} \int_{-1\sigma}^{1\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(1\sigma;\mu,\sigma^2) - \Phi(-1\sigma;\mu,\sigma^2) \approx 0.68 \\ \int_{-2\sigma}^{2\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(2\sigma;\mu,\sigma^2) - \Phi(-2\sigma;\mu,\sigma^2) \approx 0.95 \\ \int_{-3\sigma}^{3\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(3\sigma;\mu,\sigma^2) - \Phi(-3\sigma;\mu,\sigma^2) \approx 0.99 \\ \end{split} \end{align}\]

Innerhalb einer Standardabweichung um den Erwartungswertparameter liegen bei einer normalverteilten Zufallsvariable also 68% der Wahrscheinlichkeitsmasse, innerhalb von zwei Standardabweichungen 95% und innerhalb von drei Standardabweichungen mit 99% fast die gesamte Wahrscheinlichkeitsmasse. Diese Verteilung der Wahrscheinlichkeitsmasse gilt offensichtlich unabhängig von den konkreten Werten von \(\mu\) und \(\sigma^2\) und somit für alle normalverteilten Zufallsvariablen. Weiterhin erinnern wir daran, dass das Theorem zur linearen Transformation einer normalverteilten Zufallsvariable besagt, dass \[\begin{equation} y \sim N(\mu,\sigma^2) \mbox{ und } z := ay + b \Rightarrow z \sim N(a\mu+b,a^2\sigma^2). \end{equation}\] Seien also \(m\) und \(s^2\) die Stichprobenschätzer für den Erwartungswertparameter \(\mu\) und den Varianzparameter \(\sigma^2\) normalverteilter Testrohwerte. Dann gilt für \[\begin{equation} z := \frac{y - m}{s} = \frac{1}{s}y - \frac{1}{s}m \approx \frac{1}{\sigma}y - \frac{1}{\sigma}\mu \end{equation}\] näherungsweise \[\begin{equation} z \sim N\left(\frac{1}{\sigma}\mu - \frac{1}{\sigma}\mu, \frac{1}{s^2}s^2\right) = N(0,1). \end{equation}\] Berechnet man zu jedem Testrohwert \(x^{(i)}\) also den sogenannten Z Score \[\begin{equation} z^{(i)} := \frac{x^{(i)} - m}{s}, \end{equation}\] so sind die so generierten Werte, unabhängig von den Stichproben-spezifischen Werten von \(m\) und \(s\) immer näherungsweise standardnormalverteilt und damit über verschiedene Rohwertebereiche verschiedener Tests vergleichbar (vgl. Abbildung 49.2).
Nun hat eine standardnormalverteilte Zufallsvariable die Eigenschaft, mit höchster Wahrscheinlichkeit einen Wert zwischen \(-3\) und \(3\) anzunehmen. Dies mag manchmal unpraktisch erscheinen, da in diesem Fall ein einzelnes Testergebnis, wenn es unter dem Stichprobenmittelwert liegt, negativ ausfallen kann. Weiterhin erfordert die Angabe eines Ergebnisses mit hinreichender Genauigkeit die Angabe von Nachkommastellen. McCall (1922) hat deshalb vorgeschlagen, eine weitere lineare Transformation der berechneten Z Scores durchzuführen, die die Z Scores in einen zugänglicheren Wertebereich transformiert. Die so transfomierten Z Scores bezeichnet McCall (1922) zu Ehren von Edward Lee Thorndike, Lewis Terman und Louis Leon Thurstone als T Scores. Die Bezeichung T Scores geht also keinesfalls auf die \(T\)-Statistiken der Frequentisischen Inferenz und ihre entsprechenden Verteilungen zurück. Die von McCall (1922) vorgeschlagene Transformation ist durch \[\begin{equation} t^{(i)} := 10z^{(i)} + 50 \end{equation}\] gegeben. Mit der näherungsweisen Standardnormalverteilung von \(z\) ergibt sich entsprechend \[\begin{equation} t \sim N\left(0 + 50, 10^2 \cdot 1\right) = N(50,100). \end{equation}\] T Scores haben näherungsweise also immer einen Erwartunsgwert von 50, eine Varianz von 100 und eine Standardabweichung von 10. Damit liegen dann im T Score Wertebereich von 40 bis 60 etwa 68% der Stichprobenergebnisse, im Wertebereich von 30 bis 70 etwa 95% der Stichprobenergebnisse und im Wertebereich von 20 bis 80 etwa 99% der Stichprobenergebnisse (vgl. Abbildung 49.1).
Die seltener anzutreffenden Stanine (standard nine) und Sten (standard ten) Werte folgen in ihrer Berechnung der gleichen Logik wie die T Scores, zielen aber auf den Wertebereich 1 bis 9 bzw. 1 bis 10. Sie ergeben sich aus Z Scores durch die Transformation \[\begin{equation} s^{(i)} := 2z^{(i)} + 5 \end{equation}\] und anschließende Rundung auf Werte von 1 bis 9 bzw. 1 bis 10.

49.4 Testtheorien
Generell kann man mit der Klassischen Testtheorie, der Faktorenanalyse und der Item-Response-Theorie drei Theorien unterscheiden, die der Analyse von Testdaten zugrunde liegen. Allen drei Theorien ist gemein, dass es sich bei ihnen um probabilistische Modelle von beobachtbaren Item- und Testwerten handelt. Weiterhin ist ihnen gemein, dass sie neben der Modellierung von beobachtbaren Testwerten durch Zufallsvariablen auch latente (nicht direkt beobachtbare) Zufallsvariablen zur Erklärung beobachtbarer Daten heranziehen. In der wissenschaftlichen Betrachtung klinisch-diagnostischer Verfahren spielen insbesondere die Klassische Testtheorie bezüglich der Reliabilität und der internen Konsistenz von Testverfahren sowie die Faktorenanalyse bezüglich der faktoriellen Validität von Testverfahren zentrale Rollen. Die Item-Response-Theorie spielt derzeit in Bezug auf klinisch-diagnostische Verfahren eher eine geringe Rolle (vgl. Reise & Waller (2009)). Wir wollen diese Hauptströmungen der Testtheorie im Folgenden kurz skizzieren.
Klassische Testtheorie
Die Klassische Testtheorie bildet die Grundlage für die Evaluation des Testgütekriteriums der Reliabilität. Die Klassische Testtheorie besteht im Kern aus einem probabilistischen Modell für Item- oder Testergebnisse eines oder mehrerer Individuen für einen oder mehrere Tests. Zentrale Aspekte der Klassische Testtheorie gehen auf die Arbeiten von Charles Spearman Anfang des 20. Jahrhunderts zurück und wurden unter anderem durch Gulliksen (1950) und Lord & Novick (1968) weiter etabliert. Grundlegendes Konzept der Klassische Testtheorie ist ein Messfehlermodell der Form \[\begin{equation} \mbox{Beobachteter Wert} = \mbox{Wahrer Wert} + \mbox{Messfehler} \end{equation}\] wie in der Form “\(y = \mu + \varepsilon\)” aus der Frequentistischen Inferenztheorie bekannt. Allerdings treten dabei im Rahmen der Klassische Testtheorie einige Besonderheiten auf. Zum einen basieren die Modelle der Klassische Testtheorie in der Regel nicht auf Normalverteilungsannahmen, was dem diskreten Charakter der beobachteten Testergebnisse geschuldet sein mag, sondern beschränken sich auf die Modellierung durch allgemeine Zufallsvariablen und die Analyse ihrer Erwartungswerte, Varianzen und Kovarianzen. Zum anderen werden “wahre Werte” im Gegensatz zur Frequentistischen Inferenz nicht als feste Werte, sondern auch als Realisierungen von Zufallsvariablen modelliert. Schließlich tritt insbesondere in der Formulierung nach Lord & Novick (1968) noch der Versuch zutage, “wahre Werte” möglichst nicht naiv-realistisch bei der Analyse von Testergebnissen zu unterstellen, sondern ihnen eine frequentistisch-propensitäre Interpretation zu geben, um sie aus naturwissenschaftlicher Sicht weniger angreifbar zu machen. Die Klassische Testtheorie liefert unter anderem die Grundlage für die in der Anwendung häufig berichteten Korrelationen zur Retestreliabilität und Cronbach’s \(\alpha\) als Maß für die interne Konsistenz eines Tests. Wir orientieren uns in der folgenden Darstellung der Klassische Testtheorie überwiegend an Krauth (1995).
Faktorenanalyse
Grundlage der Faktorenanalyse ist ein ein probabilistisches Modell der Kovarianzeigenschaften von Testitems und bildet in der Anwendung die Grundlage für das Testgütekriterium der faktoriellen Valididät. Bedeutende klassische Beiträge zur Faktorenanalyse stammen von Spearman (1904), Hotelling (1933) und Lawley (1940). Wie die Klassische Testtheorie modelliert auch die Faktorenanalyse beobachtete Testergebnisse, hier meist auf der Ebene von Items, durch ein latentes Variablenmodell
\[\begin{equation}
\mbox{Beobachteter Wert} = \mbox{Faktorladungen}\cdot \mbox{Wahre Faktorenwerte} + \mbox{Messfehler}.
\end{equation}\] Die “wahren Werte” der Klassische Testtheorie und die “Wahren Faktorwerte” der Faktorenanalyse sind von ähnlichem Charakter, wobei in der Faktorenanalyse typischerweise mehr als ein einzelner wahrer Wert angenommen wird. Unter anderem aufgrund der Tatsache, dass mit dem bebachteten Wert in der Faktorenanalyse ein einzelnes Datum durch das Zusammenspiel dreier nicht beobachtbarer Werte (Faktorladung, Faktorwert, Messfehler) erklärt wird, ist die eindeutige Schätzung von Faktorladungen und Faktorwerten nicht ohne weiteres möglich. Diese Tatsache hat klassischerweise dazu geführt, dass aus einer Vielzahl möglicher Lösungen eines Faktorenanalysemodells ein spezielles mithilfe heuristischer Nebenkriterien ausgewählt wird, ein Prozess, der sich in den Rotationsverfahren der explorativen Faktorenanalyse niederschlägt. Allerdings kann das Faktorenanalysemodell durch geeignete Annahmen, wie zum Beispiel die Normalverteilung von wahren Faktorwerten und Messfehlern und die Nicht-Effizienz ausgewählter Faktorenwerte zumindest in Ansätzen identifizierbarer gestaltet werden und zu einem validen Inferenzmodell ausgebaut werden. Dies ist das Thema der konfirmatorischen Faktorenanalyse. Mit den Strukturgleichungsmodellen (vgl. Bollen (1989)) schließlich wurde die Faktorenanalyse im Computerzeitalter weiter verallgemeinert und zu einem äußerst flexiblen Modellierungsansatz ausgebaut. Wir orientieren uns in der Darstellung der Faktorenanalyse überwiegend an Rencher & Christensen (2012).
Item-Response-Theorie
Die Item-Response-Theorie (IRT) modelliert die Wahrscheinlichkeit einer bestimmten Testantwort als Funktion der Fähigkeit oder des Zustands der Testperson. Wichtige Beiträge zur IRT stammen von Rasch (1960), Novick (1966) und Lord (1980). Die IRT verwendet im Ansatz logistische Regressionsmodelle und findet vor allem bei Leistungsstest Anwendung. Sie bezieht sich dabei explizit auf die Messtheorie nach Stevens (1946), hat jedoch im klinischen Kontext eine geringere bis keine Bedeutung (vgl. Reise & Waller (2009)).