49 Psychologische Tests

Tests und Fragebögen sind in der alltäglichen Erfahrung unterschiedlicher Natur. Mit dem Begriff Test verbindet man vermutlich am ehesten kleinere Prüfungen, bei denen es korrekte Antworten gibt und eine Leistungsfähigkeit überprüft wird. Mit dem Begriff des Fragebogens verbindet man vermutlich mehr oder weniger interessante Sammlungen von Fragen, bei denen man eventuell zu einem wahrheitsgemäßen Antwortverhalten aufgefordert wird, bei denen es aber auch klar ist, dass es keine richtigen oder falschen Antworten gibt. Obwohl mit Tests und Fragebögen in der alltäglichen Erfahrung also durchaus unterschiedliche Verfahren verbunden sind, unterscheidet die psychologische Testtheorie zwischen diesen nicht grundlegend. Historisch ist die Analyse von Testdaten sicherlich zunächst durch die Analyse von Leistungstestdaten geprägt, allerdings werden heutzutage die dort entwickelten Konzepte der Testtheorie auf die gleiche Art und Weise zur Analyse von klinischen Fragebogendaten genutzt. In diesem Abschnitt wollen wir zunächst einen kurzen Überblick zum Begriff des Psychologischen Tests geben, die sogenannten Testgütekriterien auflisten, einige gängige Normierungen von Testrohdaten vorstellen und schließlich kurz die drei wesentlichen Testtheorien skizzieren.

49.1 Zum Begriff des psychologische Tests

Um uns dem Testbegriff zu nähern, betrachten wir zunächst die Definitionen eines Tests nach Moosbrugger & Kelava (2012), Bühner (2010) und Krauth (1995).

Nach Moosbrugger & Kelava (2012) ist ein psychologischer Test “ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung”.

Nach Bühner (2010) ist ein “psychometrischer Test ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale (vgl. Lienert & Raatz (1998), S.1). Das Ziel eines psychometrischen Tests besteht darin, die absolute oder relative Ausprägung einer Eigenschaft, einer Fähigkeit oder eines Zustands bei einer oder mehreren Personen zu messen oder eine qualitative Aussage zu treffen, welcher Personenklasse Personen zugeordnet werden können (vgl. Rost (2004)). Psychometrische Tests sind nach der Klassischen oder Probabilistischen Testtheorie entwickelt, sind theoretisch fundiert und genügen genau definierten Gütekriterien (Haupt- und Nebengütekriterien).”

Nach Krauth (1995) schließlich “besteht ein psychologischer Test aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, also aus manifesten Variablen. Eine Skala ordnet den Reaktionsmustern der manifesten Variablen die Ausprägungen einer oder mehrerer latenter Variablen zu. Somit fungiert ein Test als Messinstrument zur Erfassung nicht direkt beobachtbarer (latenter) Variablen, deren Existenz für Personen und gelegentlich auch für Tiere postuliert wird.”

Nach diesen Definitionen ist psychologischen Tests also gemein, dass sie Verfahren zur Messung psychologischer Eigenschaften darstellen und sich dadurch auszeichnen, dass sie einer wissenschaftlichen Qualitätssicherung unterliegen.

Generell lassen sich psychologische Tests in verschiedene Kategorien unterteilen:

Leistungstests. Dazu gehören Entwicklungstests, Intelligenztests, allgemeine Leistungstests, Schultests sowie spezielle Funktionsprüfungs- und Eignungstests.
Psychometrische Persönlichkeitstests. Hierunter fallen klinische Tests, Persönlichkeitsstrukturtests, Einstellungstests und Interessentests.
Persönlichkeitsentfaltungs-Verfahren. Diese umfassen Formdeuteverfahren, verbal-thematische Verfahren sowie zeichnerische und gestalterische Verfahren.

Im Kontext der Klinischen Psychologie und Psychotherapie sind sicherlich klinische Tests von vorherrschendem Interesse. Beispiele für klinische Tests sind etwa

BDI-II (Beck Depressions-Inventar II, Beck et al. (1996), Hautzinger et al. (2006)), ein klinischer Test zur Messung der Schwere einer Depression. Er basiert auf den diagnostischen Kriterien einer Major Depression nach dem DSM-IV und fragt typische depressive Symptome ab.
BSI (Brief Symptom Inventory, Derogatis & Melisaratos (1983)), ein klinischer Test, der psychische Belastungen und Symptome erfasst. Der BSI deckt neun Symptomdimensionen ab: Somatisierung, Zwanghaftigkeit, Unsicherheit im Sozialkontakt, Depressivität, Ängstlichkeit, Aggressivität/Feindseligkeit, phobische Angst, paranoides Denken und Psychotizismus.
BSL-23 (Borderline-Symptomliste 23, Bohus et al. (2009)), ein klinischer Test zur Erfassung der Schwere von Borderline-spezifischen Symptomen. Er misst typische emotionale, kognitive und Verhaltensmuster bei Borderline-Persönlichkeitsstörung.

Psychologische Test bestehen dabei in der Regel aus Items, die als Grundbausteine des Tests fungieren. Items stellen allgemein Reize dar, auf die eine Reaktion erwartet und registriert wird. Das Standardbeispiel für ein Item ist eine Frage mit entsprechenden Antwortmöglichkeiten. Beispielsweise umfasst der BDI-II 21 Items zur Bewertung des Schweregrads einer Depression auf einer Skala von 0 bis 3. Das Item zum Thema Traurigkeit dabei lautet:

Suchen Sie eine Aussage heraus, die am besten beschreibt, wie Sie sich in den letzten zwei Wochen, einschlißelich heute, gefühlt haben:

49.2 Testgütekriterien

Im wissenschaftlichen Diskurs haben sich eine Reihe von Qualitätsanforderungen an psychologische Tests herausgebildet, die ein Test, um wissenschaftlich anerkannt zu sein, idealerweise erfüllt (vgl. Moosbrugger & Kelava (2012)). Grundlegend sind die Kriterien der Objektivität, Reliabilität und Validität

Objektivität. Ein Test ist objektiv, wenn seine Durchführung, Auswertung und Interpretation unabhängig von den Testleitenden ist. Die Objektivität eines Testverfahrens wird meist durch eine entsprechende Manualisierung sichergestellt.
Reliabilität. Ein Test ist reliabel, wenn er das zu messende Merkmal exakt und ohne Messfehler erfasst. Wichtige Unterarten der Reliabilität sind Retest-Reliabilität, Paralleltest-Reliabilität, Testhalbierungs-Reliabilität und interne Konsistenz. Reliabilitäten werden in der Regel durch Korrelationen erfasst. Die Klassische Testtheorie stellt einen theoretischen Überbau zur Einordnung und quantitativen Definition von Retest-, Paralleltest, und Testhalbierungsreliabilität dar und entwickelt beispielsweise mit Cronbach’s \(\alpha\) (Cronbach (1951)) Maße für die interne Konsistenz von psychologischen Tests.
Validität. Ein Test ist valide, wenn er tatsächlich das misst, was er messen soll. Unterschieden werden Inhaltsvalidität, Augenscheinvalidität, Kriteriumsvalidität, Konstruktvalidität und, im Kontext der Testentwicklung faktorielle Validität. Inhalts- und Augenscheinvalidität werden in der Regel durch Expert:inneneinschätzungen belegt, Kriteriumsvalidität durch Korrelation mit einem geeigneten externen Kriterium, z.B. einer klinischen Diagnose. Die Etablierung der Konstruktvalidität eines Tests ist eine weitreichende Forderung, die vermutlich selten erfüllt wird (vgl. Borsboom et al. (2004)). Belege für die die faktorielle Validät schließlich tauchen häufig in Textmanualen auf und beziehen sich auf die Ergebnisse von Faktorenanalysen.

Neben den obigen Gütekriterien erfüllt ein wissenschaftlich anerkanntes Testverfahren idealerweise auch noch folgende sogenannten Nebengütekriterien:

Skalierung. Die Testwerte sollten die qualitativen Merkmalsrelationen im Sinne der Repräsentationstheorie des Messen adäquat abbilden.
Normierung. Das Bezugssystem ermöglicht die Vergleichbarkeit der Testwerte mit einer Eichstichprobe.
Testökonomie. Ein Test sollte mit möglichst geringem Zeit- und Ressourcenaufwand auswertbar sein. Die Digitalisierung der Antworterhebung und automatisierte Auswertung mithilfe von Computersoftware wären ein erster Schritt in dieser Richtung.
Nützlichkeit. Der Test sollte praktische Relevanz besitzen und einen positiven Nutzen bieten.
Zumutbarkeit. Die Belastung der Testperson sollte in einem angemessenen Verhältnis zum Nutzen stehen.
Unverfälschbarkeit. Das Testergebnis sollte nicht durch bewusstes Verhalten verfälscht werden können. Dies ist bei den meisten klinischen Verfahren, die auf einer Selbsteinschätzung beruhen, sicherlich nicht der Fall.
Fairness. Der Test darf keine systematische Benachteiligung bestimmter Gruppen verursachen. Dieses Kriterium ist im klinischen Kontext vermutlich eher von untergeordnerter Relevanz.

49.3 Normwerte

Primäres quantitatives Ergebnis eines psychologischen Tests oder auch eines einzelnen Items eines Tests ist zunächst einmal ein Rohwert. Beispielsweise sind die möglichen Rohwerte bei Beantwortung des oben aufgeführten Traurigkeitsitems des BDI-II die Zahlen 0,1,2, und 3. Der Rohwert eines Testergebnisses über mehrere Items ergibt sich häufig als die Summe der Rohwerte der einzelnen Items als sogenannter Summenscore. So variieren die Summenscores des BDI-II beispielsweise zwischen 0 und 63, wobei Werte zwischen 0 und 13 einer minimalen, Werte zwischen 14 und 19 einer leichten, Werte zwischen 20 und 28 einer mäßigen und Werte zwischen 29 und 63 einer schweren Depressionssymptomatik entsprechen. Die Rohwerte des BSI und des BSL-23 ergen sich durch Summation der einzelnen Itemwerte, mit den möglichen Ausprägungen 0,1,2,3,4 und Division durch die beantwortete Itemanzahl, wodurch sich dann ein Mittelwertscore im Bereich 0 bis 4 ergibt.

Um ein gewisses Maß an Vergleichbarkeit zwischen den Wertausprägungen verschiedener klinischer Testverfahren zu gewährleisten und ein einzelnes Testergebnis vor dem Hintegrund der üblichen Verteilungen von Testergebnissen einzuordnen, werden Testergebnisse oft normiert (vgl. De Beurs et al. (2022)). Dazu ist es zunächst einmal nötig, Testergebnisse von einer hinreichend großen Stichprobe von gesunden oder klinisch auffälligen Proband:innen zu erheben. Diese Testergebnisse seien im Folgenden als Testrohwerte \(y^{(i)}\) für \(i = 1,...,n\) bezeichnet, wobei \(n\) der Stichprobenumfang ist. Die Resultate solcher groß angelegter Studien sind in der Regel in den entsprechenden Testmanualen dokumentiert. Legt man dann die Annahme zugrunde, dass die Testergebnisse in der entsprechenden Stichprobe einer Normalverteilung folgen, deren Erwartungswertparameter man durch das entsprechende Stichprobenmittel und deren Varianzparameter man durch die entsprechende Stichprobenvarianz schätzen kann, so ergeben sich, basierend auf dem Theorem zur linearen Transformation normalverteilter Zufallsvariablen eine Reihe von Möglichkeiten, die Testrohwerte zu standardisieren. Üblicherweise trifft man in diesem Zusammenhang auf Z Scores und T Scores, seltener auf Stanines oder Stens.

Um die Bedeutung dieser standardisierten Testwerte zu verstehen, erinnern wir zunächst an die Verteilung der Wahrscheinlichkeitsmasse einer normalverteilten Zufallsvariable. Bekanntlich gelten (vgl. Abbildung 49.1, nach Seashore (1955) und De Beurs et al. (2022)) \[\begin{align} \begin{split} \int_{-1\sigma}^{1\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(1\sigma;\mu,\sigma^2) - \Phi(-1\sigma;\mu,\sigma^2) \approx 0.68 \\ \int_{-2\sigma}^{2\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(2\sigma;\mu,\sigma^2) - \Phi(-2\sigma;\mu,\sigma^2) \approx 0.95 \\ \int_{-3\sigma}^{3\sigma} N(x;\mu,\sigma^2) \,dx & = \Phi(3\sigma;\mu,\sigma^2) - \Phi(-3\sigma;\mu,\sigma^2) \approx 0.99 \\ \end{split} \end{align}\]

Innerhalb einer Standardabweichung um den Erwartungswertparameter liegen bei einer normalverteilten Zufallsvariable also 68% der Wahrscheinlichkeitsmasse, innerhalb von zwei Standardabweichungen 95% und innerhalb von drei Standardabweichungen mit 99% fast die gesamte Wahrscheinlichkeitsmasse. Diese Verteilung der Wahrscheinlichkeitsmasse gilt offensichtlich unabhängig von den konkreten Werten von \(\mu\) und \(\sigma^2\) und somit für alle normalverteilten Zufallsvariablen. Weiterhin erinnern wir daran, dass das Theorem zur linearen Transformation einer normalverteilten Zufallsvariable besagt, dass \[\begin{equation} y \sim N(\mu,\sigma^2) \mbox{ und } z := ay + b \Rightarrow z \sim N(a\mu+b,a^2\sigma^2). \end{equation}\] Seien also \(m\) und \(s^2\) die Stichprobenschätzer für den Erwartungswertparameter \(\mu\) und den Varianzparameter \(\sigma^2\) normalverteilter Testrohwerte. Dann gilt für \[\begin{equation} z := \frac{y - m}{s} = \frac{1}{s}y - \frac{1}{s}m \approx \frac{1}{\sigma}y - \frac{1}{\sigma}\mu \end{equation}\] näherungsweise \[\begin{equation} z \sim N\left(\frac{1}{\sigma}\mu - \frac{1}{\sigma}\mu, \frac{1}{s^2}s^2\right) = N(0,1). \end{equation}\] Berechnet man zu jedem Testrohwert \(x^{(i)}\) also den sogenannten Z Score \[\begin{equation} z^{(i)} := \frac{x^{(i)} - m}{s}, \end{equation}\] so sind die so generierten Werte, unabhängig von den Stichproben-spezifischen Werten von \(m\) und \(s\) immer näherungsweise standardnormalverteilt und damit über verschiedene Rohwertebereiche verschiedener Tests vergleichbar (vgl. Abbildung 49.2).

Nun hat eine standardnormalverteilte Zufallsvariable die Eigenschaft, mit höchster Wahrscheinlichkeit einen Wert zwischen \(-3\) und \(3\) anzunehmen. Dies mag manchmal unpraktisch erscheinen, da in diesem Fall ein einzelnes Testergebnis, wenn es unter dem Stichprobenmittelwert liegt, negativ ausfallen kann. Weiterhin erfordert die Angabe eines Ergebnisses mit hinreichender Genauigkeit die Angabe von Nachkommastellen. McCall (1922) hat deshalb vorgeschlagen, eine weitere lineare Transformation der berechneten Z Scores durchzuführen, die die Z Scores in einen zugänglicheren Wertebereich transformiert. Die so transfomierten Z Scores bezeichnet McCall (1922) zu Ehren von Edward Lee Thorndike, Lewis Terman und Louis Leon Thurstone als T Scores. Die Bezeichung T Scores geht also keinesfalls auf die \(T\)-Statistiken der Frequentisischen Inferenz und ihre entsprechenden Verteilungen zurück. Die von McCall (1922) vorgeschlagene Transformation ist durch \[\begin{equation} t^{(i)} := 10z^{(i)} + 50 \end{equation}\] gegeben. Mit der näherungsweisen Standardnormalverteilung von \(z\) ergibt sich entsprechend \[\begin{equation} t \sim N\left(0 + 50, 10^2 \cdot 1\right) = N(50,100). \end{equation}\] T Scores haben näherungsweise also immer einen Erwartunsgwert von 50, eine Varianz von 100 und eine Standardabweichung von 10. Damit liegen dann im T Score Wertebereich von 40 bis 60 etwa 68% der Stichprobenergebnisse, im Wertebereich von 30 bis 70 etwa 95% der Stichprobenergebnisse und im Wertebereich von 20 bis 80 etwa 99% der Stichprobenergebnisse (vgl. Abbildung 49.1).

Die seltener anzutreffenden Stanine (standard nine) und Sten (standard ten) Werte folgen in ihrer Berechnung der gleichen Logik wie die T Scores, zielen aber auf den Wertebereich 1 bis 9 bzw. 1 bis 10. Sie ergeben sich aus Z Scores durch die Transformation \[\begin{equation} s^{(i)} := 2z^{(i)} + 5 \end{equation}\] und anschließende Rundung auf Werte von 1 bis 9 bzw. 1 bis 10.

Abbildung 49.2: Simulierte Stichproben-BDI-II Rohwerte, Z Scores und T Scores

49.4 Testtheorien

Generell kann man mit der Klassischen Testtheorie, der Faktorenanalyse und der Item-Response-Theorie drei Theorien unterscheiden, die der Analyse von Testdaten zugrunde liegen. Allen drei Theorien ist gemein, dass es sich bei ihnen um probabilistische Modelle von beobachtbaren Item- und Testwerten handelt. Weiterhin ist ihnen gemein, dass sie neben der Modellierung von beobachtbaren Testwerten durch Zufallsvariablen auch latente (nicht direkt beobachtbare) Zufallsvariablen zur Erklärung beobachtbarer Daten heranziehen. In der wissenschaftlichen Betrachtung klinisch-diagnostischer Verfahren spielen insbesondere die Klassische Testtheorie bezüglich der Reliabilität und der internen Konsistenz von Testverfahren sowie die Faktorenanalyse bezüglich der faktoriellen Validität von Testverfahren zentrale Rollen. Die Item-Response-Theorie spielt derzeit in Bezug auf klinisch-diagnostische Verfahren eher eine geringe Rolle (vgl. Reise & Waller (2009)). Wir wollen diese Hauptströmungen der Testtheorie im Folgenden kurz skizzieren.

Klassische Testtheorie

Die Klassische Testtheorie bildet die Grundlage für die Evaluation des Testgütekriteriums der Reliabilität. Die Klassische Testtheorie besteht im Kern aus einem probabilistischen Modell für Item- oder Testergebnisse eines oder mehrerer Individuen für einen oder mehrere Tests. Zentrale Aspekte der Klassische Testtheorie gehen auf die Arbeiten von Charles Spearman Anfang des 20. Jahrhunderts zurück und wurden unter anderem durch Gulliksen (1950) und Lord & Novick (1968) weiter etabliert. Grundlegendes Konzept der Klassische Testtheorie ist ein Messfehlermodell der Form \[\begin{equation} \mbox{Beobachteter Wert} = \mbox{Wahrer Wert} + \mbox{Messfehler} \end{equation}\] wie in der Form “\(y = \mu + \varepsilon\)” aus der Frequentistischen Inferenztheorie bekannt. Allerdings treten dabei im Rahmen der Klassische Testtheorie einige Besonderheiten auf. Zum einen basieren die Modelle der Klassische Testtheorie in der Regel nicht auf Normalverteilungsannahmen, was dem diskreten Charakter der beobachteten Testergebnisse geschuldet sein mag, sondern beschränken sich auf die Modellierung durch allgemeine Zufallsvariablen und die Analyse ihrer Erwartungswerte, Varianzen und Kovarianzen. Zum anderen werden “wahre Werte” im Gegensatz zur Frequentistischen Inferenz nicht als feste Werte, sondern auch als Realisierungen von Zufallsvariablen modelliert. Schließlich tritt insbesondere in der Formulierung nach Lord & Novick (1968) noch der Versuch zutage, “wahre Werte” möglichst nicht naiv-realistisch bei der Analyse von Testergebnissen zu unterstellen, sondern ihnen eine frequentistisch-propensitäre Interpretation zu geben, um sie aus naturwissenschaftlicher Sicht weniger angreifbar zu machen. Die Klassische Testtheorie liefert unter anderem die Grundlage für die in der Anwendung häufig berichteten Korrelationen zur Retestreliabilität und Cronbach’s \(\alpha\) als Maß für die interne Konsistenz eines Tests. Wir orientieren uns in der folgenden Darstellung der Klassische Testtheorie überwiegend an Krauth (1995).

Faktorenanalyse

Grundlage der Faktorenanalyse ist ein ein probabilistisches Modell der Kovarianzeigenschaften von Testitems und bildet in der Anwendung die Grundlage für das Testgütekriterium der faktoriellen Valididät. Bedeutende klassische Beiträge zur Faktorenanalyse stammen von Spearman (1904), Hotelling (1933) und Lawley (1940). Wie die Klassische Testtheorie modelliert auch die Faktorenanalyse beobachtete Testergebnisse, hier meist auf der Ebene von Items, durch ein latentes Variablenmodell
\[\begin{equation} \mbox{Beobachteter Wert} = \mbox{Faktorladungen}\cdot \mbox{Wahre Faktorenwerte} + \mbox{Messfehler}. \end{equation}\] Die “wahren Werte” der Klassische Testtheorie und die “Wahren Faktorwerte” der Faktorenanalyse sind von ähnlichem Charakter, wobei in der Faktorenanalyse typischerweise mehr als ein einzelner wahrer Wert angenommen wird. Unter anderem aufgrund der Tatsache, dass mit dem bebachteten Wert in der Faktorenanalyse ein einzelnes Datum durch das Zusammenspiel dreier nicht beobachtbarer Werte (Faktorladung, Faktorwert, Messfehler) erklärt wird, ist die eindeutige Schätzung von Faktorladungen und Faktorwerten nicht ohne weiteres möglich. Diese Tatsache hat klassischerweise dazu geführt, dass aus einer Vielzahl möglicher Lösungen eines Faktorenanalysemodells ein spezielles mithilfe heuristischer Nebenkriterien ausgewählt wird, ein Prozess, der sich in den Rotationsverfahren der explorativen Faktorenanalyse niederschlägt. Allerdings kann das Faktorenanalysemodell durch geeignete Annahmen, wie zum Beispiel die Normalverteilung von wahren Faktorwerten und Messfehlern und die Nicht-Effizienz ausgewählter Faktorenwerte zumindest in Ansätzen identifizierbarer gestaltet werden und zu einem validen Inferenzmodell ausgebaut werden. Dies ist das Thema der konfirmatorischen Faktorenanalyse. Mit den Strukturgleichungsmodellen (vgl. Bollen (1989)) schließlich wurde die Faktorenanalyse im Computerzeitalter weiter verallgemeinert und zu einem äußerst flexiblen Modellierungsansatz ausgebaut. Wir orientieren uns in der Darstellung der Faktorenanalyse überwiegend an Rencher & Christensen (2012).

Item-Response-Theorie

Die Item-Response-Theorie (IRT) modelliert die Wahrscheinlichkeit einer bestimmten Testantwort als Funktion der Fähigkeit oder des Zustands der Testperson. Wichtige Beiträge zur IRT stammen von Rasch (1960), Novick (1966) und Lord (1980). Die IRT verwendet im Ansatz logistische Regressionsmodelle und findet vor allem bei Leistungsstest Anwendung. Sie bezieht sich dabei explizit auf die Messtheorie nach Stevens (1946), hat jedoch im klinischen Kontext eine geringere bis keine Bedeutung (vgl. Reise & Waller (2009)).

Beck, A. T., Steer, R. A., Ball, R., & Ranieri, W. F. (1996). Comparison of Beck Depression Inventories-IA and-II in Psychiatric Outpatients. Journal of Personality Assessment, 67(3), 588–597. https://doi.org/10.1207/s15327752jpa6703_13

Bohus, M., Kleindienst, N., Limberger, M. F., Stieglitz, R.-D., Domsalla, M., Chapman, A. L., Steil, R., Philipsen, A., & Wolf, M. (2009). The Short Version of the Borderline Symptom List (BSL-23): Development and Initial Data on Psychometric Properties. Psychopathology, 42(1), 32–39. https://doi.org/10.1159/000173701

Bollen, K. A. (1989). Structural Equations with Latent Variables. Wiley New York.

Borsboom, D., Mellenbergh, G. J., & Van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. https://doi.org/10.1037/0033-295X.111.4.1061

Bühner, M. (2010). Einführung in die Test- und Fragebogenkonstruktion (2., aktualisierte und erw. Aufl., [Nachdr.]). Pearson Studium.

Cronbach, L. (1951). Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16(3), 297–334.

De Beurs, E., Boehnke, J. R., & Fried, E. I. (2022). Common Measures or Common Metrics? A Plea to Harmonize Measurement Results. Clinical Psychology & Psychotherapy, 29(5), 1755–1767. https://doi.org/10.1002/cpp.2742

Derogatis, L. R., & Melisaratos, N. (1983). The Brief Symptom Inventory: An Introductory Report. Psychological Medicine, 13(3), 595–605. https://doi.org/10.1017/S0033291700048017

Gulliksen, H. (1950). Theory of Mental Tests. John Wiley & Sons Inc. https://doi.org/10.1037/13240-000

Hautzinger, M., Keller, F., & Kühner, C. (2006). BDI-II Beck Depressions-Inventar. Pearson.

Hotelling, H. (1933). Analysis of Complex Variables into Principal Components. Journal of Educational Psychology, 24, 417-441 and 498-520.

Krauth, J. (1995). Testkonstruktion und Testtheorie. Beltz, Psychologie Verl.-Union.

Lawley, D. (1940). The Estimation of Factor Loadings by the Method of Maximum Likelihood. Proceedings of the Royal Society of Edinburgh. Section B: Biological Sciences.

Lienert, G. A., & Raatz, U. (1998). Testaufbau und Testanalyse (6. Auflage). Beltz, Psychologie Verlags Union.

Lord, F. M. (1980). Applications of Item Response Theory To Practical Testing Problems (0. Aufl.). Routledge. https://doi.org/10.4324/9780203056615

Lord, F. M., & Novick, M. R. (1968). Statistical Theories of Mental Test Scores (Nachdr. der Ausg. Reading, Mass. [u.a.], 1968). Information Age Publ.

McCall, W. A. (1922). How to Measure in Education. MacMillan Co. https://doi.org/10.1037/13551-000

Moosbrugger, H., & Kelava, A. (Hrsg.). (2012). Testtheorie und Fragebogenkonstruktion: mit 66 Abbildungen und 41 Tabellen (2., aktualisierte und überarbeitete Auflage). Springer.

Novick, M. R. (1966). The Axioms and Principal Results of Classical Test Theory. Journal of Mathematical Psychology, 3(1), 1–18. https://doi.org/10.1016/0022-2496(66)90002-2

Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests (Expanded ed). University of Chicago Press.

Reise, S. P., & Waller, N. G. (2009). Item Response Theory and Clinical Measurement. Annual Review of Clinical Psychology, 5(1), 27–48. https://doi.org/10.1146/annurev.clinpsy.032408.153553

Rencher, A. C., & Christensen, W. F. (2012). Methods of Multivariate Analysis (Third Edition). Wiley.

Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion (2., vollständig überarbeitete und erweiterte Aufl). H. Huber.

Seashore, H. G. (1955). Methods of Expressing Test Scores. Test Service Bulletin, 48, 7–10.

Spearman, C. (1904). "General Intelligence," Objectively Determined and Measured. The American Journal of Psychology, 15(2), 201. https://doi.org/10.2307/1412107

Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, New Series, 103(2684), 677–680. https://www.jstor.org/stable/1671815