Wie eignungsdiagnostische Testverfahren entstehen

...und was Items, Stichproben und psychometrische Daten damit zu tun haben


Die Entwicklung psychologischer Testverfahren ist ein komplexer Prozess, der nicht nur fachliches und statistisches Know-how voraussetzt. Bis die finale Anwendungsversion eines Tests bereit für ihren Gebrauch ist, werden Probeversionen kontinuierlich getestet. Auf Grundlage psychometrischer Daten identifizieren wir die besten Aufgaben und evaluieren sie so lange, bis alle wissenschaftlichen Qualitätsanforderungen erfüllt sind. Dieser Prozess dauert viele Monate, manchmal auch Jahre.

Viele Verfahren, die HR Diagnostics heute verwendet, gehen auf Ideen von Prof. Heinz Schuler zurück, der den Lehrstuhl für Psychologie der Universität Hohenheim lange Zeit innehatte. Schuler gilt als Begründer der Personalpsychologie in Deutschland und hat bis heute europaweit die meisten eignungsdiagnostischen Fachtexte veröffentlicht. Als Mitgründer der HR Diagnostics AG hat er die Entwicklung der wissenschaftlichen Testverfahren als Supervisor betreut und damit Qualitätsmaßstäbe gesetzt – auch heute, nach Prof. Schulers Ausscheiden aus dem Unternehmen, gelten diese Leitlinien noch immer.

Unsere Kernkompetenz: psychologische Diagnoseverfahren entwickeln und anwenden. Dafür stehen wir.

Mal eben am Schreibtisch ein paar Fragen und Rechenaufgaben notieren – das genügt nicht, wenn es darum geht, ein valides psychologisches Testinstrument zu entwickeln. Dieser Prozess ist komplex und erfordert neben einem fundierten theoretischen und psychologischen Fachwissen viele statistische und methodische Fähigkeiten. Die Entwicklung und der sachgerechte Einsatz psychologischer Diagnoseverfahren sind die Kernkompetenz von HR Diagnostics. Bis ein Kunde den diagnostischen Ergebnisbericht eines Tests in den Händen hält, leisten wir viele Schritte der Vorbereitung, Entwicklung und Forschung.
Psychologische Tests sind Vertrauensgüter – nicht alle Kunden verfügen über die notwendigen methodischen, diagnostischen und psychologischen Kenntnisse, um den Aufbau und die Funktionsweise solcher Tests im Detail nachzuvollziehen. Die Prozessnorm DIN 33430 stellt heraus, worauf es bei der Beurteilung eines Testverfahrens sowie der späteren Auswertung und Interpretation der Testergebnisse ankommt. Sie soll gerade Praktikern dabei helfen, seriöse von unseriösen Tests zu unterscheiden.

Eignungsdiagnostik in der Praxis: Effizienz im Fokus

Tests zur Eignungsdiagnostik müssen auf Basis fundierter wissenschaftlicher Erkenntnisse, also vor allem durch intensive Literaturrecherche und empirische Falsifikationsprozesse, gestaltet werden. Universitäten und Marktteilnehmer in der freien Wirtschaft unterscheiden sich in der Entwicklung ihrer Testverfahren.

Universitäten haben im Wesentlichen wissenschaftliches Erkenntnisinteresse. Sie wollen abgegrenzte psychologische Merkmale – fachsprachlich „Konstrukte“ – möglichst transparent und vergleichbar erfassen. Für den Wissensfortschritt ist es vorteilhaft, wenn alle Forscher das gleiche Verfahren verwenden, denn so rückt der Untersuchungsgegenstand in den Vordergrund und verzerrt die Ergebnisse nicht. Folglich bleiben Testverfahren oft jahrzehntelang im Einsatz und sind allgemein zugänglich – und entsprechend leicht manipulierbar.

Für die Praxis sind diese Verfahren folglich nur bedingt einsetzbar – sie sind häufig zu lang und sprachlich schwer verständlich. Außerdem sind sie selten auf den Unternehmenskontext optimiert: Sie untersuchen ein einzelnes Konstrukt oder fokussieren medizinische Fragestellungen – bilden jedoch nicht die zahlreichen Anforderungen an eine zu besetzende Stelle ab. Des Weiteren liegen selten einschlägige Stichproben aus dem Bewerbungskontext vor, sondern lediglich Schüler- oder Studentenstichproben.

In praktischen Anwendungsfällen hingegen steht die zeitliche Effizienz im Fokus: Unternehmensvertreter möchten schnellstmöglich Aussagen über die Eignung oder Nicht-Eignung eines Kandidaten treffen – psychologische Details ohne beruflichen Anforderungsbezug fallen dabei durchs Raster.

Zwar differenziert diese „schlankere“ Diagnose im Vergleich zu universitär entwickelten Verfahren oftmals weniger Facetten eines Konstrukts, identifiziert dafür aber diejenigen Merkmale, die erfolgreiche Arbeitnehmer von weniger geeigneten verlässlich unterscheiden. Aus eignungsdiagnostischer Sicht werden also pointiert jene Anforderungen erfasst, die Berufserfolg vorhersagen und jede gestrichen, die diese Prognose nur verwässern.

Phasen der Testentwicklung

Psychologische Tests werden nicht für jedes Kundenprojekt neu entwickelt, sondern in aller Regel für Kunden lizenziert. HR Diagnostics bietet seinen Kunden valide Testverfahren an, die sich bereits in verschiedenen Bereichen bewährt haben. Ist ein von Grund auf neuer Test jedoch notwendig – zum Beispiel dann, wenn ein Unternehmen besondere inhaltliche Anforderungen stellt oder kategorisch ausschließen möchte, dass Menschen diesen Test bereits kennen – dauert ein solcher Prozess von der Anfrage einer individuellen Testkonstruktion bis zur finalen Anwendungsversion in der Regel mehrere Monate.

Konstruktdefinition, Itementwicklung, Itemreduktion – die Grundlagen jedes Tests

Zu Beginn der Testentwicklung steht die Frage, welches psychologische Merkmal gemessen werden soll: Wie etabliert ist dieses Konstrukt? Gibt es dazu bereits etablierte Testverfahren?

Um ein Konstrukt zuverlässig abbilden zu können, wird auf bestehendes Aufgaben- und Fragenmaterial zurückgegriffen oder dieses neu entwickelt – in Form einzelner „Items” (= alle Testelemente, die ein Bewerber sieht), die dieses psychologische Merkmal in verschiedenen Variationen abfragen. Im Verlauf der Testentwicklung wird die Itemsammlung radikal reduziert; dem liegt einerseits der Aspekt der zeitlichen Effizienz zugrunde – denn ein eignungsdiagnostischer Test sollte nur gerade so lange dauern wie unbedingt nötig, um das Merkmal reliabel zu erfassen. Andererseits erweist sich eine Vielzahl von Items im Entwicklungsprozess schlicht als nicht aussagekräftig genug, weil diese zu durchschaubar für Kandidaten oder zweideutig sind.

Vor aufwendigen empirischen Untersuchungen beurteilen zunächst Fachexperten sowie Kooperationspartner aus der Wissenschaft das Material. Dies ist der erste wichtige Schritt im Rahmen der Itemreduktion.
Um einen Test also zeiteffizient zu gestalten und am Ende der Entwicklung trotzdem prognosestarke Ergebnisse aus dem Test abzuleiten, müssen zum einen so viele Items wie möglich gestrichen werden, die sich aus empirischer Sicht als entbehrlich erweisen, und zum anderen ausreichend Items übrig bleiben, um die Konstrukte zuverlässig bzw. reliabel abzubilden.
Um diese Reliabilität zu gewährleisten, müssen sich die Items in gewisser Weise ähneln. Was für Praktiker auf den ersten Blick redundant wirkt, bildet jedoch die Grundlage für verlässliche Ergebnisse und schließt somit die Anfälligkeit der Testverfahren für Zufallseffekte oder Bearbeitungsfehler aus. Diese widersprüchlichen Anforderungen an neue Items – der hohe Informationsgehalt pro Item bei vorhandener inhaltlicher Ähnlichkeit der Items – sorgen für einen sehr zeit- und ressourcenintensiven Selektionsprozess.

Dieser Entwicklungsaufwand ist für den Endverbraucher gar nicht sichtbar und führt zudem zu einem geschlossenen und unveränderlichen System: Denn ein aufwendig entwickelter Test funktioniert nur so wie er ist – wird nur ein einziges Item ausgetauscht, gerät seine gesamte Struktur, Zuverlässigkeit und Güte in Gefahr.

Zehn Items pro Konstrukt sind per se besser als nur zwei.

Mit Stichproben testen – und psychometrische Kennwerte generieren

Die erste Phase der Itemreduktion basiert vor allem auf theoretischen Überlegungen. Doch erst mit echten psychometrischen Kennwerten kann die Validität eines Tests geprüft werden. In verschiedenen Entwicklungsstadien werden deshalb Testläufe mit Stichproben durchgeführt, die zumindest an der realen Zielgruppe orientiert sind oder bei einer solchen zu Testzwecken mitlaufen. Durch eine Vielzahl von Vorerprobungen werden so nach und nach einerseits reale Testdaten gesammelt und andererseits weitere „schlechte” Items identifiziert und den Qualitätsanforderungen entsprechend aus umfangreichen Vorversionen des Tests entfernt, die den hohen Qualitätsanforderungen nicht genügen.

Die Summe der Testläufe ist wie ein Trichterprozess, um die besten Items zu identifizieren.


Die goldene Regel: Je größer die Stichprobe, desto aussagekräftiger sind die Ergebnisse. Erst nach mehreren Hundert Testläufen kann wissenschaftlich fundiert die Entscheidung für oder gegen die Finalisierung einer Anwendung fallen – dies gilt insbesondere bei den neusten Analysemethoden.

Nach der Entwicklung: Weiterentwicklung

Neben einer DIN-konformen Normierung des Testverfahrens gilt es, leicht nachvollziehbare und möglichst selbstwertschonende schriftliche Feedback-Berichte für Kandidaten sowie Handlungsempfehlungen für Personalverantwortliche zu formulieren. Sie werden durch das System abhängig vom Testergebnis automatisch generiert und gewährleisten die korrekte Interpretation der statistischen Ergebnisse.

Befindet sich die finale Testversion dann in Verwendung, ist die Arbeit jedoch noch nicht beendet. Das Verfahrensmonitoring gehört ebenso wie die Pflege zum (Weiter-)Entwicklungsprozess eines neuen Testverfahrens. Dazu gehören beispielsweise die Kontrolle von Geschlechts- und Alterseffekten. Soll die Testanwendung ortsungebunden und damit ohne Testaufsicht für die Kandidaten zur Verfügung stehen, ist auch die weitergehende Testkürzung oder Erweiterung des Itempools Teil des Weiterentwicklungsprozesses.
Auch die Internationalisierung von Testverfahren kann Teil dieses Prozesses sein und ist besonders für Unternehmen interessant, die auch in anderen Sprachen testen wollen.

In einem solchen Fall muss die Entwicklung selbst sowie die spätere Normierung des Tests unter Beachtung kultureller und landesspezifischer Unterschiede erfolgen.

Das Erbe von Professor Heinz Schuler

HR Diagnostics fühlt sich dem Erbe von Professor Schuler verpflichtet und steht auch nach dessen Ausscheiden im Jahr 2012 für ein hohes Anspruchsniveau bei der Entwicklung wissenschaftlich fundierter Diagnoseverfahren. Zu diesem Anspruch gehört auch der intensive wissenschaftliche Diskurs. Deshalb pflegt das Unternehmen – je nach thematischem Schwerpunkt – aktive Forschungsbeziehungen zu renommmierten Universitäten des Landes, vergibt in Kooperation mit diesen Hochschulen diverse Abschlussarbeiten und verfasst auch weiterhin eigene wissenschaftliche Publikationen.


Eine Übersicht: In zehn Schritten zum finalen Test

Die Vorbereitung

1.) Definition der Messbereiche und psychologischen Konstrukte: Welche psychologischen Merkmale soll der Test überhaupt messen?

2.) Auswahl der methodischen Grundlage: Mit welcher Methode sollen die Konstrukte abgefragt werden? Soll ein statischer Test mit immer gleicher Aufgabenreihenfolge entstehen? Oder soll eine Auswahl an Fragen zufällig aus einem größeren Item-Pool erzeugt werden? Für welche Zielgruppe, welches Leistungsniveau ist der Test vorgesehen?

3.) Entwicklung von Mess- und Evaluationsmodell: Wie finden wir heraus, ob der Test das intendierte Konstrukt (z. B. Erinnerungsvermögen) und Kriterium (z. B. Berufserfolg) valide misst?

Die Entwicklung

4.) Item- und Skalenentwicklung: Welches Fragenmaterial ist zielführend? Welche Antwortskalen eignen sich?

5.) Expertenbeurteilung und Itemreduktion: Welche Items messen das Konstrukt sinnvoll und zuverlässig, ohne redundant zu bestehenden Konstrukten oder Tests im Produktportfolio zu sein?

Testläufe, Evaluation, Optimierung

6.) Vorerprobung: Funktioniert der Test im aktuellen Entwicklungsstadium bereits? Welche Erkenntnisse können aus den Ergebnissen der ersten Stichproben gewonnen, welche Items gestrichen werden?

7.) Erprobung: Gelingt nach weiterer Optimierung ein nächster Testlauf mit einer davon unabhängigen anderen, gegebenenfalls spezifischeren Stichprobe?

8.) Evaluation von Binnen- und Außenkriterien: Wie schwierig sind die Items und wie zuverlässig messen sie das Konstrukt? Kann das Konstrukt in weitere Subdimensionen unterschieden werden, um die Ergebnisinterpretation noch spezifischer zu gestalten? Weist der Test bedeutsame Zusammenhänge mit anderen auf, die das gleiche Konstrukt messen? Sagen die Testergebnisse einschlägige Erfolgskriterien wie den Berufserfolg oder Arbeitszufriedenheit verlässlich vorher?

Erst an dieser Stelle kann, basierend auf wiederholt erhobenen psychometrischen Kennwerten und Evaluationen, wissenschaftlich fundiert darüber entschieden werden, ob ein Test bereit für die Verwendung in der Praxis ist, weiter optimiert oder gar verworfen werden muss. Alle Tests müssen umfangreiche Qualitätssicherungsprozesse durchlaufen ehe sie Personalentscheidungen sinnvoll unterstützen können.

Anwendungsversion, Normierung, Monitoring

9.) Finalisierung der Anwendungsversion: Sind nur noch die aussagekräftigsten Items übrig? Wann kann eine DIN-konforme, unternehmensspezifische Normierung stattfinden? Sind alle Ergebnis-Feedbacks formuliert und können diese automatisch korrekt generiert werden?

10.) Verfahrensmonitoring und Pflege: Läuft die Anwendung flüssig? Können bedeutsame Alters- und Geschlechtseffekte ausgeschlossen werden? Wie unterscheiden sich die Ergebnisse zwischen Zielgruppen oder zwischen nationalen und internationalen Standorten?


Alle Artikel zu den Themen:

Lassen Sie uns reden

+ 49 (711) 48 60 20 10