Normieren und die Normalverteilung

... wozu brauche ich das?


Einzelne Bewerber direkt miteinander zu vergleichen fällt nicht leicht: Welche Kriterien entscheiden darüber, ob Kandidat A oder B der bessere für die offene Stelle ist? Haben Sie einen verlässlichen Benchmark oder vergleichen Sie unbemerkt Äpfel mit Birnen? Oft entscheiden dann doch erst die Eindrücke im Vorstellungsgespräch über die Auswahl – ohne dass Sie wissen, ob Ihr persönlicher Favorit auch der richtige ist. Mit normierten Vergleichsgruppen stellen Sie in psychologischen Testverfahren sicher, dass Sie sich für die richtigen Kandidaten entscheiden.

Was es mit der Gaußschen Glockenkurve auf sich hat

Das Gesamtergebnis eines standardisierten, psychologischen Testverfahrens steht immer im Verhältnis zu den Ergebnissen anderer Personen. Grafisch lässt sich so ein Ergebnis am besten über die auf Carl Friedrich Gauß zurückgehende Normalverteilung („Gaußsche Glockenkurve“) veranschaulichen: Die meisten Personen erreichen in einem Testverfahren durchschnittliche Ergebnisse, die sich rund um den Mittelwert bewegen. Je weiter man den Blick vom Mittelwert weg nach außen wendet, desto weniger Ergebnisse finden sich, was sich am flacheren Verlauf der Kurve ablesen lässt. Personen, deren Ergebnisse in diesen Bereichen liegen, werden daher als unter- oder überdurchschnittlich eingestuft. Wer sich an die eigene Schulzeit oder die der Kinder zurückerinnert wird sich sicher auch an Noten erinnern, die für sich genommen schwer einzuordnen waren. Ob auf ein „Befriedigend“ in Chemie am Wochenende eine Party oder stundenlanges Üben folgen sollte, lässt sich erst sagen, wenn zwei Dinge bekannt sind: Der Mittelwert in Form des Notenschnitts gibt Aufschluss darüber, ob die Leistung unterdurchschnittlich, durchschnittlich oder überdurchschnittlich war. Und aus der Verteilung der Ergebnisse auf die Noten 1 bis 6 lässt sich mit der Standardabweichung ein Streuungsmaß berechnen, das Auskunft darüber gibt, wie weit über- oder unterdurchschnittlich die eigene Leistung war.

Und mit eben diesen Informationen, Mittelwert und Standardabweichung, funktioniert auch die Normalverteilung, weil die individuellen Ergebnisse eher selten für sich allein stehen.

Während im Fall von Schulnoten klar ist, dass das Ergebnis irgendwo zwischen 1 und 6 liegen wird, hängt das in einem Test erreichbare Ergebnis nicht zuletzt von der Länge des Tests ab. Da diese ebenso variieren kann wie die erreichbare Punktzahl, wird mit der Z-Skala eine spezifische Form der Normalverteilung mit einem einheitlichen Maßstab genutzt. Der Mittelwert liegt hier immer bei 100 und eine Standardabweichung umfasst 10 Punkte. Deshalb spricht man von weit über- oder unterdurchschnittlichen Ergebnissen, wenn der Wert von 90 unterschritten bzw. der Wert von 110 überschritten wird. Zur weiteren Differenzierung des durchschnittlichen Bereichs haben wir ihn noch einmal unterteilt, sodass er nur von 97 bis 103 reicht. Durch diese Unterteilung reduziert sich der Anteil der durchschnittlichen Kandidaten von 68 Prozent auf 24 Prozent, was der Entscheidungsfindung in der Praxis zugute kommt.  Danach sprechen wir zunächst von leicht unter- bzw. überdurchschnittlichen Ergebnissen und dann, ab einem Wert von 90 bzw. über 110, von unter- bzw. überdurchschnittlichen Ergebnissen.


Anhand der Z-Skala können Sie als Personalentscheider ablesen, wo der von Ihnen betrachtete Bewerber innerhalb der Vergleichsgruppe liegt. Die dafür betrachteten Größen nennen sich Z-Wert und Prozentrang.

Der Z-Wert gibt den erreichten Wert des Bewerbers auf der Skala an; Kandidat A liegt zum Beispiel im Gesamtergebnis aller Bewerber bei einem Z-Wert von 112. Sein Prozentrang von 88 gibt den Anteil derjenigen an, die schlechter abgeschnitten haben als er. Z-Wert und Prozentrang stehen somit im direkten Verhältnis zueinander: Je besser Kandidat A im Test abschneidet (je höher sein Z-Wert), desto mehr Teilnehmer schneiden schlechter ab als er (desto höher also auch sein Prozentrang). Hat Kandidat A einen Z-Wert von 112 erreicht, gehört er in der Normalverteilung zu den weit überdurchschnittlichen Kandidaten, nur 12 Prozent der Vergleichsgruppe erreichen ein noch besseres Ergebnis. Läge sein Z-Wert hingegen bei 90, würden 84 Prozent besser abschneiden und Sie sollten überlegen, ob Sie diesen Bewerber für die nächste Runde in Ihrem Recruiting-Prozess einladen wollen. Würde die Mehrheit der Ergebnisse von der eigentlichen Normalverteilung abweichen, indem zum Beispiel die meisten Bewerber nicht beim angestrebten Mittelwert von 100 lägen, sondern bei 90, würde dies darauf hindeuten, dass der Maßstab möglicherweise angepasst werden muss; dazu später mehr. 

Warum Einzelergebnisse nicht aussagekräftig sind

Stellen Sie sich einen Mathematik-Test vor, in dem die Teilnehmenden 25 Punkte erreichen können. Bewerberin Muster hat davon 18 Punkte erreicht. Auf den ersten Blick sieht dieses Ergebnis vielversprechend aus – schließlich entspricht dies 72% der möglichen Punkte. Wie gut dieses Ergebnis tatsächlich ist, erkennen Sie jedoch erst, wenn Sie es mit allen anderen Bewerbern vergleichen. Dann sehen Sie, ob Frau Muster zum Durchschnitt gehört, ob sie im Vergleich sogar besser abgeschnitten hat oder ob die Mehrheit der Bewerber eine noch höhere Punktzahl erreicht hat, sodass das Ergebnis von Frau Muster unterdurchschnittlich ist. 

Ein Einzelergebnis sagt nichts über das erfolgreiche Abschneiden eines Bewerbers aus
– es muss im Verhältnis zur Vergleichsgruppe betrachtet und interpretiert werden.

(Matthias Kämper, Prokurist und Operative Director bei HR Diagnostics) 

Der beste vs. der am besten passende Bewerber

Stellen Sie sich ein Testergebnis vor, das Ihnen auf einen Blick alle in Frage kommenden Kandidaten zeigt. Sie könnten jetzt einfach nach dem Gesamtergebnis sortieren und die 10 besten Bewerber für die nächste Runde auswählen. Zwei zentrale Fragen bleiben jedoch offen:

  1.  Sind die besten Bewerber auch die richtigen für die ausgeschriebene Stelle?
    Wenn die Zusammenstellung des Tests auf Basis einer Anforderungsanalyse erfolgt ist, wie es State-of-the-art ist, muss die Antwort „Ja“ lauten. Der Test erfasst in dem Fall genau die Merkmale, die für eine bestimmte Stelle relevant sind. Bei der Detailbetrachtung eines Ergebnisses kann es jedoch passieren, dass sich ein Bewerber als unpassend erweist, weil er zum Beispiel unterfordert wäre, sich nicht für den Job interessiert oder sich die individuelle Motivation nicht mit den Karrierepfaden des Unternehmens vereinbaren lässt. Ein Bewerber mit hoher Karriereorientierung wird in einem Unternehmen mit flachen Hierarchien möglicherweise trotz aller Eignung nicht glücklich werden. Selbst mit einer passenden Vergleichsgruppe haben Sie es also immer noch mit komplexen Zusammenhängen zu tun.

  2.  Auf welcher Basis sind die Besten die Besten? Wurden sie mit der richtigen Gruppe verglichen?
    Vergleichen Sie zum Beispiel mit einem einzigen psychologischen Testverfahren mehrere Kandidaten, die sich für unterschiedliche Stellen bewerben, dann ist die Vergleichsbasis die falsche – denn die Gruppe der Bewerber konkurriert nicht um dieselbe Stelle. Ein Beispiel: Kandidaten für eine Ausbildung in einem technischen Beruf und Facharbeiter konkurrieren nicht um die gleichen Jobs. Es ergibt demnach auch keinen Sinn, für das technisch-mechanische Verständnis aller Bewerber die gleiche Vergleichsnorm heranzuziehen – die Ausbildungsplatzbewerber würden in diesem Fall tendenziell unterdurchschnittlich abschneiden, die Facharbeiter überdurchschnittlich. Gleichzeitig wäre die Differenzierung innerhalb der beiden Gruppen nicht so deutlich wie im Fall einer eigenen Norm. Eine solch heterogene Vergleichsgruppe wird damit den einzelnen Bewerbern nicht gerecht und nimmt ihnen die Möglichkeit, sich innerhalb ihrer Vergleichsgruppe mit ihren Talenten hervorzuheben. Die Gewährleistung der passenden Vergleichsnorm für jeden unserer Kunden ist daher für uns ein absolutes Muss, 

denn nur die richtige Vergleichsnorm – also der richtige Maßstab – stellt einen fairen Auswahlprozess sicher.

Warum externe Benchmarks Sie nicht weiterbringen

Wir bei HR Diagnostics hören häufig den Wunsch unserer Kunden, als Vergleichsgruppe externe Benchmarks heranzuziehen – die eigenen Bewerber sollen beispielsweise mit allen anderen Bewerbern der jeweiligen Branche verglichen werden. Aber warum?  Zunächst ist jedes Unternehmen, selbst innerhalb einer Branche, höchst individuell. Mal müssen kaufmännische Mitarbeiter technisches Verständnis mitbringen, mal muss der Vertrieb Englisch sprechen oder gewerbliche Mitarbeiter regelmäßigem Kundenkontakt gewachsen sein. Wenn sich schon die spezifischen Anforderungen an die Bewerber von Unternehmen zu Unternehmen so stark unterscheiden, dann liegt es nahe, dass auch der Vergleichsmaßstab ein eigener sein muss. Gleichzeitig hängt der Benchmark auch von Ihrer Reichweite ab; ob Sie also regional oder überregional rekrutieren. Bei einem regionalen Auswahlverfahren ergibt es wenig Sinn, Ihre Bewerber mit denen aus ganz Deutschland zu vergleichen und regionale Eigenheiten außer Acht zu lassen. Passt die Vergleichsnorm nicht, geht dies letztendlich immer zu Lasten der Vergleichbarkeit Ihrer eigenen Bewerber. Diese sind daher der optimale Benchmark für die Definition Ihrer Maßstäbe.

Wie Sie mit Vergleichsnormen die richtige Entscheidung treffen

Zu Beginn Ihres Recruiting-Prozesses können wir bei HR Diagnostics aus einem Fundus individueller Vergleichsnormen schöpfen, die auf die Anforderungen an die Bewerber für spezielle Stellen zugeschnitten sind. Wenn immer möglich, normieren wir die Testverfahren gleich zu Beginn des Auswahlprozesses – noch bevor die ersten Entscheidungen getroffen werden. Das ist sinnvoll, weil die Vergleichsgrundlage innerhalb einer Auswahlrunde nicht verändert werden sollte. Nach Abschluss einer Auswahlrunde kann dann bei Bedarf neu normiert werden, um die Bewerbergruppe weiter zu differenzieren. So gelangen Sie mit psychologischen Testverfahren, wissenschaftlich fundierten Analysemethoden und individuellen Normierungen zur bestmöglichen Differenzierung Ihrer Bewerber – und treffen am Schluss die richtige Entscheidung.

Wir bieten unseren Kunden Schulungen zur Verwendung von Normgruppen und der richtigen Interpretation der Testergebnisse an.


Alle Artikel zu den Themen:

Lassen Sie uns reden

+ 49 (711) 48 60 20 10
ARTIKEL UND FACHBEITRÄGE AUS UNSEREM MAGAZIN