Man soll mir nicht vorwerfen können, ich würde eure Wünsche ignorieren und vergessen. (Man wird mir allerdings vorwerfen dürfen, dass ich sie vor mir her schiebe, und ewig brauche, um sie zu bearbeiten. So lange, dass der akute Nutzen schon wieder in den Annalen unserer Interessen verschwunden ist.)

Wie dem auch sei: meine treueste (und potentiell einzige :P) Leserin/Kommentatorin/Blog- Begeisterte KeineFackel hatte einen Wunsch. Das war im August. Ähem. (Moment. Hatte ich Anhaltspunkte bezüglich deines Geschlechts? Mann, das wäre peinlich. Korrigiere mich bitte :D)

Es soll um Reliabilität gehen. Da Reliabilität alleine mittelmäßig viel Sinn ergibt, schreibe ich aber direkt über Objektivität, Reliabilität und Validität. Die Reihenfolge ist wichtig.
Für alle Nicht-Psychologen unter uns: Wir betrachten ein Thema der Diagnostik. Für viele Psychologie-Studierende werden diese Begriffe wichtig, sobald sie sich mit Testtheorie auseinandersetzen. Diagnostik und Testtheorie sind wichtige Hilfsmittel für Psychologen. Man kann sich ja nicht einfach vor jemanden setzen, ihn sich 10 Minuten angucken, die Lippen schürzen und „Schwachsinnig“ auf seinen Notizblock schreiben. Auch wenn viele Leute denken, dass es genau so funktioniert.

Nein, auch Psychologen brauchen Möglichkeiten, gewisse Dinge zu messen. Und das kann sehr schwer sein. Man denke nun bitte darüber nach, wie man „Emotionen“ messen könnte. Oder „Persönlichkeit“. „Emotionale Intelligenz“. „Entwicklung von Kleinkindern“. „Stress“. „Schuldfähigkeit“.

Es ist schwer, solche Dinge mit Zahlen zu versehen, und ein System zu entwerfen, das einem sicher sagen kann: „Wenn der Bub a) ankreuzt, isser ’n Psychopath, wenner b) ankreuzt isster gern Eis, und wenn er c) nimmt, werfen wer nen Würfel und das Ergebnis Mal 20 is sein IQ.“

Aber Psychologen können es – manchmal. Und tatsächlich ist das in vielen Bereichen eine unserer wichtigsten Kompetenzen: wir wissen, wie man Unmessbares messbar machen kann, wie man Informationen aus Menschen rauskitzelt, von denen sie selbst oft nicht wissen, dass sie sie wissen.

Auch in anderen Disziplinen ist dieses Wissen gern gesehen, und es ist eine der Sachen, die mich mit Psychologie in IT auch für die IT interessant macht. Die Begriffe Objektivität, Reliabilität und Validität helfen uns allerdings allen irgendwie weiter – immer, wenn wir über Messmethoden sprechen.

Okay, das klingt alles recht hochtrabend. Kommen wir also zum heutigen Inhalt:

Um sicherzustellen, dass unsere Messinstrumente auch tun, was sie tun sollen, müssen diese drei Kriterien erfüllen. Empirisch belastbare Messmethoden müssen objektiv, reliabel und valide sein. Ich verwende als Gedankenhilfe ein eher unpassendes Beispiel, das mir aber eine tolle Visualisierung ermöglicht: einen Bogenschießwettbewerb. Als Ausgleich habe ich aber auch ein passenderes Beispiel: einen Intelligenztest.

Objektivität

Wenn ein Test objektiv ist, bedeutet das, dass er standardisiert ist. Dass er in verschiedenen Situationen angewendet werden kann, und dass das Ergebnis dennoch nicht abweicht.

Der wohl wichtigste Punkt ist dabei, dass die Ergebnisse nicht vom Testleiter oder Prüfenden abhängen. Wenn ich einen Intelligenztest mit jemandem durchführe, und du mit der gleichen Person einen durchführst, bringen uns die Ergebnisse überhaupt gar nichts, wenn ich ihn als hochbegabt und du ihn als minderbemittelt einstufst.

Oder, im Sinne des Beispiels: Wenn ich jemanden beim Schießen beaufsichtige, sollte er ja wohl genauso gut schießen, wie wenn jemand anders ihn beaufsichtigt. Wir stellen ja nicht die Ziele um.

Reliabilität

Die Reliabilität eines Tests ist etwas weniger leicht zu erklären, aber richtig angegangen ist es auch kein Problem.Nicht reliabel

Reliabilität beschreibt – wie man sich vom englischen „reliable“ ableiten kann – dass ein Messverfahren zuverlässig ist. Das klingt erstmal sehr schwammig, und ist so formuliert auch schnell mit der Validität zu verwechseln.

Anders gesagt ist eine Methode reliabel, wenn sie unter verschiedenen Bedingungen die gleichen Ergebnisse liefert. Das klingt jetzt abWenn es gut lief, habe ich so geschossen.er nach Objektivität? Genau, denn Reliabilität ist irgendwo dazwischen.

Ein Test ist reliabel, wenn die Ergebnisse mehrerer verschiedener Testungen in objektiven Bedingungen immer gleich aussehen. Dass das wichtig ist, ist naheliegend – immerhin sollte meine Intelligenz heute nicht großartig anders aussehen als in einer Woche, oder zwei.

Bogenschießen wäre dann reliabel, wenn mehrere Schüsse immer die gleiche Stelle auf der Scheibe treffen… oder zumindest eine sehr, sehr ähnliche.

Die Reliabilität eines Tests kann auf verschiedene Arten bestimmt werden. Die wohl bekanntesten sind Retest und Split-Half.

Retest-Reliabilität ermittelt man, indem man eine Person mehrfach, mit ein wenig zeitlichem Abstand, testet. Je nach Kontext können das einige Tage oder auch Jahre sein. Gleiches Ergebnis? → Hohe Retest-Reliabilität. Abweichungen? → Geringere Reliabilität.

Split-Half Reliabilität ist nicht immer nutzbar, das hängt von der untersuchten Methode ab. Bei Fragebögen zum Beispiel klappt sie aber in der Regel ganz gut. Man nimmt alle Fragen, die im Endeffekt das Gleiche untersuchen, teilt sie zufällig in zwei Hälften auf, und ermittelt aus jeder Hälfte ein Ergebnis. Wieder gilt: eine hohe Ähnlichkeit deutet auf eine hohe Reliabilität hin.

Validität

Validität ist toll. Denn genau genommen sind die beiden anderen Kriterien ohne sie nutzlos. Validität sagt aus, ob der Test überhaupt das misst, was er messen soll.

Wenn ich also einen Test habe, der Intelligenz messen will, finde später aber heraus, dass meine Werte – obwohl vom Versuchsleiter unabhängig und replizierbar (also objektiv und reliabel) – eigentlich keine Intelligenz gemessen haben, sondern, sagen wir, Darmdruck, dann misst mein Intelligenztest schlicht Scheiße. (Wortwitz! 😀 )

Ein guter Bogenschütze trifft nicht nur immer die gleiche Stelle, sondern bei ihm ist diese Stelle auch noch sein Ziel: die Mitte der Scheibe. (Oder ein Ork.)

Validität zu messen ist ein bisschen tricky, weil man leicht falsche Schlüsse ziehen kann. Wenn der Test aussieht, als würde er das richtige tun, nimmt man das auch gerne so an. Auch wenn das nicht gegeben sein muss.Valide

Häufig korreliert man die Ergebnisse deshalb mit anderen Dingen, von denen man bereits weiß, dass sie das messen, was man messen will. Wenn ich einen neuen Intelligenztest basteln will, überprüfe ich, ob dessen Ergebnisse mit denen anderer Intelligenztests zusammenpassen. Wenn ich ein Computer-Vision-Programm schreibe, das aus Videomaterial Emotionen erkennen soll, bestimme ich die Emotion der Person mit einem Test, um zu überprüfen, ob das Programm es richtig erkannt hat.

Manchen mag es schon auffallen: Was, wenn diese Dinge selbst nicht valide sind? Was, wenn sie auch Darmdruck messen? Tja, Scheiße! (Okay, er wird beim zweiten Mal nicht besser. Ich weiß.)

Als Trick könnte man hier in eine andere Richtung fragen. Das oben Beschriebene nennt sich Konvergenzvalidität, das Gegenstück ist Diskriminanzvalidität: Man überprüft, ob der Test zumindest nicht die Dinge misst, die ähnlich sind, aber nicht von ihm gemessen werden sollten.
Kriteriumsvalidität überprüft den Zusammenhang mit anderen Kennwerten, die mit dem Testgegenstand zusammenhängen sollten. Wenn ich Intelligenz prüfen will, kann ich mein Ergebnis mit Schulnoten vergleichen. (Die Debatte, ob Schulnoten wirklich mit Intelligenz zusammenhängen, sei hier nicht geführt.)

Objektivität, Reliabilität und Validität

Um mich eines Filmzitates zu bemühen:

Ohne Objektivität, Reliabilität und Validität ist ein Messverfahren „ungefähr so nützlich wie ein Lutscher, der nach Scheiße schmeckt!“
~Patches O’Houlihan, Voll auf die Nüsse – Dodgeball (der Film ist besser, als er klingen mag)

Das klingt hart, ist aber ein bisschen wahr. Denn die Qualitäten bauen auch aufeinander auf: Wenn der Test nicht objektiv misst, kann er nicht mehrfach hintereinander das gleiche Ergebnis liefern, also nicht reliabel sein. Wenn der Test nicht mehrfach das gleiche Ergebnis liefert, wie kann er dann überhaupt das messen, was wir messen wollen?

Ich muss noch hinzufügen, dass nicht jeder Test direkt absolut nutzlos wird, wenn er die Kriterien nicht erfüllt. Die weltberühmten Rohrschach-Tests zum Beispiel sind alles andere als objektiv, reliabel und valide. Sie können in Therapien aber eingesetzt werden, um eine Tendenz zu erfragen; um eine Richtung einzuschlagen. Wenn der Patient bei einem Random-Tintenklecks sagt: „Das sieht aus wie mein Vater, der mich erhängt.“ bedeutet das direkt etwas anderes, als: „Zwei Hasen, die Eis essen und über eine Blumenwiese hoppeln.“Rohrschach

Man muss also immer sehen, wie viel Objektivität, Reliabilität und Validität man wirklich braucht. Ein „Welche Rolle von Johnny Depp passt zu dir?“-Test in der Wendy hat vermutlich noch nicht ein Mal von diesen Dingen gehört, und das ist auch okay so. Eine Umfrage soll relative Werte liefern – diese müssen nicht unendlich genau sein, sondern lieber effizient. Man will also kein Geld hineinpumpen, um die Werte zu optimieren. Intelligenz- oder Einstellungstests hingegen, oder Tests in klinischen Anwendungen erfordern beispielsweise höhere Genauigkeiten. Und da Objektivität, Reliabilität und Validität auch im technischen Kontext verwendet werden können: Medizinische Messgeräte, alles, was mit Flugsicherheit zu tun hat, und andere Verfahren erfordern natürlich sehr viel genauere Zahlen. Diese sind hier aber auch mit mehr oder minder einfacher Mathematik zu bestimmen, und müssen nicht aus Menschen extrahiert werden.


Hat dir gefallen? Dann hinterlass mir irgendeine Form von Like!

Noch Sachen unklar? Frag nach!

Wenn sonst noch jemand Fragen hat, die er auf dem Blog gerne beantwortet sehen würde: Lasst es mich wissen. Ich kümmere mich auch schneller darum. Versprochen!

Keine Fackel: Lass mich dein Geschlecht wissen!

2 comments on “Objektivität, Reliabilität und Validität

  • Ha, cool! Du hast meinen Wunsch erhört XD Und, ja: Ich bin weiblich, da lagst du richtig. (Allerdings war mein Online Name „KeineFackel“, nicht „kleineFackel“ ;))
    Und noch ne Frage zu der Validität: Kannst du die Konvergenzvalidität noch mal erklären? So ganz hab ich das nicht verstanden… Und ich glaube du hast im 2. Absatz zu der Validität nen kleinen Fehler gemacht: In der Klammer steht „also objektiv und valide“, aber müsste es nicht reliabel statt valide heissen? Oder irre ich mich da?

    • Pffft, wer würde denn „kleineFackel“ schreiben? Ich jedenfalls nicht. Niemals. Du hast dich bestimmt nur verlesen.
      Ähem.
      Ich habe auch versucht, die Konvergenzvalidität noch Mal mit zwei Beispielen zu untermauern. Die war tatsächlich ein bisschen kurz beschrieben. Und auch dein Hinweis mit reliabel stimmte! Wenn man so viel Text dazu runterrattert, kommt man gerne Mal durcheinander. Aber damit hattest du direkt eine schicke Kontrolle, ob du’s verstanden hast 😉
      Danke, jedenfalls! 😀

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.