Leute denken, dass sich Psychologen vor allem mindestens einer der folgenden Beschäftigungen widmen:

  • Leute analysieren und ihre Schwachpunkte gegen sie verwenden
  • in teuren, altmodisch eingerichteten Zimmern sitzen, einem Patienten auf einem Liegesofa Fragen zu dessen Vater stellen, und währenddessen tiefgründige Kringel auf einen Block malen; gegebenenfalls unterstützt durch hochmotiviertes Rohrschach-Bilder-Hochhalten
  • Leuten mit einer langen Nadel durch das Auge im Hirn rumstochern
  • Leuten – insbesondere ihren Freunden – Antidepressiva und andere Aufputschmittel verschreiben
  • sich im Glanze ihres makellosen Abiturs und der vielen sie umgebenden Frauen sonnen (falls noch im Studium befindlich)
  • im Arkham Asylum auf Leute in Zwangsjacken aufpassen
  • skrupellosen Großkonzernen dabei helfen, die maximale Leistung aus ihren perfekt gewählten Arbeiterbienen zu quetschen
  • in der Marktforschung und der Werbeindustrie auf der dunklen Seite der Macht agieren und die Verbraucher schamlos ins Verderben treiben
Eine der eher selten genannten Aktivitäten, die in Wahrheit jedoch eine der wesentlichen Fähigkeiten eines Psychologen darstellt, ist das Entwerfen und Auswerten von Fragebögen. (Und ich meine nicht den Kram in der Bravo!)
Fragebögen, oder vielmehr psychologische Tests finden in ziemlich vielen Situationen Anwendung, und können eine große Spannbreite an Fragen abdecken und beantworten. Beispielsweise werden Intelligenztests von Psychologen (mit)entworfen und einem langen Analyseprozess unterzogen, damit einheitliche und zuverlässige Ergebnisse erzielt werden können. Es gibt noch unzählige weitere Anwendungsgebiete; ich liste mal kurz auf, was mir einfällt:
  • Intelligenztests
  • Persönlichkeitstests (zum Beispiel für die Big Five – 5 Elemente, aus denen sich Persönlichkeiten zusammensetzen, sollte man diesem Modell glauben – Offenheit für Erfahrungen, Neurotizismus, Extraversion, Gewissenhaftigkeit, Verträglichkeit)
  • diagnostische Tests (zum Erfassen von Verhaltens- oder Persönlichkeitsstörungen)
  • kognitive Leistungstests
  • Tests im Rahmen von Experimenten
  • Emotionserfassung
  • Berufsberatungs-Fragebögen
  • professionelle Feedbackbögen
Es kann eigentlich davon ausgegangen werden, dass jeder von uns schon das ein oder andere Mal Kontakt zu mehr oder minder psychologischen Fragebögen hatte.
Im Lauf des letzten Semesters, war ich selbst mit zwei Kommilitonen an der Reihe, einen solchen Fragebogen zu erstellen, und im heutigen Blog-Eintrag möchte ich mich damit auseinandersetzen.
Kurz kann man sagen: Es lief ziemlich beschissen.
Kommen wir zu den Details…
Achtung, ab hier wird es irgendwie „Hausarbeit light“, wer also Angst hat, etwas zu lernen, geht besser zurück zu 9GAG!
Ein Fragebogen braucht ein Konstrukt. Etwas, was hinter den Fragen steht, und untersucht werden soll. Ein Ziel, im Prinzip.
Offenheit für neue Technologien teilt sich auf in generelle Offenheit, sowie einige Subfacetten.In meinem Fall ging es um Offenheit für neue Technologien und Medien. Wir wollten mit dem Test erfassen können, wie gerne sich Personen mit modernen technischen Geräten und Methoden im Alltagsleben auseinandersetzen. Bezogen haben wir uns auf Dinge wie Smartphones, Tablets, soziale Netzwerke, Staubsaugerroboter, Internet, Virtual Reality und so weiter. Die These war, dass Menschen mit einer hohen Grundoffenheit eher dazu neigen, auf offen mit neuen Technologien umzugehen, und sich freiwillig, häufig und intuitv mit ihnen beschäftigen.
Im nächsten Schritt haben wir beispielhaft Personen entworfen, die sich durch eine besonders hoch bzw besonders niedrig ausgeprägte Offenheit für neue Technologien auszeichnen. Von dort aus haben wir grundlegende Aspekte definiert, Teilaspekte einer hohen Offenheit, über die man eine hohe Merkmalsausprägung (also einen hohen Wert) messen kann. Zusätzlich übernahmen wir die Offenheit für neue Technologien selbst als Aspekt, in den wir generelle Offenheit aufnahmen.
Im nächsten Schritt haben wir ein paar Items generiert. Das Wort „Items“ bildet im Zusammenhang psychologischer Testung einen Überbegriff für Fragen, Aufgaben, Aussagen, zu denen Stellung genommen werden soll, oder Bildern die bewertet werden sollen – also für jedes Element, mit dem man testen möchte.
Grundlegend generiert man fürs Erste zu viele Items, weil man nie weiß, welche Items letzten Endes wie gut messen. Was mir total trennscharf erscheint, und einen super Unterschied zwischen hoher und niedriger Ausprägung verdeutlichen könnte, mag für andere eindeutig sein. Deswegen muss davon ausgegangen werden, dass man mindestens die Hälfte seiner Items nach der ersten Erhebung wieder in die Tonne kloppt.
Es ist furchtbar wichtig, auf einen ganzen Haufen Dinge zu achten, wie Verständlichkeit, Konstruktzusammenhang, Dimensionalität des Items (ich will in der Regel mit jedem Item genau eine Sache messen, und mehr nicht), suggestions- und wertungsfreie Formulierung, und und und. Hier seht ihr die Items, die wir so generiert haben. Umgepolte Items werden in die andere Richtung ausgewertet, hier ist ein hoher Wert also negativ für das Gesamtkonstrukt. Man nennt diese Items auch invertiert.
Eine Liste aller 27 Items
Die Aufgabe bei jedem Item bestand daraus, auf einer 6-stufigen Skala Zustimmung auszudrücken.
zwei Beispielitems
Mit diesen Items wurde eine erste Erhebung durchgeführt, mit der beobachtet werden kann, wie gut das funktioniert, was man bisher zusammengepanscht hat. Also versucht man, möglichst viele Leute dazu zu bringen, diesen Fragebogen auszufüllen, um vergleichbare Werte zu bekommen, die man weiter untersuchen kann.
Im Anschluss kommt dann der mühsame Teil – die Itemanalyse. In dieser geht es darum, sich anzusehen, wie die Items beantwortet wurden. Wenn zum Beispiel alle 100 Teilnehmer ein Item exakt gleich beantwortet haben, enthält es keinen nutzbaren Inhalt, und kann verworfen werden. Es hilft nicht dabei, zwischen Merkmalswerten zu unterscheiden. Es kann beobachtet werden, wie gut Items zusammenpassen, und ob sie zum Gesamtergebnis der Probanden passen, man berechnet, ob Items mehrere Faktoren haben (also ob ein Item vielleicht doch noch etwas anderes gleichzeitig misst, und deswegen verworfen werden kann), und wie gut alle Items zusammen etwas messen. Letzteres ist die Reliabilität eines Tests: wie sehr passen die Ergebnisse zueinander.
Für uns bedeutete die Itemanalyse vor allem eins: Wir haben ziemlich schlechte Items entworfen. Nach mehreren Analyseprozessen blieb nur noch dieser kümmerliche Haufen übrig:
Es ist anzumerken, dass zum Beispiel alle invertierten Items entfernt werden mussten (Davor wurden wir tatsächlich gewarnt, aber irgendwie waren wir unbedarfte Idioten. Hach, wie unbekümmert ich vor drei Monaten doch noch war!), und dass einer unserer Aspekte – die Motivation, sich auch mit Technologien zu beschäftigen, die noch nicht voll und ganz ausgereift sind – anscheinend totaler Quatsch war.
Übrig bleiben also 7 Items, die irgendwie irgendetwas abdecken – aber was sagt das aus?
Das ist eine spannende Frage. Im Endeffekt habe ich nur ein paar Fragen gestellt, habe 97 Antworten darauf bekommen, und geguckt, wie gut diese Antworten zueinander passen. Dass ich damit wirklich Offenheit für neue Technologien erforscht, oder überhaupt einheitliche Ergebnisse habe, steht überhaupt nicht fest! Hinzu kommt ein fundamentales Problem aller psychologischen Tests: Um die Statistik verwenden zu können, die ich da verwende, muss ich von bestimmten Bedingungen in dem, was ich erhoben habe, ausgehen. Zum Beispiel davon, dass meine Probanden normalverteilt geantwortet haben, also so wie man es unten sehen kann.
eine Gaussverteilung

Zu testen wäre im nächsten Schritt also die Validität meines Fragebogens: Misst er das, was ich messen wollte? Validität und Reliabilität stehen in einer gewissen Abhängigkeit zueinander: ohne Reliabilität keine Validität. Beide genauer zu untersuchen, würde leider weitere Stichprobenerhebungen erfordern, mit denen ich meinen Test vergleichen kann, und das sprengt leider gerade den Rahmen meiner Zeit.

Reliabilität und Validität veranschaulicht
Ich habe oben schon einige Probleme angerissen. Wenn ich meinen ganzen Test darauf beruhen lasse, wie die von mir erhobene Stichprobe antwortet, muss ich dafür sorgen, dass sie zuverlässige Ergebniss liefert, auf denen ich aufbauen kann.
Kommen wir also zum fundamentalen Fehler meines Fragebogens: Wir absoluten Vollidioten haben eine Analysestichprobe zum Thema Offenheit für neue Technologien komplett online erhoben. Wir haben online, also in Mails und auf Facebook, Werbung gemacht, und die Leute online den Fragebogen ausfüllen lassen.
Wer ein bisschen mitdenkt und aufgepasst hat, wird jetzt etwas feststellen: Wie kann ich einen Test, der zwischen Leuten mit einer hohen Bereitschaft, sich mit modernen Medien zu beschäftigen, und solchen, die diese nicht haben, unterscheiden soll, überprüfen, indem ich die Leute bitte, ihn online auszufüllen? Oder einfacher: Ich will, dass meine Analysestichprobe das komplette Spektrum (von „sehr offen“ bis „gar nicht offen“) abdeckt, bitte die Leute aber, ihn online auszufüllen. Personen, die grundlegend gegen neue Medien sind, und zum Beispiel wenig im Internet surfen, keinen Computer haben, nicht auf Facebook sind, oder nur ungern Daten online herausgeben, wurden von uns von Anfang an gar nicht angesprochen, oder verloren direkt die Lust am Teilnehmen.
Die meisten waren gleich alt, die Ausreißer zeigt dieser Boxplot.Dummerweise ist das so ungefähr als Letztes aufgefallen, als alles schon zu spät war. Durch unseren Werbeprozess (in Psychologisch: durch unsere Akquise) besteht unsere Stichprobe jetzt aus 16-94jährigen, mit einer starken Zentrierung auf ungefähr 20 jährige. Im folgenden Boxplot könnt ihr den Kasten sehen, in dem der Großteil unserer Probanden sich altersmäßig befindet, mit den meisten im Bereich des dicken schwarzen Balkens. Alles, was durch einen Kreis dargestellt wird, ist ein extremer Ausreißer, und kann eigentlich nicht berücksichtigt werden. An dieser Stelle möchte ich noch anmerken, dass ich mir ziemlich sicher bin, dass dieser 94-jährige einer von euch war, der keine Lust hatte, sein echtes Alter anzugeben. Oder jemand hat seinen Opa gefragt, was witzig wäre 😀
Da die meisten unserer Probanden eindeutig Bildungshintergrund hatten, kann man sagen, dass unser Fragebogen in seiner aktuellen Form auch nur auf solche Leute angewendet werden kann, und für andere soziale oder demographische Gruppen keinerlei Aussagewert hat. Nicht ganz, was wir wollten, aber wir haben immerhin draus gelernt.
Der nächste Schritt wäre übrigens, eine Eichstichprobe zu erheben, also eine weitere Stichprobe, die nur die verbliebenen Items ausfüllt, und mit der ich die Ergebnisse zukünftiger Probanden vergleichen kann. Dann sind Aussagen möglich wie „Du bist ungefähr halb so offen wie die meisten anderen.“, wobei natürlich zu bedenken bleibt, unter welchen Bedingungen wir den Fragebogen eigentlich erstellt haben.
Dieser Post wurde mal wieder viel, viel, viel länger als erwartet, aber vielleicht ist das auch okay. Vielleicht habe ich für mich mit diesem Bogen abschließen können, und vielleicht hat ja jemand bis hier unten gelesen und etwas draus gelernt.
Wenn ihr wirklich noch Fragen habt, oder Anregungen, oder mehr über Itemanalysen oder sonst irgendetwas von diesem Kram hier wissen wollt, lasst mir ruhig eine Frage hier. Ich freue mich immer über Kommentare 🙂

2 comments on “Science Saturday #7 – Mein ganz eigener Fragebogen

  • Kannst du bitte noch einen Blogeintrag über Validität/Reliabilität machen? Besonders die Reliabilität habe ich nicht ganz kapiert… (Habe mich schon vorher ein bisschen damit beschäftigt)

  • Wow, Themenwünsche. Das ist so ungefähr eine Premiere!
    Gemessen daran, dass dieser Kommentar heute tatsächlich exakt zwei Monate alt ist (Schande über mich!), ist diese Frage jetzt ein bisschen armselig, aber: eilt es? Ansonsten mache ich nämlich erst Mal Serious Games weiter, und würde danach darauf zurückkommen 🙂

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.