Testgüte

 

 

 

 

 

 

EDButton2

EDButton2

EDButton2

EDButton2

entwicklungsdiagnostik.de

EDButton2

 

 


Sie befinden sich hier:
 


   entwicklungsdiagnostik.de > Testdiagnostik >
 

 

 

 

 

 

Test A-Z | Testgüte | Standardwerte | Empfehlung
 

 

 

 

 

 

 

 

 

 

 

Durchfuehrung ET 6-6

Entwicklungsdiagnostik

 

 

Gütekriterien psychologischer Tests

Um eine wissenschaftliche Diskussion darüber führen zu können, wie gut ein Test ist, benötigt man allgemein akzeptierte Kennwerte von Testverfahren, anhand derer sich jeder Test untersuchen und einschätzen lässt. Hier lässt sich zunächst eine Unterscheidung der Hauptgütekriterien von den Nebengütekriterien vornehmen. Die Hauptgütekriterien beziehen sich auf die

die wichtigsten Nebengütekriterien sind die

eines Tests. Es bestehen Konventionen darüber, in welcher Form und in welchem Ausmaß die Testgütekriterien untersucht und diese Angaben dann im Testhandbuch auch dokumentiert sein sollten. Als maßgeblich in diesen Belangen können für den deutschen Sprachraum die Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) angesehen werden. Die Möglichkeiten, die Gütekriterien eines Verfahrens zu bestimmen, sind stark abhängig vom Aufbau und von den Eigenschaften eines Tests. Nicht jeder Test ist in der gleichen Art der Überprüfung der Gütekriterien überhaupt zugänglich.

 

Hauptgütekriterien psychologischer Tests

Die drei Hauptgütekriterien eines Tests stehen in einer Beziehung zueinander. Ein guter Test sollte zwar alle drei Hauptgütekriterien erfüllen, ihre Überprüfung empfiehlt sich jedoch in einer bestimmten Reihenfolge. Zwischen den Hauptgütekriterien besteht folgende Beziehung: Objektivität bildet eine notwendige, wenn auch nicht hinreichende Voraussetzung für die Reliabilität; Reliabilität ist eine notwendige, wenn auch nicht hinreichende Voraussetzung für die Validität. Ein Test, der nicht objektiv ist, kann nicht reliabel und nicht valide sein. Und einem Test, der zwar objektiv, nicht aber reliabel ist, kann ebenso ohne weitere Überprüfung die Validität abgesprochen werden. Genau so ist es auch möglich, dass ein Test zwar sehr objektiv und sehr reliabel, aber nicht valide misst.

    Objektivität: Die Objektivität eines Tests gibt an, inwieweit das Ergebnis eines Tests unabhängig davon ist, wer den Test durchführt. Im Idealfall sollte jeder Testanwender mit einem bestimmten Testverfahren bei ein und derselben Testperson zum identischen Ergebnis kommen. Das Ausmaß der Objektivität eines Tests lässt sich zahlenmäßig anhand von Übereinstimmungsmaßen ausdrücken. Üblicherweise wird diese Übereinstimmung so erfasst, dass verschiedene Diagnostiker eine bestimmte Anzahl von Personen mit einem bestimmten Test untersuchen und die Art der Testdurchführung sowie die erhobenen Befunde auf Zusammenhänge überprüft werden. Hierzu eignen sich in erster Linie Korrelationsmaße. Auf diese Weise kann die Ähnlichkeit zwischen den einzelnen Befunden der verschiedenen Diagnostiker als statistischer Zusammenhang (mit einem Wertebereich von 0 = keine Übereinstimmung bis 1 = vollkommene Übereinstimmung) ausgedrückt werden; oft wird die Übereinstimmung auch in Prozentangaben referiert (z.B. eine Korrelation von .88 entspricht einer Übereinstimmung von 88%). Dies bedeutet jedoch nicht unbedingt, dass 88% aller Diagnostiker zu dem gleichen Endergebnis kommen, sondern häufig eher, dass über die Gesamtheit aller mit der kompletten Testanwendung verbundenen Entscheidungen von verschiedenen Diagnostikern überwiegend (in 88% der Fälle) ähnliche Entscheidungen getroffen werden.
    Es lassen sich drei Aspekte der Objektivität unterscheiden: Durchführungs-, Auswertungs- und Interpretationsobjektivität. Die Durchführungsobjektivität bezieht sich auf die Unabhängigkeit der Testdurchführung von Besonderheiten, die der Diagnostiker in die Testsituation einbringt und die die Testleistung beeinflussen. Auf eine hohe Durchführungsobjektivität lässt sich dadurch hinwirken, dass die Testsituation so weit wie möglich standardisiert wird. Dies bezieht sich unter Umständen bereits auf die Räumlichkeiten oder das Mobiliar, ganz besonders aber auf verwendete Materialien und auf die Instruktionen. Dabei ist tendenziell die soziale Interaktion zwischen dem Diagnostiker und dem Kind auf ein Minimum zu reduzieren, auch wenn eine natürliche Form des Umgangs zwischen Arzt und Patient gleichwohl unbedingt wünschenswert ist. In der Regel wird eine ungünstige Interaktion (wie z.B. ungünstige Reaktionen auf richtige und falsche Testleistungen) zu unerwünschten Nebenwirkungen führen, zum Beispiel die Testmotivation ungünstig beeinflussen und somit die ermittelten Ergebnisse verzerren.
    Die Auswertungsobjektivität bezieht sich zunächst auf die Überführung einer erbrachten Leistung oder eines beobachteten Verhaltens in eine Ergebniskategorie (z.B. richtig vs. falsch, gelöst vs. nicht gelöst, vorhanden vs. nicht vorhanden) sowie im Anschluss daran auf die Zuordnung zu Werten (meist Zahlenwerte wie z.B. Punktwerte, Summenwerte oder weiter transformierte Ergebniswerte). Um die Auswertungsobjektivität sicher zu stellen, muss die Auswertung regelgeleitet erfolgen. Eine hohe Auswertungsobjektivität wird erreicht, wenn eindeutige Zuordnungen von Leistungen oder Verhaltensweisen vorgenommen werden können. Dies ist in der Regel der Fall, wenn die Testaufgaben so konstruiert sind, dass das zu erfassende Verhalten (die Leistung) einfach zu beobachten ist und eine präzise Zuordnung der Leistungen zu einfachen Antwortkategorien (z.B. richtig oder falsch) vorgenommen werden kann. Je weniger standardisiert die Antwortmöglichkeiten (z.B. freie Antwortformulierung oder projektive Tests) vorgegeben sind, das heißt je größer der Beurteilungsspielraum des Auswerters gehalten ist, desto größer ist die Wahrscheinlichkeit einer unzureichenden Übereinstimmung verschiedener Diagnostiker.
    Die Interpretationsobjektivität bezieht sich auf die Unabhängigkeit der Befundformulierung vom Diagnostiker. Sie ist praktisch dann vollkommen gegeben, wenn gleiche Ergebnisse auch immer zu gleichen Schlüssen führen. Ein Test ist dann vollkommen objektiv, wenn ein Normenvergleich vorgenommen werden kann, der Bewertungen an einer Testwertskala und somit eindeutige Aussagen wie „unauffällig“, „weit unterdurchschnittlich“ oder auch daraus abgeleitet „klinisch auffällig“ ermöglicht. Wenn die Aussage über die untersuchte Person nicht eindeutig erfolgen kann, weil bereits die Menge und Unterschiedlichkeit der möglichen Lösungen keine scharf abgegrenzten Befundkategorien zulässt, verringert dies zwangsläufig die Objektivität. In solchen Fällen kann eine möglichst umfangreiche und detaillierte Anleitung zur Interpretation (im Testhandbuch) diesem Objektivitätsverlust entgegen wirken.

    Reliabilität: Die Reliabilität (Zuverlässigkeit) eines Tests gibt seine Messgenauigkeit an, unabhängig davon, ob er auch tatsächlich das misst, was er zu messen vorgibt. Die Reliabilität beschreibt also das Ausmaß, in dem das Testergebnis frei von Messfehlern ist. Ein Test ist dann vollkommen reliabel, wenn das Ergebnis die untersuchte Eigenschaft der Person genau und fehlerfrei beschreibt. Prinzipiell sind verschiedene Aspekte von Reliabilität überprüfbar – auch wenn nicht alle diese Aspekte bei jedem Test untersucht werden können. In aller Regel werden die Aspekte der Reliabilität durch Koeffizienten ausgedrückt, die üblicherweise einen Wertebereich zwischen 0 und 1 aufweisen, wobei hohe Werte auf eine große Messgenauigkeit deuten. Dabei ist zu beachten, dass den verschiedenen Reliabilitätsaspekten bei verschiedenen Tests unterschiedliche Bedeutung zukommen kann.
    Die Retest-Reliabilität oder auch Testwiederholungsgenauigkeit ermittelt man über die wiederholte Testung einer Person mit dem gleichen Test. Es wird die Übereinstimmung der Ergebnisse ermittelt und als Korrelation ausgedrückt. Die Überprüfung der Retest-Reliabilität setzt (besonders bei Leistungstests) einen hinreichend großen zeitlichen Abstand zwischen den beiden Testzeitpunkten voraus, da ansonsten Lerneffekte eintreten können: bereits einmal bearbeitete Aufgaben oder Aufgabenteile werden unter Umständen erkannt, die bei der ersten Testung erworbenen Lösungsstrategien sind noch präsent oder im noch ungünstigeren Fall werden Aufgabenlösungen erinnert. Um für Leistungstests ab dem Kindergartenalter den Einfluss von Lerneffekten bei der Reliabilitätsprüfung hinreichend gering zu halten, sollten die Testzeitpunkte zumindest drei, besser sechs Monate auseinander liegen. Weiter ist jedoch darauf zu achten, dass das erfasste Merkmal über die Zeit hinreichend stabil ausgeprägt ist, der Test also zu beiden Messzeitpunkten auch das gleiche messen sollte. Besonders im Kindesalter ist von vielfältigen Veränderungen auszugehen, und zwar sowohl in Bezug auf den quantitativen Leistungszuwachs im Entwicklungsverlauf als auch in Bezug auf qualitative Veränderungen hinsichtlich der Art und Weise der Durchführung einer Testaufgabe: die gleiche Leistung wird zu verschiedenen Alterszeitpunkten unter Umständen entwicklungsbedingt auf eine andere Art und Weise erbracht. Solche Veränderungen in der Zeit können Interventionen bewirken.
    Die Paralleltest-Reliabilität wird über die Testung einer Personenstichprobe mit zwei streng vergleichbaren, aber verschiedenen Testversionen (Paralleltests) erhoben und die Übereinstimmung der Ergebnisse dann als Korrelation ausgedrückt. Nur für sehr wenige Testverfahren liegen jedoch tatsächlich Parallelversionen vor. Lern- und Gedächtniseffekte können allerdings auch auftreten, wenn die Parallelversionen eines Tests nur ähnlich sind.
    Eine weitere Möglichkeit, die Messgenauigkeit zu bestimmen, ergibt sich aus der Berechnung der inneren Konsistenz. Die innere Konsistenz (auch interne Konsistenz genannt) drückt das Ausmaß aus, in dem die einzelnen Testteile auch wirklich das Gleiche messen. Ein erster Weg zur Gewinnung eines Konsistenzmaßes besteht in der Bestimmung der Testhalbierungs-Reliabilität (auch Splithalf-Reliabilität, Äquivalenz). Es werden Testergebnisse an einer Stichprobe erhoben und die Aufgaben nach inhaltlichen Kriterien in zwei möglichst gleiche Testhälften zerlegt. Überprüft wird, inwieweit die Ergebnisse der Personen in jeder der beiden Testhälften übereinstimmen. In Bezug auf eine weiter gehende Konsistenzanalyse ist es möglich, den Test nacheinander in alle überhaupt möglichen Testhälften zu zerlegen und die gemittelte Reliabilität über alle möglichen Testhalbierungen zu bestimmen.
    Ein anderer Weg der Konsistenzanalyse besteht in der Zerlegung des Tests in seine „kleinsten“ Teile, also seine einzelnen Aufgaben, und es wird dann jede Aufgabe praktisch wie ein Paralleltest behandelt und die gemittelte Korrelation zwischen den einzelnen Testaufgaben bestimmt. Besonders in Bezug auf heterogene Tests ist zu beachten, dass prinzipiell keine sehr hohe Konsistenz zu erwarten ist. Ein Test, der in gewisser Bandbreite die Aspekte eines komplexen Merkmals (z.B. Hyperaktivität) erfassen möchte, wird hierfür auf Aufgaben zurückgreifen, die zwar ähnliche, aber auch hinreichend unterschiedliche Aspekte erfassen (z.B. aufmerksamkeitsbezogene, motorikbezogene sowie impulsivitätsbezogene Aufgaben). In solchen Fällen kann die innere Konsistenz dem Anwender durchaus ein Gespür für die Messgenauigkeit vermitteln, jedoch muss in solchen Fällen die Höhe eines Konsistenzmaßes vorsichtig interpretiert werden.
    Ein Maß, das unmittelbar zur Reliabilität in Beziehung steht, ist der Standardmessfehler. Der Standardmessfehler drückt den Anteil an der Streuung der Testwerte aus, der auf mangelnde Reliabilität zurückzuführen ist. Je größer der Standardmessfehler eines Tests ausfällt, desto geringer ist seine Messgenauigkeit. Um dem Anwender ein Orientierungsmaß an die Hand zu geben, werden häufig für bestimmte Testwerte Vertrauensintervalle (Konfidenzintervalle) angegeben. Hierzu ein Beispiel: ein Kind erreicht auf einer Intelligenzskala einen Punktwert (Testwert) von 17, das Testhandbuch weist zu diesem Testwert von 17 ein 95%-Vertrauensintervall aus, das den Wertebereich von 15 bis 19 Punkten umfasst. In Bezug auf die Genauigkeit des Ergebnisses lässt sich somit sagen: bei 17 erreichten Punkten liegt die tatsächliche Fähigkeit des Kindes mit einer Wahrscheinlichkeit von 95% irgendwo im Wertebereich von 15 bis 19 Punkten, mit einer Wahrscheinlichkeit von 5% liegt die tatsächliche Fähigkeit des Kindes jedoch außerhalb dieses Bereichs.

    Validität: Die Validität (Gültigkeit) eines Tests gibt an, ob dieser auch tatsächlich das misst, was er zu messen beabsichtigt. Dazu muss er natürlich objektiv und genau sein, aber das allein ist noch nicht ausreichend: Ein Intelligenztest sollte zum Beispiel nicht schwerpunktmäßig Konzentrationsfähigkeit oder Testangst erfassen. Ähnlich wie bei der Reliabilität kann nicht im eigentlichen Sinne von „der“ Validität eines Tests gesprochen werden, denn kein Test ist in jeder Situation und bezogen auf alle möglichen Fragestellungen gleich valide. Ein Intelligenztest mag zum Beispiel innerhalb gewisser Grenzen prognostische Aussagen erlauben, zum Beispiel dahin gehend, dass unter bestimmten Bedingungen ein Jahr nach einer Testung mit hoher Wahrscheinlichkeit eine Schwankung des IQ-Werts von maximal 10 Punkten zu erwarten ist. Dies aber muss längst nicht in jedem Fall zutreffend sein. Vielleicht bezieht sich diese Aussage lediglich auf unauffällige Kinder (z.B. IQ zwischen 85 und 115), deren Lebensumstände sich in diesem Zeitraum nicht ändern. Für Kinder mit einer leichten geistigen Behinderung kann aber vielleicht aufgrund der geringeren Messgenauigkeit des Verfahrens in diesem Leistungsbereich eine solch präzise Voraussage nicht vorgenommen werden.
    Ein wesentlicher Aspekt der Verfahrensgültigkeit ist die inhaltliche Validität (Augenscheinvalidität, logische Validität). Ein Test ist dann inhaltlich valide, wenn er das zu erfassende Merkmal präzise erfasst und im Idealfall selbst das optimale Kriterium darstellt. Ein klinisch orientierter Lese-Rechtschreib-Test für Zweitklässler zum Beispiel sollte demnach eine Lese- sowie eine Schreibprobe beinhalten, die in ihren Inhalten und ihren Schwierigkeiten nach gängigen Lehrplänen ausgerichtet sind und idealerweise solche Buchstaben-, Laut- und Wortkombinationen enthalten, die sensitiv für bekannte Formen von Lese- und Rechtschreibstörungen sind. Die inhaltliche Validität wird einem Test über das Expertenurteil zugebilligt und beruht somit auf subjektiven Einschätzungen, die nicht numerisch bestimmt werden sollten.
    Die Konstruktvalidität gibt an, ob und inwieweit mit einem Test abgeleitete Hypothesen bestätigt werden können. Um Konstruktvalidität zu bestimmen, müssen Fragestellungen formuliert und empirisch überprüft werden. Wenn zum Beispiel von ängstlichen Kindern bekannt ist, dass sie Tendenzen zu sozialer Unsicherheit, sozialem Rückzug und verringertem Selbstwertgefühl zeigen und situationsgebunden eine erhöhte Ausschüttung von Stresshormonen aufweisen, so müsste die Konstruktvalidierung eines Angstfragebogens für Kinder genau diese Aspekte abklären. So ist zu prüfen, ob die Kinder, die in diesem Fragebogen einen hohen Testwert erreicht haben und somit als ängstlich einzustufen sind, tatsächlich auch sozial zurückgezogen leben und geringes Selbstwertgefühl zeigen und ob sich Stresshormone vermehrt nachweisen lassen. Diese oft sehr spezifischen Validitätsaspekte eines Tests können häufig anhand von Studien überprüft und in statistischen Zusammenhängen dargestellt werden. Üblicherweise wird dabei die konvergente Validität (es bestehen Zusammenhänge mit Außenmerkmalen, die auch zu erwarten sind) von der diskriminanten Validität (es bestehen keine Zusammenhänge mit Außenmerkmalen, mit denen auch keine Zusammenhänge zu erwarten sind) unterschieden: Identifiziert beispielsweise ein Test zur Erkennung von Aufmerksamkeitsbeeinträchtigungen und Hyperaktivität auch tatsächlich Kinder mit verringerter Aufmerksamkeitsdauer, unstrukturierter Handlungsweise, motorischer Unruhe und Impulsivität (konvergente Validität) und werden gleichzeitig Kinder mit zum Beispiel angstbezogener Symptomatik mit diesem Test erwartungskonform nicht identifiziert (diskriminante Validität)? Es ist dabei nicht möglich, die Konstruktvalidität mit einer Maßzahl auszudrücken.
    Die Kriteriumsvalidität oder auch kriterienbezogene Validität richtet sich auf die Übereinstimmung der Ergebnisse eines Tests mit korrespondierenden Merkmalen. Um die kriterienbezogene Validität eines Motoriktests zu überprüfen, könnten zum Beispiel als ein Außenkriterium die Ergebnisse eines anderen Motoriktests erhoben und die Korrelation zwischen den verschiedenen Testergebnissen ermittelt werden. Andere denkbare Außenkriterien für die motorische Leistung könnten zum Beispiel die aktuelle Schulnote im Sportunterricht (Übereinstimmungsvalidität) oder die Schulnote im folgenden Schuljahr sein (prädiktive Validität).
    Vielfach ist jedoch kein angemessenes Außenkriterium bestimmbar oder es liegen zwar konzeptnahe Außenkriterien vor, mit denen aber kein sehr hoher statistischer Zusammenhang zu erwarten ist. Ein Beispiel dazu:

    • Beispiel: Ein neuer Intelligenztest erfasst die Intelligenzleistung auf der Grundlage eines hochaktuellen Intelligenzkonzepts und stellt somit nach inhaltlichen Gesichtspunkten (inhaltliche Validität) das zunächst einzige Kriterium für diesen neuen Ansatz da. Die Testautoren vermuten, dass zu anderen bereits etablierten Intelligenztests durchaus Überschneidungen zu erwarten sind, jedoch auch bedeutsame Unterschiede bestehen. In diesem Fall würden vielleicht mittlere Korrelationen zwischen den Testwerten der verschiedenen Verfahren die Annahmen der Autoren zunächst stützen und als Validitätshinweise ausgelegt werden können.

    An diesem Beispiel wird darüber hinaus deutlich, dass die Überprüfung der Konstruktvalidität und der kriterienbezogenen Validität oft nicht strikt voneinander getrennt werden kann.

     

Nebengütekriterien psychologischer Tests

Während die Hauptgütekriterien für einen Test zentral sind, lassen sich eine Anzahl weiterer Gütekriterien formulieren, denen je nach Art und Anwendungsbereich des Verfahrens eine begrenzte Bedeutung zukommen kann. Die im Folgenden beschriebenen Aspekte werden dabei üblicherweise nicht in Maßzahlen ausgedrückt.
Ein wesentlicher Punkt besteht in der Testfairness. Darunter wird verstanden, dass verschiedene Personen unabhängig von ihrer ethnischen oder sozialen Herkunft und unabhängig von nicht-testrelevanten Eigenschaften den Test unter gleichen Bedingungen absolvieren können. Ein wichtiger Aspekt der Testfairness bezieht sich auf seine Kulturunabhängigkeit. Ein Intelligenztest, der Testaufgaben mit Bezug auf Personen, Gegenstände oder Gebäude (auf Fotografien) eines bestimmten Kulturkreises (z.B. westliche Hemisphäre) enthält, bietet Personen anderer Herkunft (z.B. Ostasiaten) erschwerte Bedingungen bei der Bearbeitung. Ein insbesondere im Kindesalter deutlich wirksamer Effekt kann aus der Sprachgebundenheit von Tests resultieren, wie sie bei der überwiegenden Mehrzahl der Intelligenz- und Leistungstests gegeben ist. In aller Regel müssen dort verbale Instruktionen aufgenommen und verarbeitet oder aber Testleistungen unter Rückgriff auf Sprachproduktion erbracht werden. So ist bei Kindern, die an isolierten Sprachstörungen leiden (ca. 5%), und bei zweisprachig aufwachsenden Kindern (in Deutschland mehr als 10%), eine faire Leistungsdiagnostik nicht gegeben, das heißt, die Intelligenz droht unterschätzt zu werden.
Ein weiterer Aspekt der Testgüte betrifft die Ökonomie. Ein Test sollte in kurzer Zeit und mit geringem Aufwand erlernbar, durchführbar und auswertbar sein. Die Durchführungsökonomie ist vor allem bei Gruppentests und Screenings gegeben.
Auch die Verfügbarkeit von Normen kann als ein Gütekriterium angesehen werden; dadurch lassen sich individuelle Testergebnisse leicht einordnen. So werden prinzipiell die Ergebnisse verschiedener Tests vergleichbar. Im klinischen Einsatz ist ein Test ohne Normen oft nur sehr eingeschränkt brauchbar. Sehr hilfreich sind neben Gesamtnormen auch Gruppennormen, etwa geschlechtsspezifische Normen oder Normen für bestimmte klinische Gruppen oder Kinder mit Deutsch als Fremdsprache.
Nützlichkeit wird einem Test dann attestiert, wenn ein praktischer Bedarf für das Verfahren besteht. Ein weiterer Aspekt der Nützlichkeit ist dann gegeben, wenn das, was ein Test misst, nicht ebenso gut oder besser (z.B. ökonomischer) mit einem anderen Verfahren erfasst werden kann.

[überarbeiteter Auszug aus Petermann & Macha, 2005b]

 

Entwicklungstest: Primäremotionen

Entwicklungstest: visuomotorische Koordination

Entwicklungstest: Explorationsverhalten

Entwicklungstest: Handlungsstrategien

Entwicklungstest: Ganzkörperkoordination

entwicklungsdiagnostik.de: Navigation

 

 

 

 

Google
 


 

 

 

 

 

 


Seitenanfang
 

 

 

EDButton2

EDButton2

update entwicklungsdiagnostik.de/testgute

EDButton2

© 2007 Thorsten Macha

EDButton2