Gütekriterien

 

 

 

 

 

 

EDButton2

EDButton2

EDButton2

EDButton2

entwicklungsdiagnostik.de

EDButton2

 

 


Sie befinden sich hier:
 


   entwicklungsdiagnostik.de > Entwicklungsdiagnostik >
 

 

 

 

 

 

Grundlagen | Zielsetzungen | Strategien | Gütekriterien
 

 

 

 

 

 

 

 

 

 

 

Entwicklungstest

Entwicklungsdiagnostik: Gütekriterien

 

 

Zusammenfassung. Entwicklungsscreenings und Allgemeine Entwicklungstests müssen abhängig von ihren Zielen und Konstruktionsmerkmalen jeweils nach einer punktuellen Strategie validiert werden. Es bedarf dabei des Nachweises ihrer Differenzierungsfähigkeit für verschiedene Altersbereiche und klinische Gruppen sowie der differenzierten Überprüfung der kriterienbezogenen Validität und Konstruktvalidität. Der Beitrag nimmt eine Bewertung und Diskussion etablierter und aktueller deutschsprachiger Entwicklungstests vor und unterstützt die Einschätzung der Aussagebereiche der Verfahren.

Abstract. Tests of general development also as developmental screening tests call for selective validation: they should be able to detect differences in performance across both spans of age and clinical groups; differentiated examination of its construct validity and criterion validity is required. This article assesses and discusses established and current developmental tests in the German speaking area and also supports the evaluation of the methods shown.

 

Testgüte von Entwicklungstests: allgemeine Überlegungen

Im Jahr 1989 ist Samuel J. Meisels in einem provokativen Beitrag der Frage nachgegangen, wie es um die Differenzierungsfähigkeit von entwicklungsdiagnostischen Screeningtests bestellt ist. Meisels richtete dabei sein Hauptaugenmerk auf den Denver Developmental Screening Test (Frankenburg & Dodds, 1967). Sein Urteil wurde von verschiedenen Studien empirisch gestützt und fiel ernüchternd aus: für das Denver Screening wurde eine sehr gute Spezifität bei völlig ungenügender Sensitivität nachgewiesen. Das Verfahren war auch für viele entwicklungsverzögerte Kinder schlichtweg zu leicht und hat somit viele tatsächlich auffällige Kinder für unauffällig befunden.
In der Folge wurde das Denver Screening überarbeitet und ist seitdem in der Fassung des Denver II in Gebrauch. Es war jedoch zuvor möglich, dass ein verbreitetes Screeningverfahren über gut zwanzig Jahre hinweg eine große Vielzahl falsch negativer Diagnosen lieferte und für viele Kinder eine frühzeitige Abklärung sowie rechtzeitige Unterstützungsmaßnahmen verhinderte.
Vor diesem Hintergrund soll der Frage nachgegangen werden, wie es um die Differenzierungsfähigkeit und das mögliche Aussagespektrum verbreiteter deutschsprachiger Entwicklungstests bestellt ist. Die Gütekriterien Objektivität und Reliabilität wurden bereits (vgl. Petermann & Macha, 2003a [s. hier], 2005a [s. hier]; vgl. a. Petermann & Macha, 2005b [s. hier]) abgehandelt. Im Weiteren sollen nur Validierungsstrategien für Entwicklungstests analysiert werden.
Vorbildlich validiert sind die Bayley Scales of Infant Development (BSID; Bayley, 1993), wodurch dieses Verfahren auch ohne aktuelle und deutsche Normen eine gute Verbreitung in Deutschland gefunden hat. Allein das Handbuch weist neben zehn Seiten zur Darlegung der Reliabilität 26 Seiten komprimierte Informationen zu empirischen Studien zur Validität auf, wodurch eine erhöhte Beurteilungssicherheit für viele Fälle gewährleistet ist. Dazu wurden die Bayley-Scales mit verschiedenen Außenkriterien korreliert sowie verschiedene klinische Stichproben mit dem Verfahren untersucht, zusätzlich wird die Konstruktvalidität umfassend diskutiert. Leider sind die Bayley-Scales in Bezug auf kriterienbezogene Aspekte ausschließlich mit solchen Testverfahren verglichen worden, die amerikanische Normen aufweisen. Umso notwendiger ist es, die auf den deutschen Raum ausgerichteten Verfahren zu untersuchen, da deren Validierungsstand aktuell uneinheitlich ausfällt.
Die Beurteilung der Güte eines allgemeinen Entwicklungstests erfordert zunächst eine präzise Bestimmung des angestrebten Geltungsbereichs: Die Frage “Wie gut ist ein Allgemeiner Entwicklungstest?” führt zwangsläufig zu der Gegenfrage ”In Bezug auf was?” Allgemeine Entwicklungsdiagnostik wird in verschiedenen klinischen Bereichen unter vielen verschiedenen Fragestellungen durchgeführt. Dabei ist kein Entwicklungstest für alle Fragestellungen gleichermaßen geeignet, sondern jedes Verfahren weist spezifische Schwerpunkte auf:

  • Sollen Leistungs- und Verhaltensbesonderheiten eines Kindes im Sinne eines Suchtests (Screenings) eingegrenzt werden,
  • sollen vorwiegend unauffällige Kinder nach Leistungsmerkmalen möglichst gut differenziert werden,
  • sollen die Leistungsbeeinträchtigungen global entwicklungsverzögerter Kinder möglichst prägnant dargestellt werden oder
  • sollen spezifische klinische Gruppen im Hinblick auf gezielte Förder- und Therapieplanung untersucht werden?
     

Kein deutschsprachiger Allgemeiner Entwicklungstest legt eine zufriedenstellende Anzahl von Beiträgen vor, um seine Validität umfassend beurteilen zu können.

 

Besonderheiten in verschiedenen Altersbereichen

Verschiedene Altersbereiche (Säuglings-, Kleinkind-, Vorschulalter) erfordern unterschiedliche Untersuchungssettings (Beobachtung von Spontanverhalten, z.T. Animation vs. sanfte Animation vs. direktives Testen), was die Konstruktionsmerkmale eines Tests beeinflusst und für die Überprüfung der Validität unterschiedliche Vorgehensweisen notwendig macht.
Der Bereich des Säuglingsalters ist gekennzeichnet durch eine besondere Form der Aufgabendurchführung: Es werden dem Kind keine Aufgabenanforderungen übermittelt, denen es nachkommen soll, die Säuglingsdiagnostik ist vielmehr geprägt von der Beobachtung spontan geäußerter Verhaltensweisen; im Einzelfall werden Verhaltensweisen auch durch Stimulation oder Animation provoziert. Somit erhält die Durchführung eines Entwicklungstests im Säuglingsalter eine andere Charakteristik als die eines “echten” Leistungstests, sie erfordert dabei oft ein höheres Maß an Flexibilität des Untersuchers und nicht zuletzt eine sichere Kenntnis des Katalogs der zu überprüfenden Fertigkeiten. Aus diesem Grund kommt den Entwicklungstests, die für diesen Altersbereich konzipiert sind, eine besondere Bedeutung zu. Solche Tests oder Untertests müssen gezielt auf ihre Validität überprüft werden.
Im Kleinkindalter besteht die Schwierigkeit, dass die Kinder nun in der Lage sind, das Umfeld frei zu erkunden, und dies mit altersgemäß ausgeprägter motorischer Unruhe, Impulsivität und Ablenkbarkeit. Dies führt häufig zu Unruhe bei der Untersuchung, was kurze und einfache Aufgaben notwendig macht. Für die Kinder ist es häufig nicht möglich, ihre Aufmerksamkeit für eine längere Zeit, eventuell sogar an einem Tisch sitzend, auf eine Aufgabe zu richten. Somit fällt die Anzahl möglicher Testaufgaben im zweiten und dritten Lebensjahr auch in allen Entwicklungstests eher gering aus. In keinem anderen Altersbereich ist es von ähnlicher Bedeutung, eine reizarme Situation (Raumgestaltung, Möblierung) herzustellen und somit der erhöhten Ablenkbarkeit entgegenzuwirken. Weiter ist eine beträchtliche Variabilität des Sprachentwicklungsstandes (auch zwischen normalen Kindern dieses Alters) zu beobachten. Dies hat Einfluss auf den Grad der möglichen Standardisierung der Untersuchungssituation: um ein Kleinkind überhaupt zur Mitarbeit an einer Testaufgabe zu motivieren, sind oft mehrere Versuche und unterschiedliche Vorgehensweisen (z.B. Instruktionen) notwendig. Der geringe Standardisierungsgrad der Testung wirkt dabei der Objektivität der Untersuchung entgegen und mahnt zu vorsichtiger Interpretation der Ergebnisse.
Im Vorschulalter sind die Kinder zunehmend in der Lage, Testanforderungen über eine gewisse Zeit willkürlich und gezielt nachzukommen. Ab etwa drei Jahren lassen sich Kinder im Rahmen einer standardisierten Situation testen. Dies ist von Bedeutung für die Überprüfung von spezifischen Aspekten kriteriengebundener Validität: Korrelationen mit hochstandardisierten Testverfahren wie zum Beispiel Intelligenztests sind frühestens ab diesem Alter sinnvoll zu erheben. Somit sind solche Studien zur kriteriengebundenen Validität, die sich auf die Ergebnisse anderer Testverfahren beziehen, häufig erst ab diesem Alter auch zuverlässig.

 

Bedeutung verschiedener Aspekte der Validität in der Entwicklungsdiagnostik

Alle aktuellen deutschsprachigen Entwicklungstests weisen zunächst einmal augenscheinliche Plausibilität (inhaltliche Gültigkeit) auf. Dies ist eine Grundvoraussetzung im Sinne eines Minimalanspruchs an ein Testverfahren. Danach kommt der Konstruktvalidität eine entscheidende Bedeutung zu:

  • Lehnt sich das Verfahren hinsichtlich seiner Konstruktionsmerkmale an die inhaltlichen Vorannahmen der Autoren an?
  • Lassen sich die inhaltlichen Vorannahmen für ausgewählte Stichproben (z.B. die Normierungsstichprobe) verifizieren? Lassen sich zum Beispiel steigende Alterstrends nachweisen, fallen die Zusammenhänge zwischen unterschiedlichen Testleistungen (evtl. für spezifische Stichproben) erwartungskonform aus?

Wie bereits andernorts diskutiert (Petermann & Macha, 2005b), ist die Konstruktvalidität nicht für alle Entwicklungstests auch in gleicher Weise überprüfbar. Eine besondere Bedeutung kommt somit der kriteriengebundenen Validität zu: Dieser Aspekt der Validität ist grundsätzlich für alle Entwicklungstests auch der Überprüfung zugänglich und stellt somit einen Grundpfeiler der Validitätsuntersuchung dar. Die Aspekte der kriteriengebundenen Validität liefern dabei immer auch einen Beitrag zur Einschätzung der Konstruktvalidität. In der Entwicklungsdiagnostik ist neben der konvergenten und diskriminanten Validität besonders die Differenzierungsfähigkeit eines Verfahren von Bedeutung. Gelingt es einem Entwicklungstest, auffällige Kinder zu identifizieren? Und nach welchem Außenkriterium wurde Auffälligkeit operationalisiert?
Es sollen nun ausgewählte Validitätsaspekte für verschiedene Entwicklungstests diskutiert werden. Dabei werden ausschließlich die entsprechenden Referenzen in den jeweiligen Testhandbüchern aufgegriffen. Tabelle 1 gibt einen Überblick über den aktuellen Stand.

 

Tabelle 1. Angaben zu empirischen Studien in Bezug auf ausgewählte Validitätsaspekte verschiedener deutschsprachiger Entwicklungstest.

Verfahren

Differen-
zierungs-
fähigkeit

Kriterienvalidität

Konstruktvalidität

Screenings

 

 

 

nein

k.A.

Alterstrends

ja

BSID
GES

z.T. Alterstrends;
Skaleninterkorrelationen
Skalenkonsistenzen

ja

k.A.

Alterstrends;
Skaleninterkorrelationen
Skalenkonsistenzen

Entwicklungstests

 

 

 

ja

K-ABC;
mediz. Risiken

Alterstrends;
Entwicklungsverläufe;
geschlechtsspezif. Normen

ja

k.A.

Alterstrends

nein

k.A.

z.T. Alterstrends

ja

K-ABC

Alterstrends;
Entwicklungsverläufe;
Faktorenstruktur;
Skaleninterkorrelationen;
Skalenkonsistenzen

Anmerkungen: Die Angaben beziehen sich auf die Referenzen in den Testhandbüchern der jeweils aktuellen Auflage. Nicht alle Angaben fallen hinsichtlich der jeweiligen inhaltlichen Angaben erwartungskonform aus.

 

Differenzierungsfähigkeit

Sowohl für Entwicklungsscreenings als auch für Entwicklungstests stellt die Differenzierungsfähigkeit ein zentrales Kriterium zur Einschätzung der Testgüte dar. Die voneinander abweichenden diagnostischen Fragestellungen von Screenings und Allgemeinen Entwicklungstests machen eine getrennte Betrachtung sinnvoll. Der Anspruch eines Screenings besteht in der Identifikation von auffälligen oder Risikokindern. Ein wesentlicher Anteil der Testgüte von Screenings besteht somit in der Möglichkeit, auffällige Kinder von normalen Kindern zu unterscheiden. Dies drückt sich dann in einer hohen Sensitivität (auffällige Kinder werden identifiziert) und Spezifität (unauffällige Kinder werden nicht als auffällig identifiziert) aus. Zur Überprüfung der Differenzierungsfähigkeit von Screenings sind zwei grundsätzlich zu unterscheidende Zugänge möglich:

  • Gruppenvergleiche mit dem Ziel, signifikante Unterschiede aufzudecken und
  • Identifikation von Risikokindern, die zuvor nach Außenkriterien charakterisiert wurden (Testleistungen, Fremdeinschätzungen).
     

Dabei wird für Screenings keine besondere Differenzierung innerhalb des großen Leistungsspektrums von überdurchschnittlich bis knapp durchschnittlich angestrebt, das Hauptaugenmerk richtet sich lediglich auf die präzise Abgrenzung des Risikobereichs (unterdurchschnittliche Leistungen).
Auch ein umfassender Allgemeiner Entwicklungstest sollte diese Differenzierungsleistung erbringen, zusätzlich sind an solche Verfahren aber noch weitere Ansprüche zu stellen:

  • gute Differenzierung über den gesamten Leistungsbereich, also auch über den Normalbereich (z.B. Unterscheidung knapp durchschnittlich vs. gut durchschnittlich) und
  • präzise quantitative Beschreibungsmaße (Standardskalen).
     

Grundsätzlich ist zu beachten, an welchem Außenkriterium Auffälligkeit festgemacht wurde. Dies ist anhand der Testleistungen validitätsähnlicher Tests oder anhand klinischer Beschreibungsmerkmale (Krankheiten, psychischen Störungen) möglich. Findet eine Orientierung an inhaltlichen Merkmalen (Krankheiten) statt, so kann dies wiederum zeitpunktbezogen (werden z.Zt. auffällige Kinder identifiziert?) oder prospektiv (werden Kinder identifiziert, die zukünftig eine Entwicklungsabweichung aufweisen?) geschehen. Das frühzeitige Auffinden von Risikokindern kann wiederum als besonderer Aspekt der Testgüte bewertet werden (prognostische Validität).

 

Differenzierungsfähigkeit von Screeningverfahren

Zu den besonders in der pädiatrischen Praxis weit verbreiteten Denver-Entwicklungsskalen (Flehmig, Schloon, Uhde & von Bernuth, 1973) werden in der Testanweisung keine Angaben zur Differenzierungsfähigkeit gemacht. Das Neuropsychologische Entwicklungsscreening für die ersten beiden Lebensjahre (NES; Petermann & Renziehausen, 2005) legt aktuell eine empirischen Studie hierzu vor (Renziehausen & Petermann, 2007), außedem erfolgt für dieses Verfahren eine hinreichende Charakterisierung der Normierungsstichprobe: Die aus einer aktuellen und hinsichtlich verschiedener demografischer Merkmale repräsentativen Normstichprobe von Kindern, die zu den kinderärztlichen Vorsorgeuntersuchungen vorstellig wurden, legte das post hoc nachgewiesene Ausmaß an Differenzierungsfähigkeit bereits bei Erstveröffentlichung des Verfahrens nahe.
Als weiteres Screeningverfahren legt die Erweiterte Vorsorgeuntersuchung (EVU, Melchers, Floß, Brandt, Eßer, Lehmkuhl, Rauh & Sticker, 2003) eine Studie mit 27 Kindern vor, die nach “klinisch-pädiatrischer Einschätzung … zu etwa einem Drittel aus gesunden und altersgerecht entwickelten Kindern sowie zu zwei Dritteln aus Kindern mit teilweise deutlichen Entwicklungsauffälligkeiten” (Handbuch, S. 63) bestand. Dabei wurden alle der sowohl nach klinisch-pädiatrischem Urteil als auch nach Testergebnissen mit differenzierten Entwicklungstests (Griffiths-Skalen, Brandt & Sticker, 2001; Bayley Scales, Bayley, 1993) als entwicklungsauffällig befundete Kinder auch mit der EVU identifiziert (Sensitivität: 100%), während zwei der unauffälligen Kinder falsch positiv befundet wurden. Die Autoren geben dabei die Spezifität mit 92,6% (Handbuch, S. 64) an, wobei jedoch offensichtlich ein Berechnungsfehler vorliegt (Spezifität = Anzahl richtig negativer Entscheidungen : [Anzahl falsch positiver Entscheidungen + Anzahl richtig negativer Entscheidungen]). Nach der eingangs vorgenommenen Beschreibung der Zusammensetzung der Stichprobe (n = 27; davon ein Drittel unauffällige Kinder) ergibt sich für die Spezifität 7 : (2+7) = .78. Auch wenn die Studie aufgrund der Stichprobenzusammensetzung (klinischer Anteil mit deutlichen Auffälligkeiten!) nur eingeschränkte Aussagen erlaubt, liegen hier zumindest erste Ergebnisse zur Differenzierungsfähigkeit des Screenings vor.

 

Differenzierungsfähigkeit von Entwicklungstests

Auch von Entwicklungstests ist zu erwarten, dass sie klinisch auffällige Kinder von unauffälligen Kindern unterscheiden können, jedoch nicht alle Allgemeinen Entwicklungstests legen hierzu empirische Befunde im Handbuch vor.
Die in der pädiatrischen Praxis verbreitete Münchener Funktionelle Entwicklungsdiagnostik (erstes Lebensjahr: Hellbrügge, 2001; zweites und drittes Lebensjahr: Hellbrügge (Hrsg.), 1994) machen in den Handbücher hierzu keine Angaben.
Der Wiener Entwicklungstest (WET; Kastner-Koller & Deimann, 2002) zitiert Studien, nach denen es mit dem WET möglich ist, zwischen unauffälligen Kindern und autistischen Kindern sowie Kindern mit Down-Syndrom zu differenzieren. Für beide klinischen Gruppen wurden deutliche Minderleistungen abgebildet, die erwartungskonform in syndromspezifischen Mustern ausfielen. Eine längsschnittliche Verfolgung der Entwicklung von frühgeborenen Kindern mit einem Geburtsgewicht unter 1500 g zeigte für diese Hochrisikogruppe zu verschiedenen Alterszeitpunkten (3;1 Jahre, 5 Jahre) durchgängig Minderleistungen in allen Untertests.
Die Griffiths-Entwicklungsskalen (Brandt & Sticker, 2001) legen empirische Hinweise zur Differenzierungsfähigkeit zu spezifischen Risikogruppen wie Stoffwechselerkrankungen (Phenylketonurie), Down-Syndrom, Taubheit, Blindheit, Paresen anhand von Einzelfallbeschreibungen vor. Hierzu konnten jeweils prägnante und erwartungskonforme Entwicklungsprofile vorgelegt werden. Weiter legen die Griffiths-Entwicklungsskalen (Brandt & Sticker, 2001, S. 21f) eine Studie vor, nach der eine “überraschend gute Übereinstimmung” zwischen intrauterin normal entwickelten, alterskorrigierten Frühgeborenen (n = 44) im Vergleich zu Reifgeborenen (n = 58) in Bezug auf das Alter bei der Bewältigung der Testaufgaben der Griffths-Entwicklungsskalen beobachtet wurde. Nur in 16% der Testaufgaben fanden sich dort signifikante Unterschiede. Dabei schnitten im ersten Lebensjahr die Frühgeborenen tendenziell besser ab, erst im zweiten Lebensjahr zeigten ausschließlich die Reifgeborenen bessere Testleistungen. Diese Ergebnisse sind schwierig zu interpretieren, da frühgeborene Kinder einer Vielzahl an medizinischen Risiken ausgesetzt sind und darum im Gruppenvergleich prinzipiell Minderleistungen im Vergleich zu unauffälligen Kindern zu erwarten sind. Eine weitergehende Interpretation erfordert somit eine eingehende Charakterisierung der Stichprobe, die im Griffiths-Handbuch nicht vorgenommen wurde.
Frühgeborene Säuglinge stellen eine heterogene Gruppe von Risikokindern dar. Sie waren und sind einer großen Zahl an prä-, peri- und postnatalen Risiken ausgesetzt, wodurch die individuelle Entwicklung in vielfältiger Form beeinträchtigt werden kann. Der Anteil frühgeborener Kinder beträgt in Deutschland etwa 7% (vgl. etwa Heubrock & Petermann, 2000). Sie weisen je nach Geburtszeitpunkt besondere Schädigungsrisiken auf, wie zum Beispiel Hirnblutungen, Bindegewebswucherungen im Auge (retrolentale Fibroplasie, meist infolge von künstlicher Beatmung mit hohen Sauerstoffdosen) sowie häufig Apnoen und Bradykardien. Dabei konnten Wolke und Meyer (2000) zeigen, dass die weit verbreitete Auffassung, die Kinder würden mit der Zeit aus ihren Problemen herauswachsen, vielfach nicht zutrifft: Frühgeborene weisen je nach Schwangerschaftsdauer bis zu zehnmal häufiger kognitive Beeinträchtigungen als Reifgeborene auf, das Auftreten von Aufmerksamkeitsdefiziten und Verhaltensproblemen ist deutlich erhöht. Aus diesem Grund soll hier exemplarisch eine besonders differenzierte Ergebnisdarstellung unternommen werden, welche die Einschätzung des Interpretationsrahmens in dieser Risikostichprobe und der Ergebnisabhängigkeit von verschiedenen methodischen Zugängen unterstützt.
Bereits in einer früheren Untersuchung konnte nachgewiesen werden, dass der ET 6-6 (Petermann, Stein & Macha, 2006a) in der Lage ist, frühgeborene Kinder von Reifgeborenen zu unterscheiden. Gadow (2000) konnte zeigen, dass statistisch bedeutsame Leistungsunterschiede zwischen einer Teilstichprobe aus der Normierungsstichprobe des ET 6-6 „Kinder mit niedrigem Geburtsgewicht“ und einer parallelisierten Teilstichprobe Reifgeborener bestehen. Dies gilt über den gesamten Altersbereich von sechs Monaten bis sechs Jahren und für eine Vielzahl von Entwicklungsdimensionen (kognitive Entwicklung, Sprache, Sozialentwicklung, emotionale Entwicklung). In Kooperation mit dem Zentralkrankenhaus Links der Weser in Bremen wurden im Zeitraum von 2002 bis 2003 zusätzlich insgesamt 69 frühgeborene Säuglinge im Alter von sechs bis 15 Monaten mit dem ET 6-6 untersucht (Proske, 2004). In der Folge wurden dann Gruppenvergleiche mit jeweils nach Geschlecht und Alter parallelisierten Kontrollgruppen (Teilstichproben der Normierungsstichprobe des ET 6-6) vorgenommen. Etwa die Hälfte aller Kinder weisen Geburtskomplikationen sowie entwicklungsrelevante gesundheitliche Beeinträchtigungen auf. Bis zu einem gewissen Ausmaß werden Komplikationen anhand der APGAR-Werte dokumentiert. Zusätzlich wurden von den betreuenden Ärzten für alle Kinder aus der Frühgeborenenstichprobe medizinisch begründete Prognosen für den weiteren Entwicklungsverlauf formuliert, wobei 55% der Kinder als entwicklungsgefährdet eingestuft wurden. Die ermittelten Testleistungen der Frühgeborenen wurden nun unter Berücksichtigung verschiedener Gruppierungsmöglichkeiten zu den Testleistungen der reifgeborenen parallelisierten Kontrollgruppe in Beziehung gesetzt (Signifikanztestung, U-Test nach Mann-Whitney). In allen Altersgruppen ist dabei ein einheitlicher Leistungstrend zu Gunsten der Reifgeborenen auszumachen. In allen Entwicklungsdimensionen zeigen die Kinder der Kontrollgruppe im Zeitraum um das Ende des ersten Lebensjahres/Beginn des zweiten Lebensjahres bessere Leistungen als die alterskorrigierten Frühgeborenen, und in der Mehrzahl der Fälle waren die Leistungsdifferenzen signifikant. In Orientierung an das Geburtsalter der Frühgeborenen fällt dieser Trend also erwartungskonform deutlich aus, noch prägnanter wird dieser Trend, wenn ausschließlich sehr früh geborene Kinder (< 32. Schwangerschaftswoche) betrachtet werden (Proske, 2004, S.57ff).
In einem nächsten Auswertungsschritt wurde das Alter der Frühgeborenen korrigiert, die Kinder wurden anstatt nach dem Geburtsalter nach dem Gestationsalter den Altersgruppenuntertests des ET 6-6 zugeordnet, dann wurden neue Kontrollgruppen parallelisiert.Auch alterskorrigiert ist ein deutlicher Leistungstrend in Richtung der Reifgeborenen zu verzeichnen. Außer bei einer Entwicklungsdimension Körperbewusstsein in der Altersgruppe 9 bis 12 Monate zeigten die termingeborenen Kinder durchgängig bessere Testleistungen, in etwa der Hälfte aller Dimensionen sind sie signifikant.
Eine klinisch begründbare Interpretation der Leistungsunterschiedsmuster ist ohne weiteres jedoch nicht vorzunehmen: weder im Entwicklungsverlauf der Gesamtpopulation noch in Bezug auf bestimmte Entwicklungsdimensionen werden einfach interpretierbare Tendenzen erkennbar. Largo und Siebenthal (1997) konnten ebenso zeigen, dass einfache Erklärungsmuster außerhalb von extrem beeinträchtigten Gruppen (z.B. schwere geistige Behinderung) im Hinblick auf Entwicklungsprognosen nicht angebracht sind: neben dem Leistungsquerschnitt ist zusätzlich der sozioökonomischen Status der Familien von besonderer Relevanz.
Somit konnte demonstriert werden, dass es mit dem ET 6-6 möglich ist, für das Säuglingsalter Leistungsdifferenzen zwischen der klinisch heterogenen, vergleichsweise geringfügig auffälligen Gruppe der Frühgeborenen und normalgeborenen Kindern aufzuzeigen. Dies gelang sowohl ohne als auch mit Alterskorrektur, und dies in vielen Bereichen trotz geringer Stichprobenumfänge in signifikantem Ausmaß. Es ist somit für den ET 6-6 von einer spezifischen Sensitivität in Bezug auf Entwicklungsabweichungen auszugehen.

 

Konstruktvalidität von Entwicklungstests

Die Untersuchung der Konstruktvalidität ist abhängig von den Konstruktionsmerkmalen eines Testverfahrens. So ist die statistische Analyse zum Beispiel in Anlehnung an vorliegende Skalenniveaus (Ordinalskalen-, Intervallskalenniveau) durchzuführen und bereits hier weisen die meisten Entwicklungstests gewisse Beschränkungen auf.
Alle Entwicklungstests gehen von stetig zunehmenden Testleistungen mit dem Alter (steigende Alterstrends) aus. Sofern innerhalb eines Tests benachbarte Altersbereiche auch ähnliche Testaufgaben aufweisen, ist dieser Alterstrend meist unmittelbar aus den Altersnormen abzulesen und erfordert dann keine gesonderte Überprüfung. Diesem Kriterium kommen sämtliche hier besprochene Verfahren nach, auch wenn die Dokumentation auf verschiedene Arten und in Bezug auf unterschiedlich große Anteile der jeweiligen Tests unternommen wurde.
Ein weiterer Aspekt der Konstruktvalidität bezieht sich auf die Skaleninterkorrelationen. Es wird zumeist davon ausgegangen, dass die Entwicklungsbereiche (z.B. Motorik, Sprache) weitgehend voneinander unabhängig sind und jeweils nur einen mittleren Zusammenhang mit dem Gesamttestwert aufweisen. Für die Konstruktvalidität sind demnach geringe bis mittlere Korrelationen als erwartungskonform zu bewerten. Welche Verfahren Angaben zu Skaleninterkorrelationen machen, ist Tabelle 1 zu entnehmen.
Zusätzlich leisten vorgelegte Konsistenzmaße neben ihrer Belegkraft für spezifische Reliabilitätsaspekte (Homogenität) einen Beitrag zur Einschätzung der Konstruktvalidität: hohe Skalenkonsistenzen deuten auf die Erfassung inhaltlich eng umschriebener Merkmalsbereiche (wie z.B. bei den Untertests des WET), geringe bis mittlere Skalenkonsistenzen deuten auf einen weiter gefassten Merkmalsbereich, wie sie von Entwicklungsscreenings und Allgemeinen Entwicklungstests meist auch angestrebt werden. Von den Screeningverfahren sind es die EVU und das NES, von den Entwicklungstests der WET, die hierzu Berechnungen vorlegen.
Ein weiterer Aspekt der Konstruktvalidität besteht in der faktoriellen Validität. Auf diese Weise ist es im Einzelfall möglich, eine Faktorenstruktur zu ermitteln, welche das Muster der Skaleninterkorrelationen vertiefend interpretierbar macht. Methodische Voraussetzung für eine Faktorenanalyse ist jedoch grundsätzlich Intervallskalenniveau der untersuchten Ergebniswerte, was für alle hier angesprochenen Verfahren fraglich scheint. Als einziger Entwicklungstest unternimmt der WET eine Faktorenanalyse und legt eine 6-Faktoren-Lösung mit insgesamt 68% Varianzaufklärung (prägnantester Faktor: 17% Varianzaufklärung) vor. Dabei wurden die Faktoren jeweils als bezogen auf Sprache, visuelle Wahrnehmung, kognitive Entwicklung, Motorik, emotionale Entwicklung und Gedächtnis (Faktor 1 bis 6) interpretiert und somit die Struktur der Erfassungsbereiche (Entwicklungsbereiche) im Wesentlichen reproduziert, auch wenn die Faktorladungen auf die Leistungen in den einzelnen Untertests nicht durchgängig erwartungskonform ausfallen.
Wiederum ein weiterer Aspekt der Konstruktvalidität besteht in der Überprüfung von Entwicklungsprognosen. Wie bereits bei Petermann und Macha (2005b) diskutiert, lassen sich Entwicklungsprognosen auf der Grundlage von Testergebnissen allein um so zuverlässiger formulieren, je deutlicher die Entwicklungsabweichungen sind.
Der Wiener Entwicklungstest beschreibt den Entwicklungsverlauf einer Frühgeborenenstichprobe (Stichprobenumfang nicht ausgewiesen), wobei zwei Jahre nach der ersten Datenerhebung (t1: 3;1 Jahre; t2: 5;0 Jahre) zwar ein geringerer, aber immer noch ein deutlicher Leistungsunterschied zu den unauffälligen Kindern der parallelisierten Kontrollgruppe bestand. Bemerkenswerterweise hoben sich die Kinder der Kontrollgruppe zum zweiten Messzeitpunkt in ihrer Leistungen zunehmend vom Altersmittel nach oben ab, im Mittel um knapp einen C-Wert (eine halbe Standardabweichung).
Der ET 6-6 zitiert eine Studie zum Entwicklungsverlauf unauffälliger Kinder, deren Ergebnisse im Hinblick auf Entwicklungsprognosen erwartungsgemäß auf eine geringe Vorhersagbarkeit innerhalb des durchschnittlichen Leistungsbereichs deuten. Hier sind weitere Studien zur Einschätzung des Prognosewerts für klinische Stichproben wünschenswert.
Ein spezifischer Aspekt der Konstruktvalidität besteht in geschlechtsspezifischen Leistungsdifferenzen. Für viele Entwicklungsbereiche sind für verschiedene Altersbereiche andernorts Entwicklungsvorsprünge von Mädchen dokumentiert worden, wodurch vielfach die Bereitstellung geschlechtsspezifischer Normen sinnvoll wird. Solche Daten sind auch im Hinblick auf kriterienbezogene Validität von Bedeutung, was von den hier aufgeführten Verfahren nur der ET 6-6 erlaubt.

 

Kriteriengebundene Validität von Entwicklungstests

Zur Überprüfung von Aspekten kriteriengebundener Validität sind die häufigsten methodischen Zugänge die Vergleiche von Testleistungen mit Fremdeinschätzungen (Eltern-, Erzieher-, Lehrerurteil) sowie mit validitätsähnlichen (konvergente Validität) oder validitätsverschiedenen (diskriminante Validität) Verfahren, auch medizinische oder psychosoziale Risiken stellen geeignete Außenkriterien dar. Dabei ist es im Einzelfall auch möglich, dass in gewissem Ausmaß sowohl Übereinstimmungen mit als auch Abweichungen von dem Außenkriterium erwartet werden und somit zum Beispiel mittlere Korrelationen als Überlagerung sowohl konvergenter als auch diskriminanter Aspekte erwartet werden: Legt zum Beispiel ein Allgemeiner Entwicklungstest einen anderen, konzeptionell verschiedenen Allgemeinen Entwicklungstest als Außenkriterium zu Grunde, werden vielleicht in gewissem Ausmaß Übereinstimmungen, andererseits aber auch hinreichende Unterschiede erwartet werden. In diesem Fall sind dann mittlere Korrelationen von Ergebniswerten im Sinne gestützter Validität interpretierbar.
Wie der Tabelle 1 zu entnehmen ist, liegen von den Screenings lediglich von der EVU Angaben zu statistischen Zusammenhängen mit den Ergebnissen validitätsähnlicher Tests vor: so werden Zusammenhänge zwischen den EVU-Gesamtwerten und den Gesamtwerten der Griffiths-Skalen und den Bayley Scales sowie Zusammenhänge der EVU-Skalenwerte und ausgewählter Skalenwerte aus den Griffiths-Skalen und den Bayley Scales vorgelegt.
Von den differenzierten Entwicklungstests sind es der ET 6-6 und der WET, die jeweils Zusammenhänge mit zumindest einem etablierten Leistungstest (Kaufman Assessment Battery for Children; K-ABC; Melchers & Preuß, 2001) dokumentieren.
Für den Untertest Nachzeichnen des ET 6-6 wurden Zusammenhänge zwischen den zeichnerischen Fertigkeiten und spezifischen Risikofaktoren ermittelt: danach bestehen deutliche Zusammenhänge im Hinblick auf die Risiken “geringe Schulbildung der Eltern”, “Rauchen in der Schwangerschaft”, “Frühgeburtlichkeit” und “postnatale Verlegung in die Kinderklinik”. Gadow (2003) konnte zeigen, dass Kinder mit externalisierenden Verhaltensstörungen neben dem Sozialbereich auch Entwicklungsrückstände im kognitiven und emotionalen Bereich aufweisen.

 

Probleme empirischer Studien zur Validität in der Entwicklungsdiagnostik

Praktisch alle der hier zitierten (außerhalb der jeweiligen Normierungen durchgeführten) Studien weisen geringe Fallzahlen auf. Dabei ist häufig die Stichprobe nur wenig charakterisiert und somit der Aussagebereich der einzelnen Studien eingeschränkt. Weiter ist die Anzahl der Untersucher meistens nur gering (häufig n =1), wodurch die Studien anfällig werden für Testleitereffekte.
Obwohl solche kleineren empirischen Studien vorsichtig interpretiert werden müssen, bilden sie wertvolle Orientierungspunkte zur Einschätzung der Testgüte. Sie stellen Bausteine der eingangs aufgezeigten, in der Entwicklungsdiagnostik notwendigen punktuellen Validierungsstrategie dar und können im Rahmen zusammenhängender Interpretationen die Aussagebereiche von Entwicklungstests aufzeigen.

 

Qualität von Altersnormen

Im Zusammenhang mit der Validität von Leistungstests soll hier noch einmal kurz die Qualität der Normen diskutiert werden. Es ist hinlänglich bekannt, dass für verschiedene Leistungsbereiche (besonders gut belegt: kognitive Leistungen, vgl. z.B. Flynn, 1987) gravierende kohortenbezogene Leistungsveränderungen zu erwarten sind. Aus diesem Grund können Normwerte maximal für zehn Jahre präzise Leistungseinschätzungen gewährleisten, einige der hier genannten Verfahren weisen dabei bereits über 30 Jahre alte Normen auf (vgl. Tab. 2). Weiter sind die Repräsentativität von Normen sowie die spezifische Beschaffenheit der Normierungsstichprobe zu berücksichtigen. Nicht alle Entwicklungstests charakterisieren ihre Stichproben hinreichend, demografische und klinische Merkmale können jedoch entscheidenden Einfluss auf die Aussagemöglichkeiten eines Verfahrens nehmen, zusätzliche klinische Normen könnten den Aussagebereich deutlich erweitern.
Für Entwicklungstests wird häufig die längsschnittliche Gewinnung von Normen diskutiert (vgl. Rennen-Allhoff & Allhoff, 1987), da so die Authentizität von Entwicklungsfolgen unterstrichen werden kann. Es sind jedoch lediglich einige der älteren Verfahren (Griffiths-Skalen, MFED), die sich tatsächlich an Entwicklungsverläufen orientieren – auch wenn die MFED einräumen, dass die empirischen Daten eher einen losen Orientierungsrahmen denn echte Normen darstellten (Hellbrügge, 2001, S. 63).

 

Zusammenfassende Diskussion

Tabelle 2 fasst den Validierungsstand und die Eigenschaften der hier besprochenen Verfahren zusammen. Darin sind zunächst deutlich voneinander abweichende Validierungsstände dokumentiert, wobei zu ergänzen ist, dass auch die seit Jahrzehnten etablierten Verfahren in zahlreichen empirischen Studien als Erhebungsverfahren zur Anwendung kamen. Wir erachten es jedoch als eine Verpflichtung von Testautoren, solche Befunde für den Anwender in überarbeiteten Ausgaben eines Testhandbuchs aktualisiert zusammenzustellen und zu diskutieren, da nur in dieser Form auch wirklich von einer Validierung gesprochen werden kann.
Weiter weisen einige Verfahren stark veraltete Normen auf. Auch wenn Kohorteneffekten wie der oben beschriebene Flynn-Effekt im noch stark von Reifung geprägten Säuglings- und Kleinkindalter verringerte Bedeutung zukommt, können diese Verfahren heute grundsätzlich nicht mehr empfohlen werden.
Für die Screenings ist allgemein kein ausreichender Validierungsstand gegeben. Hier müssen zukünftig weitere empirische Studien die Differenzierungsfähigkeit einschätzen helfen.
Die Empfehlung eines Allgemeinen Entwicklungstests kann immer nur abhängig von der zu Grunde liegenden diagnostischen Fragestellung erfolgen: sollen neben der allgemeinen Orientierung über den Entwicklungsstand bereits spezifische Annahmen überprüft werden, wird in vielen Fällen der WET eine ökonomische Alternative darstellen. Eine erste Orientierung über ein breites Leistungsspektrum im Rahmen von Eingangsdiagnostik kann mit einem Inventar wie dem ET 6-6 häufig besser gelingen.
Eine Vereinheitlichung von Teststandards in der Entwicklungsdiagnostik steht aufgrund der Verschiedenheit der Konstruktionsmerkmale von Entwicklungstest nicht in Aussicht. Es besteht jedoch ein Anspruch des Anwenders auf die Dokumentation aktueller empirischer Beiträge zur Einschätzung der Validität, den jeder Testentwickler kontinuierlich erfüllen sollte.

 

Tabelle 2. Zum Validierungsstand etablierter und aktueller deutschsprachiger Entwicklungstests

Verfahren

Validierungs-
stand

Normen

Stärken

Schwächen

Screenings

 

 

 

 

-

ca. 1970

Übersichtlichkeit

veraltet;
Stufenkonzept;
keine Validierung

0

2001

Aktualität

bislang unzureichende Validierung

0

2004

Aktualität

zunächst erst Validierungsschritte

Entwicklungstests

 

 

 

 

+

1999

Aktualität;
breites Spektrum;
differenzierte Validierung;
hoher Aufforderungscharakter

Messgenauigkeit schwierig dokumentierbar; eingeschränkte Repräsentativität der Normen

+

ca. 1968

Übersichtlichkeit;
differenzierte Valididerung

veraltet;
Stufenkonzept

-

1970

Übersichtlichkeit

veraltet;
Stufenkonzept;
keine empirischen Normen;
keine Validierung

+

2001

Aktualität;
differenzierte Validierung;
hohe Messgenauigkeit

Erfassung nur umschriebener Leistungskomplexe

 

Anmerkungen: -: keine Angaben vorhanden; 0: in Ansätzen; +: zahlreiche Befunde. Die Angaben beziehen sich jeweils auf die Testhandbücher.

 

[überarbeiteter Auszug aus Macha, Proske und Petermann, 2005]

 

Entwicklungstest: Primäremotionen

Entwicklungstest: visuomotorische Koordination

Entwicklungstest: Explorationsverhalten

Entwicklungstest: Handlungsstrategien

Entwicklungstest: Ganzkörperkoordination

entwicklungsdiagnostik.de: Navigation

 

 

 

 

Google
 


 

 

 

 

 

 


Seitenanfang
 

 

 

EDButton2

EDButton2

update entwicklungsdiagnostik.de/entwicklungsdiagnostik/gutekriterien

EDButton2

© 2007 Thorsten Macha

EDButton2