Pädagogisch-psychologische Diagnostik

1

SMART Books ow & ok Seite 1 von 26

PädagogischPädagogischPädagogischPädagogisch----Psychologische DiagnostikPsychologische DiagnostikPsychologische DiagnostikPsychologische Diagnostik

In diesem Kapitel möchten wir eine erste Einführung und Hinführung zum Thema „Pädagogisch-Psychologische Diagnostik“ (PPD) versuchen. Hierzu werden zunächst Definitionen, Strategien und Anwendungsgebiete der PPD erörtert. In einem zweiten Abschnitt sollen methodische Grundlagen der Beurteilung diagnostischer Instrumente besprochen werden. Im dritten Abschnitt gilt die Aufmerksamkeit der Beurteilung und exemplarischen Darstellung verschiedener Informationsquellen und –arten.

1111 Definition und Zielstellungen von Diagnostik Definition und Zielstellungen von Diagnostik Definition und Zielstellungen von Diagnostik Definition und Zielstellungen von Diagnostik

1111....1111 Definition pädagogischDefinition pädagogischDefinition pädagogischDefinition pädagogisch----psychologischer Diagnostikpsychologischer Diagnostikpsychologischer Diagnostikpsychologischer Diagnostik Im Alltag schreiben wir Personen, die uns umgeben, mit viel Zielsicherheit und großer Selbstverständlichkeit bestimmte Ausprägungen von Eigenschaften zu. Wir treffen diese Zuschreibungen für physische oder psychische Eigenschaften aufgrund von erworbenem Wissen bzw. Beobachtungen und Erfahrungen, die wir im Laufe unseres Lebens gesammelt haben. Dieses Wissen und unsere Beobachtungen sind jedoch meist unvollständig und fehlerbehaftet. Unser Wissen bzw. unsere Beobachtungsgabe ermöglichen kaum zuverlässige Aussagen über nicht direkt beobachtbare psychische Eigenschaften wie „Intelligenz“, oder „mathematische Begabung“. In diesem Kapitel werden wir darauf eingehen, wie wir in der pädagogisch-psychologischen Diagnostik zu zuverlässigen und zutreffenden Beobachtungen gelangen und darauf aufbauend fundierte diagnostische Beurteilungen abgeben können.

Nach Amelang und Schmidt-Atzert (2006, S. 3) ist die Psychologische Diagnostik (PD) „… eine Methodenlehre im Dienste der angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, dass präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren evtl. Veränderungen in definierten Situationen möglich werden“. Diese Definition stimmt weitgehend mit zahlreichen weiteren Auffassungen zur PD überein.

Die Abgrenzung zwischen PPD und PD wird kontrovers diskutiert. Während Klauer (1982, XI) behauptet, dass „die Pädagogische Diagnostik aus der Psychologischen Diagnostik herausgewachsen ist„ vertreten Autoren wie Ingenkamp und Lissmann (2005) die Meinung, dass „die Pädagogische Diagnostik nach ihren Angaben, Zielen und Handlungsfeldern immer eigenständig war“ (S.12). Wir vertreten die Auffassung, dass zwischen PD und PPD große Überlappungen bezüglich der grundsätzlichen Problemlage und der angewandten Methoden bestehen. Eine erste Besonderheit in der PPD entsteht durch den pädagogischen, schulischen oder bildungspolitischen Charakter der Probleme, die typischerweise an sie heran getragen werden. Eine zweite Besonderheit der PPD besteht in ihrer recht starken Orientierung auf die Fragen bzgl. der Veränderbarkeit der interessierenden Eigenschaftsausprägungen über die Zeit. Im Abschnitt 1.2 gehen wir genauer auf wichtige Anwendungsfelder der PPD ein.

Diagnostik soll zur Lösung praktischer Probleme beitragen. Allerdings werden bspw. Entscheidungen über Schullaufbahnen, Platzierungen in der beruflichen Weiterbildung, die Hochschulzulassung oder den Umgang mit Verhaltensauffälligkeiten im schulischen Kontext oft ohne die Einbeziehung der PPD durch Vertreter anderer Disziplinen oder nach subjektiven Überzeugungen durch Laien getroffen. Damit die PPD in Zukunft dort, wo dies angezeigt ist, stärker bei solchen Entscheidungen einbezogen wird, sollte der Nutzen der PPD nachvollziehbar aufgezeigt werden. Nutzen von PPD kann sich in der Implementierung transparenterer und gerechterer Entscheidungsprozeduren ebenso zeigen wie die Verbesserung der Vorhersage relevanter Kriterien oder die Verringerung von Opportunitätskosten bzw. die Erzielung monetären Nutzens (Brogden, 1949; Cronbach & Gleser, 1965; Holling & Reiners, 1999).

Definition StartDefinition StartDefinition StartDefinition Start

2


„Pädagogisch„Pädagogisch„Pädagogisch„Pädagogisch----Psychologische Diagnostik“ Psychologische Diagnostik“ Psychologische Diagnostik“ Psychologische Diagnostik“

Der Einsatz von PPD soll bei der Lösung praktischer Problemepraktischer Problemepraktischer Problemepraktischer Probleme und Fragestellungen helfen. PPD bezieht sich auf einzelneeinzelneeinzelneeinzelne Merkmalsträger, Merkmalsträger, Merkmalsträger, Merkmalsträger, in der Regel Personen, weniger häufig Personengruppen, Institutionen, Situationen oder Gegenstände. Von den Merkmalsträgern werden Ausprägungen interessierender Merkmale und KonstrukteMerkmale und KonstrukteMerkmale und KonstrukteMerkmale und Konstrukte aufgezeichnet. Hierzu werden unterschiedlicheunterschiedlicheunterschiedlicheunterschiedliche VerfahrensklassenVerfahrensklassenVerfahrensklassenVerfahrensklassen (Tests, Fragebögen, Interviews, demographische Angaben etc.) eingesetzt. Die gewonnene Information wird mit möglichst transparenten, nachvollziehbaren und problemadäquaten Methoden zu einem Urteil verdichtet. In der PPD verdienen intraindividuelle Veränderungen, der Vergleich mit sachlichen Bezugsnormen – Entscheidungen darüber, wie eine Merkmalsausprägung relativ zu einer kriterialen Norm, etwa zur Sprachbeherrschung am Ende eines Schuljahres, zu beurteilen ist – und Aspekte des schulischen oder institutionalisierten Lernens besondere Aufmerksamkeit.

Definition StopDefinition StopDefinition StopDefinition Stop

1111....2222 Diagnostische StrategienDiagnostische StrategienDiagnostische StrategienDiagnostische Strategien Bei der Beantwortung einer diagnostischen Fragestellung können unterschiedliche Zieleunterschiedliche Zieleunterschiedliche Zieleunterschiedliche Ziele verfolgt werden. Im Sinne einer Diagnose der Diagnostik hat Pawlik (1982) eine hilfreiche Taxonomie diagnostischer Probleme vorgeschlagen, in der mehrere Dimensionen unterschieden werden. Eine wichtige Dimension zur Charakterisierung diagnostischer Probleme ist nach dieser Taxonomie die Unterscheidung zwischen Status- und Prozessdiagnostik.

• Sehr häufig ist bei der Beantwortung diagnostischer Fragestellungen die Ausprägung der interessierenden Eigenschaftsausprägung zum gegeben Zeitpunkt von ausschlaggebender Bedeutung. Diese sehr prototypische Fragestellung ist der sogenannten StatusdiagnostikStatusdiagnostikStatusdiagnostikStatusdiagnostik zugeordnet. Kennzeichnend für die Statusdiagnostik sind der in der Regel vorliegende Dispositionscharakter der untersuchten Größen sowie eine wenigstens mittelfristige Stabilität der untersuchten Merkmale. Ein typisches Beispiel für Statusdiagnostik ist die Untersuchung von Studienplatzbewerbern bezüglich der Eignung für ein bestimmtes Hochschulstudium.

• Die ProzessdiagnostikProzessdiagnostikProzessdiagnostikProzessdiagnostik beschäftigt sich im Gegensatz zur Statusdiagnostik mit der Beurteilung spontaner oder gezielt herbei geführter Veränderungen über einen Zeitraum. Ein typisches Beispiel ist die Untersuchung der Veränderung sprachlicher Denkleistungen eines Schulkindes, das an einer Lese-Rechtschreibschwäche leidet, während des Therapieverlaufes. Methodisch spielen hier insbesondere Aspekte der Einzelfallanalyse (Petermann, 1989) und der Veränderungsmessung (Collins & Sawyer, 2001) eine deutlich größere Rolle als bei der Statusdiagnostik.

Eine diagnostische Untersuchung dient häufig dem Zweck, eine Veränderung (Modifikation) von Bedingungen oder Verhaltensweisen aufzuzeigen. Die Konzepte der SelektionsSelektionsSelektionsSelektions---- und und und und ModifikationsdiagnostikModifikationsdiagnostikModifikationsdiagnostikModifikationsdiagnostik stellen die zweite wichtige Dimension der Taxonomie von Pawlik dar. Die Verknüpfung mit den Begriffen Status- und Prozessdiagnostik ist in Abbildung 1 veranschaulicht.

Datei-Name: diagnostische_strategien.JPG

Beschreibung (optional): Zusammenhang zwischen Status- und Prozessdiagnostik & Selektions- und Modifikationsdiagnostik

Abb. 1.

• Ein typisches Beispiel für die PersonensPersonensPersonensPersonenselektionelektionelektionelektion ist die Auswahl geeigneter Kandidaten für die Zulassung zu Universitäten für Studiengänge, bei denen die Anzahl der Bewerber die Anzahl

3


der vorhandenen Studienplätze deutlich übersteigt. Im Vordergrund steht hierbei die Maximierung des Nutzens für die jeweilige Hochschule.

• In der Berufsberatung wird die Intensität und das Profil fachlicher Interessen und Kenntnisse ermittelt, um die Auswahl von passenden Bedingungen (BedingungsselektionBedingungsselektionBedingungsselektionBedingungsselektion) - nämlich mögliche Ausbildungsberufe oder Studienrichtungen - zu ermöglichen, die am besten auf die jeweilige Person zugeschnitten sind. Hier werden also Fragen der optimalen Platzierung adressiert mit dem Ziel den Nutzen für den Klienten zu maximieren.

• Während einer Verhaltenstherapie eines Grundschulkindes, bei dem eine Rechenschwäche (Dyskalkulie) diagnostiziert wurde, steht dagegen die Modifikation des VerhaltensModifikation des VerhaltensModifikation des VerhaltensModifikation des Verhaltens im Vordergrund. Während der Therapie werden häufige Fehlerquellen beim Lösen von Rechen- und Sachaufgaben aufgezeigt. Der Therapeut erarbeitet in Zusammenarbeit mit dem Kind und seinen Eltern in verschiedenen Übungen adäquate Strategien, die das Ausmaß und die Auswirkungen der Rechenschwäche mildern sollen.

• Bei der Entscheidung, welche weiterführende Schule nach der Grundschule besucht werden sollte, handelt es sich auf den ersten Blick um BedingungsmodifikationBedingungsmodifikationBedingungsmodifikationBedingungsmodifikation. Hier soll für die betreffende Person eine optimale Situationsveränderung bzw. Platzierung herbeigeführt werden. Neben diesem Platzierungsaspekt spielt jedoch auch der Selektionsaspekt eine wichtige Rolle. Mit der Entscheidung, ob ein Kind die Hauptschule, Realschule oder das Gymnasium besuchen soll, wird auch über zukünftige Bildungs- und Berufsmöglichkeiten des Kindes entschieden, da eine Auswahlentscheidung getroffen wird, ob dem Kind ungeachtet der Begabung maximale Bildungsopportunitäten zugeteilt werden. Verschiedene Formen von Fehlentscheidungen erörtern wir kurz in Abschnitt 2.4.

Ein weiteres wichtiges Problem bei der Klärung der Beschaffenheit eines diagnostischen Problems betrifft die Frage nach welchem Standard Ausprägungen gemessener Merkmale beurteilt werden (Glaser, 1963; Klauer, 1987; Pawlik, 1982). Die dritte bedeutsame Dimension nach Pawlik stellt daher die Differenzierung zwischen kriteriums- und normorientierter Diagnostik dar.

• Bei der Vergabe von Bildungszertifikaten liegt bspw. auf den ersten Blick ein klar definiertes und sachlich motiviertes Kriterium vor, das für die Zertifikaterteilung wenigstens erreicht werden muss. In solchen Fällen spricht man von kriteriumsorientierter Dikriteriumsorientierter Dikriteriumsorientierter Dikriteriumsorientierter Diagnostikagnostikagnostikagnostik, da hierbei die Leistung der jeweiligen Person im Vergleich zu einem wohl definierten Kriterium bewertet wird. Hier geht es also primär um die Frage, welche Personen das festgelegte Kriterium erreichen oder überschreiten. Die Unterschiede zwischen Personen sind bei diesem methodischen Ansatz von untergeordneter Bedeutung. Bei einer beruflichen Weiterbildung mit Erteilung eines Zertifikats wird bspw. festgestellt, ob ein Mitarbeiter die inhaltlichen Vorgaben der Prüfung erfüllt und damit nachgewiesen hat, die in Frage stehenden Leistungen im beruflichen Alltag erbringen zu können. Dabei spielt es zunächst keine Rolle, ob andere Personen eventuell noch bessere Leistungen gezeigt haben.

• Bei der normorientierten Diagnostiknormorientierten Diagnostiknormorientierten Diagnostiknormorientierten Diagnostik wird den Unterschieden zwischen Personen besondere Bedeutung geschenkt. Hier werden die Ausprägungen auf interessierenden Merkmalen mit einer relevanten Bezugsgruppe verglichen. So wird beispielsweise die Leistung eines 11-jährigen Jungen in einem Intelligenztest im Vergleich zu anderen Jungen innerhalb seiner Altersgruppe bewertet.

Grundsätzlich kann neben diesen Formen der Orientierung noch der Vergleich innerhalb von Personen besonders beachtet werden. Neben dem Vergleich mit sachlichen und sozialen Bezugsnormen können also auch intraindividuelle Vergleiche vorgenommen werden. Hier stehen die relative Stärke verschiedener Merkmalsausprägungen – ein Profil – zu einem Zeitpunkt oder der Vergleich der Stärke einer Merkmalsausprägung zu verschiedenen Messzeitpunkten zur Debatte. Diese intrainidivuellen Vergleiche werden neuerdings verstärkt erforscht (Brehmer & Lindenberger, 2007). In der diagnostischen Praxis werden solche intraindividuellen Vergleiche allerdings eher selten formalisiert eingesetzt. Im Rahmen von pädagogischen Förderprogrammen erfolgt im Kontext von

4


individuell organisierten Interventionen früher oder später der Vergleich mit sachlichen Kriterien oder mit der Verteilung einer relevanten Bezugsgruppe.

Viele praktisch auftretende diagnostische Fragestellungen lassen sich diesen diagnostischen Orientierungen jedoch nicht eindeutig zuordnen. Ein anschauliches Beispiel ist die Bewertung einer Klassenarbeit in einer Schulklasse. Zahlreiche Untersuchungen haben gezeigt, dass bei der Leistungsbewertung sowohl die in den Lehrplänen vorgegebenen Lernziele als auch die Leistung des Schülers im Vergleich zum allgemeinen Klassenniveau berücksichtigt werden (Tent, 1998; Ingenkamp, 1995). Weitere Studien zeigen, dass die herangezogenen Kriterien zur Leistungsbewertungen in der Sekundarstufe II in verschiedenen Bundesländern und an verschiedenen Schultypen (bspw. Gesamtschule vs. Gymnasium) stark schwanken (Köller, Baumert & Schnabel, 1999). So kann bspw. in Bayern für eine konkrete Klassenarbeit eine Vier vergeben werden, während die gleiche Arbeit in Hamburg mit einer Eins bewertet wird. Für viele praktische Probleme in der PPD liegt also faktisch eine Mischung aus norm- und kriterienorientierter Diagnostik vor.

1111....3333 Anwendungsgebiete und Nachbardisziplinen der pädagogischen Diagnostik Anwendungsgebiete und Nachbardisziplinen der pädagogischen Diagnostik Anwendungsgebiete und Nachbardisziplinen der pädagogischen Diagnostik Anwendungsgebiete und Nachbardisziplinen der pädagogischen Diagnostik Anwendungsgebiete der PPD sind sehr vielfältig. Sie reichen von methodisch anspruchsvollen Arbeiten wie der Skalierung in Untersuchungen zu Bildungsstandards bis zur intersubjektiv schwer zu rekonstruierenden Interpretation projektiver Tests – das sind Tests bei denen offene Reaktionen auf auslegungsfähige Stimuli wie etwa Tintenkleckse gedeutet werden. Die Anwendungsgebiete können Berührungspunkte mit klinisch-psychologischen Problemen aufweisen, etwa bei der Diagnose von Teilleistungsschwächen, oder nahe bei Selektionsproblemen liegen wie sie häufig von der Arbeits- und Organisationspsychologie bearbeitet werden, etwa bei der Regelung des Hochschulzugangs. Sofern sich Diagnostik nicht auf einzelne Personen bezieht, sondern etwa auf Organisationen wie Schulen, ist für die pädagogische Diagnostik von solchen Systemen ein Transfer von Know-How aus anderen diagnostischen Teildisziplinen nötig – etwa aus der Organisationspsychologie (Felfe & Liepmann, 2008).

Ein besonders wichtiges und prototypisches Teilgebiet der PPD befasst sich mit Entscheidungen, die Bildungslaufbahnen betreffen. In diesem Teilgebiet sind diagnostische Fragen zur Einschulung, zur Lernbehinderung, zu Teilleistungsstörungen und Verhaltensauffälligkeiten, zur Schulformzuordnung ab der Sekundarstufe, zur Hochbegabung, zum Hochschulzugang, zur Berufsberatung und zur beruflichen Weiterbildung besonders wichtig.

In der EinschulungsdiagnostikEinschulungsdiagnostikEinschulungsdiagnostikEinschulungsdiagnostik sollen soziale, emotionale, motorische und kognitive Kompetenzen einzuschulender Kinder beurteilt werden. Gängige Testverfahren bilden jedoch vorrangig kognitive Kompetenzen ab. Bei niedrig ausgeprägten Kompetenzen kann ein Kind vom Schulbesuch für ein Schuljahr zurückgestellt werden, ggf. können Kinder bei stark ausgeprägten Kompetenzen nach entsprechender diagnostischer Klärung auch frühzeitig eingeschult werden (siehe Faust, 2006 für eine Übersicht zu aktuellen Regelungen). Traditionelle Einschulungsdiagnostik ist mit zwei Kernproblemen konfrontiert. Erstens verhindert die verzögerte Einschulung das, was Kinder mit schwächer ausgeprägten Kompetenzen besonders nötig haben: schulische Förderung. Zweitens sind die statistischen Voraussetzungen für günstige Kosten-Nutzen Relationen bei sehr niedriger Zurückweisungsrate denkbar schlecht. Die Summe der Fehlklassifikationen „Zurückstellung bei Eignung“ und „Einschulung bei Nichteignung“ sind schwer unter eine Schwelle zu drücken, die erzielt wird, wenn kein Kind zurückgestellt wird. Dies liegt daran, dass immer dann, wenn fast alle Beobachtungseinheiten eine bestimmte Ausprägung aufweisen (also etwa für die Einschulungsproblematik „geeignet“) die Anzahl an Fehlentscheidungen schon dann gering ist, wenn überhaupt keine Diagnostik betrieben wird (sondern alle Kinder eingeschult werden). Eine Verbesserung gegenüber diesem Zustand ist schwer zu erzielen. Probleme dieser Art werden im Abschnitt 2.4 noch weiter diskutiert.

LernbehinderungLernbehinderungLernbehinderungLernbehinderung ist ein wissenschaftlich wenig präziser Begriff, der auf ca. 2,5 Prozent aller Kinder eines Geburtsjahrgangs angewandt wird um auszudrücken, dass die Kinder dem Regelschulunterricht nicht hinreichend folgen können. Operational ist die Diagnose einer Lernbehinderung im Wesentlichen

5


an eine normorientierte Klassifikation von Intelligenzmessungen geknüpft. Die Diagnose der Lernbehinderung wird erschwert durch regionale Variationen eingesetzter Verfahren und verwendeter Normen und Kriterien (Borchert, 1986; Kanaya, Scullin, & Ceci, 2003; Moog, & Nowacki, 1993). Ein weiteres gravierendes Problem betrifft die äußerst starke Überlappung der Sonderschulzugehörigkeit mit sozioökonomischem Status und der unzureichenden Trennung der Intelligenzverteilungen von Haupt- und Sonderschülern. Bereits vor der klassifikatorischen Entscheidung einer Sonderschulbedürftigkeit sollte die praktisch leider weitgehend irreversible Zuordnung auch mit Blick auf die perspektivisch zu erwartenden Bildungserträge beurteilt werden.

In Abgrenzung zur Lernbehinderung oder Intelligenzminderung sind kognitive TeilleistungsstörungenTeilleistungsstörungenTeilleistungsstörungenTeilleistungsstörungen auf Beeinträchtigungen in spezifischen Bereichen beschränkt. Häufig wird diesen isolierten Beeinträchtigungen dadurch Rechnung getragen, dass Teilleistungsstörungen nur bei ansonsten unbeeinträchtigter Intelligenz vorliegen können (DSM-IV). Eine Implikation dieser Diskrepanzdefinition ist, dass weniger intelligente Kinder per Definition keine kognitiven Teilleistungsstörungen aufweisen können. Eine weitere Implikation der Definition ist, dass, in Abhängigkeit des Zusammenhangs zwischen spezifischer und allgemeiner Leistung, ein bestimmter Prozentsatz der Kinder die wesentliche Voraussetzung einer Teilleistungsstörung aufweisen muss.

Lese-Rechtschreib-Schwierigkeiten und Dyskalkulie sind die beiden schwerwiegendsten Teilleistungsstörungen. Für beide Störungen liegen eine Fülle recht guter Messinstrumente und erfolgserprobter Behandlungsmethoden vor (Bakker, 2006, Kaufmann, 2008) (vgl. Kapitel Training).

In eher auf Störungen und Schwierigkeiten fokussierten Teilgebieten der PPD werden die Berührungspunkte mit der klinischen Psychologie offensichtlich. Diagnose und Intervention bei Verhaltensauffälligkeiten wie hyperaktivem Verhalten (ADHS) oder Störungen des Sozialverhaltens stehen hier im Vordergrund der praktischen Arbeit.

Die in der pädagogischen Praxis am häufigsten auftretenden VerhaltensauffälligkeitenVerhaltensauffälligkeitenVerhaltensauffälligkeitenVerhaltensauffälligkeiten lassen sich drei Störungsgruppen zuordnen: Aufmerksamkeits- und Konzentrationsstörungen, Störungen des Sozialverhaltens und emotionale Störungen des Kindesalters. Aufmerksamkeitsdefizit- / Hyperaktivitätsstörung (ADHS) ist eine in der Regel im Kindesalter beginnende psychische Störung, die sich primär durch leichte Ablenkbarkeit, schwach ausgeprägtes Konzentrationsvermögen und Vigilanz sowie leichte Reizbarkeit, häufig auch in Kombination mit Hyperaktivität (motorische Unruhe bzw. übermäßiger Bewegungsdrang), auszeichnet. ADHS wird bei 3% bis 10% der Kinder diagnostiziert, wobei die Jungen unter den betroffenen Kindern deutlich überrepräsentiert sind (WHO & Dilling, 2008). Im ICD-10 (ICD-10 und DSM-IV sind zwei wesentliche Klassifikationssysteme psychischer Störungen der Weltgesundheitsorganisation und der American Psychiatric Association) werden unter Störungen des Sozialverhaltens sich wiederholende und andauernde Muster mutwilligen dissozialen, aggressiven oder aufsässigen Verhaltens verstanden. Diese Störungen zählen zu den häufigsten Störungen, die im Kindes- und Jugendalter diagnostiziert werden und treten häufig zusammen mit ADHS auf (WHO & Dolling, 2008). Zu emotionalen Störungen des Kindesalters zählt insbesondere Angst, die durch bestimmte, im Allgemeinen ungefährliche Objekte hervorgerufen wird. Diese Störungsgruppe umfasst u. a. phobische Störungen, soziale Ängstlichkeit und Trennungsangst. Eine besonders hohe Komorbidität besteht zu depressiven Störungen (WHO & Dolling, 2008). Die zuverlässige Erfassung der für die jeweilige Diagnose in den internationalen Klassifikationssystemen definierten notwendigen und optionalen Kriterien gestaltet sich in der Praxis häufig schwierig. Die Methode der Wahl stellt die Verhaltensbeobachtung in problematischen Situationen dar. Da dies nicht immer möglich ist, muss der Therapeut in vielen Fällen auf die Fremdbeurteilung durch die Bezugspersonen vertrauen, die jedoch subjektiv gefärbt ist. Die gebräuchlichen diagnostischen Kriterien gemäß unterscheiden sich ein wenig, und auch die verfügbaren diagnostischen Instrumente weisen Besonderheiten und Eigenheiten auf. Lernbehinderungen, Teilleistungsstörungen und Verhaltensauffälligkeiten sind auch die vorrangigen Beschäftigungsfelder der Erziehungsberatung. Trotz dieser Fokussierung auf Störungen üblicher Bildungsverläufe ist in der Erziehungsberatung im Grunde die ganze Bandbreite der PPD von Relevanz. In der Regel handelt es sich in der Erziehungsberatung um Interventionen an Einzelfällen, bei denen sorgfältige Diagnostik und intensive Qualitätskontrolle besonders bedeutsam sind (vgl. Kapitel Beratung).

6


Die je nach Bundesland nach Absolvierung der 4. bis 6. Klassenstufe erfolgende Zuordnung zur Zuordnung zur Zuordnung zur Zuordnung zur weiterführenden Schule in der Sekundarstufeweiterführenden Schule in der Sekundarstufeweiterführenden Schule in der Sekundarstufeweiterführenden Schule in der Sekundarstufe ist eine Aufteilung bzw. Segregation, die weitgehend am Schulleistungsvermögen bzw. der Intelligenz der Kinder orientiert ist oder sein sollte Maaz, Trautwein, Lüdtke, & Baumert, 2008). Aus der Perspektive vieler Eltern ist mit der Schulformzuordnung weniger eine optimale Platzierung als vielmehr eine Selektion verknüpft. Tatsächlich ist es so, dass auch mit Haupt- oder Realschulempfehlung die Chancen das Abitur erfolgreich zu absolvieren, grundsätzlich gegeben sind, wenngleich die Permeabilität des Bildungssystems zu höheren Schulabschlüssen hin geringer ist als in umgekehrter Richtung. Umgekehrt bringt eine Gymnasialempfehlung keinesfalls eine Erfolgsgarantie mit sich (Maaz, Neumann, Trautwein, Wendt, Lehmann, & Baumert, in Druck). Insbesondere mit Fehlzuordnungen, die Unterschätzungen des tatsächlichen Leistungsvermögens darstellen, gehen daher beträchtliche Kosten auf individueller Seite einher. Unstrittig sind Schulempfehlungen von Lehrerinnen und Lehrern ebenso wie Intelligenztests gute – wenngleich hoch redundante – Indikatoren für die Vorhersage des Schulerfolgs (Sauer & Gamsjäger, 1995). Die Vorhersage des Schulerfolgs weist jedoch erhebliche Ungenauigkeiten auf, die wenigstens teilweise elterlichen Ambitionen (bzw. elterlicher Ambitionslosigkeit) und Kontexteffekten (Trautwein, & Baeriswyl, 2007) geschuldet sind.

Ähnlich wie bei der Lernbehinderung geht es bei der Diagnostik der HochbegabungHochbegabungHochbegabungHochbegabung darum, eine Gruppe besonders begabter Personen zu identifizieren und a) nach ihren Möglichkeiten optimal zu fördern – etwa in speziellen Institutionen bzw. b) spezifische Probleme dieser Personengruppe besonders zu adressieren – etwa vermeintlich gehäuft auftretenden Verhaltensauffälligkeiten hochbegabter Kinder in unsegregierten Gruppen (siehe hierzu Rost, 1993). Im Kern steht bei der Hochbegabung eine besonders stark ausgeprägte Intelligenz. Aufbauend auf Intelligenzstrukturtheorien (etwa Carroll, 1993) sollte von kognitiver Hochbegabung nur mit Blick auf etablierte Fähigkeitsfaktoren und assoziierte erprobte Intelligenztestverfahren gesprochen werden. Zur Vorhersage hochbegabter Verhaltensweisen sind weitere Bedingungsfaktoren von Bedeutung, die in verschiedenen Hochbegabungstheorien thematisiert werden (vgl. dazu Renzullis Modell (1993), Sternbergs Modell (1993) oder das Münchner Hochbegabungsmodell (Becker, Perleth, & Heller, 1997). Kognitive Hochbegabung ist im Sinne einer statistischen Norm aber hinreichend definiert über das Überschreiten einer Schwelle in etablierten Leistungsfaktoren, die mit erprobten Tests erfasst werden. Solche Tests erfassen in der Regel individuelle Unterschiede in anspruchsvollen Denktätigkeiten wie etwa schlussfolgerndes Denken (Wilhelm, 2005). Diese Denktätigkeiten gelten als besonders prototypisch für Intelligenzleistungen und sie korrelieren untereinander und mit anderen Messinstrumenten, die maßgeblich individuelle Unterschiede im Denkvermögen widerspiegeln positiv. Diese sogenannte positive Vielfalt (Carroll, 1993) von Denkleistungen impliziert im Übrigen auch, dass bei spezielleren – etwa mathematischen – Hochbegabungen (Lubinski, Benbow, Webb, & Bleske-Rechek, 2006) in der Regel eine erheblich erhöhte Intelligenz vorliegt (Rost, 1993).

Ein in Deutschland im Vergleich zu anderen industrialisierten insbesondere angloamerikanischen Ländern in der Praxis unterentwickeltes Anwendungsfeld der PPD stellen Entscheidungen im Feld der HochschulzulassungHochschulzulassungHochschulzulassungHochschulzulassung dar. Seit August 2004 wurde ein Teil der Verantwortung für die Auswahl der Studienbewerber in die Hände der Hochschulen gelegt. Dieser Beschluss hatte eine besondere Relevanz für Studiengänge, bei denen die Anzahl der Bewerber die Anzahl der verfügbaren Studienplätze deutlich übersteigt, wie Medizin, Psychologie, Jura etc.

Allerdings ist festzuhalten, dass die Reformen in der Praxis i. d. R. nur eingeschränkt erfolgreich umgesetzt werden. In Folge der Reform wurden die Quoten der Abiturbesten, der Bewerber in der Warteliste usw. relativ zueinander verschoben. Den Hochschulen ist es in vielen Fällen kaum möglich die ihnen eingeräumte Freiheit angesichts a) fehlender finanzieller Spielräume, b) weiteren legislativen Hürden wie das jeweils geltende Landesrecht und c) umständlicher Selbstverwaltung wie den Erlass von Zulassungs- und Zugangssatzungen auszuschöpfen. Aus erfahrungswissenschaftlicher Sicht sind die Empfehlungen zur Hochschulzulassung an Eindeutigkeit kaum zu übertreffen (Formazin et al., in Druck). Schulabschlüsse und Schulleistungen, die zur Hochschulzugangsberechtigung führen – in der Regel das Abitur bzw. die Abiturdurchschnittsnote – erklären Studienleistungen recht gut. Dies gilt auch für sogenannte Studierfähigkeitstests. Aus der Perspektive der Maximierung der Vorhersage ist nun besonders relevant, inwiefern beide Prädiktoren die Vorhersage verbessern (inkrementelle

7


Validität aufweisen). Die empirischen Belege sprechen dafür, dass die beiden untereinander teilweise redundanten Prädiktoren sich in ihren Vorhersageleistungen ergänzen. In der Hochschulzulassung liegen jedoch auch mehrere, empirisch nicht hinreichend geklärte Probleme vor. Hierzu zählen a) Fairnessprobleme bei der Beurteilung von Schulleistungen (Michaelis, & Weyer, 1972), b) Determinanten des zu häufig zu beklagenden Studienabbruchs, c) Konsequenzen verschiedener Zulassungsprozeduren auf die soziale und ethnische Zusammensetzung der Studierenden und d) die Eigenschaften von Kriterien des Studienerfolgs insbesondere jenseits traditionell herangezogener Prüfungsleistungen in den Anfangssemestern. Ungeachtet der erfahrungswissenschaftlich eindeutig abzuleitenden Empfehlungen werden an vielen deutschen Hochschulen in vielen zulassungsbeschränkten Studiengängen Verfahren eingesetzt, deren Nützlichkeit äußerst fragwürdig ist. Auch bei der derzeit oft geübten Praxis neben der Abiturnote gewichtete, für den Studiengang vermeintlich relevante Einzelnoten heranzuziehen – ein nachgewiesenermaßen nutzloses Unterfangen (Gold & Souvignier, 2005; Steyer, Yousfi & Würfel, 2005) – scheint die Besorgnis über Kosten adäquater Prozeduren deutlich höher zu sein als der erhoffte Nutzen sachgerechter Zulassungsprozeduren. Insgesamt ist zu konstatieren, dass die Entscheidungsfindung im Feld der Hochschulzulassung in Deutschland häufig ohne die Einbeziehung der PPD erfolgt und sich nur in wenigen Fällen auf die vorliegende empirische Evidenz stützt.

BerufsberatungBerufsberatungBerufsberatungBerufsberatung ist in Deutschland eine gesetzlich geregelte Aufgabe der Bundesanstalt für Arbeit. Eckardt (1990, 1991), Eckardt und Schuler (1995) und Wottawa und Hossiep (1997, S. 34 - 44) geben gute Einführungen in die psychologische Sichtweise der Berufsberatungspraxis. Aus der diagnostischen Sicht steht bei der Berufsberatung bzw. Berufseignungsdiagnostik die Frage nach der optimalen Platzierung des Klienten im Vordergrund - mit dem Ziel, individuelle berufliche Leistungen und berufliche Zufriedenheit des Klienten zu maximieren (Eckardt & Schuler, 1995). In der beruflichen beruflichen beruflichen beruflichen WeiterbildungWeiterbildungWeiterbildungWeiterbildung werden sehr ähnliche Fragestellungen adressiert. In beiden Fällen geht es darum die optimale Passung zwischen den Eigenschaften und Fähigkeiten der Klienten mit den Gegebenheiten und Anforderungen des (zukünftigen) Arbeitsplatzes zu schaffen. Der Unterschied zwischen Berufsberatung und beruflicher Weiterbildung besteht hauptsächlich in der Stichprobe, die diese Beratungsangebote wahrnimmt, in Bezug auf ihren beruflichen Werdegang und ihr Alter. Während die Berufsberatung von vorwiegend jüngeren Menschen mit keiner bzw. nur wenig Berufserfahrung aufgesucht wird, stehen bei der beruflichen Weiterbildung i. d. R. im Vordergrund Fragen zu geeigneten Umschulungs- oder Spezialisierungsmöglichkeiten für Arbeitnehmer, die meist über einen abgeschlossenen Ausbildungs- oder Studienabschluss sowie ausreichende Berufserfahrung verfügen. Die Qualität der angebotenen Fortbildungsmaßnahmen reicht dabei von wenig hilfreichen und nicht sachgerecht evaluierten kurzfristigen Maßnahmen bis hin zu anspruchsvollen und gut erprobten qualifizierenden Bildungslehrgängen, bei denen spezifische Fertigkeiten erlernt und Zertifikate erworben werden können, die aufgrund von wohl definierten Kriterien vergeben werden.

In PPD werden Entscheidungen getroffen, deren Konsequenzen häufig nur schwer abschätzbar sind. Daher verlangen Sachlogik und Berufsethos, dass das Vorgehen in der diagnostischen Praxis juristisch abgesichert sein muss. Die deutsche Gesellschaft für Psychologie (DGPs) und der Berufsverband Deutscher Psychologen (BDP) gaben 1998 ethische Richtlinien heraus, die zugleich die „Berufsordnung für Psychologen“ des BDP von 1998 darstellen (DGPs & BDP, 1998). An diesen Richtlinien sollte sich natürlich auch die PPD orientieren. Darüber hinaus unterliegt die diagnostische Praxis den rechtlichen Vorgaben durch Gesetzgeber, Verwaltung und Gerichte. Die Dienstpflichten von Lehrern und Psychologen, die im öffentlichen Dienst tätig sind, sind durch arbeits-, dienst- und beamtenrechtliche Vorschriften weitestgehend geregelt (Tent & Stelzl, 1993). Auch die empirische Forschung an Schulen muss zahlreiche rechtliche Regelungen einhalten, bspw. indem empirische Studien einzeln durch die zuständige Landesbehörde für Bildung überprüft und genehmigt werden müssen.

2222 Beurteilung psychologischer Messverfahren Beurteilung psychologischer Messverfahren Beurteilung psychologischer Messverfahren Beurteilung psychologischer Messverfahren Um die an sie heran getragenen praktischen Probleme lösen zu können, stehen in der Diagnostik eine Reihe verschieden stark formalisierter Werkzeuge wie Tests, Fragebögen, Beobachtungsinventare oder Interviews zur Verfügung. Im folgenden Abschnitt werden verschiedene diagnostische Verfahren

8


vorgestellt und diskutiert. Bei allen diagnostischen Entscheidungen ist es von entscheidender Bedeutung auf welchen Datenquellen die Diagnosen beruhen und wie brauchbar die zugrunde liegenden Informationen für die gegebene Fragestellung sind.

Wir werden zunächst auf einige zentrale Begriffe der Diagnostik eingehen und anschließend wesentliche Gütekriterien bei der Beurteilung diagnostischer Informationsquellen erörtern. Abschließend wollen wir die Bedeutung unterschiedlicher methodischer Ansätze beleuchten und die Konsequenzen von Klassifikationen durchdenken.

2222....1111 Zentrale Begriffe der DiagnostikZentrale Begriffe der DiagnostikZentrale Begriffe der DiagnostikZentrale Begriffe der Diagnostik Während in der Physik und anderen sog. exakten Wissenschaften die Messung interessierender Größen häufig sehr präzise und eindeutig erfolgen kann, sind bei Messungen psychologischer Größen oft beträchtliche Ungenauigkeiten zu konstatieren. Mit Blick auf das Verständnis psychologischer Größen ist es wichtig, dass diese Eigenschaften nicht direkt beobachtbar sind sondern aus beobachtetem Verhalten erschlossen werden müssen. So lässt sich z.B. die Intelligenz eines Menschen auf der Beobachtungsebene nicht unmittelbar feststellen. Diese und viele weitere nicht direkt beobachtbare Eigenschaften werden in der Psychologie als KonstrukteKonstrukteKonstrukteKonstrukte bezeichnet, weil sie durch den Forscher präzisiert bzw. definiert werden müssen. Konstrukte werden in statistischen Modellen häufig als latente Variablenlatente Variablenlatente Variablenlatente Variablen konzeptualisiert. Ausprägungen auf den latenten Variablen werden aufgrund von Ausprägungen auf beobachteten Variablen (auch manifeste Variablenmanifeste Variablenmanifeste Variablenmanifeste Variablen oder IndikatorenIndikatorenIndikatorenIndikatoren genannt) geschätzt. So wird etwa die Intelligenz einer Person aufgrund des Ergebnisses in einem Intelligenztest geschätzt. Eine Kernannahme bei der Postulierung latenter Variablen ist, dass diese Größen die Zusammenhänge der beobachteten Variablen erklären. Da die in frage stehenden beobachteten Variablen in der Regel Indikatoren für das gleiche Merkmal sein sollen, müssen zwischen den beobachteten Variablen positive Assoziationen vorliegen. Unter Kontrolle der latenten Variablen sollen systematische Assoziationen zwischen den Indikatoren weitgehend verschwinden.

Leider ist es in der Psychologie nicht nur schwierig Einvernehmen darüber herzustellen, was bestimmte Verhaltensweisen indizieren und wie diese optimal beobachtet werden können. Auch die Diskussion der zugrundeliegenden und als ursächlich geltenden Konstrukte ist durch viele konzeptuelle und sprachliche Unschärfen und Beliebigkeiten geprägt. Konkret heißt das: Wenigstens ebenso schwierig wie die intersubjektiv wiederholbare Provokation intelligenten Verhaltens mit möglichst weitgehend standardisierten Reizen ist es zu präzisieren, was unter Intelligenz als theoretischer Größe genau zu verstehen ist und wie solche Denkleistungen zustande kommen.

Im alltagssprachlichen Gebrauch werden Eigenschaftszuschreibungen häufig als bipolare kategoriale Konzepte verwendet. Eine Person ist dumm oder klug, faul oder fleißig usw. Natürlich können hieran sprachliche Modulationen vorgenommen werden, so dass wir auch alltagssprachlich für die meisten Merkmale eine stärkere oder schwächere Ausprägung ausdrücken können. In der PPD können wir in der Regel davon ausgehen, dass die in Frage stehenden Merkmale kontinuierlich und nicht diskret sind. Es gibt in der PPD aber nicht nur ein Mehr oder Weniger einer bestimmten Ausprägung – für die Mehrzahl der zur Debatte stehenden Merkmale ist es unproblematisch von einem Messniveau auszugehen, in dem Unterschiede zwischen Messwertausprägungen Unterschieden zwischen Messwertausprägungen entsprechen. Bei diesem sogenannten Intervallskalenniveau sind gleich große Skalenabstände an verschiedenen Stellen der Häufigkeitsverteilung gleich groß. Für solche Merkmale gilt, dass sie üblicherweise normal verteilt sind. In großen nationalen und internationalen Bildungsstudien und auch im gemeinsamen Europäischen Referenzrahmen für Sprachbeherrschung werden häufig die eigentlich kontinuierlichen Größen in einige wenige Kategorien zusammengefasst, die als geordnete Entwicklungs- oder Kompetenzstufen verstanden werden. Bei diesem Vorgehen gehen Informationen über die Unterschiede in den einzelnen Kategorien verloren (MacCallum et al. 2002). Diese Klassifikation erleichtert jedoch in mancher Hinsicht die Kommunikation von Befunden – bspw. die Benennung des relativen Anteils von Schülern, die eine bestimmte Kompetenzstufe in einem bestimmten Leistungstest erreicht haben. So lässt sich etwa prägnant und eindringlich der Anteil an Risikoschülern in verschiedenen Gruppen miteinander vergleichen – ein Vorhaben, das ohne die Verwendung von Schwellenwerten schwer denkbar ist. Der Vorgang der Schwellensetzung ist ein in der Bildungsforschung intensiv diskutierter Vorgang (Cizek, 2001). Die Anwendung von Schwellen

9


zur Kommunikation von Befunden impliziert jedoch keineswegs ein kategoriales oder typologisches Verständnis der untersuchten Merkmale.

Von diesem Verständnis der gemessenen Variablen muss unbedingt auch die darauf aufbauende Erstellung einer Diagnose unterschieden werden. Hier finden sich häufiger kategoriale Aussagen über Beobachtungseinheiten, etwa eine Schülerin leide an einer Lese-Rechtschreib-Schwäche (Dyslexie) oder ein Schüler sei aufmerksamkeitsgestört etc. Allerdings ist auch hier häufig ein kontinuierliches Verständnis der Urteile innerhalb der latenten Klassen angebracht (J. Rost, 2004; Kraemer, Noda, O’Hara, 2003). Personen, bei denen eine dyslexische Störung diagnostiziert wurde, unterscheiden sich beispielsweise im Schweregrad, in der Reaktion auf eine Intervention und in der daraus resultierenden Beeinträchtigung im Alltag auch untereinander. Auch Personen, die nicht als dyslexisch charakterisiert wurden, weisen große Unterschiede in ihren lexikalischen Begabungen auf und sind darüber hinaus unterschiedlich stark gefährdet, zukünftig eine Dyslexie zu entwickeln.

Übersicht StartÜbersicht StartÜbersicht StartÜbersicht Start

Wichtige Begriffe und Definitionen der DiagnostikWichtige Begriffe und Definitionen der DiagnostikWichtige Begriffe und Definitionen der DiagnostikWichtige Begriffe und Definitionen der Diagnostik

Tab. 1.

BegriffBegriffBegriffBegriff DefinitionDefinitionDefinitionDefinition Diagnose / PrognoseDiagnose / PrognoseDiagnose / PrognoseDiagnose / Prognose

sind Begriffe, die der Medizin entlehnt sind. Dort bezieht sich der Begriff Diagnose auf das Erkennen einer Störung oder Krankheit anhand spezifischer Zeichen oder Symptome, etwa ob ein Patient eine Lungenentzündung hat. Der Begriff Prognose bezieht sich auf den erwarteten oder vorhergesagten Verlauf einer Störung oder Krankheit. In der PPD beruhen Diagnosen und Prognosen in der Regel auf Beurteilungen von Beobachtungseinheiten mit Blick auf vorgegebene Fragestellungen, etwa ob ein Schüler eine Gymnasialempfehlung erhalten soll.

DiagnostiDiagnostiDiagnostiDiagnostischer Prozessscher Prozessscher Prozessscher Prozess

bezeichnet im Kern die begründete Zuschreibung eines Attributs oder einer Eigenschaft zu einer bestimmten Beobachtungseinheit. Der diagnostische Prozess muss wissenschaftlichen Ansprüchen unter Berücksichtigung von Kosten-Nutzen Aspekten genügen. Im diagnostischen Prozess lassen sich die Phasen der Problemanalyse, der hypothesengetriebenen Informationsgewinnung, des diagnostischen Urteilens und der Evaluation unterscheiden (Jäger, 1986).

KonstruktKonstruktKonstruktKonstrukt ist allgemein ein nicht direkt beobachtbarer Sachverhalt innerhalb einer wissenschaftlichen Theorie. Konstrukte sind gedanklicher bzw. theoretischer Natur. In der PPD sind Konstrukte insbesondere interessierende Merkmale in Beobachtungseinheiten – in der Regel Personen. Interindividuelle Unterschiede und intraindividuelle Veränderungen in Konstrukten interessieren aus praktischer Perspektive besonders. Durch die Operationalisierung und statistische Abstraktion können aus beobachteten Variablen (etwa gelöste Aufgaben) Ausprägungen von Konstrukten in Beobachtungseinheiten (etwa Mathematikleistung eines Schülers) geschätzt werden.

OperationalisierungOperationalisierungOperationalisierungOperationalisierung umfasst eine möglichst präzise Definition des psychologischen Konstrukts sowie eine inhaltlich motivierte Ableitung der Aufgaben (bzw. Indikatoren), mit denen individuelle Unterschiede oder intraindividuelle Veränderungen in diesem Konstrukt mithilfe des Messinstruments gemessen werden sollen.

10


Latente VariableLatente VariableLatente VariableLatente Variable ist ein Parameter in einem mathematischen Modell, der nicht direkt beobachtet werden kann. Die latente Variable repräsentiert das psychologische Konstrukt und wird anhand der empirischen Daten statistisch geschätzt.

Manifeste Variable / Manifeste Variable / Manifeste Variable / Manifeste Variable / IndikatorenIndikatorenIndikatorenIndikatoren

sind beobachtete Variablen, von denen, geeignete Operationalisierung vorausgesetzt, auf das zugrundeliegende psychologische Konstrukt geschlossen wird.

Anmerkungen:

Übersicht StopÜbersicht StopÜbersicht StopÜbersicht Stop

2222....2222 Gütekriterien zur Beurteilung psychologischer Messverfahren Gütekriterien zur Beurteilung psychologischer Messverfahren Gütekriterien zur Beurteilung psychologischer Messverfahren Gütekriterien zur Beurteilung psychologischer Messverfahren In der PPD werden Entscheidungen getroffen, die weitreichende Konsequenzen für die betroffenen Personen oder Organisationen nach sich ziehen können. Daher ist es unerlässlich, die Qualität und Zuverlässigkeit der Informationen, auf denen die Entscheidung beruht, nach wissenschaftlichen Kriterien zu beurteilen. Dies ist in der Psychologie keine einfache Aufgabe, da die in Frage stehenden Größen nicht direkt ablesbar sind, sondern indirekt aus beobachtbaren Verhaltensweisen erschlossen werden müssen. Hinterfragbar ist für Messinstrumente der Psychologie damit eigentlich immer zweierlei. Erstens, sind die gewählten Indikatoren inhaltlich-theoretisch adäquat und reflektieren die Messinstrumente den aktuellsten Stand der Forschung? Zweitens, liefern die ausgewählten Messinstrumente methodisch fundierte Messungen psychischer Größen?

Leider ist die inhaltliche und theoretische Adäquatheit psychologischer Testverfahren sehr viel schwieriger zu beurteilen als die methodische und analytische Fundiertheit. Dies hat zum beklagenswerten Umstand geführt, dass sich Debatten um die Qualität psychologischer Verfahren häufig auf leichter artikulierbare methodische Aspekte - wie die Beurteilerübereinstimmung, die interne Konsistenz oder die prädiktive Validität – fokussieren. Diese und ähnliche methodische Aspekte ersetzen jedoch keineswegs die Aussagen über die theoretische Adäquatheit des jeweiligen Leistungstests, Fragebogens usw. Ein Mathematiktest kann bspw. objektiv, reliabel und prognostisch valide sein, ohne dabei die relevanten fachdidaktischen und denkpsychologischen Theorien adäquat abzubilden. Praktisch die gesamte Literatur, die sich mit Testkonstruktion und Testanalyse befasst, ist ausschließlich auf methodische Aspekte ausgerichtet. Umgekehrt findet sich in den grundlagenorientierten Fächern in der Regel der umgekehrte Sachverhalt. Der theoretischen Erwägung der zu messenden Größe wird intensive Beachtung geschenkt, aber messmethodische Erwägungen werden vernachlässigt. Beide Zustände werden den in der Testkonstruktion bzw. Operationalisierung eigentlich zu lösenden Problemen nicht hinreichend gerecht.

Theoretisch und methodisch fundierte Testentwicklung erfordert ein umfassendes Domänenwissen und eine fundierte statistische Methodikausbildung. Testtheoretische Überlegungen und das Verständnis wesentlicher statistischer Auswertungsmethoden stellen einen grundlegenden Pfeiler der PPD dar. Daher sollen einige Überlegungen zu Testgütekriterien und verschiedener Testtheorien vorgestellt werden. Die inhaltliche Expertise für die in Frage stehenden Messungen ist, wie bereits betont, ebenfalls von ausschlaggebender Bedeutung – auch wenn ihre Behandlung in den einschlägigen Büchern ebenso wie in der vorliegenden Darstellung drastisch zu kurz kommt (siehe weiterführend Irvine & Kyllonen, 2002). Ohne inhaltliche Expertise ist es unmöglich Messinstrumente nach dem aktuellen Stand der Wissenschaft zu entwickeln. Es ist wünschenswert, dass sich wahrnehmbare Unterschiede im konzeptuellen Verständnis, das Testentwicklungen zugrunde liegt, auf die resultierenden Testergebnisse auswirken. Die inhaltliche Expertise ist auch erforderlich, wenn es um die Deutung von Testergebnissen geht. Zu viele Messinstrumente in der PD tragen identische oder doch sehr verwandte Etiketten ohne tatsächlich Gleiches abzubilden. Verschiedene Instrumente, die das Schlagwort „Aufmerksamkeit“ enthalten, bilden zum Teil recht verschiedene Denkleistungen ab (die sogenannte Jingle-Fallacy, Thorndike, 1904). Der umgekehrte Fall, dass Testverfahren mit gänzlich verschiedenen Etiketten weitgehend Ähnliches messen, tritt ebenfalls auf (die sogenannte

11


Jangle-Fallacy, Kelley, 1927). Testverfahren zur Konzentrationsleistung und zur Bearbeitungsgeschwindigkeit etwa sind in vielerlei Hinsicht kaum zu unterscheiden. Dies vorausgeschickt sollen nun einige methodische Forderungen erörtert werden, die an psychologische Messverfahren schlechthin zu richten sind.

ObjektivitätObjektivitätObjektivitätObjektivität

Objektivität ist ein wesentlicher Aspekt der Messqualität psychologischer Testverfahren und ist nach Lienert (1969) zu verstehen als der Grad, in dem Testergebnisse unabhängig vom Untersucher sind. Laut Lienert (1969) spiegelt sich die Unabhängigkeit des Untersuchers in drei Aspekten wieder – nämlich in der Objektivität der Durchführung, der Auswertung und der Interpretation. Diese einleuchtende Festlegung einer erstrebenswerten diagnostischen Testpraxis sollte aber nicht überinterpretiert werden, denn sehr häufig unterbleiben empirische Überprüfungen der Objektivität im Sinne obiger Festlegung – lediglich Ermittlungen der Interraterübereinstimmung bei Verfahren mit mehreren Beurteilern pro Beobachtungseinheit sind der Objektivitätsbestimmung zuzuordnen und werden verschiedentlich eingesetzt. Weitergehende Auffassungen zum Objektivitätsbegriff (Daston, & Galison, 2007) spielen in der Psychometrie derzeit keine Rolle.

ReliabilitätReliabilitätReliabilitätReliabilität

Die Reliabilität bzw. Zuverlässigkeit eines Tests wird in traditionellen Konzeptionen in drei Reliabilitätsarten unterschieden. Stabilität, Äquivalenz und Inter-Item-Konsistenz sind in der Psychometrie häufig eingesetzte Koeffizienten zur Charakterisierung von Korrelationen zwischen Messwertreihen. Bei der Stabilität interessiert insbesondere, inwiefern in der Zeit zwischen zwei Testungen Effekte wirken, die die Zuverlässigkeit mindern. Bei der Äquivalenz interessiert insbesondere, inwiefern bei der Zuweisung von Items zu Paralleltests die Zuverlässigkeit mindernde Effekte wirken – also wie hoch die Spezifität der Itemstichproben ist. Bei der Analyse der Inter-Item-Konsistenz werden Besonderheiten einer einzelnen Itemstichprobe unter die Lupe genommen. Eine Weiterentwicklung des Konzepts der Inter-Item-Konsistenz führt zu Messmodellen, die die Eindimensionalität eines Instrumentes kritisch prüfen. Im Folgenden wollen wir den Stabilitätsaspekt etwas näher beleuchten und in diesem Zusammenhang insbesondere auf die Bedeutung der Messfehler eingehen.

Bei Messwiederholungen variiert die individuelle Leistung auch unter strikt kontrollierten Bedingungen in Abhängigkeit von Zufallsfaktoren wie Tageszeit, Stimmung, Wohlbefinden. Zahlreiche Lern- und Gedächtniseffekte können die Leistungen bei Messwiederholungen beeinflussen, wir wollen auf diesen Punkt jedoch nicht näher eingehen (siehe Borsboom, Mellenbergh, & Van Heerden, 2003) und diese Effekte bei den weiteren Ausführungen vernachlässigen. Die beobachteten Werte einer Person zu zwei verschiedenen Zeitpunkten unterscheiden sich auch dann, wenn die Ausprägung der latenten Variablen dieser Person sich nicht verändert hat. In der Regel ist das Ausmaß der Fehlerbehaftetheit einer Messung nicht abschätzbar. Über zahlreiche Messungen hinweg geht man bei Untersuchungen zur Reliabilität im Sinne der zeitlichen Stabilität individueller Unterschiede vereinfachend davon aus, dass Messfehler vollständig zufällig entstehen und nicht vorhersehbar oder prognostizierbar sind. Messfehler treten jedoch auch systematisch auf, etwa wenn einige Bewerber aufgrund von hoher Gewissenhaftigkeit nach einer ersten Leistungstestung im Lichte der Erfahrungen die Wiederholungstestung intensiv vorbereiten. Die Korrelation von Erst- mit Wiederholungstestung wird auch als Stabilitätskoeffizient bezeichnet. In die Korrelation geht eine Fülle von teils zusammenhangssteigernden Aspekten (etwa direkte Erinnerung an Angaben aus der Ersttestung) und teils zusammenhangssenkenden Aspekten ein (etwa tatsächliche Merkmalsänderungen zwischen den Testungen oder Wirkungen von Interventionen).

12


ValiditätValiditätValiditätValidität

Validität ist der entscheidende und zentrale Aspekt in der PPD. Forschungslogisch gibt es um den Validitätsbegriff einige profunde Interpretationsdifferenzen. Da sich der Begriff ganz wesentlich auf unser Verständnis von Beobachtungen auswirkt, soll er hier etwas breiter besprochen werden.

Eine weit verbreitete Definition der Validität lautet: „Validität ist das Ausmaß, zu dem ein Test das misst, was er zu messen vorgibt.“. Validität ist in diesem Verständnis eine Eigenschaft des Tests. In älteren Konzeptionen, die mit dieser Auffassung vereinbar sind, wurde zwischen verschiedenen Validitätsarten - Inhalts-, Übereinstimmungs-, bzw. Vorhersage- und Konstruktvalidität - unterschieden. In der neueren Konzeption von Messick (1989), an die sich auch die aktuellen Standards der American Psychological Association (APA, 2002), der American Educational Research Association und des National Council on Measurement in Education für psychometrische Tests anlehnen, wird auf diese Unterscheidung bewusst verzichtet.

In den APA Standards (2002, S. 9) wird Validität als eine Eigenschaft der Testwerte verstanden. Validität gibt den Grad an, zu dem die empirischen Belege und theoretischen Sachverhalte die beabsichtigte Interpretation der Testwerte unterstützen. Nach Messick (1989) lassen sich mindestens zwei miteinander zusammenhängende Fragen unterscheiden, mit denen sich die Validitätsprüfung befassen kann:

1) Gibt es Belege, die die beabsichtigte Interpretation bzw. Bedeutung der Testwerte unterstützen?

2) Gibt es Hinweise darauf, dass diese Testwerte relevant und nützlich in Bezug auf bestimmte praktische Anwendungen sind?

Zur Beantwortung der ersten Frage sollte man das interessierende Konstrukt und die damit zusammenhängende Interpretation der Messwerte genau definieren und von anderen Konstrukten abgrenzen. Diese detaillierte Definition erlaubt es, ein konzeptuelles Rahmensystem (sog. „nomologisches Netz“) zu entwickeln. Basierend auf theoretischen Überlegungen, lassen sich Hypothesen über die Zusammenhänge in diesem Rahmensystem ableiten, die gelten müssten, wenn die Testwerte im beabsichtigten Sinne interpretiert werden können. So würde man bspw. erwarten, dass die Testwerte aus einem neu entwickelten Mathematiktest höher mit anderen Mathematiktests korrelieren als mit einem Leseverständnis- oder Intelligenztest. Die zweite Frage zielt darauf ab zu klären, ob Zusammenhänge zwischen den Testwerten und praktisch relevanten Kriterien bestehen. So sollte bspw. ein neu entwickelter Mathematiktest eine beträchtliche Korrelation mit der Mathematiknote aufweisen. Relevante Evidenz für die Validität eines Tests kann nach APA Standards in mehrere Kategorien eingeteilt werden:

• TestinhaltsanalysenTestinhaltsanalysenTestinhaltsanalysenTestinhaltsanalysen sollen die Beurteilung der Passung zwischen dem zugrunde liegenden Konstrukt und den konstruierten Testaufgaben erlauben. Diese Passung kann zum einen durch streng theoriegeleitete Aufgabenkonstruktion sichergestellt werden. Zum anderen können Expertenbefragungen durchgeführt werden, bei denen die Repräsentativität und Adäquatheit der Aufgaben beurteilt wird.

• AnalyseAnalyseAnalyseAnalysennnn individueller Strategien individueller Strategien individueller Strategien individueller Strategien sollen detailliert Aufschluss geben über Prozesse, die bei Bearbeitung der Testaufgaben beteiligt sind. Dies kann bspw. über die Methode des lauten Denkens erfolgen, bei der Versuchspersonen ihre Vorgehensweise bei der Lösung der Aufgabe kommentieren bzw. verbalisieren. Ferner kann die Verwendung bestimmter Lösungsstrategien per Fragebogen erfasst werden.

• Bei der Analyse der internen TeststrukturAnalyse der internen TeststrukturAnalyse der internen TeststrukturAnalyse der internen Teststruktur werden die Zusammenhänge zwischen den einzelnen Items bzw. einzelnen Testskalen näher untersucht. Hier steht die Frage im Vordergrund, ob ein Test eindimensional ist oder mehrere Dimensionen postuliert werden müssen, um die Beobachtungen und ihre Assoziationen untereinander adäquat zu erklären. Insbesondere konfirmatorische Faktorenanalysen und probabilistische Messmodelle sind hier Methoden der Wahl.

13


• Zusammenhänge mit anderen VariablenZusammenhänge mit anderen VariablenZusammenhänge mit anderen VariablenZusammenhänge mit anderen Variablen erlauben Schlüsse über konvergente und diskriminante Validität in einem nomologischen Netzwerk. Leistungstests etwa, die auf das gleiche psychologische Konstrukt abzielen, sollten hohe Korrelationen untereinander aufweisen. In diesem Fällen spricht man von konvergenter Validitätkonvergenter Validitätkonvergenter Validitätkonvergenter Validität. Schulleistungstests sollen also hoch mit Schulnoten korrelieren, Hochschulzulassungstests sollen die späteren Studienleistungen möglichst gut vorhersagen, etc. Um sicherzugehen, dass ein Messinstrument ein spezifisches Konstrukt (bspw. arithmetische Fähigkeiten) erfasst, das von anderen Konstrukten abgegrenzt werden kann, werden auch Zusammenhänge zu anderen Konstrukten aus dem nomologischen Netzwerk (bspw. allgemeine kognitive Leistungen, Leseverständnistest etc.) betrachtet. In diesem Fall spricht man von diskriminanter oder diskriminanter oder diskriminanter oder diskriminanter oder divergenterdivergenterdivergenterdivergenter ValiditätValiditätValiditätValidität. Diese Zusammenhänge sollten aufgrund der positiven Vielfalt von Messungen, die Denkleistungen widerspiegeln, größer als null, aber dennoch deutlich geringer sein als Zusammenhänge, die konvergente Validierung reflektieren. Der MultiMultiMultiMulti––––TraitTraitTraitTrait––––MultiMultiMultiMulti––––Method (MTMM) Ansatz Method (MTMM) Ansatz Method (MTMM) Ansatz Method (MTMM) Ansatz erlaubt die simultane Prüfung konvergenter und diskriminanter Validitätsaspekte (Eid & Diener, 2006).

In Tabelle 2 sind die wichtigsten konkreten Vorgehensweisen und Auswertungsmethoden für die vier Evidenzquellen der Validierung zusammengefasst.

Tab. 2. Klassifikation der Evidenz für die Validität der Testwerte

Belege anhand der Beispiele für konkrete Vorgehensweisen bzw. Auswertungsmethoden

Testinhaltsanalysen

Genaue theoriegeleitete Spezifikation der Inhalte und Formate der Items

Expertenbefragungen bzgl. Adäquatheit, Repräsentativität der Aufgaben

Analyse individueller Strategien

Fragebogen zu Testnahmestrategien

Methode des lauten Denkens

Detaillierte Aufzeichnung und Auswertung individueller Antworten

Analyse der internen Teststruktur

Explorative aber besser noch konfirmatorische Faktorenanalysen

Probabilistische Messmodelle

Differential Item Functioning (DIF) Analysen

Zusammenhänge zu anderen Variablen

Korrelations- und Regressionsanalysen mit Kriterienvariablen

Nachweis konvergenter und diskriminanter Validität

Multi–Trait–Multi–Method (MTMM) Analysen

Überprüfung der Zusammenhänge mit weiteren Konstrukten in Strukturgleichungsmodellen

Anmerkungen:

Borsboom, Mellenbergh und Van Heerden (2004) kritisieren diesen Validitätsansatz und argumentieren, dass Validität eine Eigenschaft des Tests und nicht wie von Messick (1989) vorgeschlagen eine Eigenschaft der Testwerte ist. Sie postulieren, dass ein Test bzgl. der Erfassung eines bestimmten Konstruktes valide ist, wenn a) dieses Attribut existiert und b) die Variation in diesem Konstrukt die Variation in denn gemessenen beobachteten Variablen kausal verursacht. Borsboom et al. (2004) argumentieren weiter, dass es nicht ausreicht, die Konstruktvalidität durch korrelative Zusammenhänge im nomologischen Netz bzw. zu Außenkriterien zu begründen, sondern zeigen auf, dass eine umfassende theoretische Definition und Einordnung des interessierenden Konstrukts zentral für die Validierung ist. Inhaltlichen Überlegungen bei der Konstruktion von Messinstrumenten kommt in diesem Zusammenhang eine entscheidende Bedeutung zu.

14


Ausgehend von den älteren Validitätskonzeptionen (APA, 1954) hat sich in jüngerer Vergangenheit damit ein Validitätsverständnis durchgesetzt, dass weniger an der Vorhersagemaximierung interessiert ist als an adäquat begründeten Messungen von Personeneigenschaften.

2222....3333 Testtheorie: konkurrierende Ansätze und adäquate MethodenTesttheorie: konkurrierende Ansätze und adäquate MethodenTesttheorie: konkurrierende Ansätze und adäquate MethodenTesttheorie: konkurrierende Ansätze und adäquate Methoden Wie wird in der Praxis häufig vorgegangen, wenn die Daten eines diagnostischen Verfahrens für eine Gruppe von Personen vorliegen und das Verfahren beurteilt werden soll? Die einfachste aber fraglos inakzeptable Variante besteht darin, durch Autorität ermächtigt die Qualität eines Verfahrens einfach zu verlautbaren und zu behaupten. Eine immer noch simple, tatsächlich bisweilen noch gängige Variante ist die sogenannte klassische Testtheorie. In der einfachsten Anwendung besteht hier das Vorgehen darin, den Summenwert über die einer Skala zugeordneten Items zu berechnen. Für die derart zusammengehörigen Items wird die interne Konsistenz der Skala berechnet. Ist der Wert akzeptabel – sagen wir größer als 0,8 - so wird angenommen, dass der Test reliabel ist. In einem nächsten Schritt korreliert man den Summenwert mit einem zusätzlich erfassten Außenkriterium. Ist die Korrelation signifikant und ausreichend hoch, wird meist behauptet, dass der Test valide ist. Dieses naive Vorgehen beruht auf der ungeprüften Annahme, dass der Summenwert eines Tests ein erschöpfender Parameter für die mit den Indikatoren erhobenen Merkmale ist. Diese grundlegende Annahme kann in der klassischen Testtheorie jedoch nicht adäquat überprüft werden. Die Schätzung probabilistischer und konfirmatorischer Messmodelle erlaubt hingegen eine stringente Überprüfung.

Im Folgenden sollen kurz die Grenzen der klassischen Testtheorie (KTT) diskutiert und einige problemgerechtere Ansätze in der Testtheorie an einem Beispiel illustriert werden. Das Ziel dieses Abschnittes ist es nicht, die grundlegende Konzeptualisierung dieser Ansätze zu erläutern (siehe hierzu Lord & Novick, 1968 für die KTT, Muthén, 1984 für konfirmatorische Faktorenanalysen, Rost, 2004 für probabilistische Messmodelle) sondern deren wesentliche Annahmen sowie deren Vorzüge und Probleme zu diskutieren. Aus diesem Grund sind die Ausführungen zu den einzelnen Modellklassen sehr vereinfacht und keineswegs erschöpfend dargestellt.

Klassische Testtheorie in ihren Kernannahmen und Klassische Testtheorie in ihren Kernannahmen und Klassische Testtheorie in ihren Kernannahmen und Klassische Testtheorie in ihren Kernannahmen und ––––problemenproblemenproblemenproblemen

Die Axiome der klassischen Testtheorie (KTT) besagen, dass der beobachtete Wert als Summe aus dem wahren Wert und einem Fehlerterm definiert ist. Der im Mittel zu erwartende Fehler ist in der KTT Null. Fehlerterme sind nach den Axiomen komplett zufällig. Basierend auf diesen Axiomen werden in der KTT Konzepte wie Reliabilität und deskriptive Statistiken wie Itemschwierigkeiten, Itemtrennschärfen und viele weitere Item- und Testkennwerte definiert (Lienert, 1969, Nunnaly & Bernstein, 1994).

Betrachten wir nun ein Beispiel, in dem 100 Schüler einen Mathematiktest bestehend aus 20 Fragen bearbeiten. Wenn wir im Rahmen der KTT bleiben, würden wir zunächst für jeden Schüler die Summe der richtigen Antworten über alle 20 Items bilden. Wir würden ungeprüft annehmen, dass dieser Summenwert die gesammelte Information erschöpfend repräsentiert. Anhand der gleichen Stichprobe würden wir zahlreiche Itemstatistiken berechnen, wie etwa den Itemmittelwert, die Itemstreuung und Itemtrennschärfeindizes. Allerdings bliebe hierbei etwa bei der Berechnung der Itemschwierigkeit die relative Personenfähigkeit in der untersuchten Personenstichprobe unberücksichtigt. Eine Gruppe von 100 vermeintlich hochbegabten Kindern wird bei einem neu entwickelten Mathematiktest natürlich besser abschneiden als eine Gruppe dyskalkulischer, versetzungsgefährdeter Problemschüler. Diese Gruppenunterschiede würden sich in den Itemstatistiken ebenso niederschlagen wie in den Personenwerten. In diesem Sinne liefert die KTT stichprobenabhängige Ergebnisse.

Beispiel StartBeispiel StartBeispiel StartBeispiel Start

Wir lassen 100 Schüler einen Mathematiktest bestehend aus 20 Items bearbeiten. 10 dieser Items betreffen geometrische Probleme, 10 weitere Items sind als Algebraaufgaben zu klassifizieren. Wir bestimmen zunächst, welche Frage richtig und welche falsch gelöst wurden und berechnen anschließend für jeden Schüler die Anzahl korrekt gelöster Aufgaben.

15


Tab. 4. Daten für den Mathematiktest

Item 1 Item 2 … Item 19 Item 20 Anzahl korrekt gelöster Aufgaben

Schüler 1 1 1 … 1 1 18

Schüler 2 0 1 … 1 0 10

… … … … … … …

Schüler 99 0 0 … 1 1 12

Schüler 100 1 1 … 0 1 14

Mittelwert .92 .78 … .50 .30

Streuung .27 .41 … .50 .46

Trennschärfe .15 .20 … .35 .18

Der MittelwertMittelwertMittelwertMittelwert gibt den relativen Anteil der Richtiglösungen bzw. zustimmenden Antworten wider und wird als ItemschwierigkeitItemschwierigkeitItemschwierigkeitItemschwierigkeit gedeutet. Die StandardabweichungStandardabweichungStandardabweichungStandardabweichung gibt die Wurzel aus der mittleren quadrierten Abweichung vom Mittelwert an. Im Falle dichotomer Antworten sind Streuung und Varianz eine Funktion der Itemschwierigkeit. Die ItemtrennschärfeItemtrennschärfeItemtrennschärfeItemtrennschärfe gibt die Stärke des Zusammenhangs zwischen einem Einzelitem und dem Summenwert wieder. In konfirmatorischen und probabilistischen Modellen erfolgt die Schätzung der Trennschärfen (bzw. Ladungen oder Diskriminationsparameter) durch komplexere Verfahren.

Beispiel StopBeispiel StopBeispiel StopBeispiel Stop

Probabilistische und konfirmatorische Messmodelle Probabilistische und konfirmatorische Messmodelle Probabilistische und konfirmatorische Messmodelle Probabilistische und konfirmatorische Messmodelle

Die neueren Ansätze, die wir hier kurz ansprechen wollen, unterscheiden sich von der KTT u. a. in einer entscheidenden Annahme. Sie nehmen an, dass die beobachteten Werte eine Funktion der nicht direkt beobachtbaren Merkmalsausprägung sind und führen das Konzept „latenter Variablen“ ein. In diesen Ansätzen wird von mehreren beobachteten aber fehlerbehafteten Einzelindikatoren die zu einer Messung zählen, abstrahiert und die latenten Merkmalsausprägungen auf der Grundlage der beobachteten Werte geschätzt.

Konfirmatorische StrukturgleichungsmodelKonfirmatorische StrukturgleichungsmodelKonfirmatorische StrukturgleichungsmodelKonfirmatorische Strukturgleichungsmodellelelele ermöglichen die explizite Überprüfung der individuellen Unterschiede des in Frage stehenden Merkmals (einführend Byrne, 2001; weiterführend Bollen, 1989). Ein einfaches und übliches Modell besteht darin, zu postulieren, dass die Gemeinsamkeiten die bei der Beantwortung aller Items in der Regel zu beobachten sind, auf eine einzelne latente Größe zurückzuführen sind. In unserem Beispiel wäre dies ein Mathematikleistungsfaktor. In konkurrierenden Modellen könnten auch weitergehende, weniger sparsame Modelle getestet werden - beispielsweise ob die Variation in den Items 1-10 durch eine latente Variable „Geometriewissen“ und die Variation in den Items 11-20 durch eine latente Variable „Algebrawissen“ verursacht wird, wobei die beiden latenten Variablen plausiblerweise miteinander korrelieren dürften. Ist die Korrelation der beiden Faktoren nicht von Null verschieden, passt ein sparsameres Modell mit weniger Parametern, das diese Korrelation auf Null fixiert, offenbar ebenso gut. Ist die Korrelation der beiden nicht von Eins verschieden, passt das zuerst diskutierte sparsamere Modell mit einem Faktor offenbar ebenso gut. So lassen sich zwischen Modellen, die durch Einschränkungen von Parametern auseinander hervorgehen, deskriptive und inferenzstatistische Vergleiche ziehen (Schulze, 2005). Anhand zahlreicher Gütekriterien (Schermelleh-Engel, Moosbrugger, & Müller, 2003) können Aussagen über die Passung dieser Modelle zu den Daten gemacht werden. Anhand dieser Vergleiche theoretisch abgeleiteter Modelle können dann stringente Entscheidungen für und gegen Modelle getroffen

16


werden. Der Ansatz über konfirmatorische Strukturgleichungsmodelle Testdaten zu modellieren ist äußerst vielseitig, flexibel und analytisch weit entwickelt. Er erlaubt die Modellierung intraindividueller Veränderungen sowie die Schätzung der Gruppenvergleiche auf latenter Ebene unter Berücksichtigung spezifischer korrelierter Fehler zwischen den Indikatoren. Die Schätzung von Personenparametern ist in diesem Ansatz über so genannte Faktorscorekoeffizienten möglich.

Die Abkürzung IRT steht für Item-Response Theorie und ist ein englischsprachiger Oberbegriff für probabilistische Messmodelleprobabilistische Messmodelleprobabilistische Messmodelleprobabilistische Messmodelle. Unter diesem Oberbegriff lassen sich sehr viele verschiedene Modellansätze vereinen, die postulieren, dass das beobachte Antwortverhalten eine Funktion der Ausprägung auf dem nicht beobachtbaren latenten Merkmal (Θ - Theta) und der Itemschwierigkeit ist. Im Wesentlichen lässt sich das beobachtete Verhalten einer Person als Wettkampf zwischen der Ausprägung von Theta und der Höhe der Itemschwierigkeit verstehen. In einem einfachen und strengen probabilistischen Messmodell, dem sog. Raschmodell, wird angenommen, dass die Anzahl der gelösten Items für die Schätzung der Merkmalsausprägung ausreichend ist. Dabei spielt es keine Rolle, welche Items genau gelöst wurden. Vielen Personen scheint diese Modelleigenschaft zunächst kontraintuitiv zu sein – sie ist bei genauerem Nachdenken aber überaus schlüssig. Eine Besonderheit des Raschmodells besteht darin, dass die Schätzungen der Merkmalsausprägungen für die Personen unabhängig von den ausgewählten Items erfolgen können, für die das Raschmodell gilt. In probabilistischen Messmodellen stellt man den Zusammenhang zwischen Personenfähigkeit und Lösungswahrscheinlichkeit häufig in so genannten Itemcharakteristikkurven dar. Im Raschmodell sind die Kurven verschiedener Items von genau gleicher Gestalt. In der Terminologie konfirmatorischer Strukturgleichungsmodelle lässt sich diese Eigenschaft, die für die Gültigkeit des Raschmodells kritisch ist, so umschreiben, dass alle Indikatoren die gleichen Ladungen aufweisen müssen. In der Terminologie der KTT könnte man hier von der Forderung gleicher Trennschärfen sprechen (siehe Hattie, 1985 für verschiedene Trennschärfeindizes). Für verhaltenswissenschaftliche Konstrukte ist diese Restriktion nur unter sehr speziellen Umständen gegeben. Zunächst gibt es auch keine inhaltlichen Gründe anzunehmen, dass eine große Bandbreite von gleichartigen aber verschieden schweren Indikatoren exakt gleiche Ladungen aufweisen. Eine Vielzahl weiterer probabilistischer Messmodelle weicht von dieser Vorgabe ab (bspw. Messmodelle mit einem Diskriminationsparameter und einem Parameter zur Berücksichtigung der Ratewahrscheinlichkeit). Es gibt zahlreiche weitere probabilistische Messmodelle, bspw. Messmodelle mit mehreren latenten Klassen, so genannte diagnostische Modelle und viele weitere Messmodelle. Bedauernswert ist die Tatsache, dass der Entwicklungseifer bei der Entwicklung dieser statistischen Modellfamilien deutlich stärker ausgeprägt ist als bei der Konstruktion von Messinstrumenten, die überzeugende Anwendungsbeispiele für das ein oder andere hochgradig spezielle statistische Modell darstellen könnten.

Zusammenfassend ist es wichtig festzuhalten, dass ModZusammenfassend ist es wichtig festzuhalten, dass ModZusammenfassend ist es wichtig festzuhalten, dass ModZusammenfassend ist es wichtig festzuhalten, dass Modelle, in denen pädagogischelle, in denen pädagogischelle, in denen pädagogischelle, in denen pädagogisch----psychologische psychologische psychologische psychologische Konstrukte als latente Variablen abgebildet werden, ceteris paribus überzeugendere und Konstrukte als latente Variablen abgebildet werden, ceteris paribus überzeugendere und Konstrukte als latente Variablen abgebildet werden, ceteris paribus überzeugendere und Konstrukte als latente Variablen abgebildet werden, ceteris paribus überzeugendere und wissenschaftlichere Konzepte repräsentieren als dies in häufig inhaltlich nicht überzeugenden wissenschaftlichere Konzepte repräsentieren als dies in häufig inhaltlich nicht überzeugenden wissenschaftlichere Konzepte repräsentieren als dies in häufig inhaltlich nicht überzeugenden wissenschaftlichere Konzepte repräsentieren als dies in häufig inhaltlich nicht überzeugenden Anwendungen der KTT der Fall ist.Anwendungen der KTT der Fall ist.Anwendungen der KTT der Fall ist.Anwendungen der KTT der Fall ist. Konfirmatorische Strukturgleichungsmodelle und probabilistische Konfirmatorische Strukturgleichungsmodelle und probabilistische Konfirmatorische Strukturgleichungsmodelle und probabilistische Konfirmatorische Strukturgleichungsmodelle und probabilistische Messmodelle stehen für grundsätzlich recht verwandte Wissenschaftsüberzeugungen und weisen in Messmodelle stehen für grundsätzlich recht verwandte Wissenschaftsüberzeugungen und weisen in Messmodelle stehen für grundsätzlich recht verwandte Wissenschaftsüberzeugungen und weisen in Messmodelle stehen für grundsätzlich recht verwandte Wissenschaftsüberzeugungen und weisen in der praktischen Ausformulierung etwas divergierende Spezialsierungen auf.der praktischen Ausformulierung etwas divergierende Spezialsierungen auf.der praktischen Ausformulierung etwas divergierende Spezialsierungen auf.der praktischen Ausformulierung etwas divergierende Spezialsierungen auf.

2222....4444 Klassifikatorische DiagKlassifikatorische DiagKlassifikatorische DiagKlassifikatorische Diagnostiknostiknostiknostik Am Ende eines diagnostischen Prozesses erfolgen häufig Entscheidungen, zum Beispiel „Kandidat ist angenommen“, „Bewerber wird abgelehnt.“ oder „Matthias Müller leidet an einer Lese-Rechtschreibschwäche“. Merkmalsträger werden demnach in mehrere - häufig jedoch nur zwei Kategorien - eingeteilt, man kann diese Zuordnung als klassifikatorische Diagnostikklassifikatorische Diagnostikklassifikatorische Diagnostikklassifikatorische Diagnostik bezeichnen. Das Vorgehen bei solchen Klassifikationen weist beträchtliche Ähnlichkeit mit dem Vorgehen in der Medizin auf.

In Tabelle 3 ist ein fiktives Beispiel für die Diagnostik von Dyskalkulie in einer Gruppe von 100 Kindern mit schlechten Mathematikleistungen in der 3. Grundschulklasse angeführt. Das Ergebnis könnte etwa die Klassifikation auf der Grundlage eines neu entwickelten Tests sein. Die tatsächliche Ausprägung ist in Disziplinen wie der Pädagogik oder Psychologie in der Regel kein fehlerfrei feststellbarer Zustand. Man hilft sich in der medizinischen Praxis der Beurteilung von Messinstrumenten häufig

17


damit, dass die „tatsächliche Ausprägung“ durch die Anwendung eines diagnostischen Goldstandards – damit ist die unter gegenwärtigen Bedingungen optimal machbare Diagnostik gemeint – operationalisiert wird. In sozialwissenschaftlichen Disziplinen wird dieses Vorgehen kaum durchgängig akzeptabel sein.


Diagnostik von Dyskalkulie an 100 RisikoschülernDiagnostik von Dyskalkulie an 100 RisikoschülernDiagnostik von Dyskalkulie an 100 RisikoschülernDiagnostik von Dyskalkulie an 100 Risikoschülern

Tab. 5. Fiktive Klassifikationsdaten zur Diagnose von Dyskalkulie mit einem neu entwickelten Verfahren (relative Häufigkeiten)

Ergebnis +Ergebnis +Ergebnis +Ergebnis + (Dyskalkulie) Ergebnis Ergebnis Ergebnis Ergebnis –––– (keine Dyskalkulie) Summe

Ausprägung + Ausprägung + Ausprägung + Ausprägung + (Dyskalkulie)

0,30 (Richtig positivRichtig positivRichtig positivRichtig positiv – RP) 0,12 (Falsch negativFalsch negativFalsch negativFalsch negativ – FN) P = 0,42

Ausprägung Ausprägung Ausprägung Ausprägung ---- (keine Dyskalkulie)

0,10 (Falsch positivFalsch positivFalsch positivFalsch positiv - FP) 0,48 (Richtig negativRichtig negativRichtig negativRichtig negativ – RN) P’ = 1-P = 0,58

Summe Q = 0,40 Q’=1-Q = 0,60 1

Basisrate / PrävalenBasisrate / PrävalenBasisrate / PrävalenBasisrate / Prävalenzzzz (Anteil der tatsächlich an Dyskalkulie leidenden Kinder in der untersuchten Stichprobe): P = RP + FN = 0,3 + 0,12 = 0,42

Selektionsrate Selektionsrate Selektionsrate Selektionsrate (Anteil der Kinder, die mit dem neuen Test als dyskalkulisch diagnostiziert würden): Q= RP + FP = 0,3 + 0,1 = 0,40

SenSenSenSensitivitätsitivitätsitivitätsitivität des neuen Testverfahrens (Anteil der gestörten Kinder, die mit dem neuen Test korrekt klassifiziert wurden): SE = RP / P = 0,3 / 0,42 = 0,625

SpezifizitätSpezifizitätSpezifizitätSpezifizität des neuen Testverfahrens (Anteil der nicht gestörten Kinder, die mit dem neuen Test korrekt klassifiziert als ungestört klassifiziert wurden): SP = RN / P‘ = 0,48 / 0,58 ≈ 0,83

EffizienzEffizienzEffizienzEffizienz des neuen Testverfahrens = RP + RN = 0,3 + 0,48 = 0,78. Das bedeutet, dass 22% der Kinder mit dem neuen Testverfahren falsch klassifiziert wurden.


Bei dieser Entscheidung können zwei Arten von Fehlern begangen werden. Der erste Fehler besteht darin, ein Kind, das tatsächlich dyskalkulisch ist, als ungestört zu klassifizieren (Falsch negativFalsch negativFalsch negativFalsch negativ). Die Folgen für dieses Kind wären die potentielle ausbleibende Förderung und ein sich daraus entwickelndes kumulatives Defizit, das später in schulischer Überforderung münden kann. Der zweite Fehler liegt vor, wenn ein Kind als gestört klassifiziert wird, das tatsächlich ungestört ist (Falsch Falsch Falsch Falsch positivpositivpositivpositiv). In diesem Fall würde das Kind eine kostenintensive und aufwändige Förderung erhalten, die dem Schüler zwar ggf. nicht schaden wird, jedoch hohe Behandlungskosten verursacht, so dass ggf. tatsächlich von der Dyskalkulie betroffene Kinder nicht adäquat behandelt werden können.

Zur Beurteilung der Klassifikationen bei diagnostischen und medizinischen Entscheidungen werden die Spezifizität, Sensitivität sowie die Effizienz des Tests bzw. der Entscheidungsprozedur und einige weitere Koeffizienten herangezogen. Im Folgenden wollen wir kurz am Beispiel die wichtigsten Begriffe der klassifikatorischen Diagnostik erläutern.

Die Basisrate / PrävalenzBasisrate / PrävalenzBasisrate / PrävalenzBasisrate / Prävalenz gibt den Anteil der gestörten Kinder in der Stichprobe an. Unter der SelektionsrateSelektionsrateSelektionsrateSelektionsrate versteht man den Anteil der Kinder, für die der Test eine positive Diagnose ergibt. SensitivitätSensitivitätSensitivitätSensitivität des Tests gibt an, welchem Anteil der Kinder mit Dyskalkulie korrekterweise eine Dyskalkuliediagnose zugeschrieben wird. SpezifizitätSpezifizitätSpezifizitätSpezifizität gibt den Anteil der korrekterweise als ungestört diagnostizierten Kinder an. EffizienzEffizienzEffizienzEffizienz gibt den Anteil korrekt klassifizierter Kinder an.

Bei der Klassifikation mittels eines perfekten Tests treten keine Fehler auf, daher gilt in diesem Fall TP=P, FN=FP=0 und TN=P’. Für einen völlig zufälligen und folglich nicht legitimen Test ergeben sich

18


die relativen Häufigkeiten in den Zellen der Klassifikationstabelle aus dem Produkt der Randsummen, es gilt also, TP=P*Q, FN=P*Q’, FP=P’*Q, TN=P’*Q’. In der Realität treten diese extremen Fälle jedoch so gut wie nie auf. Für einen legitimenlegitimenlegitimenlegitimen Test Test Test Test muss eine von null verschiedene Korrelation zwischen Entscheidung und tatsächlichem Zustand vorliegen.

Das relative Risikorelative Risikorelative Risikorelative Risiko ist das Verhältnis der Wahrscheinlichkeit eines positiven Ergebnisses (Dyskalkuliediagnose) bei positiver Ausprägung im Vergleich zu einem positiven Ergebnis (Dyskalkuliediagnose) bei negativer Eigenschaftsausprägung. Das relative Risiko ist eng verwandt mit dem Odds RatioOdds RatioOdds RatioOdds Ratio – dem Verhältnis von Wettverhältnissen. Wettverhältnisse (Odds) geben die Wahrscheinlichkeit an, dass das positive Ereignis für eine bestimmte Personengruppe vorliegt. Die "Chance", dass im oben genannten Beispiel ein Kind mit Dyskalkulietestergebnis tatsächlich dyskalkulisch ist, berechnet sich aus dem Verhältnis „Richtig positiv“ zu „Falsch positiv“ und beträgt 0,3:0,1 oder 3:1. Die "Chance", dass ein Kind ohne auffälliges Dyskalkulietestergebnis tatsächlich dyskalkulisch wäre, beträgt 0,12:0,48 oder 1:4. Die Odds Ratio ist ein Maß für die Stärke des Unterschieds zwischen zwei Gruppen, hier Kindern mit und ohne auffälliges Dyskalkulietestergebnis. Die Odds Ratio setzt die Odds der beiden Gruppen zueinander ins Verhältnis. Im Beispiel beträgt die Odds Ratio 3:0,25 = 12. D.h., die Chancen (bzw. das Risiko) von Kindern mit auffälligem Dyskalkulietestergebnis tatsächlich dyskalkulisch zu sein, sind 12 mal so groß wie die von Kindern ohne auffälliges Dyskalkulietestergebnis tatsächlich dyskalkulisch zu sein. Zahlreiche weitere Koeffizienten erlauben eine detaillierte Bewertung der klassifikatorischen Aspekte von Diagnostik (siehe Kraemer, 1992). Daumenregeln für die Beurteilung solcher Koeffizienten sind schwer zu formulieren, da die in Frage stehenden Zusammenhänge jeweils im Kontext und mit Blick auf etwaige Implikationen beurteilt werden müssen.

Wie in vielen anderen anwendungsnahen Disziplinen steht bei der Beurteilung der Qualität von PPD nicht immer die Frage im Vordergrund, inwiefern eine optimale und fehlerfreie Entscheidung erreicht wurde. Es geht vielmehr häufig darum, eine Verbesserung gegenüber alternativen Vorgehensweisen oder dem Status quo zu erzielen. Solche Nützlichkeitserwägungen und die mit konkurrierenden Prozeduren verbundenen Kosten sollten bei der Beurteilung der Qualität des diagnostischen Prozesses berücksichtigt werden.

3333 Diagnostische Verfahren unDiagnostische Verfahren unDiagnostische Verfahren unDiagnostische Verfahren und diagnostische Datend diagnostische Datend diagnostische Datend diagnostische Daten Um die an sie heran getragenen praktischen Probleme lösen zu können, stehen in der Diagnostik eine Reihe verschieden stark formalisierter Werkzeuge wie Tests, Fragebögen, Beobachtungsinventaren oder Interviews zur Verfügung. Mit Hilfe der Diagnostik sollen konkrete Aussagen über Beobachtungseinheiten getroffen werden um dann begründete Entscheidungen zu treffen. In der Regel sind diese Beobachtungseinheiten Personen, Diagnostik kann aber auch Situationen, Gruppen von Personen oder Institutionen, wie etwa Schulen, gelten.

Bei der Diagnostik von Personen ist es von großer Bedeutung auf welcher Datenquelle die Informationen bzw. Beobachtungen beruhen. Erstens können Lebensdaten oder biographischen Fakten wie Alter, Geschlecht oder Schulabschluss erfragt werden. Zweitens können Personen um Aussagen über ihre Interessen, Persönlichkeit oder typische Verhaltensweisen gebeten werden. Dies geschieht meist in Form von Fragebögen. Drittens kann bei Personen leistungsbezogenes (so genanntes maximales Verhalten, Cronbach, 1949) meist mit Hilfe von standardisierten Leistungstests erfasst werden. Hierbei sollen Personen in begrenzter Zeit möglichst viele Aufgaben einer bestimmten Beschaffenheit korrekt lösen.

3333....1111 LebensdatenLebensdatenLebensdatenLebensdaten Wichtige biographische Informationen, die bei Untersuchungen in PPD berücksichtigt werden, sind Alter, Geschlecht, erworbene Schulabschlüsse und bei Erwachsenen ggf. bisherige Erwerbstätigkeit. Dazu gehören aber auch Informationen darüber, ob jemand in der Schule sitzen geblieben ist, ein Auslandspraktikum absolviert hat oder in einem bestimmten Zeitintervall Verhaltensauffälligkeiten gezeigt hat. Biographische Daten können als manifeste Spuren bestimmter Merkmale und Dispositionen im Lebenslauf eines Individuums verstanden werden. Biographische Daten sind daher

19


häufig das Ergebnis lang währender Vorgänge (etwa einer Berufsausbildung), deren Ergebnisse durch zahlreiche, häufig unbekannte Determinanten bestimmt sind. Zu diesen Determinanten zählen bspw. Fähigkeiten, Interessen und Persönlichkeitseigenschaften der betreffenden Person, aber auch der sozioökonomische Status der Eltern, epochale Einflüsse, zufällig eintretende Opportunitäten und vieles mehr. Die größte Schwierigkeit bei der Beurteilung biographischer Daten besteht darin, verlässlich zu bestimmen, welche konkreten Aussagen über die Ausprägungen der in Frage stehenden Merkmale und Dispositionen sich aus Lebensdaten ableiten lassen. Sitzenbleiben indiziert in den meisten Fällen eine schwache Schulleistung, in einigen Fällen jedoch wiederholen Kinder mit durchschnittlichen schulischen Fertigkeiten eine Klasse aufgrund von mangelnden Sprachkenntnissen; häufig ist mangelnde Motivation im Spiel, noch häufiger wohl mangelnde Begabung - aber auch die Strenge der Bewertungsmassstäbe und Interaktionen solcher Determinanten mögen zur Vorhersage des Sitzenbleibens beitragen.

Informationen wie Schulnoten, Examensleistungen an Hochschulen und weitere Beurteilungen von Lernleistungen nach institutionalisierter Ausbildung zählen unserer Ansicht nach nur mittelbar zu den Lebensdaten. Da den Schulnoten im deutschen Bildungssystem eine herausragende Bedeutung bei wichtigen Selektionsentscheidungen zukommt, werden wir im Folgenden näher auf die Qualität der schulischen Leistungsbeurteilungen eingehen.

3333....2222 ZensurenZensurenZensurenZensuren Schulleistungen entscheiden beispielsweise darüber, welche weiterführende Schule nach der Grundschule empfohlen und ggf. besucht wird und bilden die Grundlage für die Entscheidung, welche Bewerber zum Hochschulstudium zugelassen werden. Aufgrund dieser hohen Bedeutung müssen an die schulischen Leistungsbeurteilungen hohe methodische Anforderungen gestellt werden. Sie müssen objektiv, reliabel und vergleichbar zwischen verschiedenen Klassen und Schulen sein. Selbstverständlich müssen Zensuren auch valide im Sinne der oben angeführten Konzeptualisierung sein.

Die mangelnde Objektivität und Reliabilität der Schulnoten sind vielfach festgestellt und kritisiert worden (vgl. dazu zusammenfassend Ingenkamp, 1995). Da die Schulleistungen von den Lehrern beurteilt werden, beruhen die Einzelnoten auf Beurteilungsprozessen, deren Ergebnis von der diagnostischen und pädagogischen Kompetenz des Lehrers sowie von den individuellen Beurteilungstendenzen des Lehrers abhängt (Langfeldt & Tent, 1999). Solche subjektiven Urteile sind zahlreichen verzerrenden Einflussfaktoren ausgesetzt wie beispielsweise Erinnerungsfehlern, fehlerhaften Attributionen, Urteilstendenzen (Milde- oder Strengeeffekte, Tendenz zur Mitte), Einstellungs- und Erwartungseffekten sowie der aktuellen Befindlichkeit des Lehrers (Tent, 1998). Lehrerinnen und Lehrern geht es da, auch bei reichlich Übung in der Leistungsbeurteilung nicht anders als anderen Menschen. Bei objektiv gleicher Leistung schwanken die Lehrerbeurteilungen z. T. erheblich. Langfeldt et al. (1999) geben jedoch zu bedenken, dass die meisten Urteile nur wenig voneinander abweichen. Das Gleiche gilt auch für die Reliabilität der Schulleistungsurteile. Obwohl sich bei wiederholter Bewertung der Leistung durchaus große Unterschiede zeigen, weicht die Mehrheit der Zweiturteile nur wenig vom Ersturteil ab (Langfeldt et al., 1999). Dabei ist auch unbedingt in Rechnung zu stellen, dass beim Einsatz standardisierter Leistungstests ähnliche Phänomene zu erwarten sind. Auch hier können bei den Schätzungen Abweichungen auftreten, wie im Abschnitt über Reliabilität diskutiert wurde. Häufig sind auch hier Vertrauensintervalle um Punktschätzungen von erheblicher Größe.

Eine grundlegende Schwäche des Lehrerurteils, die für Leistungstests nicht gilt, liegt in der mangelnden Vergleichbarkeit von Noten aufgrund des fehlenden klassenübergreifenden Maßstabs für die Leistungsbeurteilung. So kann die Korrelation zwischen einem Leistungstest und Schulnoten innerhalb einer Klasse hoch sein (zwischen 60 und .70) und gleichzeitig zwischen Schulklassen recht niedrig sein (r=.30) (Tent, 1998). Das bedeutet, dass die objektiv gleiche Leistung in Abhängigkeit vom allgemeinen Leistungsniveau der Klasse und der Schule verschieden bewertet wird (-> Kapitel von Pohlmann/Kunter „Lehrer“ und Möller/Trautwein „Selbstkonzept“).

20


3333....3333 SelbstberichtsinstrumenteSelbstberichtsinstrumenteSelbstberichtsinstrumenteSelbstberichtsinstrumente Unter Selbstberichtinstrumenten werden Verfahren verstanden, bei denen eine Person sich selbst bzgl. interessierender Eigenschaften oder Verhaltensweisen einschätzen soll. In Selbstberichtsinstrumenten gibt es keine objektiv richtige Antwort. Es ist ganz wesentlich zu verstehen, dass die Beurteilungen der Antworten folglich nicht die Abweichungen von einem berechtigten Leistungsstandard abbilden – also inwieweit das Antwortmuster von einem Sollantwortmuster abweicht – sondern Beurteilungen widerspiegeln, die von der Versuchsperson relativ beliebig und nach Gutdünken manipuliert werden können.

In pädagogischer und klinischer Praxis, etwa bei Untersuchungen von Schulfähigkeit oder Verhaltensauffälligkeiten, werden Selbst- und Fremdbeurteilungen gerne und häufig eingesetzt. Typische Beispiele für Selbstberichtsverfahren stellen Persönlichkeitstests wie der NEO-PI-R (Ostendorf & Angleitner, 2004) dar. Zu den Selbstberichtsinstrumenten zählen auch Einstellungsfragebögen, Semantische Differenziale, Ratingskalen und einiges mehr. Dem NEO-PI-R liegt das Big Five-Modell zugrunde, nach dem fünf breite und hierarchisch organisierte Persönlichkeitseigenschaften unterschieden werden müssen (McCrae, & Costa, 1999). Im folgenden Beispiel werden Beschreibungen dieser Konstrukte und jeweils ein Beispielitem angegeben.

Beispiel Start Beispiel Start Beispiel Start Beispiel Start

Typische Items zur Erfassung der Big 5 Persönlichkeitseigenschaften Typische Items zur Erfassung der Big 5 Persönlichkeitseigenschaften Typische Items zur Erfassung der Big 5 Persönlichkeitseigenschaften Typische Items zur Erfassung der Big 5 Persönlichkeitseigenschaften nach nach nach nach NEONEONEONEO----PIPIPIPI----R R R R ((((Ostendorf & Ostendorf & Ostendorf & Ostendorf & Angleitner, 2004Angleitner, 2004Angleitner, 2004Angleitner, 2004))))

Extraversion: Tendenz, gesellig, aktiv, gesprächig, sozial und optimistisch zu sein. – „Ich habe gern viele Leute um mich herum.“

Neurotizismus: Tendenz nervös, ängstlich, traurig, unsicher und verlegen zu sein. Unfähigkeit, die Bedürfnisse zu kontrollieren und angemessen auf Stressreaktionen zu reagieren.

–„Ich bin oft nervös.“

Gewissenhaftigkeit: Tendenz leistungsorientiert, ordentlich, diszipliniert und ehrgeizig zu arbeiten. –„Ich arbeite hart, um meine Ziele zu erreichen.“

Verträglichkeit: Neigung altruistisch, verständnisvoll und mitfühlend zu sein sowie zwischenmenschliches Vertrauen, kooperatives Verhalten und Nachgiebigkeit zu zeigen.

–„Ich komme mit den meisten Mitmenschen gut zurecht.“

Offenheit für neue Erfahrungen: Wertschätzungen für neue Erfahrungen, Bevorzugung von Abwechslung. Personen mit hohen Ausprägungen in dieser Skala sind wissbegierig und kreativ.

–„Ich führe gerne intellektuelle Diskussionen.“


Zu Selbstberichtsverfahren zählen auch Interessentests sowie Motivationsfragebögen, etwa zur Leistungsmotivation. Ein empfehlenswerter Berufsinteressentest ist der AIST (Bergmann & Eder, 2005), der auf dem Hexagon Modell von Holland (Holland, 1997) beruht, in dem ein Interessenprofil (Nagy, Trautwein, Lüdtke, in Druck) auf sechs Interessendomänen (bspw. technische, intellektuelle, künstlerische Interessen) zurückgemeldet werden.

Ein schwerwiegendes Problem beim Einsatz von Selbstberichtsinstrumenten stellt die Verfälschbarkeit der Antworten dar. Versuchspersonen weisen in den für sie relevanten Bewertungssituationen mehr oder weniger stark ausgeprägte Tendenzen auf ihre Antworten zu verfälschen – etwa vermeintlich sozial erwünscht zu reagieren. Der Einsatz von sogenannten Lügenskalen löst solche Verfälschungsprobleme nicht. In Selektions- oder Beratungssituationen, bei denen für Versuchspersonen viel auf dem Spiel steht, sind Selbstberichte daher zunächst kritisch zu beurteilen. Zu diesen Testsituationen zählen neben Selektionssituationen unter Umständen auch Beratungssituationen, die zu als stigmatisierend empfundenen Behandlungsempfehlungen führen.

21


Eine weitere, weniger verbreitete Form von Selbstbericht sind Einschätzungen der eigenen Leistungsfähigkeit (bspw. Beantwortung der Frage „Wie viele Aufgaben im Test hast Du Deiner Meinung nach richtig gelöst?“). Diese Mischform zwischen Selbstbericht und Leistungstests (Stankov, 1999) lässt sich in die oben besprochene Taxonomie von typischem und maximalem Verhalten (Cronbach, 1949) ebenso schwierig einordnen wie ‚Tests zum situierten Urteilen (Lievens, Peters, & Schollaert, in Druck). Hier ist die Messintention aus Verhaltensabsichten in kritischen Situationen (bspw. „Umgang mit unaufmerksamen Kindern“) auf die bspw. für den Unterrichtserfolg ausschlaggebenden Persönlichkeitseigenschaften bzw. -fertigkeiten von Lehrerinnen und Lehrern zu schließen. Zu einer Situationsbeschreibung werden hier mehrere mehr oder weniger adäquate Handlungsalternativen angeboten, die entweder hinsichtlich ihrer Angemessenheit bewertet werden sollen oder aus denen eine Alternative ausgewählt werden soll. Die Antwortbewertung erfolgt meistens anhand des Vergleichs mit einer Expertengruppe, da korrekte Antworten für solche Verfahren üblicherweise unbekannt sind (Weekley & Ployhart, 2005).

3333....4444 Testdaten: IntelligenzTestdaten: IntelligenzTestdaten: IntelligenzTestdaten: Intelligenz---- und Schulleistungsdiagnostikund Schulleistungsdiagnostikund Schulleistungsdiagnostikund Schulleistungsdiagnostik Intelligenz gehört zu den am besten etablierten Konstrukten der empirischen Sozialwissenschaft und wird auch als „Begabung“ oder als „allgemeine kognitive Fähigkeit“ bezeichnet. Trotz jahrzehntelanger Forschungstradition gibt es keine allgemein anerkannte Definition von Intelligenz. Intelligenztests lassen sich hingegen definieren. Gemeint sind hier Verfahren, bei denen wesentliche Anteile der Varianz auf individuelle Unterschiede in kognitiver Leistungsfähigkeit zurückzuführen sind. Intellektuelle Fähigkeiten, die mit solchen Verfahren erfasst werden, gelten als über die Zeit relativ stabile Persönlichkeitseigenschaften. In unterschiedlichen Intelligenztheorien variiert die Anzahl und Beschaffenheit der postulierten Fähigkeiten. In neueren Intelligenzmodellen wird aufbauend auf älteren Modellen ein tieferes Verständnis der ablaufenden Denkprozesse angestrebt. Ein weitgehend anerkanntes Intelligenzstrukturmodell, das auf der Grundlage umfangreicher Reanalysen etabliert wurde, postuliert neben einem Generalfaktor mehrere breite Gruppenfaktoren, zu denen beispielsweise fluide und kristalline Intelligenz zählen (Carroll, 1993). Fluide Intelligenz kann beschrieben werden als die Fähigkeit, komplexere logische Zusammenhänge und abstrakte Strukturen zu begreifen sowie vielfältige Informationen verfügbar zu halten und manipulieren zu können. Unter dem Begriff kristalline Intelligenz werden individuelle Unterschiede im verfügbaren und anwendbaren Wissen verstanden. Neben fluider und kristalliner Intelligenz werden weitere Intelligenzfähigkeiten unterschieden, wie z.B. allgemeine auditive und visuelle Fähigkeiten sowie verschiedene Gedächtnisleistungen und geschwindigkeitsbezogene Intelligenzleistungen (-> Kapitel von Gruber „Intelligenz und Vorwissen“). Mit Blick auf verfügbare Tests sind auch Gedächtnis- und Aufmerksamkeits- und Konzentrationstests als speziellere Verfahren zu nennen, die häufig eingesetzt werden. Bezüglich der Aufmerksamkeitstests sind allerdings profunde Probleme der Abgrenzung gegenüber sogenannten Konzentrationsleistungstests und Verfahren zur Erfassung der Bearbeitungsgeschwindigkeit und der Wahrnehmungsgeschwindigkeit festzustellen.

Die Ausprägung intellektueller Fähigkeiten wird heute i. d. R. in alters- bisweilen auch schulformspezifischen Normskalen mit dem Mittelwert 100 und der Standardabweichung 15 ausgedrückt. Der IST 2000 R (vgl. Amthauer, Brocke, Liepmann & Beauducel, 2001) ist ein aktueller, gut normierter und weit verbreiteter Intelligenztest. In den beiden folgenden Beispielen sind typische Aufgaben zur Erfassung fluider und kristalliner Intelligenz angegeben.


Typische Aufgaben zur Erfassung fluider IntelligenzTypische Aufgaben zur Erfassung fluider IntelligenzTypische Aufgaben zur Erfassung fluider IntelligenzTypische Aufgaben zur Erfassung fluider Intelligenz

Datei-Name: bspitem_fluide_intelligenz.JPG

Typische Beispielaufgabe zur Erfassung fluider Intelligenz

22


Abb. 2.


Typische Aufgabe zur Erfassung kristalliner Intelligenz aus dem IST 2000 R (Amthauer et al. 2001)Typische Aufgabe zur Erfassung kristalliner Intelligenz aus dem IST 2000 R (Amthauer et al. 2001)Typische Aufgabe zur Erfassung kristalliner Intelligenz aus dem IST 2000 R (Amthauer et al. 2001)Typische Aufgabe zur Erfassung kristalliner Intelligenz aus dem IST 2000 R (Amthauer et al. 2001)

Wer war „Alexander der Große“?

a) Feldherr der römischen Armee unter Julius Caesar

b) griechisch-makedonischer König

c) Herrscher im Heiligen Römischen Reich Deutscher Nation

d) Bezwinger des Hunnenkönigs Attila

Was kennzeichnet einen „Tinnitus“?

a) Ohrgeräusche

b) Rückenschmerzen

c) Blindheit

d) Verwirrtheit


Die Unterscheidung zwischen Intelligenztests und Schulleistungstests ist ein schwieriges und kontroverses Thema (Lohman, 2006). Die oben angegebene Definition für Intelligenztests schließt grundsätzlich alle Schulleistungstests ein. Schulleistungstests sind häufig auf Leistungen in spezifischen Schulfächern in spezifischen Jahrgangsstufen zugeschnitten, es gibt aber auch fächer- und jahrgangsübergreifende Verfahren. Grundsätzlich ist die Bezeichnung „Schulleistungstest“ auch etwas irreführend, denn eigentlich geht es in der Regel zunächst um Schülerleistungen, die gemessen werden.

Die DEMAT-Reihe, aus der wir hier den DEMAT 4 (Gölitz, Roick & Hasselhorn, 2006) als ein Beispiel eines Schülerleistungstests vorstellen wollen, ist eine Serie gut etablierter und untersuchter Verfahren zur Erfassung mathematischer Rechenfertigkeiten in der Grundschule für die Klassenstufe 1 bis 4. Der Testkonstruktion liegen die Mathematiklehrpläne aller 16 deutschen Bundesländer zu Grunde. Die Validität des Verfahrens ist gut belegt durch substantielle Zusammenhänge mit Schulnoten und anderen etablierten Mathematiktests. Zur Diagnose spezifischer Defizite in mathematischen Kenntnissen – insbesondere der Dyskalkulie können dann ggf. spezifischere Verfahren herangezogen werden (etwa der RZD (Jacobs & Petermann, 2005) oder der ZAREKI (von Aster, Weinhold Zulauf, & Horn, 2006).

4444 Abschließende KommentareAbschließende KommentareAbschließende KommentareAbschließende Kommentare Naturgemäß können in einem kurzen Kapitel wie diesem nicht alle wesentlichen Aspekte einer wichtigen Teildisziplin der Pädagogischen Psychologie adäquat berücksichtigt werden, und selbstverständlich sind alle hier behandelten Sachverhalte etwas oberflächlich dargestellt. Der folgende Epilog soll einige Punkte, die uns besonders am Herzen liegen, stichpunktartig und in loser Folge aufgreifen und einige Verweise für ein weiterführendes und vertiefendes Studium liefern.

In der Diagnostik sind die Analyseeinheiten häufig Einzelfälle oder einige wenige Fälle. Spezielle Methoden der Einzelfallanalyse und Veränderungsmessung sind hier häufig die statistischen Verfahren der Wahl, und ihr Studium (etwa Petermann, 1989) ist relevant, weil diese Methoden im traditionellen Ausbildungskanon keinen festen Platz haben.

23


Diagnostik mündet häufig in Empfehlungen oder Beurteilungen von Personen. Die Erstellung professioneller Gutachten ist für wissenschaftlich arbeitende Diagnostiker eigentlich unabdingbar. Einschlägige Handreichungen (Westhoff & Kluck, 2008) sind für qualifizierte Personen unverzichtbar.

Diagnostik beruht immer auf empirischer Evidenz und setzt geeignete Messinstrumente voraus. Die Recherche nach geeigneten Messinstrumenten bei gegebener Anwendungsfrage wird unter anderem durch Testhandbücher unterstützt (im Deutschen insbesondere Brähler, Holling, Leutner, & Petermann, 2002). Gezwungenermaßen erfolgt die Gliederung in solchen Büchern entlang traditioneller Linien, so dass bisweilen terminologisch und psychometrisch verwandt scheint, was tatsächlich verschieden ist und verschieden erscheint, was tatsächlich verwandt ist (siehe die Diskussion der Jingle und Jangle Fallacy oben). Ohne fachliche Expertise zu in Frage stehenden Merkmalen sollte keine Testauswahl für diagnostische Belange erfolgen. In der Realität diagnostischer Praxis ist wohl zu befürchten, dass zahlreiche diagnostische Probleme durch Laien bearbeitet und mit unzureichenden Instrumenten und Methoden entschieden werden (Wottawa & Hossiep, 1997). Die Kosten eines dilettantischen Vorgehens für betroffene Personen werden dabei oft zu wenig beachtet. Unzweifelhaft würden vergleichbare Zustände in der medizinischen Diagnostik zu großem gesellschaftlichen Unbehagen führen. Wir sind der Meinung, dass es in der PPD einige prominente Probleme gibt, bei denen betroffenen Personen Lebenschancen zugeteilt oder vorenthalten werden und dass diese Konsequenzen in ihrer Bedeutung nicht hinter dem zurückstehen, was für viele medizinische Probleme gilt.

In vielen benachbarten Disziplinen, insbesondere in der Medizin, gibt es eine klare und aus Kunden- bzw. Patientensicht völlig auf der Hand liegende Fort- und Weiterbildungsforderung für diagnostisch tätige Personen. In der PD gibt es kein solches Qualifizierungsgebot. Vielleicht bedingt dies die bisweilen unzufriedenstellenden Gegebenheiten in der PD (Schoor, 1995). So werden für diagnostische Zwecke häufig sehr alte Messinstrumente verwendet. Für diese Messinstrumente gilt, dass die Verwendung der Normen als wenigstens problematisch gelten muss, die Testinhalte häufig völlig überholt sind und inhaltliche Weiterentwicklungen in der Grundlagenforschung zu besseren Theorien und Modellen der in Frage stehenden Merkmale geführt haben. Die Aktualität des in der Praxis der PPD implementierten Wissens muss also leider ebenso bezweifelt werden wie die Realisierung einer problemgerechten Testpraxis.

Nach langen Jahren, in denen die PD aufgrund einer äußerst testkritischen Haltung inner- und außerhalb der Disziplin sehr gelitten hat, ist seit einigen Jahren ein Umschwung feststellbar. Am ehesten sichtbar wird dieser Wandel an den Large-Scale Studien wie PISA, TIMSS, IGLU, DESI, aber auch der Einführung von Bildungsstandards und deren empirischer Begleitung sowie der öffentlichen Diskussion dieser erfahrungswissenschaftlichen Anstrengungen. Diese Veränderungen erlauben in vielen Teilgebieten der PPD überhaupt erst die Entwicklung einer deutschsprachigen Diagnostik mit relevanten Methoden und Instrumenten sowie assoziierter Grundlagenforschung. Fachpolitisch sind diese Umwälzungen überaus begrüßenswert – akademische Seriosität sollte aber bei wissenschaftlichen Äußerungen zu diesen publikumswirksamen Themen ein oberstes Gebot sein. In anderen Worten: die politischen Wendungen der vergangenen Jahre sind der PPD sehr zugute gekommen. Nun sollte der gewonnene Kredit durch profunde und informierende Arbeit verdient werden. Die spezielle und im pädagogischen Kontext unverzichtbare Expertise der PPD ist die Professionalität im Gewinnen von und im Umgang mit pädagogisch relevanter Evidenz.

24


5555 LiteraturLiteraturLiteraturLiteratur Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention. Berlin: Springer. American Educational Research Association, American Psychological Association, & National Council on

Measurement in Education (2002). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

American Psychological Association. (1954). Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51, 201-238.

Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (2001). Intelligenz-Struktur-Test 2000 R (I-S-T 2000 R). Göttingen: Hogrefe.

Bakker, D.J.(2006). Treatment of developmental dyslexia: A review. Pediatric Rehabilitation, 9, 3-13. Bergmann, C. & Eder, F. (2005). Allgemeiner Interessen-Struktur-Test mit Umwelt-Struktur-Test (UST-R) -

Revision. Göttingen: Beltz Test GmbH. Bollen, K.A. (1989). Structural equations with latent variables. NY: Wiley. Borsboom, D., Mellenbergh, G.J., & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111,

1061-1071. Borsboom, D., Mellenbergh, G.J., & Van Heerden, J. (2003). The theoretical status of latent variables.

Psychological Review, 110, 203-219. Brähler, E., Holling, H., Leutner, D. & Petermann, F. (2002): Brickenkamp Handbuch psychologischer und

pädagogischer Tests. 3. vollständig überarbeitete und erweiterte Auflage, Band 1 + 2. Göttingen: Hogrefe. Brehmer, Y., & Lindenberger, U. (2007). Intraindividuelle Variabilität und Plastizität. In M. Hasselhorn & W.

Schneider (Hrsg.), Handbuch der Psychologie: Vol. 7. Handbuch der Entwicklungspsychologie (S. 407-418). Göttingen: Hogrefe.

Brogden, H.E. (1949). When testing pays off. Personnel Psychology, 2, 171-183. Byrne, B.M. (2001). Structural Equation Modeling with AMOS: Basic Concepts, Applications, and Programming.

Hillsdale, NJ: LEA. Carroll, J.B. (1993). Human cognitive abilities: A survey of factor-analytic studies. Cambridge, MA: Cambridge

University Press. Cizek, G. (2001). Setting Performance Standards: Concepts, Methods, and Perspectives. Mahwah, NJ: LEA. Collins, L.M. & Sayer, A. (2001). New Methods for the Analysis of Change. Washington, DC: APA. Cronbach, L.J. (1949). Essentials of psychological testing. NY: Harper. Cronbach, L.J., & Gleser, G.C. (1965). Psychological tests and personnel decisions. Urbana, IL: University of

Illinois Press. Deutsche Gesellschaft für Psychologie (DGPs) & Bund deutscher Psychologinnen und Psychologen (BDP).

(1998). Ethische Richtlinien der DGPs und des BDP. http://www.dgps.de/dgps/aufgaben/003.php. Eckardt, H.-H. (1990). Geschichte der Berufseignungsdiagnostik in der Arbeitsverwaltung der Bundesrepublik

Deutschland. Diagnostica, 36 (3), 264-282. Eckardt, H.-H. (1991). Die Unterstützung individueller beruflicher Entscheidungen durch den Einsatz von Test und

selbsterkundungsverfahren. In: K. Ingenkamp & R.S. Jäger (Hrsg.), Test s und Trends 9 (S. 109-150). Weinheim: Beltz.

Eckardt, H.-H. & Schuler, H. (1995). Berufseignungsdiagnostik. In R.S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik. S. 533-551. Weinheim: Beltz Psychologie Verlags Union.

Eid, M., & Diener, E. (Eds.). (2006). Handbook of multimethod measurement in psychology. Washington, DC: American Psychological Association.

Embretson, S.E., Reise, S.P. (2000). Item Response Theory for Psychologists. Mahwah, NJ: LEA. Faust, G. (2006). Zum Stand der Einschulung und der neuen Schuleingangsstufe in Deutschland. Zeitschrift für

Erziehungswissenschaft, 9, 328-347. Felfe, J. & Liepmann, D. (2008). Organisationsdiagnostik. Göttingen: Hogrefe. Formazin, M., Wilhelm, O., Schroeders, U., Kunina, O., Hildebrandt, A. & Köller, O. (in Druck). Validitäts- und

Nützlichkeitsüberlegungen zur Studierendenauswahl im Allgemeinen mit Präzisierungen für das Fach Psychologie im Besonderen. In H. Schuler & B. Hell (Hrsg.), Studierendenauswahl und Studienentscheidung. Göttingen: Hogrefe.

Gold, A. & Souvignier, E. (2005). Prognose der Studierfähigkeit: Ergebnisse aus Längsschnittanalysen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 37(4), 214-222.

Holland, J.L. (1997). Making vocational choices: A theory of vocational personalities and work environments. Odessa, FL: Psychological Assessment Resources.

Holling H. & Reiners, W. (1999). Monetärer Nutzen verschiedener Selektionsstrategien in Assessment Centern. In: H. Holling, & G. Gediga (Hrsg.), Evaluationsforschung (S. 179-193). Göttingen: Hogrefe.

25


Horn, J.L. (1985). Remodeling old models of intelligence. In B. B. Wolman (Ed.), Handbook of intelligence (S. 267-300). NY: Wiley.

Ingenkamp, K. (1995). Die Fragwürdigkeit der Zensurengebung: Texte und Untersuchungsberichte. Weinheim: Beltz.

Irvine, S.H., & Kyllonen, P.C. (2002). Item generation for test development. Mahwah, NJ: LEA. Jäger, A.O., Holling, H., Preckel, F., Schulze, R., Vock, M., Süß, H.-M & Beauducel, A. (2006). Berliner

Intelligenzstruktur Test für Jugendliche: Begabungs- und Hochbegabungsdiagnostik (BIS-HB). Göttingen: Hogrefe.

Jäger, R.S. (Ed.) (1988). Psychologische Diagnostik - Ein Lehrbuch. Weinheim: PVU. Kaufmann, L. (2008). Dyscalculia: neuroscience and education. Educational Research, 50, 163-175. Kanaya, T., Scullin, M. & Ceci, S. J. (2003). The Flynn Effect and U.S. Policies. The Impact of Rising IQ Scores

on American Society Via Mental Retardation Diagnoses. American Psychologist, 58, 778-790. Kelly, E.L. (1927). Interpretation of educational measurements. Yonkers, NY: World. Klauer, K.-J. (1987). Kriteriumsorientierte Tests. Lehrbuch der Theorie und Praxis lehrzielorientierten Messens.

Göttingen: Hogrefe. Köller, O., Baumert, J. & Schnabel, K. (1999). Wege zur Hochschulreife: Offenheit des Systems und Sicherung

vergleichbarer Standards. Analysen am Beispiel der Mathematikleistungen von Oberstufenschülern an integrierten Gesamtschulen und Gymnasien in Nordrhein-Westfalen. Zeitschrift für Erziehungswissenschaft, 2, 385-422.

Kraemer. H.C. (1992). Evaluating Medical Tests. Objective and Quantitative Guidelines. Thousand Oaks, CA: Sage.

Kraemer, H.C.,Noda, A., & O’Hara, R. (2003). Categorical Versus Dimensional Approaches to Diagnosis: Methodological Challenges. Journal of Psychiatric Research, 38, 17-25.

Kubinger, K.D. (2006). Psychologische Diagnostik: Theorie und Praxis psychologischen Diagnostizierens. Göttingen: Hogrefe.

Langfeldt, H. P. & Tent, L. (1999). Pädagogisch-psychologische Diagnostik. Göttingen: Hogrefe. Lievens, F., Peeters, H., & Schollaert, E. (in Druck). Situational judgment tests: A review of recent research.

Personnel Review. Lienert, G. (1969). Testaufbau und Testanalyse. Weinheim: PVU. Lohman, D.F. (2006). Beliefs about differences between ability and accomplishment: From folk theories to

cognitive science. Roeper Review, 29, 32-40. Lubinski, D., Benbow, C.P., Webb, R.M., & Bleske-Rechek, A. (2006). Tracking exceptional human capital over

two decades. Psychological Science, 17, 194-199. Maaz, K., Neumann, M., Trautwein, U., Wendt, W., Lehmann, R. & Baumert, J. (in Druck). Der Übergang von der

Grundschule in die weiterführende Schule: Die Rolle von Schüler- und Klassenmerkmalen beim Einschätzen der individuellen Lernkompetenz durch die Lehrkräfte. Schweizerische Zeitschrift für Bildungswissenschaften.

Maaz, K., Trautwein, U., Lüdtke, O. & Baumert, J. (2008). Educational Transitions and Differential Learning Environments: How Explicit Between-School Tracking Contributes to Social Inequality in Educational Outcomes. Child Development Perspectives, 2, 87–84.

McCrae, R.R. & Costa, P.T. (1999). A five-factory theory of personality. In L.A. Pervin & O.P. John (Hrsg.), Handbook of personality. Theory and research (S. 139-153). NY: Guilford Press.

Michaelis, J., & Weyer, G. (1972). Zur Selektionseignung der Abiturnoten für die Zulassung zum Medizinstudium -

eine Modellstudie, Deutsches Ärzteblatt, 69, 897-901, 982-986. Messick, S. (1989). Validity. In R.L. Linn (Hrsg.), Educational measurement (3rd ed., S. 13-103). NY: Macmillan. Muthén, B.O. (1984). A general structural equation model with dichotomous, ordered categorical, and continuous

latent variable indicators. Psychometrica, 49, 115-132. Nagy, G., Trautwein, U., Lüdtke, O. (in Druck). The structure of vocational interests in Germany: Different

methodologies, different conclusions. Journal of Vocational Behavior. Nunnally, J., & Bernstein, I. (1994). Psychometric Theory. NY: McGraw Hill. Ostendorf, F. & Angleitner, A. (2004). NEO-Persönlichkeitsinventar nach Costa und McCrae, revidierte Fassung

(NEO-PI-R). Göttingen: Hogrefe. Pawlik, K. (1982.). Diagnose der Diagnostik. Stuttgart: Klett. Petermann, F. (1996). Einzelfallanalyse. München: Oldenbourg. Rost, J. (2004). Lehrbuch Testtheorie Testkonstruktion. Bern: Huber.

Schermelleh-Engel, K., Moosbrugger, H., & Müller, H. (2003). Evaluating the fit of structural equation models: Test of significance and descriptive goodness-of-fit measures. Methods of Psychological Research - Online, 8, 23-74. Available: http://www.mpr-online.de/.

Schoor, A. (1995). Stand und Perspektive diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-21.

26


Schulze, R. (2005). Modeling structures of intelligence. In O. Wilhelm & R.W. Engle (Hrsg.), Handbook of understanding and measuring intelligence (S. 241-263). Thousand Oaks, CA: Sage.

Stankov, L. (1999). Mining on the "No Man's Land" between intelligence and personality. In P.L. Ackerman, P.C. Kyllonen, & R.D. Roberts (Hrsg.). Learning and Individual Differences: Process, Trait, and Content Determinants (S. 315-338). Washington, DC: American Psychological Association.

Steyer, R., Yousfi, S. & Würfel, K. (2005). Prädiktion von Studienerfolg: Der Zusammenhang zwischen Schul- und Studiennoten im Diplomstudiengang Psychologie. Psychologische Rundschau, 56, 129-131.

Swanson, H.L. & Siegel, L. (2001). Learning disabilities as a working memory deficit. Issues in Education: Contributions of Educational Psychology, 7, 1-48.

Tent, L. (1998). Zensuren. In Rost, D.H. (Ed.). Handwörterbuch Pädagogische Psychologie. (S. 580-584). Weinheim: PVU.

Tent, L. & Stelzl, I. (1993). Pädagogisch-psychologische Diagnostik. Band 1: Theoretische und methodische Grundlagen. Göttingen: Hogrefe.

Thorndike, E. L. (1903). Educational psychology. NY: Lemcke & Buechner. Trautwein, U. & Baeriswyl, F. (2007). Wenn leistungsstarke Klassenkameraden ein Nachteil sind:

Referenzgruppeneffekte bei Übergangsentscheidungen. Zeitschrift für Pädagogische Psychologie, 21, 119-133.

von Aster, M. G., Weinhold Zulauf, M., & Horn, R. (2006). ZAREKI-R: Die Neuropsychologische Testbatterie für Zahlenverarbeitung und Rechnen bei Kindern, revidierte Version. Frankfurt: Harcourt Test Services.

Weekley, J. A. & Ployhart, R.E. (2005). Situational Judgment Tests: Theory, Measurement, and Application. Lawrence Erlbaum Associates.

Westhoff, K. & Kluck, M.-L. (2008). Psychologische Gutachten schreiben und beurteilen. Fünfte, vollständig überarbeitete und erweiterte Auflage. Berlin: Springer.

WHO & Dilling, H. (2008). Internationale Klassifikation psychischer Störungen: ICD-10 Kapitel V (F) Klinisch-diagnostische Leitlinien. Bern: Huber.

Wottawa, H. & Hossiep, R. (1997). Anwendungsfelder psychologischer Diagnostik. Göttingen: Hogrefe.

Pädagogisch-psychologische Diagnostik

Documents

Transcript of Pädagogisch-psychologische Diagnostik