Juhel, J., Gilles, P.-Y., Bouvard, M., et al. (2011). Validité des modèles et des outils de...

Conférence de consensus en psychologie – Validité des modèles et des outils de l’examen psychologique

Document strictement confidentiel non destiné à publication ou diffusion

Rapport d’expertise du groupe 3

Validité des modèles et des outils de l’examen psychologique

Comité d’organisation : Robert Voyazopoulos (responsable) - Thierry Boy - Michèle Carlier - Francine Corman - Georges Cognet - Florence Dubois - Louis-Adrien Eynard - Roland-Ramzi Geadah - Roger Lécuyer - Claire Meljac - Benoît Schneider - Léonard Vannetzel - Catherine Wieder


Document strictement confidentiel non destiné à publication ou diffusion

VALIDITÉ DES MODÈLES ET DES OUTILS DE L’EXAMEN PSYCHOLOGIQUE

Groupe d’expertise numéro 3

Responsables : Jacques Juhel et Pierre-Yves Gilles

Experts : Martine Bouvard, Thierry Boy, Damien Fouques, Philippe Guimard, Stéphane Jacob, Raphaëlle Milkovitch, Eric Thiébaut, Paulette Rozencwaig, Louis-Charles Vannier

1. Introduction ............................................................................................................................ 3

2. De la validité et de la validation ............................................................................................. 4

3. Le processus de validation de construit et le développement des modèles et des outils...... 19

4. L’évaluation de la validité en pratique : identifier les questions pertinentes, dégager leur priorité ............................................................................................................................... 34

5. Conclusion générale ........................................................................................................... 466

6. Discussion avec les membres du jury et le public…………………………………………..48

7. Références bibliographiques……………………………………………………………… 55


sur 63

1. Introduction

e groupe ayant à traiter cette question s’est efforcé dans un premier temps de préciser chacun des termes de l’intitulé et de situer sa contribution par rapport à celle des autres groupes.

Le thème proposé (validité des modèles et des outils de l’examen psychologique) évoque bien entendu les qualités psychométriques des épreuves que l’on trouve dans les manuels de « tests » : sensibilité, fidélité, validité. Seule cette dernière est considérée ici, afin de se centrer sur les différentes acceptions de ce terme et de retracer l’évolution de ce concept. On verra ainsi que la formule habituelle selon laquelle « un test est valide s’il mesure bien ce qu’il est censé mesurer » est très réductrice en raison de la centration excessive sur la qualité du matériel utilisé, alors que la question de la validité pose plus largement celle de l’interprétation et de l’utilisation des mesures. Le traitement de ces questions fait l’objet de la partie « validité et validation » : dans cette introduction théorique, il s’agira de rendre compte des acceptions récentes du concept de validité, incluant des aspects épistémologiques, puis de retracer l’évolution des idées relatives aux différentes formes de validité (prédictive, de contenu, de construit…), maintenant intégrées dans une conception unifiée de la validité.

La partie suivante est consacrée aux processus de validation. Plutôt que d’aborder la question de la validité des modèles et des outils, le groupe a en effet jugé plus pertinent de rendre compte de la dynamique entre l’évolution des modèles théoriques et le développement d’outils psychométriques. Deux exemples viendront illustrer ce propos. Dans le domaine de l’intelligence, on verra si, et comment, les concepteurs des échelles de Wechsler prennent en compte les avancées de la psychologie cognitive pour modifier la composition et l’exploitation des épreuves. Dans le domaine de la personnalité1, l’exemple du Rorschach permet de montrer comment une épreuve peut être utilisée en prenant appui sur des modèles théoriques différents. Ces deux dispositifs (WISC-IV et Rorschach) et une échelle d’anxiété et de dépression (RCADS) seront ensuite analysés du point de vue de leur la validité des mesures qu’ils permettent d’effectuer afin d’illustrer les différentes formes présentées dans la partie 2.

La validité dépassant les simples aspects psychométriques, on présentera dans une dernière partie deux situations pour lesquelles un examen psychologique, pris dans le sens d’évaluation psychologique, semble pertinent. Se pose alors la question de la validité de la démarche : pour chacun de ces exemples il sera fait une brève présentation de la problématique puis l’exposé critique du choix des modèles et des outils ainsi que de leur exploitation.

1 Le terme de « personnalité » désigne dans ce travail les divers aspects du développement psycho-affectif et relationnel de l’enfant ou de l’adolescent.

L


sur 63

2. De la validité et de la validation

enée par un psychologue, spécialiste de l’utilisation des outils conceptuels et méthodologiques de son domaine, l’évaluation psychologique de l’enfant et de l’adolescent peut être définie comme une activité professionnelle et

théoriquement fondée, de production de connaissances sur la personne, à des fins d’information, de classification, de diagnostic ou d’intervention. Les « meilleures pratiques », dans ce domaine, suggèrent une approche intégrative combinant plusieurs sources d’information, faisant appel à plusieurs types de méthodes, explorant des facteurs individuels, aussi bien endogènes que familiaux ou environnementaux (Michel, Aubron, Purper-Ouakil, Cortese & Mouren, 2008 ; Riccio & Rodriguez, 2007 ; Teglasi, 2004 ; Thomas & Grimes, 2002). L’évaluation psychologique est donc tout à la fois ciblage des aspects pertinents à explorer chez l’enfant et l’adolescent, sélection des stratégies et des outils d’investigation, production d’inférences dérivées des observations effectuées, et élaboration d’interprétations visant à décrire, comprendre, prendre une décision (Cronbach, 1971).

De multiples indéterminations pèsent sur les résultats de l’évaluation psychologique. Celles-ci concernent les observations effectuées, la manière dont elles sont résumées, les inférences et interprétations proposées, l’usage qui en est fait ou les implications sociales de cet usage. La validation des résultats d’une évaluation psychologique, au regard d’objectifs donnés, consiste donc, dans sa forme la plus générale, à montrer, idéalement, que l’interprétation proposée pour rendre compte de la réalité psychologique, est tout à la fois plausible, appropriée et fondée.

2.1. Le concept de validité

2.1.1. Le concept de validité est de nature épistémologique

Deux grandes conceptions de la validité et du processus de validation s’opposent en psychologie, selon des choix épistémologiques qui concernent ce qui peut être connu, les moyens d’obtenir et de représenter cette connaissance, la manière de conceptualiser la réalité psychologique…

Une première conception correspond à une certaine « vision reçue » de la science (Suppe, 1977) qui fait de la vérification empirique le critère essentiel de validité des résultats de l’évaluation psychologique.

Dans l’approche constructiviste, les abstractions utilisées par le psychologue pour décrire des entités observables (par ex., un niveau de cohérence comportementale) aussi bien qu’inobservables (par ex., une propriété psychologique de la personne) sont des attributs, des construits, dont l’existence n’est pas postulée. Ces attributs sont adoptés, ou pas, sur la base de tests empiriques d’hypothèses énoncées au sein de ce que Cronbach et Meehl appellent le réseau

M


sur 63

nomologique, c’est-à-dire l’ensemble des lois qui relient les attributs entre eux et avec les observables (Cronbach & Meehl, 1955).

Le point de vue actuellement dominant considère que les modèles théoriques sont, au moins partiellement et approximativement, vrais2, et qu’ils permettent d’atteindre des entités réelles, en attente d’être découvertes. Ce courant se réclame ainsi d’une certaine forme de réalisme scientifique (Cook & Campbell, 1979 ; Delanty, 1997 ; Loevinger, 1957 ; Messick, 1981 ; Zuriff, 1998).

Le concept de validité n’a alors de signification qu’en relation à un cadre théorique et aux concepts associés qui modèlent le processus de production de connaissance. Le processus de validation est quant à lui basé sur la sélection a priori de critères exclusifs qui confèrent véridicité, valeur et légitimité aux résultats de l’évaluation psychologique.

La seconde conception cherche à préserver les différences contextuelles et épistémologiques de l’analyse qualitative, et conteste l’impératif quantitatif que les conceptions précédentes impliquent (Trendler, 2009). Elle aborde donc la question de la validité et du processus de validation d’une tout autre manière dans ce que Thayer-Bacon (2003), notamment, appelle une perspective épistémologique relationnelle. Cette conception suppose que la réalité psychologique est inséparable du sujet et qu’elle ne peut être comprise du seul point de vue de l’observateur, Les outils conceptuels, comme la validité, qui évaluent différentes manières de connaître, y sont compris de manière située. L’information concernant la subjectivité, les valeurs, les croyances du psychologue, devient alors essentielle dans le processus de validation de la réalité psychologique que celui-ci décrit et interprète. La validation se focalise ainsi sur le processus de production de connaissances dont « la créativité, l’ouverture et l’infinité » (Koro-Ljungberg, 2008, p. 987), rendent nécessaire une approche globale. Des conditions comme la vérifiabilité de la méthode, l’explicitation de la relation entre observations et conceptualisation, ou la considération de la preuve dans un autre cadre théorique, y sont certes énoncées mais la diversité des approches qualitatives employées est telle qu’elle ne permet pas l’élaboration de règles communes, explicites et prédéterminées, permettant d’évaluer selon des standards conventionnels la vraisemblance d’une interprétation, et de dégager des preuves qui en justifient le bien-fondé (Porter, 2007).

Différentes manières de conceptualiser la validité et la validation existent donc, et coexistent parfois. Quoi qu’il en soit, sans démonstration de validité, la satisfaction d’un objectif lié à l’évaluation psychologique reste indéterminée et la crédibilité de l’intervention psychologique est laissée au hasard. C’est pourquoi le groupe d’experts réaffirme la nécessité d’une publicité des données de validation permettant un jugement, objectivement informé, sur le crédit à accorder aux résultats de l’évaluation psychologique. La validité est donc, pour les membres du

2 C’est-à-dire, en correspondance avec la vérité mais sans certitude absolue.


sur 63

groupe, un élément essentiel du mérite scientifique des méthodes et outils spécifiques3 employés à des fins d'évaluation dans le cadre de l’examen psychologique de l’enfant et de l’adolescent (Kamphaus & Frick, 2002 ; Michel et al., 2008 ; Thomas & Grimes, 2002).

2.1.2. La validité s’applique aux inférences effectuées sur la base des mesures faites avec l’outil

Le groupe d’experts a dû préciser le sens du mot outil et a retenu une acception large. Un outil est un dispositif d’observation permettant le recueil ou la production de données supposées refléter un phénomène psychologique donné. Le terme est employé en référence à une méthode particulière d’acquisition de données qui inclut tous les aspects du processus de mesure en psychologie, comme c’est le cas, par exemple, des tests d’intelligence ou de réussite scolaire, des tests neuropsychologiques, des échelles d’hétéro- ou d’auto-évaluation de la personnalité, ou de certaines épreuves projectives4.

On rappelle que la mesure en psychologie peut être définie comme « le résultat de l’ensemble de la démarche qui conduit à la représentation numérique de relations empiriques » (Dickes, Tournois, Flieller & Kop, 1994, p. 60). La démarche comprend plusieurs étapes, la première étant de définir l’objectif de la mesure, c’est-à-dire le phénomène psychologique à mesurer5, les construits théoriques étant souvent vagues et trop peu développés en psychologie (Cronbach, 1990). Les autres étapes du processus de mesure consistent ensuite, et dans l’ordre, à collecter les observations à l’aide d’un dispositif préétabli, à transformer celles-ci en données d’observation auxquelles on applique ensuite le modèle de mesure qui génère des nombres utilisés en l’état ou transformés. L’application du modèle de mesure aux données d’observation fournit une représentation quantitative de l’attribut. Cette représentation, ou score, est un analogue empirique du construit. Le terme de score désigne ici « tout codage ou résumé des cohérences observées ou des régularités de la performance à un test, un questionnaire, une procédure d’observation ou autre protocole d’évaluation » (Messick, 1995, p. 741). L’emploi de ce terme sous-entend également qu’ont été établis des critères explicites et uniformes de jugement qui permettent de systématiser le codage des observations recueillies avec l’outil (par ex., 1 ou 0, pour bonne ou mauvaise réponse), ou le résumé de ces mesures intermédiaires. Dans cette situation, deux conceptions de la validité peuvent être envisagées.

3 …et sans pour autant « fétichiser les outils dits validés de cueillette de données » comme certains se plaisent à le dire (Massé, 1993) ! 4 Ne sont donc pas considérées comme des outils d’autres méthodes telles que des entretiens cliniques semi ou non structurés avec le jeune et/ou ses parents, ou l’observation du comportement du jeune en situation naturelle ou dans une situation qui simule des expériences naturelles 5 Le construit hypothétique d’« intelligence », par exemple, fait référence à des propriétés (être capable de résoudre une analogie verbale complexe, pouvoir répondre rapidement et correctement lors d’un exercice de calcul mental, posséder des connaissances générales étendues, etc.) sans être pour autant réductible à ces seules propriétés.


sur 63

La première, très ancienne, définit la validité comme une propriété de l’outil6 (Kelley, 1927). C’est dans cette perspective que se situe la conception de Borsboom, Mellenbergh et Van Heerden (2003, 2004) pour laquelle, suivant une approche dite ontologique et donc fondée sur une théorie causale de la mesure, un test est valide pour mesurer un attribut si l’attribut existe, et si une fluctuation sur l’attribut est la cause d’une variation de la mesure. La validation consiste dans ce cas essentiellement en l’élucidation des processus permettant de rendre compte de la transmission des changements sur l’attribut aux scores observés avec l’outil. On dira ainsi, si l’on dispose d’une théorie de l’attribut psychologique capable de décrire par quels processus ont été obtenus les scores aux items qui composent l’outil, que la théorie de l’attribut est valide si le modèle psychométrique correspondant s’ajuste aux données (voir dans le domaine cognitif, les modèles composantiels de réponse à l’item proposés par De Boeck & Wilson, 2004 ; Embretson, 1983 ; Embretson & Gorin, 2001).

Dans la seconde conception, la validité n’est plus, à proprement parler, une caractéristique de l’outil, mais concerne les interprétations, interrogées au sein du réseau nomologique, des scores (Cronbach & Meehl, 1955). Il est ainsi possible d’accorder un degré élevé de validité à une interprétation renvoyant à un attribut psychologique donné et admettre en même temps que cet attribut n’existe pas indépendamment des efforts que nous mettons en œuvre pour le mesurer (Cronbach & Meehl, 1955 ; Messick, 1989, 1995, 1998). Par exemple, la compréhension de la « capacité de résistance à l’interférence » mesurée par le test de Stroop ne peut être saisie en elle-même en l’absence d’un modèle processuel capable de rendre compte de l’organisation des réponses aux items dont est composé l’outil. Elle peut l’être, par contre, par des théories articulant cet attribut avec d’autres attributs, implicitement définis par leur place au sein du réseau nomologique de même niveau (par ex., la « capacité de commutation attentionnelle ») ou de niveau supérieur (par ex., le « contrôle inhibiteur »). Dans cette perspective, la validité est moins une propriété de la mesure qu’une propriété jugée « du degré avec lequel les arguments théoriques et les preuves empiriques plaident en faveur du bien-fondé et de la justesse des inférences et actions effectuées sur la base des mesures » (Messick, 1989, p. 13).

Apparemment opposées, ces deux approches de la validité présentent une certaine complémentarité (Hood, 2009) si l’on veut bien admettre que les attributs psychologiques sont des entités théoriques qui se manifestent de manière causale dans les mesures effectuées. Placer la construction théorique de l’attribut psychologique au centre du concept de validité (Borsboom et al., 2003, 2004) semble résoudre la question de la définition de la validité, mais n’offre que de modestes perspectives, tant il est peu réaliste de penser qu’on est aujourd’hui capable d’expliciter les mécanismes psychologiques susceptibles de générer les réponses aux items d’un test ou d’un questionnaire. S’agissant, comme c’est souvent le cas, d’attributs psychologiques

6 La littérature attribue à Kelley (1927) une définition de la validité maintes fois reprise, bien qu’assez peu opérationnelle, selon laquelle « le problème de la validité est celui de savoir si un test mesure réellement ce qu’il prétend mesurer » (p. 14).


sur 63

pauvrement définis, il paraît plus réaliste de définir la validité comme une propriété des inférences effectuées à partir des scores (AERA, APA & NCME, 1985, 1999) et d’engager les efforts de validation en conséquence.

Ces efforts de validation sont bien sûr nécessaires pour s’assurer que les outils utilisés lors de l’évaluation psychologique possèdent la qualité et les propriétés psychométriques souhaitées, la connaissance des propriétés des scores étant évidemment un préalable à leur interprétation. La question de la validité ne se pose pas, en effet, si la fidélité des scores est insuffisante sur l’échantillon de référence (Thompson 2003), si les normes qui servent au calcul des scores dérivés (scores percentiles, standardisés, normalisés) n’ont pas été établies sur des populations clairement définies, si elles ne sont pas pertinentes au regard de l’utilisation des scores ou si, pour une application donnée, un score et ceux utilisés pour éclairer un aspect de leur validité proviennent de populations différentes de scores, comme ce peut être le cas lors d'application d'un outil d'évaluation s'écartant de l'esprit d'une procédure standardisée. Mais des efforts de validation sont tout autant nécessaires pour renforcer la pertinence et le bien-fondé des interprétations proposées et des actions qui en découlent.


sur 63

2.1.3. Validité, valeurs et utilité sociale

Le concept de validité n’est pas un concept fondé sur des critères scientifiques indépendants d’un contexte social. Les représentations mêmes de la validité sont susceptibles de s’imprégner d’influences sociales et de références normatives. C’est le cas chaque fois que l’estimation d’un degré de validité se fonde sur l’utilité sociale des résultats d’une évaluation psychologique. Les interprétations et les actions sur lesquelles portent les efforts de validation réfléchissent donc des valeurs (personnelles, sociales) et des conséquences (Kane, 2006, p. 18), qui doivent être explicitement envisagées. Messick (1989), notamment, a particulièrement insisté sur la nécessité de considérer la réalité des conséquences sociales des mesures effectuées. Suivant une facette d’utilité sociale, la validité peut en effet renseigner sur des possibilités d’actions, mais ne dit rien sur l’orientation, en bien ou en mal, d’une action connaissant le score d’un individu en référence à un attribut donné. Il est en particulier très important de savoir pourquoi, et comment, l’interprétation des scores et leur utilisation a pu avoir des conséquences sociales négatives pour la personne. Du point de vue de la validité en effet, des conséquences sociales négatives rendent l’utilisation de l’outil invalide si celles-ci peuvent être attribuées à des sources d’invalidité, comme, une interprétation théorique inadéquate, une mauvaise représentation du construit mesuré, ou une partie de la variance des scores non attribuable à celui-ci (Messick, 1995 ; Nichols & Williams, 2009). La validité laisse ainsi apparaître une facette déontologique lorsqu’elle propose, par exemple, une source d’invalidité avec l’existence de fonctionnement différentiel d’item (Vrignaud, 2002)7. Ce point émerge tout particulièrement lorsqu’on considère les conséquences sociales de l’évaluation d’un attribut dont le résultat occasionne une décision d’affectation sociale, concernant la scolarité par exemple. Si le concept de validité n’est pas proposé pour résoudre des indéterminations quant à la sélection d’objectifs sociaux liés à l’évaluation psychologique, par contre, en augmentant l’information relative à l’utilité sociale des résultats d’une évaluation psychologique, les objectifs de l’examen psychologique (le panel d’actions envisageables à partir d’une connaissance d’un score) sont contraints et se réduisent à quelques options non nécessairement compatibles avec la représentation du rôle et de la fonction sociale que peut se fixer un psychologue. La cohérence de la pratique avec une ligne idéologique peut alors prendre le risque de négliger des données de validation, au profit de croyances qui, dès lors qu’elles ne sont pas partagées par une communauté, affectent la crédibilité de l’examen psychologique.

2.2. L’évolution des conceptions de la validité et de la validation

7 Suivant une analogie, il y aurait fonctionnement différentiel d’item si la distance qui sépare un échelon d’un autre sur la toise graduée en centimètres variait d’une personne à l’autre lorsqu’on en mesure la taille. Outre l’incertitude quant à la représentativité de la mesure par rapport à la taille réelle et inconnue des personnes, la mesure n’est plus estimée équitable dans un tel cas.


sur 63

Jusqu’aux années 80, trois types de validité étaient classiquement distingués : la validité de critère, la validité de contenu et la validité de construit (« la Sainte Trinité8 », Guion, 1980). Les conceptions actuelles de la validité et du processus de validation coiffent ces trois facettes par une forme unifiée de validité. Chacun de ces trois types de validité offrant une perspective singulière sur la validité de l’interprétation des scores, nous en rappellerons d’abord les caractéristiques essentielles avant de présenter celles du modèle unifié de la validité qui semble aujourd’hui prévaloir.

2.2.1. Le modèle de la validité de critère

Dès le début du vingtième siècle, les psychologues ont déployé d’importants efforts de validation pour développer des mesures valides des attributs et construits psychologiques utilisés pour réunir ou différencier les comportements. Autant soucieuse de sa crédibilité que peu à même de s’appuyer sur des connaissances véritablement fondées, la psychologie naissante a tout d’abord conçu la validité en termes de capacité d’un outil à prédire un critère pratique ou une mesure prise comme référence. On peut ainsi lire dans les années 50 qu’un test ne peut être « objectivement validé qu’en tant que mesure d’un critère spécifiquement défini» (Anastasi, 1950, p. 67) ou que « la validité est définie en termes de corrélation entre les scores observés et les scores critériels ‘vrais’ » (Cureton, 1951, p. 623). L’outil étant considéré « valide pour tout ce avec quoi il corrèle » (Guilford, 1946), l’approche de la validité de critère (on dit aussi validité empirique ou validité pragmatique) a été déclinée sous deux grandes formes employant une même méthodologie corrélationnelle. Une première forme, dite de validité concourante ou concomitante, repose sur l’étude de la relation entre les scores observés à l’outil en cours de validation et un critère immédiatement disponible, comme la performance scolaire. On parle aussi de validité convergente lorsque le critère est une autre mesure du même phénomène (test vs observation en situation) ou de validité concordante, lorsque le critère est un outil de même nature qui mesure le même phénomène (questionnaire A vs questionnaire B). Une autre grande forme de validité dite prédictive ou pronostique consiste à étudier la relation entre les scores observés à l’outil en cours de validation et un critère mesuré ultérieurement (par ex., une performance ultérieure).

Cette approche corrélationnelle s’est révélée utile pour construire des outils, en présence d’un critère plausible, sur la base d’items sélectionnés selon leur valeur critérielle. En tant que propriété de l’outil et une fois les choix d’un critère et d’un échantillon effectués, la validité de critère présente aussi l’avantage de pouvoir être associée à un indice objectif, le coefficient de corrélation. Le constat d’une corrélation entre les mesures effectuées avec l’outil en cours de validation et les scores critériels (la « preuve » critérielle) semble également tout à fait pertinent

8 Cette division en trois types de validité « a quelque chose de la Sainte Trinité représentant trois voies différentes vers la rédemption psychométrique » (Guion, 1980, p. 386).


sur 63

au regard de la vraisemblance de l’interprétation des mesures effectuées avec l’outil (Kane, 2006).

L’approche de la validité de critère est cependant fondamentalement limitée sous plusieurs aspects. L’acceptation de la preuve critérielle implique tout d’abord de ne pas remettre en cause la validité du critère, une telle remise en cause réduisant d’emblée la possibilité de validation. En outre, l’approche corrélationnelle, en elle-même, ne donne pas accès à la signification du concept mesuré et confond signification et portée prédictive ou pronostique (Embretson, 1983). Bien que, comme toute démarche de validation, la validation de critère nécessite une théorie préalable permettant de poser une hypothèse (réfutable), celle-ci contribue à une démarche de réduction des indéterminations qui concerne plus l’usage que la signification psychologique des scores. La prudence face à cette indétermination conduit à une pauvreté de l’interprétation des scores et des mécanismes qui relient les scores à des comportements immédiatement ou ultérieurement observables, ce qui participe peu au développement de la théorie de l’attribut psychologique mesuré. La lecture minimale du résultat de l’évaluation s’effectue en termes de rang de classement des individus sur un prédicteur et, dans le meilleur des cas, sous la forme d’un rang de classement probable sur un critère. L’indétermination du discours sur le résultat peut, à l’inverse, stimuler la tentation d’abuser d’une liberté en déployant une multitude d’inférences créatives. Une trace de cette tendance semble apparaître avec des outils classiques et populaires d’évaluation psychologique qui développent, en périphérie d’un score principal correspondant à l’intention du test, une multitude de scores annexes (par ex., un indice de tendance de réponse, de style de réponse…) pour lesquels l’information utile au jugement de validité est le plus souvent absente. Enfin, la validation de critère suit une approche corrélationnelle supposant, le plus souvent, une relation linéaire entre l’outil en cours de validation et un critère. Or l’adéquation de cette hypothèse avec des données d’observations n’est généralement pas renseignée9.

Des formes plus rationnelles de validation des scores ont été alors développées : la validité de contenu, qui concerne la pertinence et la représentativité des items de l’outil au regard du construit mesuré, s’est d’abord imposée pour être ensuite subsumée par le modèle de la validité de construit.

2.2.2 La validité de contenu

La notion de validité de contenu est due à Tyler (1934), psychologue de l’éducation très influencé par les conceptions opérationnalistes et behavioristes de l’époque (Bridgman, 1927 ; Skinner, 1945). La validité de contenu (ou validité logique) est directement établie par la

9 Une synthèse des relations entre les aptitudes cognitives générales et la performance académique situera la corrélation moyenne au voisinage de 0,50 pour un phénomène dont la réalité peut être curvilinéaire (on peut de façon plausible envisager l’effet déprimant d’une sur-compétence d’une personne par rapport aux tâches à réaliser sur la bonne exécution de ces tâches).


sur 63

précision de la définition verbale du construit, par le rationnel qui guide la construction du dispositif et le choix de la population10. Cette forme de validité est définie comme « le degré de pertinence et de représentativité des éléments qui composent l’outil, par rapport au construit ciblé, pour un objectif d’évaluation défini » (Haynes, Richard & Kubany, 1995, p. 238). Cette définition de la validité de contenu appelle quelques précisions.

On notera d’abord que le terme d’éléments est compris au sens large, c’est-à-dire qu’il désigne aussi bien le contenu des items que le format de réponse, le codage des comportements ou les consignes d’administration de l’outil. Le degré de pertinence des éléments qui composent l’outil marque leur caractère plus ou moins approprié au regard du construit mesuré, d’une part, des objectifs de l’évaluation psychologique, d’autre part. Ainsi, la validité de contenu d’un questionnaire de « peurs chez l’enfant » peut être jugée satisfaisante lorsque celui-ci est employé pour un rapide dépistage et l’être moins, s’il s’agit d’évaluer les effets d’une intervention psychologique. Par ailleurs, la représentativité des items qui composent l’outil fait référence au degré avec lequel ceux-ci échantillonnent l’univers des items possibles par rapport au domaine du construit mesuré (Dickes et al., 1994). Ceci implique la disponibilité d’une définition d’un univers de contenu et d’items ainsi que d’une procédure d’échantillonnage (ou des critères de sélection) des items, de sorte que ceux constituant l’outil soient représentatifs de l’univers d’items ou des dimensions ou catégories qui structurent cet univers (le plus souvent, des sources de variations interindividuelles). Il est clair, sur ce point, que l’utilisation d’un outil composé d’items représentant très imparfaitement le construit mesuré ne peut que limiter la pertinence des inférences et interprétations faites à partir des scores. Il y a donc, au total, de nombreux éléments de validité de contenu dont l’évaluation peut être conduite au moyen de diverses méthodes, aussi bien quantitatives que qualitatives (analyse conceptuelle, jugement d’experts, etc. ; Haynes et al., 1995).

Essentiellement appliqués à des tests de connaissances scolaires, les efforts de validation de contenu n’ont pu fournir, au-delà de quelques indications sur la plausibilité des mesures critérielles, de preuves inférentielles satisfaisantes. L’outil d’évaluation psychologique, en effet, ne peut, le plus souvent, échantillonner qu’une partie de l’univers des situations qu’il cherche à prédire ou à comprendre. De plus, la procédure qui consiste à recourir au seul jugement d’experts, pour évaluer la pertinence et la représentativité des items qui composent l’outil, n’est pas la plus objective qui soit. Cette approche, enfin, est d’un apport très limité lorsqu’elle sert à justifier des conclusions à propos de l’interprétation des scores (Messick, 1989). Introduit en 1954 par Meehl et Challman dans les recommandations techniques de l’American Psychological Association, le concept de validité de construit pose des interrogations plus explicitement et plus fondamentalement centrées sur la signification psychologique des scores.

10 La validité de contenu ne doit pas être confondue avec la validité de surface ou apparente, qui est de l’ordre de la perception qu’a l’évalué ou l’évaluateur de l’outil ou du niveau d’acceptabilité de celui-ci (Anastasi, 1988).


sur 63

2.2.3 L’émergence de la validité de construit

La notion de validité de construit (on dit aussi théorique, conceptuelle ou hypothético-

déductive) a été principalement développée sous l’impulsion de MacCorquodale et Meehl (1948), Cronbach et Meehl (1955), Loevinger (1957) et Campbell et Fiske (1959). On doit d’abord à MacCorquodale et Meehl (1948) d’avoir défendu la légitimité philosophique de la notion de construit hypothétique en tant que structure conceptuelle, théorique, pour décrire des caractéristiques psychologiques et des comportements. La formulation initiale de la validité de construit est due à Cronbach et Meehl (1955) qui proposent de considérer que les scores ne sont une manifestation valide du construit mesuré que si les relations entre les scores et les autres variables du réseau nomologique sont conformes aux hypothèses de la théorie spécifiant leur signification présumée. Une autre idée très importante est l’identification du processus de validation de construit comme cadre général de développement et d’évaluation des théories psychologiques et des mesures qui représentent les construits (Loevinger, 1957). Il faut aussi signaler la contribution de Campbell et Fiske (1959) qui ont développé une procédure de validation de construit connue sous le nom d’approche multitraits-multiméthodes (MTMM). Cette méthodologie spécifique, qui nécessite de considérer simultanément plusieurs construits mesurés par plusieurs méthodes différentes, permet d’évaluer deux formes de validité : la validité convergente (les mesures indépendantes d’un même construit doivent être corrélées) et la validité divergente ou discriminante (la mesure d’un nouveau construit doit être sans lien avec les indicateurs de construits, théoriquement non pertinents, du même domaine). On voit ainsi, à la lecture de ce qui vient d’être brièvement rappelé, que le contexte d’introduction de la validité de construit est essentiellement théorique. Un test de la validité de la mesure est, en même temps, un test de la théorie qui définit le construit et les efforts de validation conduisent à l’identification d’éléments de validité, concernant aussi bien l’évaluation globale de l’interprétation proposée des scores (Messick, 1995), que celle de la théorie sous-jacente (Kane, 2001). La validité d’une mesure prend donc, dans ces développements, un caractère relatif, devient une propriété évolutive, et la notion de validation, comme processus continu, remplace

celle de validité.

La réduction des indéterminations est alors attendue de l’accumulation d’arguments convergents autant que d’élimination d’hypothèses concurrentes. La pertinence de l’accumulation des arguments utiles au jugement de validité se fonde à la fois sur la diversité de la nature des informations et sur des redondances entre les résultats d’études indépendantes. Le concept fractionné se décline alors en de nombreuses procédures de validation incluant « la validité de contenu, les corrélations entre items, entre tests, entre test et critère, les études de stabilité temporelle…, l’observation de corrélations et d’une stabilité élevées pouvant constituer une preuve en faveur ou en défaveur, selon la théorie dans lequel le construit est inséré, de l’interprétation proposée » (Cronbach & Meehl, 1955, pp. 299-300). Sont ainsi susceptibles d’alimenter un jugement de validité les réponses à des questions qui concernent les composantes « interne » et « externe » de la validité de construit.


sur 63

La composante interne de la validité de construit correspond à ce que Loevinger (1957) appelle les composantes substantive et structurale de la validité, et à ce qu’Embretson, (1983) désigne sous le nom de représentation de construit. La composante interne réfléchit tous les aspects de la théorie qui définit le construit en incluant les sous-domaines qui le composent, les relations attendues entre dimensions du construit, les processus supposés sous-tendre les scores observés. Voici, par exemple, quelques questions qui réfèrent à la composante interne de la validité de construit. Le construit visé par l’outil et le domaine de contenu du construit sont-ils spécifiés ? Les items représentent-ils de façon exhaustive et proportionnée le construit dans ses différentes facettes ? Sur quelle base les items ont-ils été générés (par inférences déductives à partir d’une théorie, sur la base de données cliniques, d’autres instruments d’évaluation, de suggestions d’experts, …) ? Un modèle des processus psychologiques de réponse à l’item, ou un modèle de la tâche est-il disponible ? Suivant quel modèle psychométrique les observables sont-ils représentés par des valeurs numériques ? Les scores aux items représentent-ils de façon adéquate la structure uni- ou multidimensionnelle du construit ? Dans ce second cas, que signifient les différents scores et comment sont-ils liés ?...

La seconde composante du cadre conceptuel de la validité de construit, la composante

externe pour Loevinger (1957), l’empan nomothétique pour Embretson (1983), concerne les relations entre les scores observés et d’autres mesures de construits du réseau nomologique aussi bien que des critères choisis dans une perspective pratique. Les questions suivantes peuvent, parmi d’autres, se poser. Les scores sont-il liés de la façon attendue aux scores à d’autres outils supposés mesurer le même construit ? Les scores sont-ils sans relation avec les scores à un autre outil supposé mesurer un construit différent ? Les scores peuvent-ils être utilisés pour prédire des comportements futurs ? A quel degré les scores sont-ils sensibles à des biais systématiques (sexe, culture, groupe social, familiarité avec le test, anxiété face au test, représentation de l’évaluation, motivation, altération de l’apprentissage, opportunité d’apprentissage des participants, contexte, mode de l’évaluation psychologique, etc.) ?...

Ces deux types de questionnement, l’un interne, l’autre externe, sont complémentaires (Embretson, 1998) et la « faillibilité » des résultats d’une procédure ou d’une autre peut être compensée par leur diversité, qu’il s’agisse de la nature des hypothèses dérivant de constructions théoriques, des méthodologies mises en œuvre pour tester ces hypothèses, et des techniques qui conduisent à la production d’indices facilitant plus ou moins une conclusion. Toutes les conclusions servent un jugement de validité et la diversité apparaît davantage comme un attribut de la validation que de la validité.

Cependant, la hiérarchisation de l’une ou l’autre des questions de validité que l’on peut être amené à se poser varie selon les objectifs d’une évaluation psychologique. Si, par exemple, l’objectif de l’évaluation psychologique est pédagogique ou diagnostique, la question de la représentativité des scores par rapport à un construit ou celle de la représentativité d’un construit par rapport à la réalité sont évidemment essentielles. Mais s’il s’agit du pronostic de l’adaptation à une situation ou à un environnement donné, la question de la validité prédictive des scores


sur 63

devient prioritaire. La tendance s’est donc accrue de traiter les procédures de validation comme des outils et de faire appel à un type de validité plutôt qu’à un autre, selon les objectifs de l’évaluation (par ex., le modèle critériel pour valider des décisions d’affectation, le modèle de la validité de contenu, pour valider des tests de connaissances scolaires, le modèle de la validité de construit, pour valider l’interprétation théorique des scores à un test ; Guion, 1980 ; Messick, 1981).

Malgré son incontestable intérêt opératoire, cette représentation fragmentaire de la validité a été progressivement remise en question, et le point de vue de Loevinger (1957), selon lequel « la validité de construit est, d’un point de vue scientifique, l’ensemble de la validité, puisque les validités prédictive, concourante et de contenu sont essentiellement ad hoc » (p. 636), a été de plus en plus partagé. La nécessité est alors apparue d’un modèle plus unifié de la validité, afin de faciliter l’intégration des diverses sources d’information pouvant alimenter le jugement de validité.

2.2.4. La validation de construit est le fondement d’une conception unifiée de la validité

Au début des années 80, le point de vue de Cronbach pour qui « toute la validation est de la validation de construit » (1984, p. 126), est adopté par l’ensemble des spécialistes du domaine. Une version encore plus large du modèle unifié de la validité de construit est proposée par Messick (1988, 1989) qui relègue la validité de contenu à un rôle subsidiaire et réduit l’importance accordée au modèle critériel. Pour Messick en effet, la validité est « un jugement évaluatif, intégré, du degré avec lequel les preuves empiriques, et les rationnels théoriques, plaident en faveur de l’adéquation et de la pertinence des inférences et des actions basées sur les scores » (1989, p. 13). Cette définition met l’accent sur plusieurs points essentiels, qui sont acceptés aujourd’hui comme des principes de base de la validation (Kane, 2006). Elle réaffirme que la question de la validité est bien celle de l’interprétation et de l’utilisation des scores, ce qui implique de spécifier l’interprétation avant d’évaluer sa validité. Elle souligne que la validation de la mesure d’un construit théorique oblige à spécifier une théorie et la manière dont le construit est mesuré, ainsi qu’à évaluer empiriquement les prédictions de la théorie, ce qui nécessite des analyses extensives. Elle sous-entend enfin que l’interprétation des scores repose sur la mise en concurrence de plusieurs hypothèses et donc que d’autres interprétations des scores sont envisageables.

Messick (1989) résume le cadre conceptuel de la validité de construit sous la forme de deux facettes reliées l’une à l’autre : la source de la justification de la mesure effectuée avec l’outil d’une part, la fonction de la mesure effectuée avec l’outil (interprétation application) d’autre part. L’évaluation de la validité dans ce cadre conceptuel est un processus à deux étapes : des scores au construit, d’une part, du construit à l’action, d’autre part.

Des scores au construit - L’interprétation des scores doit être justifiée par la validation de construit. Celle-ci se focalise sur les preuves en faveur, ou en défaveur, de la théorie qui sous-tend l’interprétation des scores au test. Mais l’interprétation des scores doit aussi expliciter


sur 63

l’implication, sur le processus de validation, des valeurs qui infiltrent les construits et le cadre théorique. Pour mieux faire comprendre cette nécessité, Messick (1989) prend l’exemple d’un même indicateur comportemental dont la signification varierait selon qu’on l’étiquette comme une mesure de flexibilité vs rigidité ou une mesure de confusion vs cohérence. Pour prendre un autre exemple, l’utilisateur d’un test dont on dit qu’il mesure la « vitesse de traitement de l’information », peut être encouragé à concevoir ce trait comme fortement influencé par des caractéristiques physiologiques.

Du construit à l’action - L’utilisation des scores doit aussi être justifiée par la validation de construit. Mais la pertinence à les utiliser, pour un objectif donné, doit être évaluée en termes de pertinence du construit au regard des objectifs poursuivis. Il peut s’agir, par exemple, de justifier que la variance qu’ont en commun les scores et tel ou tel critère pratique est la même quel que soit le groupe d’appartenance des individus concernés. L’utilisation des scores n’est également possible que si la question de savoir si l’outil fait bien le travail pour lequel on l’emploie reçoit une réponse positive.

Le concept unifié de validité de construit peut néanmoins être envisagé sous différents aspects fonctionnels afin de réduire la complexité inhérente à l’évaluation de la pertinence et de l’utilité des inférences faites à partir des scores. Messick (1989) distingue ainsi les aspects liés :

• au contenu et à la représentativité des items de l’instrument par rapport au domaine de contenu du construit ;

• aux processus mentaux sous-tendant les réponses (modèle processuel de la performance à la tâche, utilisation effective de ces processus par les répondants) ;

• à la correspondance entre la structure interne des données d’observation et la structure interne du construit ;

• à la généralisabilité des propriétés et de la signification des scores à des items, des moments, des échantillons, des contextes différents, etc., y compris ceux liés à la généralisabilité de relations critérielles ;

• aux relations externes qui concernent les relations attendues de convergence et de divergence entre les scores et des variables externes (mesures d’autres construits, critères « appliqués ») ;

• aux conséquences et aux implications sociales de l’évaluation psychologique (les décisions fondées sur les scores et leurs conséquences).

Considérés ensemble, tous ces aspects abordent les questions auxquelles il est souhaitable de répondre pour justifier l’interprétation et l’utilisation des scores. Mais l’ambition de ce cadre conceptuel est grande, excessive, même, pour certains (Moss, 1992 ; Shepard, 1993 ; Wiley, 1991 ; AERA, 2007). La complexité du modèle unifié de la validité rend en effet difficile


sur 63

d’identifier les questions essentielles de validité ou de savoir quel niveau d’accumulation de preuves atteindre pour considérer que l’interprétation des scores est pertinente dans le cadre des objectifs fixés. De plus, le jugement de validité dépend de la disponibilité et de la consistance d’informations pour chacun des aspects précédemment distingués, ces conditions n’étant jamais parfaitement satisfaites pour les outils disponibles. Les études de validation des tests d’intelligence, par exemple, donnent beaucoup d’arguments concernant le réseau nomothétique mais peu à propos de la représentation du construit. De façon assez générale, et pour prendre un autre exemple, la signification psychologique de scores bas, moyens ou élevés est rarement disponible. Les manuels qui accompagnent les outils d’évaluation n’offrent généralement pas une synthèse de toute l’information disponible à la date de publication et utile à un jugement de validité. Le psychologue se trouve donc confronté à un éparpillement considérable de l’information au sein de la littérature scientifique dont la lecture requiert des connaissances, que sa formation ne lui assure pas toujours, et du temps, qu’il lui sait compté. Alors que c’est aujourd’hui un truisme de dire que le processus de validation est sans fin (Cronbach, 1988, 1989), la perception qu’il s’agit d’une tâche insurmontable risque d’avoir l’effet contraire à celui attendu !

Des priorités sont donc à dégager dans la liste des questions pertinentes à se poser, au regard des objectifs poursuivis, par celui (le praticien, le chercheur) qui doit juger de la plausibilité, de la pertinence et du bien-fondé des différentes interprétations et utilisations des mesures. C’est ce point de vue que défend Kane (1992, 2006), pour qui la validation est avant tout un processus d’évaluation.

2.2.5. La validation est l’évaluation d’un argument

L’approche de Kane (1992, 2006) n’ajoute ni n’enlève quoi que ce soit d’important à l’approche contemporaine de la validation qui repose sur un principe d’intégration d’un nombre arbitraire de preuves, tout en mettant plus clairement l’accent sur l’organisation des questions à poser et sur l’identification des priorités. Le point central de l’approche est que la validation de l’interprétation des scores (et de leur utilisation) est l’évaluation du rationnel sous-jacent, compris comme un argument. Le préalable à toute validation est donc de disposer d’un énoncé explicite de l’interprétation proposée des scores, c’est-à-dire de disposer d’un « argument interprétatif » (Kane, 1992). L’argument interprétatif spécifie les interprétations et les utilisations proposées, en décrivant le réseau d’inférences et d’hypothèses qui conduisent des mesures effectuées, aux conclusions et décisions basées sur les scores. Il comporte une partie descriptive sur laquelle repose la description des scores et une partie prescriptive qui fonde les décisions prises (recrutement, intervention, etc. ; Kane, 2001). La validation emploie un second type d’argument, un « argument de validité », qui fournit une évaluation de l’argument interprétatif (Cronbach, 1988). Ainsi, dire que l’interprétation (ou l’utilisation) que l’on propose de faire d’un outil employé dans l’évaluation psychologique de la personne est valide, est dire que l’argument interprétatif est : a) clairement explicité ; b) cohérent, c’est-à-dire que les


sur 63

conclusions découlent raisonnablement des hypothèses, et que : c) ses hypothèses sont plausibles ou étayées par des preuves.

Le plus important ici, sans doute, est de comprendre que c’est l’argument interprétatif qui

fournit un cadre au processus de validation. Il faut donc que celui-ci soit clairement énoncé, ce qui dans certains cas peut nécessiter une reformulation en fonction des objectifs poursuivis, pour qu’il puisse être évalué. Par exemple, si l’interprétation des scores dépend d’un modèle de réponse à l’item spécifique et que les scores sont utilisés pour prédire une performance future, la qualité de l’ajustement de ce modèle spécifique aux données ainsi que l’amplitude de la relation entre les scores et le critère considéré doivent être évalués. L’édition la plus récente des standards (AERA, APA & NCME, 1999) reprend d’ailleurs à son compte l’idée essentielle qui vient d’être présentée, en indiquant que « la validité commence logiquement par une description explicite de l’interprétation proposée des mesures ainsi que par celle du rationnel qui sous-tend la pertinence de l’interprétation de l’utilisation proposée » (p. 9).


sur 63

3. Le processus de validation de construit et le développement des modèles et des outils

’exposé qui vient d’être fait sur la validité et la validation a permis de dégager la multiplicité et la complexité des questions à traiter. On propose maintenant d’illustrer la problématique de la validité de l’interprétation des mesures réalisées dans le cadre

de l’examen psychologique.

Dans une première partie, il s’agit de rendre compte des interrelations entre les modèles et les outils. Une formulation pourrait-être : l’évolution des théories est-elle suivie d’effets, plus ou moins différés, quant aux outils mis à disposition des psychologues praticiens ? Dans le domaine de l’intelligence, cette question pourrait être abordée grâce à la théorie piagétienne et aux tests qui en ont été directement dérivés et édités (EPL, ECDL, TOF). Mais en prenant cet exemple, force est de constater que la puissance d’un cadre conceptuel ne préjuge pas du succès des outils qui en sont issus, même dans la période où la théorie est hégémonique11. A l’inverse, un test peut être hégémonique sans que cela soit dû à ses fondements théoriques très assurés. Les échelles de Wechsler illustrent bien cette position. On s’attachera à montrer comment cette épreuve résiste à l’épreuve du temps, moyennant quelques aménagements liés à la prise en compte des modèles de l’intelligence qui lui sont au départ étrangers. Dans les faits, les échelles de Wechsler sont parfois exploitées au moyen de cadres théoriques très différents (cf. l’interprétation clinique et psychopathologique, Brun, 2008), ce nomadisme conceptuel conduisant à en interroger la validité. Quelques éléments de présentation du Rorschach et des modèles interprétatifs dominants (psychanalytique et traitement de l’information) viendront illustrer le propos dans le domaine de la personnalité12.

La deuxième partie de ce chapitre porte sur l’examen de diverses formes de validité (interne et externe) du WISC-IV, du Rorschach et de la RCADS (échelle d’anxiété et de dépression).

11 L’EPL et les TOF ont été développés entre 1965 et 1975 ; c’est ensuite que la théorie piagétienne a été remise en cause du fait des décalages individuels, observables dans ces épreuves, bien que non attendus par la théorie. 12 Il avait été envisagé d’aborder les questions de validité et de validation du dessin d’enfant, mais faute d’une expertise suffisante de notre groupe, l’idée a finalement été écartée.

L


sur 63

3.1. Un processus itératif d’évaluation critique de théories partiellement développées

3.1.1. L’exemple des échelles de Wechsler

3.1.1.1. Évolution des modèles et développement des échelles

Historiquement, la validité des échelles de Wechsler a pris sa source, comme l’échelle Binet-Simon dont elle s’est inspirée (Binet & Simon, 1908), de son utilité sociale et clinique.

Complétant les informations associées au Quotient Intellectuel (QI), l’ancienne division de l’échelle en deux sous-échelles, verbale et performance, était essentiellement pragmatique. Wechsler considérait lui-même qu’il existait bien d’autres regroupements possibles. De fait, les corrélations intra et inter échelles n’étaient pas parfaitement compatibles avec ce regroupement. Par exemple, le sous-test Code corrélait peu avec les sous-tests de l’échelle de Performance.

Aujourd’hui, on attend que les possibilités d’usage d’un test proviennent de sa signification. La dernière version des échelles de Wechsler - le WISC-IV - s’appuie sur cette validité théorique en se référant au récent modèle factoriel « CHC » (Cattell-Horn-Carroll, Carroll, 1993) et aux « travaux de neuropsychologie fléchant le rôle central de la fluidité du raisonnement, de la mémoire de travail et de la vitesse de traitement des informations » (Tourrette, 2006, p. 34). Ces changements dans le WISC-IV ont-ils modifié la validité des échelles de Wechsler, c’est à dire leur signification et leurs objectifs ? Est-on passé d’une intelligence « au singulier » à une intelligence « au pluriel » ? Quid des facteurs non intellectifs ? Telles sont les questions abordées ci-dessous.

3.1.1.2. Le WISC IV et sa validité au regard du modèle CHC

Le WISC-IV « permet de représenter le fonctionnement intellectuel dans des domaines cognitifs spécifiques… et une évaluation de l’aptitude intellectuelle générale de l’enfant » (Wechsler, 2005, p. 1). Au contraire, l’objectif du WISC-R « ne consiste pas à estimer les aptitudes cognitives d’un sujet… Il reflète principalement l’étendue de ce qu’on définit comme la capacité globale de se comporter de façon intelligente (Wechsler, 1981, p. 9). Ce changement de conception - du singulier vers le pluriel - est clairement affiché dans le WISC-IV : « Au fur et à mesure que les chercheurs identifiaient des domaines plus segmentés de l’intelligence, l’interprétation des tests d’intelligence porta de plus en plus sur les performances dans des domaines plus restreints du fonctionnement cognitif » (Wechsler, 2005, p. 2). La structure hiérarchique du WISC-IV comporte quatre indices factoriels homogènes se référant explicitement aux théories actuelles de l’intelligence et de la psychologie cognitive (Flanagan & Harrison, 2005 ; Flanagan & Kaufman, 2004) : l’intelligence fluide / visuo-spatiale (IRP), l’intelligence cristallisée (ICV), la mémoire de travail (IMT) et la vitesse de traitement (IVT). Cette recherche de différenciation, de spécialisation, a pour conséquence une nouvelle structure factorielle plus homogène, plus valide du point de vue théorique, basée sur la mesure de construits de signification univoque issus du modèle factoriel CHC.


sur 63

La signification de l’intelligence générale évaluée dans le WISC-IV à travers le QI Total a-t-elle été modifiée par cette nouvelle structure factorielle ? Dans les conceptions antérieures au WISC-IV, il semblait nécessaire « de mesurer l’intelligence selon le plus grand nombre possible de façons différentes, c’est à dire en utilisant un maximum de tests de types distincts » (Wechsler, 1981, p. 15). Cette conception, qui était celle de Binet : « Qu’importe les tests, pourvu qu’ils soient nombreux ! », est incompatible avec une structure hiérarchique factorielle valide. En effet, pour pouvoir créer une note composite, dont on pourra vérifier ensuite l’homogénéité par l’analyse factorielle, il faut au moins deux mesures donc deux sous-tests. Par exemple, dans les versions antérieures au WISC-IV, la mémoire immédiate n’était mesurée que par la mémoire des chiffres. Pour créer l’indice factoriel IMT a été introduit dans le WISC-IV le sous-test Séquences Lettres-Chiffres. La recherche de ces scores composites homogènes a donc réduit de fait la variété des tâches, notamment celles sous jacentes au QI Total et donc au construit d’intelligence générale (Rozencwajg, 2006). La durée limitée de l’examen psychologique implique un nombre réduit de tests dont le choix semble réducteur, car il privilégie quatre facteurs dont trois sont conceptuellement très liés (IRP, IMT et IVT). Ces liens sont explicites dans le WISC-IV : « un traitement plus rapide des informations peut réduire la sollicitation de la mémoire de travail, ce qui peut faciliter le raisonnement » (Wechsler, 2005, p. 9 ; de Ribaupierre, 2005 ; Fry & Hale, 1996).

En conclusion de ces considérations portant sur les aspects cognitifs, la structure actuelle du WISC-IV s’est appuyée sur une évaluation de l’intelligence très influencée par la neuropsychologie et dominée par la recherche de scores « purs » ayant une signification univoque. Pourtant dans le WISC-IV, la conception de l’évaluation est en même temps restée intermédiaire entre une approche clairement globale et clinique et une approche plus cognitive, plus segmentée. En effet, le WISC-IV, tout en allant dans le sens de mesures plus spécifiques, plus précises, n’est pas dupe des interrelations existant entre les fonctions cognitives. Le changement n’est donc pas si franc malgré les apparences, point de vue partagé par Grégoire (2009). Par exemple, nous pouvons lire aussi dans le manuel du WISC-IV : « Bien que l’évaluation et la division du fonctionnement cognitif en domaines de plus en plus restreints présentent des avantages, plusieurs points méritent quelques commentaires. Premièrement, les fonctions cognitives sont en interrelation et en interaction fonctionnelle et neurologique, ce qui rend difficile l’évaluation d’un domaine pur de fonctionnement cognitif… Deuxièmement, il est écologiquement valide d’inclure des sous-tests qui font appel à une multitude d’aptitudes cognitives. Les tâches cognitives sont rarement, à supposer qu’elles puissent l’être, accomplies de manière isolée » (p. 3). La conception du fonctionnement cognitif dans le WISC-IV demeure bien en même temps interactive et non segmentée, bien que nous soyons encore actuellement limités dans notre capacité à modéliser ces interactions (Huteau & Lautrey, 1999).

3.1.1.3. L’interprétation des mesures et les facteurs non intellectifs

Dans les versions antérieures au WISC-IV, la conduite intelligente intégrait des facteurs non intellectifs (par ex., conatifs) aux aptitudes intellectuelles. « Les facteurs non intellectifs


sur 63

interviennent forcément dans la conduite intelligente ; ils ne sont pas pour autant les substituts (comme on le présume parfois) d’autres aptitudes fondamentales.» (Wechsler, 1981, p. 16). Le succès des échelles de Wechsler tient peut-être aussi de cette intégration et de la conception de l’évaluation en considérant le sujet dans sa globalité - on notera néanmoins que les aspects conatifs restent à une place raisonnable dans l’échelle. On aurait pu penser que dans la nouvelle conception du WISC-IV, plus cognitive, les facteurs non intellectifs seraient négligés. En fait, ils sont toujours présents bien que non nommés comme tels : « Wechsler était parfaitement conscient que les résultats obtenus à partir d’analyses factorielles rendaient compte seulement d’un certain pourcentage de la variance globale de l’intelligence et il estimait qu’un autre groupe de variables (enthousiasme, anxiété, persévérance…) contribuait à la part non expliquée de la variance…» (Wechsler, 2005, p. 3).

Le rôle du praticien dans un examen psychologique est bien de réaliser au cas par cas cette élaboration dynamique, cognitive et conative, car le sujet est appréhendé dans son entier. Si l’implication de facteurs cognitifs et conatifs dans les mesures effectuées chez l’enfant avec le WISC-IV permet cette élaboration clinique, la pertinence et le bien-fondé de cette interprétation singulière doivent aussi bien sûr pouvoir être interrogés.

3.1.2. L’exemple du test des taches d’encre de Rorschach

3.1.2.1. Le Rorschach : de la perception à l’épreuve projective

Les tests projectifs constituent un ensemble d’outils très fréquemment utilisés par les psychologues dans le cadre de l’examen psychologique de l’enfant (les dessins, le test de Rorschach et les épreuves thématiques : T.A.T, C.A.T et Patte-noire pour les principales). Pour certains utilisateurs qui considèrent que ces outils n’ont pas le même statut que les outils psychométriques classiques, le terme « d’épreuve » vient remplacer celui de « test ». En effet, une des grandes particularités de ces outils réside dans la pluralité des contextes épistémologiques dans lesquels ils peuvent être utilisés, allant d’une approche qualitative à une démarche quantitative et objectivante (Costes & Andronikof, 1996).

La notion de validité de construit implique que l’on étudie, entre autres, les liens entre les théories sous jacentes à l’élaboration de construits et les mesures effectuées. Mais comment faire quand aucune théorie n’a présidé à la construction de l’outil ? En effet, le test de Rorschach a la particularité d’avoir été construit avant de savoir ce qu’il allait mesurer (Rorschach, 1921). C’est pour cette raison que plus de 80 ans après la création de cet outil éminemment empirique, heuristique, et critiqué (cf. le nombre important de publications le concernant), le débat est encore ouvert pour savoir ce que teste ou pas le Rorschach. Les constructions théoriques proposées pour expliciter le processus du test et ce qu’il mesure ont en effet été produites « après-coup ». Rorschach avait conçu son matériel comme une méthode d’étude des modalités


sur 63

de la perception13, notamment chez des patients schizophrènes. Cependant, la nature du stimulus et la consigne de l’épreuve (dire ce qu’on voit dans des taches d’encre14) font que le sujet doit effectuer des choix, « interpréter » le matériel, ce qui permet d’inférer des caractéristiques psychologiques à partir des caractéristiques singulières présidant à cette occasion. Cependant, les points de vue théoriques divergent quant aux mécanismes à l’origine de la production de la réponse et aux inductions faites.

Deux conceptualisations de l’outil prédominent : la méthode dite classique ou psychanalytique (Rausch de Traubenberg & Boizou, 1984, Rausch de Traubenberg, 1990 ; Anzieu & Chabert, 1992 ; Chabert, 1997, 1998 ; Roman, 2009) et le « Système Intégré » (comprehensive system ; Exner, 1974, 1993, 2003a, 2003b).

3.1.2.2. L’interprétation psychanalytique

Les approches psychanalytiques postulent une analogie de nature entre le matériel produit à l’occasion du test et celui recueilli dans le cadre d’une cure psychanalytique, à ceci près que le stimulus dans ses aspects objectifs n’est pas négligé. Le fonctionnement psychologique, normal ou pathologique, peut alors être décrit en référence à la métapsychologie freudienne et au corpus théorique psychanalytique général, en termes de structuration de l’appareil psychique, nature des angoisses, mécanismes de défense prévalents… (Rausch de Traubenberg, 1990 ; Chabert, 1997, 1998). L’analyse des réponses au test considère l’articulation entre les phénomènes perceptifs, quantifiables (par ex., le pourcentage de réponses déterminées par la forme du stimulus) et les phénomènes projectifs qui s’analysent en référence au modèle psychanalytique. Ces derniers se prêtent difficilement à une démarche de validation empirique, les concepts psychanalytiques étant difficilement opérationalisables et quantifiables car relevant d’une autre épistémologie que celle de la mesure. Il existe toutefois des normes françaises récentes pour les facteurs quantifiables, en particulier chez les adolescents à partir de 13 ans (Azoulay Emmanuelli, Rausch de Traubenberg, Corroyer, Rozencwajg & Savina, 2007).

Des échelles inspirées des concepts psychanalytiques ont été construites à partir du Rorschach et ont reçu une validation empirique, mais ces travaux concernent beaucoup plus les populations adultes qu’infantiles (par ex., Kwawer, 1979 ; Cooper et al., 1988 et pour une liste plus exhaustive : Fernandez & Catteuw, 2001 ; Costes & Andronikof, 1996).

3.1.2.3. L’approche « système intégré » de Exner

Objectif et méthode - Le Système intégré, quant à lui, est resté fidèle à la conception de Rorschach, qui voyait l’outil comme une tâche perceptive de résolution de problèmes

13 Et non pas de projection, ce concept arrivant presque 20 ans après la création de l’outil. 14 Il est notoire aujourd’hui que les taches n’ont pas été faites au hasard et que Rorschach les a construites de sorte que certaines caractéristiques perceptives soient prégnantes et/ou conflictuelles.


sur 63

(Exner, 1993). Exner est parti du constat qu’il existait différentes écoles et méthodes d’utilisation du test aux Etats-Unis, avec des utilisations parfois très personnelles, voire « intuitives », et peu consensuelles, qui avaient occasionné des critiques virulentes à l’égard de l’outil. Le système proposé par Exner, qui souhaite standardiser la cotation et valider la signification des facteurs, constitue une synthèse critique des systèmes antérieurs (Bénony, 2002). Exner publie une première version du Comprehensive System en 1974, qui depuis n’a

cessé d’être remaniée au gré des avancées scientifiques15. Le Rorschach, selon cette méthode, répond aux critères psychométriques d’un test (Andronikof, 2004), même si un débat scientifique sur sa validité existe encore aujourd’hui (voir plus loin). En effet, Exner a standardisé l’administration et la cotation des réponses en vérifiant la fidélité inter-juges, et a établi des normes (Exner, 1993, 2003). Comme le signalent Andronikof et Réveillère (2004), « la signification des variables, c’est-à-dire leur lien avec des processus ou des caractéristiques psychologiques, a été explorée pour certaines par des procédures expérimentales (celles qui varient avec l’état du sujet) et pour d’autres, en référence à des critères externes (échelles, questionnaires, tests) » (p. 106). Les variables psychologiques sont regroupées en familles, celles-ci permettant une description psychologique selon les domaines suivants : capacité de contrôle et tolérance au stress, fonctionnement affectif, perception de soi, perception des

relations et fonctionnement cognitif16. Les informations ainsi recueillies permettent une description dynamique du fonctionnement psychique, qui complète l’évaluation psychologique et qui contribue, dans une démarche diagnostique au sens large incluant différents outils et méthodes (Sultan, 2004), à la définition d’un projet thérapeutique individualisé.

Validation - En France, s’il existe un processus de validation en cours (Sultan et al., 2004 ; 2006), l’absence de données normatives sur les populations d’enfants et d’adolescents explique en partie le manque d’essor du Rorschach, exception faite d’un usage qui se développe en

matière de recherche17, quand il est pourtant beaucoup plus utilisé dans de nombreux autres pays. Selon Costes et Andronikof-Sanglade (1996), le Rorschach serait utilisable avec profit à partir de 7-8 ans, bien qu’il existe des normes (américaines) à partir de 5 ans.

Exner (1993, 2003) détaille les méthodes de validation et les controverses dont l’outil en général et le Système Intégré en particulier ont fait l’objet. Le mouvement critique qui remonte à

15 Par exemple, l’abandon de la constellation SCZI, créée au départ pour repérer la schizophrénie mais qui avait le défaut de repérer des « faux positifs » en grand nombre chez l’enfant, mais aussi des « faux négatifs » chez l’adulte. Cette constellation fut remplacée en 2000 par une nouvelle (PTI) palliant en grande partie les inconvénients de SCZI. 16 A savoir : traitement de l’information (comment le sujet saisit l’information perceptive), la médiation cognitive (évaluant l’inscription du sujet dans la réalité) et idéation (la manière dont sont conceptualisées les représentations mentales du sujet). 17 Principales références sur population française en matière de publications scientifiques chez l’enfant ou l’adolescent : Andronikof-Sanglade, 1993, 1998 ; Réveillère, Yéprémian & Bénony, 1994 ; Fouques & Mouren-Simeoni, 1998 ; Réveillère, 1995, 1996 ; Petot, 2002 ; Lemmel, 2004 ; Kostogianni & Andronikof, 2009.


sur 63

une quinzaine d’années portait initialement sur le manque de validité (interne et externe) d’un « indice d’égocentrisme » (Nezworski & Wood, 1995). La critique s’est ensuite déplacée sur trois points : la mesure de la fidélité inter-juges, les modes de validation des interprétations cliniques de certaines variables et la référence faite à des études non publiées dans des revues à comité de lecture (Wood, Nezworski & Stejkal, 1996 ; Wood et al., 2000). Cette critique, très partiellement fondée, a eu le mérite de lancer un débat et a stimulé de nombreuses études pour tenter d’y répondre et d’attester de ou d’améliorer la validité de construit de cet outil. Des études, négligées par les détracteurs, et de nouvelles recherches ont alors tenté de faire la preuve des qualités psychométriques de l’instrument en étudiant les relations entre les indices au Rorschach et certains critères (tests, questionnaires ou échelles, avis de thérapeutes, résultats de protocoles expérimentaux ; Exner, 2003 ; Mattlar, 2003).

Les études se centrent de plus en plus sur des questions de validité incrémentielle18 (Mattlar, 2003). Sultan (2004) précise que « les résultats concernant la validité incrémentielle du Rorschach par rapport au MMPI sont plus mitigés (Dawes, 1999), notamment chez les adolescents (Archer et Krishnamurthy, 1997). Mais les résultats plus récents sont positifs. Le Rorschach apporte une information plus significative dans la prédiction des troubles de la personnalité répertoriés dans le DSM-IV que l’utilisation unique du MMPI-2 (Blais, Hilsenroth, Castelbury & Fowler, 2001). Certaines échelles issues du Rorschach semblent prometteuses pour prédire le succès des interventions, toujours par rapport au MMPI (Meyer, 2000). D’autres études, par exemple Cassela et Viglione (2009), portent sur la validité de contenu en étudiant les réponses texture en relation avec la théorie de l’attachement.

Pour conclure, « (…) le Rorschach, fût-il utilisé dans sa version psychométrique ou dans une orientation psychanalytique, n’est jamais qu’un outil d’investigation qui, s’il n’est pas tout à fait comme un autre, n’en comporte pas moins des limites que l’utilisateur se doit de connaître. Le véritable problème, scientifique et éthique, est non pas dans l’instrument lui-même mais bien dans la manière dont il est utilisé » (Andronikof, 2004). Ce propos nous semble applicable à l’ensemble des épreuves projectives, lesquelles nécessitent donc un haut niveau de formation et un positionnement critique, quelle que soit la référence théorique dans laquelle on se situe, en n’omettant pas de se tenir informé des résultats de recherches empiriques qui ne peuvent être qu’encouragées.

3.2. Un processus d’accumulation de preuves qui fonde l’utilisation de l’outil dans l’examen psychologique

3.2.1. L’exemple du WISC-IV

3.2.1.1. Preuves de validité interne

18 La question de la validité incrémentielle est, très rapidement dit, celle de savoir si l’emploi d’un outil supplémentaire apporte « un plus » au processus d’évaluation.


sur 63

A propos du QI - Nous développerons tout d’abord la question de la validité interne du QI

Total. Du point de vue social, un groupe de psychologues (Voyazopoulos et al., 2005) alerte la communauté sur les mésusages du QI et son interprétation erronée dans le grand public. Un siècle plus tôt, Binet et Simon avaient exprimé très clairement ce danger : « Les qualités intellectuelles ne se mesurent pas comme des longueurs, elles ne sont pas superposables » (Binet & Simon, 1905, p. 195)19. Il est clair que le QI est à manier avec prudence et nécessite que le psychologue soit formé à sa construction et à ses évolutions.

Ainsi, il est important de distinguer le QI du facteur g (sur lequel Wechsler avait fondé la justification théorique du calcul du QI). Le QI n’est en effet qu’une évaluation assez grossière du facteur g, puisqu’il est aussi déterminé par d’autres facteurs et que de ce fait, « l’intelligence générale est le résultat de l’interaction d’un grand nombre de facteurs alors que le facteur g n’est que l’un de ceux-ci, le plus important sans doute, mais pas le seul » (Grégoire, 2000, p.17). Lautrey (2005) distingue aussi les deux outils statistiques qui permettent d’évaluer l’intelligence générale : le QI (somme équipondérée des performances) et le facteur général, variable factorielle commune aux différentes épreuves de la batterie de tests et meilleur résumé des différentes épreuves (somme pondérée des performances).

Du point de vue du choix de la mesure, le caractère numérique du QI peut être contesté du fait que le construit psychologique est éminemment ordinal comme le soulignait d’ailleurs Binet au début du siècle dernier. Néanmoins, cette approximation statistique n’est pas le seul fait du QI mais de la quasi totalité des recherches scientifiques en psychologie. Si cette approximation rend service pour évaluer la validité nomothétique et prendre certaines décisions utiles socialement, le psychologue ne doit cependant pas oublier que ces calculs ne sont que des commodités.

En résumé, nous partageons le point de vue de Voyazopoulos et collaborateurs (2005) : « Le QI, qui a bientôt 100 ans, est devenu une donnée scientifique et sophistiquée, une source exceptionnelle d’informations privilégiées pour le psychologue, aux conséquences parfois importantes pour les personnes, et il ne peut plus être laissé à des pratiques et des utilisations incertaines » ainsi que celui de Grégoire (2009) : « Depuis que Binet, au début du siècle, a suggéré de quantifier l’intelligence de manière globale, ce type d’approche des capacités cognitives a fait l’objet d’innombrables critiques. Pourtant, dans la pratique clinique, le QI Total reste une information largement utilisée. Nous croyons que c’est avec raison. Il représente en effet un index particulièrement intéressant pour le diagnostic, à condition de reconnaître ses limites et de ne pas vouloir lui faire dire plus qu’il ne peut » (p. 187).

19 « Ce n’est pas, malgré les apparences une méthode automatique, comparable à une bascule de gare, sur laquelle il suffit de monter pour que la machine vomisse notre poids imprimé sur un ticket. Nous prédisons au médecin pressé, qui voudrait la faire appliquer par des infirmiers bien des déboires » (Binet & Simon, 1908, p.60).


sur 63

Validité interne des indices factoriels - De nombreuses analyses factorielles (Wechsler, 2005, pp. 42-54) viennent confirmer la structure hiérarchique des performances au WISC-IV. Grégoire (2009) souligne que cette structure en quatre sous-échelles (QI Total et quatre indices factoriels), retrouvée tant dans l’étalonnage français qu’américain suggère que « le WISC-IV fournit des mesures valides de composantes solides, et sans doute universelles, du fonctionnement cognitif » (p. 165).

Validité interne processuelle - Tout comme les versions antérieures, le WISC-IV souffre de limites importantes concernant les théories pouvant guider la construction des items par dimension et l’identification des processus qui sous-tendent les scores observés. Cela est attesté en comparant les performances de sous-tests identiques du WISC-IV et de la WAIS-III. Wechsler (2005) note ainsi que « la corrélation assez faible entre les sous-tests Matrices (r=.36) ou Complètement d’images (r=.38), découle vraisemblablement de la différence de contenu de certains items dans les deux instruments » (p. 59). Mais ces explications paraissent assez circulaires. En effet, le choix des items repose sur des critères statistiques : indice de difficulté, paramètre de difficulté selon le modèle de Rasch, discrimination et sensibilité génétique. En aucun cas, ces choix ne sont basés sur une théorie des items et une analyse processuelle de la tâche. On ne sait pas pour quelles raisons d’ordre théorique tel item est plus difficile que tel autre. Cette analyse théorique (et non seulement statistique) de la difficulté des items fournirait des explications sur l’hétérogénéité parfois observée entre les items. Ainsi qu’il est souligné dans le manuel, réussir vingt items à la suite ou de façon dispersée est informatif sur le fonctionnement du sujet. Mais faute de théorie, la seule explication donnée est un manque d’attention ou de motivation à un moment donné de l’enfant. Il faut souligner néanmoins l’attention particulière portée aux items afin que ceux-ci ne comportent pas de biais systématiques, culturels notamment.

Le manuel du WISC-IV suggère au praticien de comparer les résultats aux sous-tests Identification de Concepts et Similitudes car cette « comparaison fournit des informations utiles sur l’influence possible de l’expression verbale sur la mesure de l’aptitude au raisonnement catégoriel de l’enfant » (Wechsler, 2005, p. 92). Pourtant une analyse de la tâche du sous-test Identification de Concepts montre l’implication de la flexibilité et de l’inhibition. D’une part, en raison de la présence de distracteurs (Grégoire, 2006), d’autre part parce que le sujet doit éventuellement modifier sa première réponse associée aux deux premières rangées si la catégorie ne permet pas d’intégrer la troisième rangée (Rozencwajg et al., 2009) ; enfin, les bonnes réponses au sous-test d’Identification de Concepts renvoient à des modes de catégorisation très variés - taxonomique, figuratif, schématique - tandis que les bonnes réponses aux Similitudes renvoient exclusivement à des modes de catégorisation taxonomique (Rozencwajg, 2007 ; Rozencwajg & Corroyer, 2007 ; Rozencwajg & Bertoux ; 2008). Il est noté pourtant dans le manuel du WISC-IV que l’analyse des démarches de l’enfant est intéressante mais ces informations additionnelles ne sont pas explicites. Même la note additionnelle aux Cubes supposée apporter « une information sur la contribution relative de la vitesse et de la


sur 63

précision dans les performances de l’enfant à ce sous-test » (Wechsler, 2005, p. 93) aurait nécessité de ne pas imposer une limite de temps comme c’est le cas quand on analyse réellement les stratégies dans les cubes (Rozencwajg & Corroyer, 2002 ; Rozencwajg et al., 2002).

3.2.1.2. Preuves de validité externe

Validité convergente – De nombreuses études corrélationnelles portant sur des tests supposés évaluer en partie le même construit : le WISC-III, la WPPSI-III, la WAIS-III, le K-ABC et la CMS, apportent des informations convaincantes à cet égard.

Validité critérielle - Grégoire (2006) présente des éléments sur la signification clinique de chaque indice factoriel. « L’ICV procure une excellente mesure de l’intelligence cristallisée… C’est un très bon prédicteur de la réussite scolaire et des apprentissages » (ibid., p. 184). « Face à des enfants qui maîtrisent mal la langue française ou qui souffrent d’un trouble du langage, l’IRP peut fournir une mesure utile d’une composante de l’intelligence qui contraste positivement avec un faible résultat à l’ICV » (ibid., p. 190). « Malgré ses limites, l’IMT peut fournir des informations cliniques intéressantes. Les recherches sur les dyslexiques ont mis en évidence un trouble fréquent de la mémoire de travail verbale qui se traduit par un déficit du stockage à court terme des données phonologiques, du fonctionnement de la boucle phonologique et une faiblesse du contrôle attentionnel et de l’inhibition durant les traitements verbaux… L’IMT est, en moyenne, significativement inférieur aux autres indices chez les enfants dyslexiques… L’IMT et l’IVT sont également plus faibles chez les sujets qui souffrent de problèmes d’attention et de concentration » (ibid., p. 192). Le manuel présente également les résultats de nombreuses études, françaises ou américaines, d’autres groupes cliniques, sur la précocité intellectuelle, les apprentissages scolaires, l’épilepsie, le retard mental (léger et moyen), les troubles du calcul, les troubles autistiques, le syndrome d’Asperger. Toutes ces données plaident en faveur du bien-fondé de l’utilisation du WISC-IV dans un large ensemble de situations d’évaluation.

En conclusion, les arguments de validité en faveur de l’interprétation des scores au WISC se fondent sur une accumulation de preuves empiriques recueillies depuis les premières versions du WISC. La structure interne a été améliorée, puisque, par exemple, le QIP ne distinguait pas l’intelligence fluide, visuo-spatiale, de la vitesse de traitement. En cas de difficultés liées au langage, le psychologue peut vérifier s’il s’agit de difficultés plus générales ou plus circonscrites, en observant l’enfant dans des tâches non verbales, indépendamment de la vitesse de traitement. Le QI total est particulièrement valide pour le diagnostic des niveaux extrêmes. Or il est très important pour qu’un diagnostic différentiel puisse être réalisé que le psychologue sache si l’enfant souffre d’un trouble d’apprentissage spécifique ou d’un retard mental plus général. Les statistiques, très nombreuses et basées sur des échantillons représentatifs et importants, permettent de déterminer les forces et faiblesses du fonctionnement de l’enfant et mettre à l’épreuve l’hétérogénéité des scores composites (différences entre indices factoriels et entre sous-tests). L’étalonnage, récent, permet d’éliminer l’effet Flynn (1984). La limite


sur 63

essentielle, critique qui s’adresse à la plupart des tests d’intelligence (Huteau & Lautrey, 1999), est que des recherches doivent être réalisées pour identifier les processus cognitifs et conatifs qui conduisent aux performances observées et améliorer ainsi la représentation du construit.

3.2.2. L’exemple du test des taches d’encre de Rorschach (Exner)

3.2.2.1. Preuves de validité interne

Le principe de base du Système Intégré est que la production des réponses au Rorschach correspond à une situation de résolution de problème, permettant d’estimer la manière dont le sujet résout les problèmes en général.

Analyse processuelle - Le modèle de production de réponse au Rorschach, selon Exner, est rationnel et descriptif. Il se fonde sur des hypothèses fonctionnelles, s’inscrivant dans le courant cognitif du traitement de l’information. Trois phases contenant chacune deux types d’opérations sont distinguées.

Phase 1 1. Encodage du champ 2. Classement des images encodées et de ses parties en réponses potentielles

Phase 2 3. Second balayage du champ pour affiner les réponses potentielles

4. Rejet des réponses inutilisables ou non désirées par comparaison deux à deux ou censure

Phase 3 5. Sélection finale parmi les réponses potentielles restantes

6. Formulation de la réponse sélectionnée

Les phases sont supposées être séquentielles, avec cependant des chevauchements. En dépit d’une apparence structurale, le modèle est en fait un modèle de fonctionnement : les unités de traitement (exception faite peut-être de l’encodage) sont définies mais peu individualisées. Exner, bien qu’il reconnaisse l’extrême difficulté à modéliser les processus cognitifs en jeu dans les différentes phases, a tenté de le faire pour l’étape d’encodage. Il a adopté des stratégies de vérification expérimentale en mesurant les temps de réponse et en enregistrant les mouvements oculaires des sujets passant le test (Exner, 1993, Andronikof & Réveillère, 2004). L’approche est qualitative pour les autres étapes. Exner postule par exemple, que dans la phase 3, une sélection s’effectue en fonction de traits ou style de personnalité. Il précise pour l’étape suivante que la sélection finale est influencée par l’état psychologique du sujet ou la situation d’évaluation. Pourtant, dans le modèle de traitement de l’information, ces types de critère de choix peuvent apparaître à tout moment du processus de traitement. C’est aussi pourquoi ce modèle se rapproche d’un modèle composantiel (il existe des opérations fondamentales en


sur 63

nombre relativement limité, qui permettent de rendre compte des processus ; encodage, comparaison deux à deux, s’effectuant de manière séquentielle), sans être pourtant aussi formalisé.

L’interprétation des scores - L’interprétation des nombreux indices issus du Rorschach est fondée sur le principe de déviation, soit l’écart entre le résultat observé et une valeur attendue, établie sur un échantillon enfant-adolescent de « non consultants » (absence d’antécédents de difficultés psychologiques, et preuve de « bon fonctionnement psychologique »)20. Certaines variables sont dimensionnelles, d’autres sont catégorielles. Les indicateurs statistiques des variables montrent, compte tenu de la distribution des scores, qu’une simple interprétation de la moyenne risquerait de fausser l’interprétation pour certaines variables dont la distribution en « J », non gaussienne, suggère d’utiliser la médiane ou le mode plutôt que la moyenne. Plus récemment, les résultats de Meyer et al., (2007) obtenus sur 31 échantillons d’enfants issus de 5 pays différents, attestent d’une grande variabilité et invitent à la prudence concernant l’interprétation des scores en références aux seuils américains.

Soulignons enfin que du fait de sa construction sans référentiel théorique et du nombre d’indices dérivés d’un protocole, la question de l’adéquation de la mesure au construit mesuré est quelque peu problématique et celle de la cohérence interne ne se pose pas vraiment. D’une certaine manière, le Rorschach n’est pas un mais plusieurs tests, ce qui rend encore plus complexe le processus de validation.


Nous prendrons ici l’exemple d’un score issu du Rorschach, le score Zd. Cet indice dérivé des travaux de Samuel Beck, mesure la manière dont le sujet saisit l’information visuelle. Son interprétation typologique se fait selon trois modalités : le sujet est dit « incorporateur normal » quand le Zd est compris entre -3 et +3, « sous-incorporateur » si Zd < -3, « sur-incorporateur » si le score est supérieur à +3. La sous-incorporation dans le balayage du champ perceptif, signifie que le sujet balaye le champ de manière hâtive, désinvolte et qu’il néglige des éléments critiques. A l’inverse, la sur-incorporation, pousse à investir un excès d’énergie dans l’activité perceptive, le traitement étant alors précis, méticuleux. Exner (1993) précise qu’au début du Système Intégré, très peu de données existaient sur cet indice. Celui-ci a été conservé

20 L’échantillon de référence se compose de 1390 enfants non consultants âgés de 5 à 16 ans, par tranche d’1 an. Exner (2003) invite à la prudence compte tenu d’un effectif considéré faible par tranche d’âge (entre 80, à 6 ans, et 140 pour les 9 et 16 ans) et compte tenu d’un biais de sélection des enfants. Il précise en effet que les parents ayant accepté la participation de leurs enfants, sont confiants sur la « performance » de ceux-ci, ce qui constitue un biais important, car cet échantillon risque de comporter une proportion importante d’enfants au très bon fonctionnement psychologique. Cette approche est assez différente de celle de Wechsler, par exemple, qui utilise un échantillon « représentatif » de la population, c’est-à-dire un échantillon incluant une proportion d’enfants pouvant présenter des traits pathologiques.


sur 63

uniquement parce que des groupes de patients psychiatriques montraient des valeurs sortant des bornes -3 et +3 plus fréquemment que les non-consultants.

Quelques résultats probants, extraits d’une publication d’Exner (2003), peuvent être rappelés. Exner et ses collègues ont ainsi observé que les enfants ayant un score Zd inférieur à -3 faisaient plus d’erreurs au jeu « Jacques a dit » que ceux ayant un score compris en -3 et +3, les enfants ayant un score Zd supérieur à +3 faisant moins d’erreurs que les précédents. Un résultat comparable est retrouvé en 1977, plusieurs Zd « sous-incorporateurs » étant identifiés chez 14 enfants diagnostiqués hyperactifs sur 15, lesquels présentaient des anomalies à l’EEG. Exner (1978) constate que la sur-incorporation apparaît plus fréquemment chez des sujets ayant des traits de personnalité obsessionnelle ou de perfectionnisme et que la sous-incorporation apparaît plus fréquemment chez des sujets manifestant des tendances impulsives dans des tâches de résolution de problème. Bien d‘autres études sont venues confirmer les liens entre l’incorporation et le mode de traitement de l’information21. Des études de suivi de psychothérapie ont également permis de montrer que la sous-incorporation, qui atteste de difficultés cognitives affectant la prise de décision complexe, peut constituer, au contraire de la sur-incorporation qui ne se modifie pas ou peu avec la thérapie, une cible thérapeutique pertinente et accessible.

Les études de validité ayant cherché à mettre en relation le Rorschach et d’autres mesures de la personnalité comme le NEOPI-R, ont conduit à des résultats qui suggèrent néanmoins que le Rorschach et les inventaires d’auto-évaluation de la personnalité mesurent des construits différents, ou peut être différents niveaux d’un même construit. Cette absence de convergence, qui n’est pas en soi une preuve d’invalidité, n’empêche pas de penser que le Rorschach « démontre, lorsqu’il est référé à des critères externes objectifs, notamment comportementaux, une bonne validité concourante. Il est particulièrement fiable pour l’évaluation comme la prédiction du résultat des psychothérapies et des interventions psychologiques, pour le diagnostic des troubles du cours de la pensée chez les patients psychotiques et pour la prédiction du risque de passage à l’acte, qu’il s’agisse de suicide ou de conduites anti-sociales » (Petot, 2004, p. 91).

21 Comparaison de la performance de « sur-incorporateurs » et de « sous-incorporateurs » dans diverses tâches cognitives (par ex., deviner un titre ou un proverbe quand une partie est masquée, tâches de mémorisation, mesure du balayage visuel mesuré dans une tâche de reconnaissance de visage,…).


sur 63

3.2.3 L’exemple de l’échelle d’anxiété et de dépression pour enfants (RCADS)

3.2.3.1 Une échelle reposant sur le DSM

De nombreux questionnaires existent, chez l’enfant comme chez l’adolescent, qui donnent une mesure de l’intensité de l’anxiété et de ses dimensions ressenties par le sujet. Plus récemment, des questionnaires portant sur des diagnostics tels les troubles anxieux et les troubles de l’humeur ont vu le jour, permettant de repérer la présence d’un trouble selon les critères diagnostiques du DSM-IV. L’échelle d’anxiété et de dépression pour enfants révisée de Chorpita, Yim, Moffitt, Umemoto & Francis (2000 ; RCADS : Revised Child Anxiety and Depression scale) représente une tentative d’évaluation des troubles anxieux et de la dépression majeure.

3.2.3.2 Preuves de validité interne

En dehors du score total, six dimensions (sous-échelles) sont recherchées, correspondant à des diagnostics de troubles anxieux et de dépression : Anxiété de séparation, Phobie sociale, Trouble Obsessionnel Compulsif (TOC), Trouble panique, Trouble de l’Anxiété généralisée (TAG) et Dépression majeure. Ces six dimensions théoriques ont été retrouvées dans plusieurs études (Chorpita, Moffitt & Gray, 2005, Muris, Meesters & Schouten, 2002), des valeurs normatives étant fournies par genre et niveau scolaire, puisque les filles ont toujours des scores plus élevés et que les peurs évoluent avec l’âge.


Chorpita, Moffitt & Gray (2005) ont étudié la RCADS sur un groupe de 513 enfants et adolescents âgés de 7 à 17,9 ans et adressés pour consultation. Les sujets ont été diagnostiqués au moyen de l’ADIS-IV, un entretien semi structuré centré sur les diagnostics DSM-IV, puis leurs résultats aux différentes échelles de la RCADS ont été comparés au résultat de l’ADIS-IV. Les enfants présentant un diagnostic de dépression, par exemple, ont des scores plus élevés que les enfants n’en présentant pas sur l’échelle de dépression ; ceux présentant un TOC ont des scores plus élevés que les sujets anxieux (sur un autre trouble) sur l’échelle TOC, et ainsi de suite. Les auteurs ont aussi administré un questionnaire d’anxiété (RCMAS) et un questionnaire de dépression (CDI) : les corrélations avec le RCADS vont dans le sens attendu. En particulier, l’échelle TAG de la RCADS corrèle bien avec l’échelle « inquiétude » de la RCMAS alors que l’échelle trouble panique de la RCADS corrèle avec l’échelle d’anxiété physiologique de la RCMAS (voir pour des résultats de même nature, Muris, Meesters, & Schouten, 2002).

En résumé, la RCADS se focalise sur les troubles anxieux les plus fréquents de l’enfant et de l’adolescent à l’exception de l’état de stress post-traumatique et de l’état de stress aigu (moins fréquents) et sur un seul trouble de l’humeur, la dépression majeure. Son intérêt est de porter sur des troubles « internalisés », parfois ignorés par les adultes qui entourent l’enfant ou


sur 63

l’adolescent, et d’aider le psychologue dans le diagnostic psychologique d’un trouble anxieux ou de dépression.


sur 63

4. L’évaluation de la validité en pratique : identifier les questions pertinentes, dégager leur priorité

près avoir présenté l’évolution des idées à propos du concept de validité, puis traité de la validité des modèles et des outils à partir d’exemples dans le domaine de l’intelligence et de la personnalité, cette dernière partie aborde la question de la

validité dans le contexte de l’examen psychologique. Les deux situations choisies, qui relèvent du domaine scolaire, permettent de baliser les différentes étapes de l’évaluation : problème posé, hypothèses (adoption d’un ou plusieurs modèles théoriques), choix d’outils, interprétation et utilisation des résultats. Sans prétendre donner ici les jalons d’une démarche canonique, et encore moins de faire quelques préconisations, ces deux « vignettes cliniques » offrent matière à réflexion pour s’interroger sur la validité et la validation à différentes étapes de la démarche. La première situation est celle d’une jeune élève dont il s’agit de comprendre et remédier aux difficultés scolaires ; la seconde, celle d’un adolescent devant résoudre des questions d’orientation. Ces deux exemples sont ainsi complémentaires au niveau des tranches d’âge (enfance, adolescence) et des problématiques (l’accent sera mis sur le versant cognitif dans le premier cas et sur la sphère conative dans le second). Le groupe d’expert avait envisagé de traiter également de la démarche de l’examen psychologique auprès du jeune enfant mais cela n’a pas été fait pour des questions de place et de temps.

4.1. Exemple de bilan chez un enfant rencontrant des difficultés d’apprentissage scolaire

L’évaluation, tout en n’étant qu’un aspect de l’activité du psychologue clinicien, en constitue néanmoins un temps fort, où les compétences qui définissent son expertise professionnelle sont fortement mobilisées, que ce soit dans le choix des outils ou dans l’effort d’interprétation qui accompagne la collecte de données. La situation choisie pour illustrer l’importance des questions de validité dans la pratique de l’évaluation psychologique est volontairement banale : il s’agit d’une demande de bilan faisant suite à d’importantes difficultés d’apprentissage rencontrées par l’enfant dans le cadre scolaire. De nombreuses hypothèses peuvent être a priori générées autour de ce motif de consultation. S’agit-il de difficultés consécutives à des lacunes scolaires antérieures ? A des troubles du fonctionnement cognitif ? L’enfant est-il particulièrement anxieux ou inhibé ? Les attentes parentales quant aux résultats scolaires sont-elles très fortes ? Le rapport de l’enfant à l’enseignant est-il problématique ?

L’objectif est de montrer que dans une situation concrète poursuivant des objectifs spécifiques (ici comprendre la situation de problème de Marion en vue de lui proposer des aides éducatives adaptées), les modèles théoriques et les mesures qu’utilise le psychologue, bien qu’ils puissent être intrinsèquement valides, au sens où le terme a été précédemment défini, ne garantissent pas pour autant l’entière cohérence et pertinence des interprétations qui seront

A


sur 63

construites et des décisions auxquelles elles conduiront. En effet, les compétences du psychologue et les diverses contraintes auxquelles il a à faire face dans le contexte particulier de l’examen psychologique de l’enfant, l’amènent nécessairement à devoir faire des choix théoriques et techniques qui limitent inévitablement le champ des interprétations possibles de la situation problème. De fait, dans la pratique concrète de l’examen psychologique, la validité n’est sans doute jamais définitivement acquise : elle est un idéal vers lequel le psychologue peut (doit) tendre, un questionnement systématique sur les choix opérés et sur les interprétations qui en découlent devant y contribuer. On voit bien dès lors les enjeux déontologiques, sociaux et humains de cette question puisque, au final, ces choix et ces interprétations ont des conséquences directes sur la nature des décisions que le psychologue aura à prendre au terme du bilan psychologique.

4.1.1. Marion, une élève de CE1 en difficulté

L’exemple fictif proposé ci-dessous vise plus précisément à montrer que le contexte de l’examen psychologique génère des représentations plus ou moins explicites de la situation problème et engage le psychologue à utiliser certains outils qui ne sont pas sans conséquence sur la validité des interprétations proposées à partir des observations effectuées chez l’enfant. La situation présentée est assez classique en psychologie de l’éducation appliquée au contexte scolaire. Elle relate une demande adressée au psychologue de l’éducation nationale par une enseignante de CE1 à propos de l’une de ses élèves, Marion, qui présente des difficultés sérieuses d’apprentissage de la lecture/écriture. Dans la feuille de signalement que l’enseignante remet au psychologue, on apprend que Marion a redoublé le Cours Préparatoire et qu’elle a fait l’objet d’un suivi orthophonique pendant son année de Grande Section de Maternelle et au cours de sa première année de Cours Préparatoire. L’enseignante indique que les difficultés de l’enfant semblent persister en dépit des aides pédagogiques qu’elle a mises en œuvre dans sa classe durant le premier trimestre de l’année scolaire. Par ailleurs, elle décrit Marion comme peu autonome (elle demande souvent de l’aide), peu attentive et peu organisée dans les tâches scolaires (difficultés à planifier les différentes étapes des tâches à réaliser). Marion se décourage rapidement et manque de confiance en elle. Toutefois, l’enfant est bien intégrée en classe et ses relations avec les autres enfants de l’école ne semblent pas poser de problème. On admettra que cette description minimale est suffisante pour que le psychologue réalise un bilan psychologique en réponse à la demande d’aide de l’enseignante puis des parents dans la perspective de proposer des mesures d‘aide et/ou un conseil en direction de l’école et de la famille.

4.1.2. La question du choix du modèle théorique de référence et ses implications en termes de validité.

Le champ des hypothèses à explorer est vaste et l’évaluation pratiquée par le psychologue ne peut répondre qu’en partie aux différentes questions possibles. S’il est probable que tous les psychologues (mais pas uniquement eux) vont dès la description des indicateurs de difficultés mobiliser un modèle explicatif général de cette situation problème (voir les travaux en


sur 63

psychologie sociale sur ce sujet ; Leyens, 1983), pour autant tous ne s’en construiront pas une représentation initiale identique. Certains pourront immédiatement appréhender les difficultés scolaires de Marion comme une conséquence d’un ensemble de difficultés affectivo-motivationnelles ayant pour effet d’inhiber ses capacités cognitives. D’autres y verront essentiellement la manifestation de troubles cognitifs et langagiers plus ou moins spécifiques altérant les mécanismes de la lecture et de l’écriture. D’autres, enfin, peuvent envisager une perspective plus intégrative par association des deux conceptions théoriques précédentes.

Dans les deux premiers cas, il est probable que le fait de travailler dans une institution auprès d’enfants présentant fréquemment des caractéristiques détermine un biais de représentativité (Grégoire, 2006) ayant pour effet de renforcer un positionnement théorique. Quoi qu’il en soit, privilégier un modèle théorique unique engage dans une démarche qui risque d’occulter la génération d’hypothèses complémentaires. En cela, un tel choix altère les interprétations possibles du problème et donc la validité du construit de départ et de la démarche qui sera utilisée. En effet, le modèle initial peut générer un biais de confirmation (Grégoire, ibid.) consistant à chercher ou à interpréter des informations de manière à ce qu'elles corroborent les présupposés de départ. De fait, le choix des outils d’évaluation ou de la démarche de prise d’information peut être déterminé par ce biais, ce qui peut entraîner l’absence de prise en compte d’hypothèses concurrentes et l’absence de tests d’hypothèses contraires (validité divergente). Les choix qu’adopte le psychologue ont bien alors des conséquences sur son interprétation, alors partielle, qu’il peut faire du problème.

La perspective intégrative (par ex., Michel et al., 2008) paraît a priori plus adéquate, au sens où elle est plus globale, et donc plus à même de générer une grande diversité d’hypothèses. Elle peut contribuer à réduire le biais de confirmation et à ouvrir sur des interprétations plus larges. Toutefois, elle peut se heurter à la difficulté de devoir donner un sens général à des informations issues d’hypothèses concurrentes, difficulté d’autant plus grande qu’il n’existe pas, en psychologie, de modèle général intégratif : le psychologue est alors confronté à une mosaïque de modèles parcellaires, plus ou moins compatibles entre eux. L’impossibilité dans laquelle il se trouve d’embrasser la totalité du champ théorique qu’il serait nécessaire de prendre en compte l’amène à privilégier les hypothèses se rapportant au domaine qu’il maîtrise le mieux. Du fait de la quantité et de la diversité des informations à traiter, la perspective intégrative impose également au psychologue une plus grande flexibilité cognitive (cf. le problème des limites de la mémoire de travail décrites par Grégoire (2006, p. 33). Elle exige également de la part du psychologue des connaissances et une compétence professionnelle élargies qui ne sont pas systématiquement proposées en formation initiale. Enfin, il faut remarquer que l’évaluation psychologique est associée à un biais dans la manière d’aborder le problème rencontré par l’enfant : les variables internes (efficacité cognitive, motivation, conflits internes…) sont les seules qui sont directement explorées par le psychologue car ce sont les seules pour lesquelles il est armé d’outils de mesure qui portent son analyse au-delà de ce que permet le sens commun. L’analyse des variables externes est beaucoup moins poussée. Les conditions pratiques


sur 63

d’exercice du métier conduisent le psychologue à renoncer à mieux documenter la situation problématique en se déplaçant sur le terrain, où il pourrait vraisemblablement réaliser des observations éclairantes et recueillir des témoignages de première main. Pour ces différentes raisons, on doit considérer que le regard porté par le psychologue sur la situation problème ne peut être exhaustif. D’emblée, le praticien aborde la question posée en fonction des réponses qu’il se sait capable d’apporter. Son point de vue est surdéterminé à la fois par les outils dont il dispose, par les conditions professionnelles dans lesquelles s’exerce le métier et par les modèles de référence sur lesquels il a choisi d’adosser sa pratique.

4.1.3. La question du choix des outils d’évaluation

Les limitations pratiques qui s’imposent à l’exercice de l’activité du psychologue justifient l’importance qu’il y a à garder, en situation d’évaluation, un cadre d’analyse le plus ouvert possible à différentes hypothèses concurrentes. Sans préjuger de la possibilité d’envisager d’autres hypothèses, les difficultés et le parcours scolaires de Marion, tels qu’ils sont décrits par l’enseignante, peuvent amener le psychologue à s’interroger sur l’existence d’un trouble général ou spécifique des apprentissages. Le psychologue choisit généralement en première intention, face à des difficultés scolaires chez un enfant, d’évaluer l’efficience intellectuelle à un niveau général. Cette précaution est nécessaire si les éléments relatifs n’ont pas déjà été recueillis par ailleurs dans la mesure où l’hypothèse de difficultés spécifiques nécessite d’exclure l’hypothèse de difficultés cognitives à un niveau général. Dans ce domaine, le choix qui s’offre au psychologue est relativement large puisqu’il existe de nombreux outils récents conçus dans cette perspective et adaptés à l’âge de Marion (WISC-IV, K-ABC-II, Progressives Matrices de Raven, NEMI-2, NNAT, par exemple). Tous ces outils ne sont pas cependant du même niveau de généralité, certains comme le WISC-IV ou le K-ABC-II permettant un balayage plus large des ressources cognitives et un diagnostic différentiel plus éclairant que d’autres, comme les Progressives Matrices de Raven. Se pose dès lors la question de savoir quelles sont les raisons motivant le choix d’un outil en particulier, et les conséquences que cela entraîne en termes d’interprétation des informations recueillies au moyen de l’instrument choisi.

Les échelles de Wechsler sont souvent privilégiées. Cet usage est justifié au plan pragmatique par la large diffusion de cet outil auprès des psychologues, ce qui permet de faciliter les échanges autour de références communes, mais aussi par l’effort de validation et de clarification des construits sous-jacents (cf. partie 3). On peut supposer que la connaissance pratique et technique que le psychologue a de l’outil est un élément déterminant de son choix. Cet argument est crucial puisqu’il est sans aucun doute déontologiquement souhaitable que le psychologue utilise un instrument qu’il maîtrise bien et avec lequel il se sente à l’aise. Toutefois, le temps passant, le risque est également de privilégier des pratiques systématiques conduisant à utiliser des outils obsolètes, tant du point de vue psychométrique que théorique. Par exemple, quelle pourrait être aujourd’hui, la valeur des interprétations provenant de mesures obtenues à l’aide du WISC-R (Wechsler, 1981) publié en France il y a près de 30 ans ? Dans le même ordre d’idée, est-il pertinent au regard des évolutions récentes des échelles de Weschler (cf. ci-dessus § sur le


sur 63

WISC-IV) d’utiliser le WISC-III et de donner une interprétation des performances obtenues aux échelles verbales et de performances ?

Des contraintes de temps peuvent également inciter le psychologue à choisir un outil rapide ou bien à prélever dans une batterie quelques sous-tests susceptibles de correspondre à ses objectifs, tout en offrant la possibilité d’une passation courte. Toutefois, le psychologue serait en devoir de se demander si, comparativement à d’autres, les mesures effectuées avec ces instruments aboutissent à des interprétations identiques. Quelles connaissances a-t-il de l’intérêt et des limites de chacun de ces outils ? Cette question est d’autant plus importante qu’on ne dispose pas toujours d’études permettant de comparer les propriétés métriques des outils d’évaluations et donc d’indicateurs d’aide au choix des outils. On pourrait considérer enfin que c’est fondamentalement le cadre théorique de référence de l’instrument qui doit guider prioritairement le choix du psychologue. Bien que cette position soit également souhaitable d’un point de vue déontologique, elle pose le problème du choix et de la validité du cadre théorique privilégié lorsque plusieurs modèles alternatifs sont possibles. Dit autrement, le psychologue, dans le cas présent, doit-il mieux utiliser le WISC-IV qui découle du modèle CHC ou bien le K-ABC-II d’inspiration neuropsychologique et qui, contrairement à la version 1, laisse le choix entre deux modèles d'interprétation (CHC et Luria) ?

Parmi les variables intrinsèques au sujet sur lesquelles le psychologue peut se pencher, un traitement équitable devrait être réservé à l’examen des ressources cognitives de l’individu et à celui de ses capacités d'ajustement aux situations difficiles (coping). C’est loin d’être la règle actuellement. Sans s’appesantir sur des choix d’école qui viendraient motiver la préférence exclusive pour l’une ou l’autre de ces composantes de l’individualité, on ne peut manquer d’être frappé par l’asymétrie qui existe dans la proposition d’outils ayant fait l’objet d'une validation récente. La lecture du catalogue du principal éditeur de tests français suffit pour appréhender le problème: les outils d'évaluation cognitive (tests d’intelligence et neuropsychologiques confondus) ayant fait l’objet d'une validation récente sont nettement plus nombreux que les outils permettant d'examiner les capacités d'ajustement (supports projectifs et questionnaires confondus). Pour ces derniers, et lorsque l’on se cantonne aux enfants de l’école primaire, seuls deux questionnaires, l’échelle composite de dépression pour enfants (MDI-C ; Berndt & Kaiser, 1999) et le « Revised Children's Manifest Anxiety Scale » (RCMAS ; Turgeon & Chartrand, 2003) se prêteraient à une discussion autour de la validité. L’intérêt de ces deux outils pour explorer l’impact des difficultés scolaires a d’ailleurs été mis en évidence (Mariage & David, 2001). Aucun des autres outils proposés n’a fait l’objet d’un effort de validation récent en référence à un modèle explicite. Des progrès doivent être faits à ce niveau de façon à rejoindre les standards de validation qui constituent la norme pour les outils d’évaluation cognitive. Il existe d’ores et déjà des outils validés permettant d’évaluer les ressources adaptatives face aux situations difficiles ; leur utilisation doit se généraliser davantage.

4.1.4. La question de l’interprétation des scores


sur 63

Au-delà des problèmes relatifs au modèle théorique de référence et au choix de l’outil d’évaluation, se pose la question des interprétations que le psychologue va produire à partir des scores aux épreuves qu’il est amener à utiliser. Cette question est sans doute plus complexe qu’il n’y paraît au premier abord du fait que l’interprétation ne dépend pas uniquement de la mesure (ou de l’application de critères) mais bien d’une question théorique plus générale puisque interpréter un score c’est fondamentalement générer une connaissance qui s’inscrit dans un cadre théorique plus général. Or le fait que de nombreux concepts utilisés en psychologie soient utilisés dans le sens commun, qu’ils n’aient pas nécessairement fait l’objet de constructions théoriques élaborées et consensuelles, le fait également que les scores ne puissent rendre compte d’un construit psychologique pur, peut contribuer à produire des interprétations limitées ou pauvres des scores. Il en résulte que l’interprétation des scores devrait prioritairement dépendre de la connaissance/maîtrise du cadre théorique référé à l’instrument d’évaluation et au construit psychologique qu’il mesure. En d’autres termes, c’est ce cadre de référence qui peut permettre au praticien de justifier les éléments d’interprétation des scores.

L’exemple de Marion peut nous permettre d’illustrer ce propos. Les descriptions fournies par l’enseignant pourraient suggérer des difficultés attentionnelles et de planification (Marion est décrite comme peu attentive et peu organisée dans les tâches scolaires. Comparée aux versions antérieures, la publication du WISC-IV, avec son changement de référentiel théorique, la moindre importance accordée au QIT et le poids accru des autres indices dans la construction de l’interprétation des résultats, permet des interprétations plus détaillées et facilite le questionnement autour de difficultés cognitives spécifiques par une meilleure compatibilité avec l’approche neuropsychologique. Il serait erroné cependant de supposer que ce rapprochement permet de considérer l’administration d’une batterie de type WISC-IV ou KABC-II comme l’équivalent d’un bilan neuropsychologique. L’ambition de ces outils demeure de caractériser le fonctionnement intellectuel au moyen de construits dont la portée explicative est souhaitée aussi large que possible. Au contraire, les épreuves neuropsychologiques visent davantage à évaluer des traitements spécifiques, de moindre généralité. Les éléments recueillis suffisent cependant pour évaluer la pertinence d’un approfondissement de l’analyse cognitive à un niveau plus spécifique. Le manuel du WISC-IV (Wechsler, 2005) comprend des valeurs de comparaison pour différents échantillons diagnostiques (troubles de l’attention, troubles d’acquisition de la lecture…) qui guident utilement le clinicien dans la décision de poursuivre ou pas les investigations.

4.1.5. La validité du modèle : exemple de la NEPSY

L’évaluation neuropsychologique est restée pendant longtemps un domaine assez confidentiel, surtout développé pour la clinique adulte des traumas cérébraux et des accidents vasculaires. Le développement de la NEPSY au cours des années 90 (Korkman, Kirk & Kemp, 1998, Korkman et al., 2003, pour l'édition française) a donné un net coup de pouce à la diffusion de cette approche pour le public enfant. La NEPSY a été développée pour pallier l'absence d'outils d'évaluation solidement validés pour la population enfant (Korkman, 1999).


sur 63

L'étalonnage concerne la tranche d'âge 3-12 ans. La batterie NEPSY comprend 22 sous-tests répartis en cinq domaines (langage, traitements visuo-spatiaux, attention / fonctions exécutives, fonctions sensori-motrices, mémoire et apprentissage). Une note par domaine de moyenne 100 et d'écart-type 15 est calculée par sommation des notes standardisées aux différentes épreuves. Ce mode de cotation est familier pour le psychologue clinicien, mais il peut induire un certain nombre d'attentes qui ne sont pas fondées pour ce qui concerne la NEPSY. En effet, les regroupements par domaines ne sont pas sous tendus par une logique de groupement factoriel mais par une logique de pertinence diagnostique. Les différentes épreuves retenues constituent des adaptations d'épreuves classiques en neuropsychologie de l'enfant. Le choix des sous-tests a été effectué de manière à élargir le plus possible la gamme des processus investigués tout en privilégiant les épreuves qui paraissaient constituer les meilleurs marqueurs pour différents troubles cognitifs (Kemp, Kirk & Korkman, 2001).

Au niveau de l'interprétation des scores, il y a moins de pertinence à s'intéresser aux notes par domaine que pour d'autres batteries, même si des convergences avec les batteries d'efficience générale sont attendues dès le moment où l'on quitte le niveau des épreuves elles-mêmes pour regrouper les notes en indices. Si un domaine peut être réussi ou chuté dans ses différentes composantes, une convergence de résultat des différents sous-tests d'un même domaine n'est pas particulièrement attendue avec la NEPSY. Les corrélations entre épreuves d'un même domaine sont d'ailleurs modérées à faibles. L'hétérogénéité des résultats au sein d'un même domaine n'est pas considérée comme problématique au niveau de l'interprétation mais au contraire riche de sens puisque cela permet de mieux préciser quel type de traitement est affecté au sein d'un domaine. La démarche d'évaluation recommandée consiste à balayer d'abord un spectre large de traitements cognitifs au moyen du bilan standard pour ensuite approfondir l'analyse des difficultés repérées avec les multiples sous-tests complémentaires que comprend la batterie NEPSY.

Le modèle interprétatif à l'arrière plan de la NEPSY est adapté de l'approche diagnostique de Luria. On trouve dans l'article de Korkman (1999) l'énoncé le plus explicite du rationnel qui sous-tend l'application de ce modèle à l'enfant via la NEPSY. Le modèle de Luria est basé sur la clinique neuropsychologique de l'adulte, constituée majoritairement de lésions focales venant altérer des fonctions cognitives auparavant efficaces. Ce modèle d'analyse peut être conservé dans ces grands principes (par exemple la répartition en cinq grands domaines fonctionnels qui se subdivisent en processus de base) mais il ne peut être transposé à l'enfant que sous une forme « affaiblie ». Premièrement, chez l'enfant, contrairement à l'adulte, les altérations du tissu cérébral sont le plus souvent diffuses ou difficiles à mettre en évidence in vivo. Deuxièmement, les possibilités de réorganisation fonctionnelles sont plus importantes que chez l'adulte et la comorbidité est la règle. Enfin, et c'est une conséquence directe, les tableaux cliniques sont moins précisément définis que chez l'adulte avec des recouvrements importants entre différentes entités.


sur 63

En conséquence, il ne faut pas s'attendre à trouver dans le bilan NEPSY de marqueurs univoques qui permettraient le repérage certain de tel ou tel trouble spécifique voire de « deviner » des lésions cérébrales. On trouve d'ailleurs une mise en garde explicite à ce sujet dans Kemp et collaborateurs (2001, overview, p.9) : « …une extrême prudence doit être de mise pour toute inférence sur la pathologie cérébrale sous-jacente ». Les mêmes auteurs recommandent vivement, un peu plus loin dans le texte, d'interpréter les données en restant au niveau des processus cognitifs. Dans une démarche inverse, il peut par contre s'avérer intéressant d'utiliser la NEPSY pour affiner la connaissance du profil cognitif dans le cadre de diagnostics déjà connus (par ex., Barray et al., 2008 ; Riddle et al., 2005). Dans sa démarche d'interprétation, le psychologue clinicien doit se référer à un système diagnostique suffisamment consensuel au plan international et s'appuyer sur une bonne connaissance des recherches visant à préciser les caractéristiques cognitives associées aux troubles spécifiques rencontrés chez l'enfant. A cet effet, la publication de synthèses de la littérature scientifique, régulièrement mises à jour par des spécialistes du domaine, largement diffusées à destination des praticiens apparaît hautement souhaitable pour conserver une articulation suffisante entre l'évolution de la recherche et la pratique de terrain. Des exemples de ce genre existent (par ex., Rickel & Brown, 2007 ; expertise collective Inserm, 2007), ils sont à encourager.

4.2. Bilan d'orientation

4.2.1. Introduction : aspects nomothétique et/ou idiographique de l’évaluation

La question du bilan d'orientation, et plus généralement du choix des modèles, des méthodes et des outils d'évaluation dans le conseil psychologique, nécessite de dépasser les prises de position strictement idéologiques, comme l'écrivait Zarka (1977) : « Défendre d’emblée la prescriptivité du conseiller ou la nier, c’est prendre une position idéologique (et non poser un problème de théorie) ». L'utilisation du terme bilan sous-entend souvent l'utilisation de tests d'évaluation de certaines grandes dimensions des sphères cognitives et conatives. Cette approche se voit souvent associée à l'idée de « normalité », voire de « normalisation », d'où, d'ailleurs, sa dénomination d'approche nomothétique. Pour autant, les approches cliniques, au sens que donnait Lagache à ce terme : « étude approfondie des cas individuels », ne sont pas nécessairement antinomiques de l'utilisation d'épreuves standardisées. Ce qui importe dans ce cas est plutôt la possibilité laissée au consultant de s'approprier les résultats des mesures, de les exploiter dans une démarche qui vise à augmenter son autonomie, à partir d'informations qui n'étaient pas directement à sa disposition. Cette différence dans la conception du conseil psychologique, qui passe de prescriptif au statut de conseil délibératif (L'Hotellier, 2000), recouvre également l'opposition entre les notions d'emprise et d'auto-emprise dans l'évaluation, chères à Lemoine (Bernaud & Lemoine, 2007).

Les recherches, ces dernières décennies, sur les effets de la restitution de tests et l'évaluation dynamique, montrent l'efficacité supérieure des bilans qui associent approches nomothétique et idiosyncrasique (ou constructiviste ; Bernaud, 2007, 2009). Ceci dit, il est nécessaire, qu'il


sur 63

s'agisse de comparer à des normes ou de mettre en évidence des caractéristiques personnelles singulières, de s'assurer de la pertinence des observations et du bien-fondé des interprétations qui en sont déduites. En cela, l'épreuve aux meilleures qualités psychométriques, mais à faible validité écologique22, ne saurait être préférée à celle qui montrera une bonne validité prédictive, bien qu'issue d'un modèle théorique peu fiable. Le psychologue doit donc avoir accès, non seulement aux données de validation nomothétique, mais également à l'ensemble des réponses singulières du consultant, et pas seulement à des résumés illustrés, ni des « rapports (ou des comptes-rendus) automatisés », la multiplication des applications informatisées pouvant laisser penser que le développeur à l'origine de l’application peut pallier le manque de formation du psychologue évaluateur. L’étude de cas qui suit illustre cette démarche associant les approches nomothétique et idiographique.

4.2.2. Aide à la détermination d’un projet professionnel chez un jeune de 16 ans

Le bilan de Herminio, élève de 16 ans ½ scolarisé en 4ème est demandé par la maman qui s'inquiète de l'échéance du palier d'orientation de fin de collège. L'adolescent est suivi en psychothérapie depuis plusieurs années, des problèmes d'identité sont évoqués. Il a été adressé pour une aide à la détermination d'un projet professionnel. La maman souligne le manque de motivation scolaire de son fils et l'attribue à la difficulté à se projeter dans l'avenir.

Au moment où nous le rencontrons, Herminio triple sa 4ème. Il dit ne pas travailler et s'il envisage de poursuivre en 3ème, ce n'est pas dans le but de poursuivre une formation qu'il aurait envisagée par la suite. Son passé scolaire semble marqué par des difficultés croissantes que sa mère attribue surtout à des causes externes (redoublement non proposé en 6ème, fréquentation de « cas sociaux » au cours de la seconde année de 4ème en internat), difficultés qu’il attribue pour sa part à un manque de travail en général, de compréhension et/ou de méthode dans certaines disciplines. Ce grand adolescent un peu triste et qui déclare « baisser les bras », se dévalorise beaucoup par rapport à ses congénères. Il a abandonné des projets ambitieux qui le projetaient dans des carrières paramédicales et ne trouve de source de satisfaction que dans ses loisirs (musique, sport). Les parents, qui occupent des positions sociales de cadres supérieurs, avaient visiblement des projets ambitieux pour leur enfant. Ils se désolent de son manque d'appétence pour la scolarité et la culture en général. La question récurrente pour la mère est de savoir que prévoir pour l'année prochaine : continuer envers et contre tout, ou envisager d'autre solutions, peut-être une formation professionnelle en alternance ? Vers la fin de l'entretien, la maman s'exprime sur les raisons du suivi psychothérapeutique : ils ne sont, ni elle, ni son mari, les parents naturels de cet enfant. Il a été adopté à l'âge de 5 ans. Originaire du Sud-est asiatique, il

22 Le concept de validité écologique renvoie au contenu informatif des items, qui doit correspondre au plus près à ce que l’enfant rencontre habituellement dans son environnement, et capitaliser sur le répertoire de ses réponses disponibles (Lewkowicz, 2001).


sur 63

vivait une situation de dénuement extrême, y compris culturel. Non scolarisé, livré à lui-même, « c'était un enfant sauvage » dit la mère.

4.2.3. Hypothèses et méthode

Différentes hypothèses et pistes de travail peuvent être élaborées à partir de ce canevas d'entretien. Des préoccupations psychopédagogiques peuvent pousser le praticien à explorer les aspects cognitifs du fonctionnement intellectuel d'Herminio, afin d'identifier d'éventuelles pistes de remédiation. On peut être sensible aux aspects affectifs de cette situation, et à leurs répercussions sur l'image de soi de cet adolescent, comme sur la difficulté à faire le deuil de projets d'avenir prestigieux chez ses parents adoptifs. Des épreuves de type projectif pourraient être utilisées afin d'établir un diagnostic précis des effets pathologiques de ses premières expériences de vie. D'un point de vue pragmatique, une évaluation experte de ses aspirations pourrait conduire à un pronostic d'adaptation à différentes filières de formation.

Pourtant, le propre de l'examen psychologique de conseil est moins de réaliser un diagnostic que de produire des informations pour le sujet, afin de l'amener à construire un nouveau point de vue de sa situation et à envisager plusieurs issues hypothétiques. « L’intérêt que prend le conseiller à connaître son interlocuteur éveille l’intérêt de l’interlocuteur à se connaître : la démarche diagnostic se transforme en processus d’intervention » (Zarka, 1977). Les prémisses sur lesquelles se fondent les réflexions actuelles des protagonistes sont liées aux résultats scolaires, aux intérêts exprimés (ou plutôt non exprimables), à des sentiments contradictoires et, en partie, voilés. L'utilisation d'épreuves standardisées aura pour effet d'objectiver certaines de ces dimensions, de permettre à Herminio de s'approprier ses représentations de la situation, à partir de réponses tangibles à des inventaires relativement exhaustifs des motivations des adolescents. Il est néanmoins évident que la recherche d'une autre vérité que l'exactitude de la mesure d'un écart à des normes ne nous autorise pas à utiliser des outils dont le champ d'investigation est nébuleux. Par ailleurs le choix de ne se fier qu'à son sens clinique et de ne se cantonner qu'au déclaratif risque d'opérer une confusion avec le travail entrepris en psychothérapie. L’action du conseil, ici, « se focalise autour des attitudes concernant directement le problème tout en tenant compte de la personne toute entière » (Zarka, 1977).

4.2.3.1. Évaluation dans le domaine cognitif

Si l'on veut éviter un discours qui positionne Herminio par rapport à « l'élève moyen », il est utile de faire la part entre le manque de travail, les connaissances et les capacités cognitives. Un temps d'intervention plus conséquent permettrait l'utilisation d'échelles d'intelligence, situation riche d'observations cliniques, mais la nécessaire brièveté du bilan ne doit pas conduire à faire l'impasse sur des compétences, difficilement identifiables pour un observateur naïf. Le test d’aptitude non verbale de Naglieri (1998), employé dans ce contexte, révèle qu’Herminio se situe à presque 2 écarts-types en dessous des résultats de ses pairs, et que seulement 14% des élèves de 4ème obtiennent des scores plus faibles. Le sentiment d'échec qu'il éprouve de plus en plus vivement ne parait pas devoir être attribué préférentiellement à un manque de motivation et


sur 63

de travail. On comprendrait, par contre, qu'une baisse de ces derniers en soit la conséquence. Ce constat pourra néanmoins témoigner de la bonne volonté du jeune homme qui a su résister au découragement et engranger des connaissances que ses enseignants lui reconnaissent, malgré tout, dans un bulletin scolaire très faible.

4.2.3.2. Évaluation dans le domaine affectivo-motivationnel

Toujours dans la perspective de souligner des éléments tangibles et d'en tenir compte dans le conseil, nous avons évalué la motivation à la réussite (AMP, Mandel, Friedland & Marcus, 2002). Là encore, plus qu'une auto-description libre, la comparaison à ses pairs était recherchée. Les qualités psychométriques de l’épreuve sont bonnes pour les dimensions motivation à la réussite, ressources personnelles… mais plus faibles pour les échelles d’intérêt professionnel, c'est pourquoi d'autres tests ont été proposés. Le praticien attentif peut ainsi choisir de prêter une moindre attention à certains résultats, sans pour autant devoir renoncer à l'évaluation de caractéristiques que cette épreuve est la seule à réaliser comme la motivation ou les habitudes de travail. Le modèle théorique, même s'il fait référence aux travaux d'Erikson, semble assez pragmatique et mettre en jeu une opérationnalisation de facteurs explicatifs connus des psychologues a priori. L'important dans cette évaluation est d'avoir un échantillonnage large de situations sur lesquelles se positionne le consultant, et surtout, au delà des scores standardisés, l'ensemble de ses réponses que le psychologue va examiner et soumettre à sa propre interprétation.

Dans le cas d'Herminio, le plus frappant est l'aspect dépressif qui se dégage de l'ensemble du profil. Même décontextualisées de la sphère scolaire, les réponses du jeune montrent un doute important sur ses qualités et sa valeur. La faiblesse soulignée de l'outil pour l'évaluation des intérêts nous a conduit à en proposer deux autres : LIMEF (système informatisé pour l’évaluation des intérêts professionnels et de la motivation, Segal & Duron, 1998) et le RIP (Relevé d'Intérêts Professionnels, Botteman, Forner & Sontag, 1997). Les manuels font, l'un comme l'autre, une grande place aux informations scientifiques et techniques indispensables aux praticiens. Le profil peu différencié obtenu avec le LIMEF est compréhensible à partir du modèle théorique puisque les compétences auto-évaluées sont prises en compte, et l'on sait ce qu'il en est pour ce cas. Inversement l'approche ipsative23 et les choix des domaines d'évaluation du RIP sont susceptibles de « forcer le trait » pour ce jeune homme. Les résultats, dans un cas comme dans l'autre, montrent des intérêts pour des activités de type sociales et valorisantes pour le corps (respectivement spectacle et sport) ; on trouve également une attirance pour le secteur paramédical. La détermination d'un profil, établi à partir de choix forcés d'activités et de professions volontairement stéréotypées, suppose une représentation commune des dimensions qui structurent l'offre professionnelle, et la possibilité de procéder à un appariement des deux

23 On parle d’approche ipsative lorsque la référence est l’individu lui-même (être par exemple plus anxieux qu’impulsif, plus efficient dans le domaine verbal que dans le domaine spatial).


sur 63

(Huteau, 1982). Nous pouvons faire l'hypothèse que pour Herminio, des construits personnels peuvent lui permettre d'organiser ses représentations professionnelles et ses représentations de soi.

4.2.3.3. Approche idiographique

Quittant l'approche nomothétique nous proposons à Herminio d'examiner les métiers et activités choisis électivement dans le RIP, et de procéder à des regroupements selon ses propres critères. Nous obtenons une image assez différente, cette fois-ci, de ce qui peut lui apparaître comme désirable pour son avenir. Il est frappant de constater que les descriptifs d'activités correspondant aux métiers choisis dans le secteur social, contiennent pratiquement tous le verbe « aider », concernent des activités qui nécessitent un contact avec les autres, sont signifiantes d'activités « dynamiques ». Explicitant ces regroupements, Herminio indique une volonté de privilégier les contacts sociaux mais dans la perspective d'améliorer les conditions matérielles de ses semblables. Dans une réorganisation après coup de ses valeurs il nous signifie que, ce qui serait pour lui un idéal, serait d'aider les enfants et les familles de son pays d'origine par exemple en participant à l'organisation de campagnes de soins, ou d'aménagement des conditions de vie (constructions de logements). Finalement loin d'envisager des activités « charitables » chez nous, on peut comprendre ces projets comme une identification à ses origines, et une volonté de « réparation » d'un éloignement de ses conditions de vie initiales, causé par son adoption. Ses expériences passées et les intérêts qu'il exprime à ce moment, peuvent trouver à s'exprimer dans diverses formations professionnelles susceptibles de déboucher sur des réalisations en phase avec ses aspirations dans son pays d'origine. Un tel projet humanitaire, dont il convient de baliser ensemble les étapes, ne peut que trouver grâce aux yeux de ses proches qui partagent ces mêmes valeurs, et donner lieu à une valorisation des qualités d'Herminio qui ne trouvent pas à s'exprimer dans le contexte actuel.

4 2.4. Conclusion

On le voit, l'ensemble des dimensions utilisées comme support à l'investigation d'une image de soi valorisante chez cet adolescent sont à la fois tangibles (en référence à des adolescents comme lui), et en même temps intimes car c'est de leur combinaison qu'Herminio a pu donner naissance à un profil singulier, qui, de plus, intègre une dynamique, une perspective temporelle. Mais l'ensemble de cette démarche n'a de sens que si les modèles théoriques postulés peuvent être validés, les outils utilisés justifiés et l'interprétation personnelle étayée.


sur 63

5. Conclusion générale

a question de la validité des modèles et des outils de l’examen psychologique a été traitée en commençant par préciser comment sont comprises aujourd’hui les notions de validité et de validation, puis en s’interrogeant sur la validité de l’interprétation

des mesures effectuées avec un outil donné, dans un cadre conceptuel préétabli, ou ad hoc, et enfin en explicitant les problèmes de validité en contexte, à partir de deux brèves études de cas.

La revue de la littérature récente consacrée aux problèmes de validité et de validation a permis de souligner que la validité des outils ne saurait être limitée aux caractéristiques psychométriques, que l’on vérifie à l’aide de quelques techniques éprouvées (analyses factorielles pour la validité interne, corrélation ou régression pour la validité prédictive…), après s’être bien entendu assuré que les mesures ont une bonne fidélité. Les problèmes de validité dans l’examen psychologique se posent de fait à toutes les étapes d’une démarche assimilable à un processus de recherche : problématique et formulation d’hypothèses ; méthode d’investigation ; résultats à analyser, discuter et débouchant sur les perspectives d’intervention.

Dès les premiers éléments d’information relatifs à la situation pour laquelle il est sollicité (échec scolaire, troubles comportementaux ou de la personnalité, difficultés dans des choix d’orientation), le psychologue construit une représentation et élabore des hypothèses adossées à des concepts et théories qui lui semblent les plus pertinents, et/ou qui lui sont les plus familiers, en fonction de sa spécialité. Au risque d’être schématique, on peut concevoir que les premières options prises par le psychologue se feront en privilégiant la sphère cognitive vs conative. Puis, prenant par exemple la cognition, il s’agira de choisir un modèle qui pourra être valide ou non, à la fois d’un point de vue général et vis à vis de l’objet de la consultation. La question est alors celle de savoir si le modèle choisi permet d'éclairer, de manière efficace, le fonctionnement de l’enfant présent et donc dans quelle mesure les différences inter- et intra-individuelles observées reflètent des différences pertinentes au regard des hypothèses posées.

Le choix d’un modèle devrait a priori guider le choix des outils, tout comme on choisit un matériel de recueil de données pour éprouver des hypothèses dans un paradigme de recherche. Dans les faits, la démarche n’est pas aussi linéaire. D’une part, les avancées théoriques ne sont traduites dans les tests qu’après une période qui peut s’avérer assez longue : il aura par exemple fallu attendre les dernières versions des échelles de Wechsler pour que soient pris en compte les modèles factoriels. D’autre part, ces avancées ne sont pas toujours assez convaincantes ou opérationnelles, pour que puissent en être dérivés des tests : les approches cognitivistes des années 70 (composantielle par exemple) n’ont pas modifié l’offre de tests, à quelques exceptions près (cf. le test Samuel, Rozencwajg, Corroyer & Altman, 1999). Enfin, certains domaines sont assez peu couverts par les tests : le nombre d’épreuves permettant d’évaluer la sphère affective est de très loin inférieur à ce que l’on trouve pour la cognition. Cette pénurie d’épreuves pourrait

L


sur 63

être à l’origine de l’utilisation massive d’épreuves telles que le WISC : la diversité des sous-tests qui le composent place celui-ci en bonne position pour être appliqué en première intention, afin d’identifier les capacités cognitives défaillantes qu’il s’agirait ensuite de mieux cerner par le biais d’épreuves spécifiques, par exemple avec la NEPSY. Utilisée ainsi, la « validité du WISC » est attestée par les données que l’on trouve dans le manuel, la validité interne ou externe pouvant être prédominante en fonction des objectifs que le psychologue cherche à atteindre.

Mais l’interprétation des données que les outils ont permis de produire dépasse parfois le rationnel original. Dans le WISC, l’analyse des dispersions (« scatters ») est une pratique courante et ancienne. Assez intuitive dans ses débuts, cette démarche est maintenant formalisée : la signification statistique est donnée dans le manuel et les ouvrages consacrés au WISC donnent les étapes d’interprétation des écarts entre Indices factoriels et entre sous-tests. On peut toutefois s’interroger sur la validité interprétative de ces écarts qui sont certes bien établis au niveau statistique, mais pour lesquels les assises théoriques sont à consolider. Les mêmes questions se posent dans l’utilisation idiographique des tests, dont une illustration a été donnée au point 4.2 : s’il est difficile d’apporter des arguments de validité de cette approche, le psychologue doit-il pour autant se priver des données cliniques qu’il peut ainsi recueillir, enrichissant la forme et le contenu de la restitution faite au sujet ?

Le problème est plus grand lorsque les données d’un test sont interprétées dans un cadre théorique totalement étranger à celui qui a présidé au développement de l’outil. Pour poursuivre avec l’exemple du WISC, il existe des grilles d’analyses visant à identifier des problèmes affectifs, voire psychopathologiques. On doit s’interroger sur la validité de telles démarches. S’il s’avérait que ces pistes soient prometteuses, dans la lignée des facteurs non intellectifs dont Wechsler faisait mention, il faudrait alors mettre en œuvre des procédures de validation pour accumuler les preuves qui fondent l’utilisation du WISC comme outil de diagnostic d’attributs affectivo-motivationnels. La question du cadre interprétatif a été exposée à propos du Rorschach ; elle se pose aussi pour l’analyse des dessins et des tests projectifs thématiques qui constituent un matériau fréquent de l’examen psychologique de l’enfant, recevant une multitude de lectures issues de cadres théoriques différents.

Le dernier aspect de validité porte sur l’utilisation des mesures et les conséquences de celle-ci pour l’enfant. Il va de soi que des biais dans le choix des modèles, des outils, ou de l’interprétation des mesures peuvent avoir des conséquences graves pour la personne. Mais s’il est fondamental de veiller à évaluer l’argument interprétatif qui fonde la mesure, c’est-à-dire d’interroger la plausibilité, la pertinence et le bien-fondé de l’interprétation proposée des scores, les décisions, préconisations, interventions qui en découlent peuvent être plus ou moins opportunes, répondre plus ou moins bien aux difficultés rencontrées par l’enfant. Il est probable que dans le cadre de cette conférence de consensus, cette question, non abordée ici, le soit dans d’autres groupes.


sur 63

Discusssion

Parole Michèle Carlier, Présidente de séance

La parole est maintenant aux experts puis au public pour des questions et commentaires.

Question Jury Roger Perron, CNRS, psychanalyste

Je voudrais poser une question en quelque sorte préalable, sous-jacente à votre rapport. Je m’étonne que dans une Conférence de consensus intitulée « l’examen psychologique et l’utilisation des mesures en psychologie de l’enfant » - je crois vous avoir lu soigneusement - il n'y a jamais de mise en discussion de la notion même de mesure. Vous proposez dans votre rapport la définition suivante, qui est intéressante : « la mesure est le résultat de l’ensemble de la démarche qui conduit à la représentation numérique de relations empiriques ». Or nous savons tous qu'il ne faut pas réduire la réalité à des chiffres et encore moins la science à des chiffres, et certainement encore moins des personnes à des chiffres. Nous savons tous qu’il est absurde de dire que M. X à qui on a épinglé un QI de 120 est deux fois plus intelligent que M.Y qui est gratifié seulement d’un QI de 60 ou que 20 degrés centigrade est deux fois plus chaud que 10 degrés centigrade… Toutes les mesures que nous faisons, en tout cas en psychologie différentielle, sont des mesures ordinales, ce que vous dites très bien en écrivant que « la plupart du temps ce sont des échelles ordinales ». Moi, je crois que ce sont toujours des échelles ordinales. Ce sont des jugements comparatifs de valeur qui se répercutent au niveau sociologique général, dans une société qui a besoin de hiérarchiser, à l’école ou dans l’entreprise, au niveau de la microsociologie et au niveau des jugements de valeur que l’individu porte sur lui-même.

Réponse Jacques Juhel

Merci de votre rappel, toujours utile, sur la notion de niveau de mesure. Pouvions-nous dans le cadre de cette conférence discuter la notion même de mesure en psychologie ? Sans doute mais cette question très large mériterait à elle seule une autre conférence de consensus… Pour notre part, nous avons considéré que le psychologue qui souhaitait apporter de l’intelligibilité au fait psychologique était amené à en fournir une description abrégée. La mesure est un moyen parmi d’autres de le faire et nous avions dans ce travail à nous intéresser surtout aux modèles et outils qui fondent l’emploi de la mesure dans l’évaluation psychologique de l’enfant.

Nous avons rappelé que la mesure d’un phénomène psychologique était un processus complexe consistant à établir une correspondance entre une propriété particulière de la chose mesurée et une propriété particulière des nombres. Nous avons aussi indiqué que la mesure en psychologie nécessitait de définir explicitement l’existence des objets étudiés par une relation répétable dont nous savons qu’elle est le plus souvent de niveau ordinal. Mais nous avons surtout cherché à préciser sur quelles bases et en fonction de quels critères le psychologue pouvait accorder du crédit à l’interprétation et à l’utilisation proposées des résultats de la mesure.


sur 63

La remarque finale de votre intervention semble suggérer que la mesure est un jugement comparatif de valeur. Je ne peux partager votre point de vue si celui-ci exclut la possibilité d’une observation neutre et objective que le processus de mesure chercherait à réaliser. La mesure du fait humain n’est bien sûr pas à l’abri de certaines valeurs. Mesurait-on hier pour hiérarchiser avec les mêmes présupposés qu’aujourd’hui pour expliquer ou diagnostiquer? Sans doute pas et l’évolution des modèles et des outils en témoigne. Nul ne contestera ici que l’argument interprétatif dont nous parlions tout à l’heure puisse être contaminé par des valeurs. On voit donc combien il est important que l’argument interprétatif soit aussi explicite que possible, y compris du point de vue des valeurs véhiculées, et que le psychologue praticien soit suffisamment informé pour pouvoir évaluer le bien-fondé, la plausibilité et la pertinence de l’argument en fonction des objectifs poursuivis.

Question Jury, Jacques Lautrey, Professeur émérite, Université Paris-Descartes

On voit un pan d'ouverture par rapport à ce qu'était le point de vue classique sur la validation de l'outil, puisqu’ici c’est l’ensemble de la démarche qui doit être validé. Mais en même temps cette grande ouverture augmente beaucoup le niveau d'exigence car beaucoup d'aspects de la démarche dans le choix et dans l'interprétation de l'outil dont on pouvait considérer dans la façon classique d’aborder la question de la validation qu’ils avaient été réglés, ne semblent pas l’être. Cela ouvre en même temps un certain nombre de problèmes. Que fait-on ?

Car vous avez évoqué deux grandes conceptions de la validation au début de votre présentation. Vous vous situez dans la plus classique des deux, l’approche quantitative, mais en ne la limitant pas à la seule validation de l'outil pour introduire tous les aspects non quantitatifs, ce qui paraît très intéressant à première vue. En disant que la réalité psychologique est toujours dépendante du sujet, d'un contexte et située, on reconnait tout un courant. On sait que beaucoup de cliniciens accordent une grande importance à cela sans avoir nécessairement accordé beaucoup d'importance à la validation de ces aspects. Que peuvent-ils faire ? Est ce que dans le courant que vous évoquez brièvement il y a des réponses à cela? J'ai lu personnellement des choses tout à fait étonnantes à ce sujet. En dernière analyse pour certains psychologues, seuls les critères esthétiques de l'interprétation pourraient permettre au fond de porter un jugement de validité. Est-ce que vous en êtes là ? Que ce soit le choix de l'outil ou celui de l'interprétation, y a-t-il des méthodes permettant de fournir au public, aux collègues ou même aux sujets examinés quand ils sont capables de le comprendre, des éléments de validité supportant l’interprétation des résultats de la mesure ? Est-ce uniquement un vœu pieux pour l'instant? Qu'en pensez-vous ?

Réponse Jacques Juhel

Les incitations en faveur d’approches centrées sur l’individu sont aujourd’hui de plus en plus nombreuses en psychologie scientifique. Il est donc compréhensible qu’en partant de l'approche classique, nomothétique de la validation, nous ayons été amenés à nous poser la question de la validité de l’interprétation des mesures effectuées au niveau individuel et donc celle de la validité d’interprétation de la réalité psychologique de l’individu. Les raisons pour lesquelles nous ne sommes pas allés finalement dans cette direction ont d’abord tenu à notre souci


sur 63

d’apporter en priorité au psychologue praticien des informations actuelles sur le processus de validation tel qu’il semble désormais être compris dans l’approche classique. Elles ont aussi tenu à l’extrême diversité des conceptualisations de la validité dans les approches qualitatives, à la multiplicité des écoles de pensée et à l’absence de paradigme unifié ainsi qu’aux interrogations de certains « qualitativistes » sur la validité même du concept de validité !

Je pense néanmoins qu’au-delà de ce qui a été dit dans ce rapport et face à l’impossibilité d’appliquer à la validité qualitative les critères classiques de la validité et de la validation, il est important de réfléchir aux outils conceptuels et méthodologiques qui pourraient permettre au psychologue d’évaluer la validité de son propos sur la réalité psychologique de l’enfant qui le consulte. Il est en effet de la responsabilité du psychologue qui s’efforce d’élaborer une représentation intégrée des différentes facettes d’une réalité multiple de pouvoir en évaluer la légitimité, la plausibilité autant que la pertinence. Cette question de la validité interprétative de la description (de sa crédibilité, de sa véracité) est à mon avis de première importance. La subjectivité et l’expérience du psychologue sont à cet égard souvent vécues comme contribuant à améliorer l’interprétation et à accroître la validité interprétative. Mais bien que je connaisse très mal la littérature dans ce domaine, il semble que de nombreuses méthodes qualitatives existent (par ex., la réflexivité en anthropologie ou dans les théories « ancrées », la triangulation des sources, la cristallisation, etc.) auxquelles le psychologue pourrait avoir systématiquement recours pour évaluer la validité de l’interprétation suggérée de la réalité psychologique de l’enfant. Certaines approches qualitatives pourraient donc contribuer à l’identification d arguments de validité valant pour une interprétation située et je crois qu’il faut s’y intéresser. Mais l’intégration de points de vue si fondamentalement dissociés risque bien de se heurter à de nombreuses difficultés et nous ne sommes qu’au début du chemin.

Réponse Pierre-Yves Gilles

Je voudrais ajouter que même dans une acception classique centrée sur l’outil, les démarches de validation et les preuves de validité sont loin d’être abouties. On peut prendre pour exemple les analyses processuelles, qui ont fait naître beaucoup d’espoir dans les années 80. Mais au bout du compte, et comme vous l’avez bien montré (Jacques Lautrey et Michel Huteau) dans de nombreux articles et ouvrages, elles n’ont apporté que peu de réponses à la question de savoir ce que mesurent les tests cognitifs. Il reste donc beaucoup à faire pour parvenir à modéliser l’activité de résolution d’items de tests de façon satisfaisante, modélisation qui devrait rendre compte d’aspects individuels et qualitatifs.

Actuellement, il faut bien reconnaitre qu’il y a un décalage important entre la production scientifique en psychologie et les applications pour la construction d’épreuves psychométriques : ainsi, la démarche factorielle existe depuis fort longtemps mais ce n’est que récemment qu’elle a réellement été mise en œuvre pour construire les échelles de Wechsler.

Question Jury, Jean-Yves Barreyre, Sociologue, anthropologue, directeur CREAI Idf


sur 63

Je voudrais dire que j'ai beaucoup apprécié votre synthèse et j’ai trouvé que c'était particulièrement judicieux de traiter la question de la validité non pas avec le point de vue des concepteurs du test et sous les aspects psychométriques qu'on connait bien, mais sous celui des conditions de validité du point de vue du praticien utilisateur de test et en particulier dans le choix des épreuves et de l'interprétation. On pourrait ajouter un niveau de difficulté, un niveau à prendre en compte du point de vue de la validité, du point de vue du praticien utilisateur de tests. C'est ce qui se passe entre le choix du test et l'interprétation. Ce sont les conditions de passation et là, je crois qu'il y a des conditions de validité, en général… Alors, on règle cette question par la standardisation et une évaluation peut souffrir d'un manque de standardisation mais aussi d'un excès de standardisation.

Je pense en particulier aux cas de différences culturelles et de familiarité du sujet par rapport aux situations de test, je pense aux évaluations dynamiques qui incluent dans les phases de passation et d'apprentissage du test et cela ouvre un champ d'expertise du praticien pour garantir des conditions de validité. C'est clair qu'il faut une bonne dose de clinique pour choisir de façon pertinente les tests pour les interpréter mais aussi pour mener, pour conduire la passation de façon à garantir la meilleure validité du test. Cela fait référence aussi à cette notion de contrôle des biais de méthodes.

Question Mireille Simon, consultante internationale en psychologie appliquée

L'argumentation interprétative dont vous parlez est clairement liée à la validation, cet argument interprétatif dépend aussi bien évidemment de celui qui interprète. Vous avez cité le devoir et le rôle des éditeurs de tests… Je reviens là-dessus parce que c’est extrêmement important. Il existe une façon de renforcer la validation et ce sont les rapports interprétatifs. L'éditeur de test produit dans le manuel tout ce qu'il peut apporter - même si encore en France on est un pays qui résiste à cette manie - mais dans la plupart des pays, en particulier Anglo-Saxons, les psychologues utilisent des rapports interprétatifs basés sur la validation de l'argument interprétatif.

C'est une question importante car cela a été l’inquiétude des psychologues français quand il y a une vingtaine d’années, les ECPA ont commencé à éditer les premiers rapports interprétatifs et c'est une vague très difficile à juguler et je pose cette question car je pense qu'il serait important d'intégrer cette donnée là dans nos réflexions.

Intervention Robert Voyazopoulos

Est-il possible de préciser ce qu’est un rapport interprétatif ?

Mireille Simon

Il s'agit de rapports générés automatiquement par ordinateur et qui sont faits de façon extrêmement valide par l'expérience parce qu'il me semble que dans l'interprétation du psychologue il n’y a pas que sa connaissance rationnelle du test et des statistiques mais il y a aussi son expérience accumulée au cours des années de pratique. Et ces rapports sont extrêmement bien faits mieux que ne le ferait une seule personne - sans vouloir vexer qui que ce soit. Je pense qu'il faudrait situer cette question dans notre débat. Ces rapports sont tout à fait


sur 63

valides au regard de l'argument interprétatif. On peut effectivement en discuter… Beaucoup de psychologues les utilisent dans leur travail car justement ils veulent éviter les biais dans leurs arguments interprétatifs.

Réponse Pierre-Yves Gilles

Lors des séances de travail du groupe nous avons relevé et regretté que les éléments interprétatifs soient très peu développés voire inexistants dans les manuels de tests actuels. Il a fallu attendre les dernières versions du WISC pour que soit mis à disposition un manuel d’interprétation. D’un autre côté certains tests informatisés rendent compte des résultats sous forme d’un rapport de plusieurs pages, sans que l’on puisse véritablement retracer la démarche qui a présidé à ces conclusions, et cela pose d’autant plus problème que ce rapport est parfois directement transmis à la personne évaluée.

Les éditeurs de test devraient donc veiller à fournir suffisamment d’informations relatives aux pistes interprétatives et ce sur quoi celles-ci sont fondées. La formation des psychologues doit quant à elle être suffisante pour qu’ils puissent adopter un point de vue critique vis à vis des pistes interprétatives proposées dans les manuels, aller au delà du rapport interprétatif, et juger de la pertinence de ces différents éléments en fonction du contexte de la passation.

Question public, Psychologue de l’Education nationale

Je suis très loin d’avoir votre expertise mais je me pose la question suivante : cela voudrait dire que par exemple, in fine, on pourrait faire passer des tests sur ordinateur sans intervention d'une personne et que il y a un rapport qui sortirait et ainsi les choses seraient plus rapides et plus expéditives… Je suis un peu excessive mais … je suis assez choquée de ce que j'entends.

Réponse de Stéphane Jacob

Il est bien compréhensible que l’idée de rapports automatisés effraie les psychologues praticiens qui s’imaginent dépossédés par la machine. Les rapports interprétatifs ne remplacent évidemment pas le clinicien mais peuvent constituer, lorsqu’ils sont disponibles, une aide à l’interprétation intéressante. Les rapports informatisés traduisent en phrases simples les inférences statistiques qu’il est possible de faire à partir de la comparaison entre les résultats observés et des bases de données, établies sur des populations bien caractérisées, au plan diagnostic en particulier. Ils permettent de gagner en précision et en finesse dans l’analyse. Surtout, ils permettent de restituer toute sa place à la démarche clinique dans l’évaluation car au final, c’est bien le psychologue qui sera chargé de faire la synthèse entre les données issues de différents outils, de rattacher les observations recueillies à la question de départ et de leur donner sens dans le contexte de vie de l’enfant.

Question Jury, Jacques Grégoire

J’irais dans le même sens que ce qui vient d’être dit. Les psychologues ont vraiment une valeur ajoutée ! Peut-on faire passer des tests uniquement sur ordinateur ? Je pense que ce serait extrêmement dangereux de le faire même si les rapports narratifs peuvent être intéressants et


sur 63

plausibles. Je pense que le psychologue a toujours à faire à partir de ce rapport car il sait dans quel contexte les données ont été recueillies. Nous émettons un jugement de validité dans le contexte, ce jugement doit être contextualisé et c'est vraiment notre travail qui va bien au-delà de ce que produit le test ou l'entretien, notamment en évaluant la validité des inférences faites à partir de toutes les informations glanées. Et parfois, compte tenu du contexte de l’examen et de l’entretien, on ne peut pas conclure sur des résultats. Et ca, ça restera toujours de la responsabilité du psychologue alors que l'ordinateur n'a qu'une voie d’entrée en émettant un ensemble d'interprétations plausibles sur une base d'informations sélectionnées. Cette notion de responsabilité du psychologue est essentielle : responsabilité des inférences et interprétations faites, responsabilité des conséquences de tout cela. Vous avez rappelé les travaux de Messick et c’est très important. De même qu’en médecine on s'intéresse aux effets secondaires des médicaments, il faut que l'on puisse aussi s'interroger sur les conséquences d'une évaluation… Est-ce que l'évaluation ne va pas avoir des effets indésirables ou négatifs pour la personne. Notre première obligation comme pour les médecins est de ne pas nuire et c’est déjà pas mal !

Question Public, Catherine Weissman Arcache Groupe 1

Je vais poser une question de praticienne utilisatrice de tests. Si j’ai bien compris, vous avez dit qu’une hypothèse précise était plus difficile à valider qu’une hypothèse faible. Vous avez aussi souligné le caractère pur et unidimensionnel des indices du WISC-IV et je suppose qu’il y a là une convergence. La question que je me pose est la suivante : les indices factoriels démultipliés dans le WISC-IV sont-ils la garantie scientifique d’une évaluation plus large et plus approfondie de l’intelligence ? On a au contraire réduit les contenus, le nombre d’épreuves verbales, la manipulation et aussi les processus mis en jeu dans la mesure où une large place est faite à la mémoire de travail. Concernant la validité externe et d’après mon expérience, n’en est-il pas de même pour les groupes cliniques qui correspondent à des profils étroits, par exemple des profils avec chute à l’indice vitesse de traitement qui correspond à un TDA ? Finalement, est-ce qu’en cherchant à accroître la précision des hypothèses on ne court pas le risque de réduire leur portée ?

Réponse Paulette Rozencwajg

La nouvelle composition du WISC-IV en quatre indices factoriels à la place des anciens QIV et QIP est une amélioration de la validité théorique en regard du modèle CHC de l’intelligence. En effet, le QI de l’échelle de performance confondait deux dimensions qui sont à distinguer, la vitesse de traitement et l’intelligence fluide à support visuo-spatial (les subtests de l’indice IRP relèvent ainsi davantage de tests de puissance); de même le QI de l’échelle verbale confondait la mémoire de travail et la conceptualisation verbale, également à distinguer. Cette distinction nécessaire au plan théorique doit encore être éprouvée par l’expérience et la recherche pour que ces quatre indices factoriels aient aussi une validité empirique.

Par contre, pour pouvoir introduire ces quatre indices factoriels, il a fallu ajouter des subtests évaluant la même dimension et retirer des subtests isolés. Du fait de la redondance dans les subtests pour pouvoir effectuer les analyses factorielles, l’échelle a perdu ainsi un peu de sa


sur 63

diversité. La validité de l’intelligence générale a donc été diminuée. Néanmoins, le WISC-IV reste toujours d’une grande richesse pour l’examen psychologique ; comme pour le QI Total, l’analyse doit aller bien au delà de ces quatre indices factoriels ; chaque indice factoriel est en effet composé de subtests ; chaque subtest est composé d’items et la variabilité individuelle des réponses à chaque item reste d’une grande richesse clinique.

Question Public Dana Castro, Ecole de Psychologues Praticiens

Je voulais intervenir sur la valeur ajoutée du psychologue et sur l’effroi de la découverte de ces rapports informatisés. Certes… Mais je crois que tout rapport de ce type porte sur un seul test. Finalement quel est le travail du psychologue praticien ? Et ça a été bien démontré dans l’exposé de ce matin… C’est le psychologue qui fait la synthèse, qui intègre les données, qui les met en relation les unes avec les autres et qui les communique aux patients ou aux parents de l’enfant. Quand bien même un rapport comme celui-ci arriverait dans une famille sans passer par l’intermédiaire qu’est le psychologue, que sauraient-ils en faire sans cet objet médiateur qu’est le psychologue ?

Un dernier mot sur l’importance du qualitatif pour la validation. Je pense que c’est quelque chose de nouveau sur lequel il y a beaucoup de travail à faire.

Question Public, Ahmed Omar Touhami Ahami, Groupe 6

Je reviens sur le rapport interprétatif qui fait peur au psychologue. Nous menons actuellement au Maroc une expérience sur l’analyse informatisée du tracé à la Figure Complexe de Rey. Il semble que cette méthode de recueil pragmatique et précise de données renforce la validation même si certains aspects de ces analyses paraissent moins pertinents que l’analyse clinique. Les résultats préliminaires de plusieurs centaines de sujets en font foi. Quel que soit le progrès informatique ou celui de l’analyse du graphisme, l’application clinique est évidemment irremplaçable et j’imagine mal que l’on puisse faire la même chose avec le Rorschach !

Remerciements et clôture Michèle Carlier


sur 63

Références

AERA. Dialogue on validity (2007). Educational Researcher, 36(8), 437-484.

AERA, APA, & NCME (1985, 1999). Standards for educational and psychological testing. Washington, D.C.

American Psychological Association (1954). Technical recommendations for psychological tests and diagnosis techniques. Psychological Bulletin, Supplement, 51, 1-18.

Anastasi, A. (1950). The concept of validity in the interpretation of test scores. Educational and Psychological

Measurement, 10, 67-78.

Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan Publishing Co, Inc.

Andronikof, A. (1993). L’abstraction au Rorschach comme mécanisme d’anti-symbolisation : réflexion autour du protocole d’une adolescente suicidaire. Bulletin de la Société du Rorschach et des méthodes Projectives de Langue

Française, 3, 71-91.

Andronikof, A. (1998). Les ingrédients psychiques du suicide à l’adolescence. Neuropsychiatrie de l’Enfance et de

l’Adolescence, 46, 571–574.

Andronikof, A. (2004). Le Rorschach en système intégré : introduction. Psychologie française, 49, 1-5.

Andronikof, A., & Réveillère, C. (2004). Rorschach et psychiatrie : à la découverte du malade derrière la maladie. Psychologie française, 49, 95-110.

Anzieu, D., & Chabert, C. (1992). Les méthodes projectives (9ème édition). Paris : P.U.F.

Archer, R.P., & Krishnamurthy, R. (1997). MMPI-A and Rorschach indices related to depression and conduct disorder: An evaluation of the incremental validity hypothesis. Journal of Personality Assessment, 69, 517-533.

Azoulay, C., Emmanuelli, M., Rausch de Traubenberg, N., Corroyer, D., Rozencwajg, P., & Savina, Y. (2007). Les données normatives françaises du Rorschach à l'adolescence. Psychologie clinique et projective, 13, 371-409.

Barray, V., Picard, A., & Camos, V. (2008). Etude comparative de la dyspraxie : évaluation neuropsychologique d’enfants porteurs d’une dyspraxie développementale ou consécutive à la prématurité. Annales de réadaptation et de

médecine physique, 51, 161-168.

Bénony, H. (2002). L’examen psychologique et clinique de l’adolescent. Paris : Nathan.

Bernaud, J.-L., & Lemoine, C. (2007). Traité de psychologie du travail et des organisations. Paris : Dunod.

Bernaud, J.-L. (2009). Tests et théories de l’intelligence. Paris : Dunod.

Berndt, D.J., & Kaiser, C.F. (1999). Echelle Composite de Dépression pour Enfant (MDJ-C). Paris : ECPA.

Binet, A., & Simon, T. (1905). Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L’Année

Psychologique, 11, 191-244.


sur 63

Binet, A., & Simon, T. (1908). Le développement de l’intelligence chez les enfants. L’Année Psychologique, 14, 1-94.

Blais, M., Hilsenroth, M., Castlebury, F., Fowler, C., & Baity, M. (2001). Predicting DSM-IV Cluster B Personality Disorder Criteria from MMPI-2 and Rorschach Data: A Test of Incremental Validity. Journal of Personality

Assessment, 76, 150-168.

Borsboom, D., Mellenbergh, G.J., & van Heerden, J. (2003). The theoretical status of latent variables. Psychological

Review, 110(2), 203-219.

Borsboom, D., Mellenbergh, G.J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061-1071.

Botteman, A., Forner, Y., & Sontag, J.-C. (1997). RIP Relevé d’Intérêts Professionnels. Paris : ECPA.

Bridgman, P.W. (1927). The logic of modern physics. Oxford England: Macmillan.

Brun, A. (2008). L'échelle d'intelligence de Wechsler : interprétation clinique et psychopathologique. Paris : L’Harmattan.

Campbell, D.T., & Fiske, D.W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105.

Carroll, J.B. (1993). Human Cognitive Abilities: A survey of factor-analytic studies. Cambridge: Cambridge University Press.

Cassella, M.J., & Viglione, D.J. (2009). The Rorschach texture response: a construct validation study using attachment theory. Journal of Personalty Assessment, 91(6), 601-610.

Chabert, C. (1997). Le Rorschach en clinique adulte. Interprétation psychanalytique. Paris : Dunod.

Chabert, C. (1998). Psychopathologie à l'épreuve du Rorschach. Paris : Dunod.

Chorpita, B.F., Yim, L., Moffitt, C., Umemoto, L.A., & Francis, S.E. (2000). Assessment of symptoms of DSM-IV anxiety and depression in children : a revised child anxiety and depression scale. Behaviour Research and Therapy, 38, 835-855.

Chorpita, B.F., Moffitt, C., & Gray, J. (2005). Psychometric properties of the Revised Child Anxiety and Depression Scale. Behaviour Research and Therapy, 43, 309-322.

Cook, T.D., & Campbell, D.T. (1979). Quasi-experimentation, design and analysis issues for field settings. Boston: Houghton Mifflm Company.

Cooper, S.H., Perry, J.C., & Arnow, D. (1988) An empirical approach to the study of defense mechanisms: I. Reliability and preliminary validity of the Rorschach Defense scales. Journal of Personality Assessment, 52(2), 187-203.

Costes, M.-C., & Andronikof-Sanglade, A. (1996). Rorschach et épreuves projectives en clinique infantile. Encyclopédie Médico-Chirurgicale, Psychiatrie, 37-190-B-10. Paris : Elsevier.


sur 63

Cronbach, L.J. (1971). Test validation. In R. Thorndike (Ed.), Educational Measurement, 2nd ed. Washington, D.C.: American Council on Education.

Cronbach, L.J. (1988). Five perspectives on the validity argument. In H. I. Braun (Ed.), Test validity. Hillsdale, NJ England: Lawrence Erlbaum Associates, Inc.

Cronbach, L.J. (1989). Construct validation after thirty years. In R. L. Linn (Ed.), Intelligence: Measurement, theory,

and public policy. Proceedings of a symposium in honor of lloyd G. humphreys. Champaign, IL US: University of Illinois Press.

Cronbach, L.J. (1984, 1990). Essentials of psychological testing (4th & 5th ed.). New York: Harper/Collins.

Cronbach, L.J., & Meehl, P.E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302.

Cureton, E.E. (1951). Validity. In E.F. Lindquist (Ed.), Educational measurement, 621-694. American Council on Education.

Dawes, R.M. (1999). Two methods for studying the incremental validity of a Rorschach variable. Psychological

Assessment, 11, 297-302.

De Boeck, P., & Wilson, M. (Eds.) (2004). Explanatory item response models: A generalized linear and nonlinear

approach. New-York: Springer.

Delanty, G. (1997). Social Science: Beyond Realism and Constructivism. Buckingham, Open University Press/Minneapolis: University of Minnesota Press.

Dickes, P., Tournois, J., Flieller, A., & Kop, J.-L. (1994). La psychométrie : théories et méthodes de la mesure en

psychologie. Paris : P.U.F.

Embretson, S.E. (1983), Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179-197.

Embretson, S.E. (1998). A cognitive design system approach to generating valid tests: Application to abstract reasoning. Psychological Methods, 3(3), 380-396.

Embretson, S.E., & Gorin, J. (2001). Improving construct validity with cognitive psychology principles. Journal of

Educational Measurement, 38(4), 343-368.

Exner, J. E. (1978). The Rorschach: A Comprehensive System: Vol. 2. Current research and advanced

interpretation. New York: Wiley.

Exner, J. (1993). Le Rorschach : Un Système Intégré. Paris : Frison-Roche.

Exner, J. (2003a). Manuel d'interprétation du Rorschach en Système Intégré. Paris : Frison-Roche.

Exner, J. (2003b). The Rorschach, a comprehensive system. Volume 1. Basic foundations and principles of

interpretation. 4th edition. Hoboken: John Wiley and Sons, Inc.


sur 63

Expertise collective Inserm (2007). Dyslexie, dysorthographie, dyscalculie. Bilan des données scientifiques. Paris : Editions Inserm.

Fernandez, L., & Catteeuw, M. (2001). La recherche en psychologie clinique. Paris : Nathan.

Flanagan, D.P. & Kaufman, A.S. (2004). Essentials of WISC-IV Assessment. New Jersey: John Wiley & Sons.

Flanagan, D.P. & Harrison, P.L. (2005). Contemporary intellectual Assessment. Theories, Tests, and Issues. New York, London: The Guilford Press.

Flynn, J.R. (1984). The mean IQ of Americans: Massive gains 1932 to 1978. Psychological Bulletin, 95, 29-51.

Fouques, D., & Mouren-Simeoni, M.C. (1998). Contribution du Rorschach (Système Intégré) à la compréhension de l'hyperactivité avec déficit de l'attention et à la mesure des effets psychologiques du traitement par psychostimulants (Ritaline®) chez des garçons de 6 à 12 ans : Etude de 25 protocoles. Pratiques psychologiques, 2, 67-74.

Fry, A. F., & Hale, S. (1996). Processing speed, working memory, and fluid intelligence: Evidence for a developmental cascade. Psychological Science, 7, 237-241.

Grégoire, J. (2000). L’évaluation clinique de l’intelligence de l’enfant. Sprimont : Mardaga.

Grégoire, J. (2009). L’examen clinique de l’intelligence de l’enfant. Fondements et pratique du WISC-IV. Sprimont : Mardaga.

Guilford, J.P. (1946). New standards for test evaluation. Educational and Psychological Measurement, 6, 427-438.

Guion, R.M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11(3), 385-398.

Haynes, S.N., Richard, D.C.S., & Kubany, E.S. (1995). Content validity in psychological assessment: A functional approach to concepts and methods. Psychological Assessment, 7(3), 238-247.

Hood, S.B. (2009). Validity in psychological testing and scientific realism. Theory & Psychology, 19(4), 451-473.

Huteau, M. (1982). Les mécanismes psychologiques de l’évolution des attitudes et des préférences vis-à-vis des activités professionnelles. L’Orientation Scolaire et Professionnelle, 11(2), 107-125.

Huteau, M. & Lautrey, J. (1999). Evaluer l’intelligence. Psychométrie cognitive. Paris : P.U.F.

Kamphaus, R.W., & Frick, P.J. (2002). Clinical assessment of child and adolescent personality and behavior (2nd Ed.). Needham Heights, MA: Allyn & Bacon.

Kane, M. T. (1992). An argument-based approach to validity. Psychological Bulletin, 112(3), 527-535.

Kane, M. T. (2001). Current concerns in validity theory. Journal of Educational Measurement, 38(4), 319-342.

Kane, M.T. (2006). Validation. In R.L. Brennan (Ed.), Educational measurement, 17-64. Westport, CT: American Council on Education/Praeger.

Kelley, T.L. (1927). Interpretation of educational measurements. Oxford England: World Book Co.

Kemp, S., Kirk, U., & Korkman, M. (2001). Essentials of NEPSY Assessment. Wiley: Hoboken (NJ).


sur 63

Korkman, M. (1999). Applying Luria’s diagnostic principles in the neuropsychological assessment of children. Neuropsychology Review, 9, 89-105.

Korkman, M., Kirk, U., & Kemp, S. (2003). NEPSY. Bilan neuropsychologique de l’enfant. Manuel. Paris : ECPA.

Koro-Ljungberg, M. (2008). Validity and validation in the making in the context of qualitative research. Qualitative

Health Research, 18(7), 983-989.

Kostogianni, N., & Andronikof, A. (2009). Estime de soi, centration sur soi et ajustement socio-affectif des enfants et des adolescents surdoués. L’Encéphale, 35 (5), 417-422.

Kwawer, J.S. (1979). Borderline phenomena, interpersonal relations, and the Rorschach test. Bulleton of the

Menninger Clinic, 43(6), 515-524.

Lautrey, J. (2005). L’évolution du concept d’intelligence depuis Binet. In S. Nicolas & B. Andrieu (Eds.). La mesure

de l’intelligence. Paris: L’Harmattan.

Lemmel, G. (2004). Penser autrement les difficultés scolaires : les apports du Rorschach en système intégré. Psychologie française, 49, 67-74.

Leyens, J.-P. (1983). Sommes-nous tous des psychologues ? Bruxelles, Mardaga.

Lewkowicz, D.J. (2001). The concept of ecological validity: What are its limitations and is it bad to be invalid? Infancy, 2(4), 437–450.

L’Hotellier, A. (2000). Tenir conseil. Paris : Seli Arslan.

Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 635-694.

MacCorquodale, K., & Meehl, P.E. (1948). On a distinction between hypothetical constructs and intervening variables. Psychological Review, 55(2), 95-107.

Mandel, P., Friedland, G., & Marcus, I. (2002). AMP Questionnaire informatisé de motivation à la réussite. Paris : ECPA.

Mariage, A., & David, K. (2001). Étude différentielle des manifestations dépressives et anxieuses chez des enfants de 8 à 12 ans scolarisés en milieu normal et spécialisé. European Review of Applied Psychology, 51(3), 147-157.

Masse, G. (1993). L'individuation et sa pathologie. Psychologie Médicale, 25, 1074-1076.

Mattlar, C.E. (2003). The Rorschach Comprehensive System is reliable, valid and cost-effective. Rorschachiana, 26, 158-186.

Messick, S. (1981). Constructs and their vicissitudes in educational and psychological measurement. Psychological

Bulletin, 89(3), 575-588.

Messick, S. (1988). The once and future issues of validity: Assessing the meaning and consequences of measurement. In H.I. Braun (Ed.), Test validity (pp. 33-48). Hillsdale, NJ England: Lawrence Erlbaum Associates, Inc.


sur 63

Messick, S. (1989). Validity. In R.L. Linn (Ed.), Educational measurement (3rd ed.; pp. 13-103). New York, NY England: Macmillan Publishing Co, Inc; American Council on Education.

Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741-749.

Messick, S. (1998). Alternative modes of assessment, uniform standards of validity. In M.D. Hakel (Ed.), Beyond

multiple choice: Evaluating alternatives to traditional testing for selection. (pp. 59-74). Mahwah, NJ US: Lawrence Erlbaum Associates Publishers.

Meyer, G.J. (2000). Incremental validity of the Rorschach Prognostic Rating scale over the MMPI Ego Strength Scale and IQ. Journal of Personality Assessment, 74(3), 356–370.

Meyer, G.J., Erdberg, P., & Shaffer, T.W. (2007). Toward international normative reference data for the comprehensive system. Journal of Personality Assessment, 89, (suppl 1), 201-216.

Michel, G., Aubron, V., Purper-Ouakil, D., Cortese, S., & Mouren, M. (2008). Enjeux actuels de l'évaluation psychologique dans la clinique de l'enfant et de l'adolescent: Vers une approche intégrée de la psychopathologie. Annales Médico-Psychologiques, 166(7), 509-515.

Moss, P. A. (1992). Shifting conceptions of validity in educational measurement: Implications for performance assessment. Review of Educational Research, 62(3), 229-258.

Muris, P., Meesters, C., & Schouten, E. (2002). A brief questionnaire of DSM-IV-defined anxiety and depression symptoms among children. Clinical Psychology and Psychotherapy, 9, 430-442.

Naglieri, J.A. (1998). NNAT : Test d'aptitude non verbale de Naglieri. Paris : ECPA.

Nezworski, M.T., & Wood, J.M. (1995). Narcissisme in the comprehensive system for the Rorschach. Clinical

psychology: Science and Practice, 2, 179-199.

Nichols, P.D., & Williams, N. (2009). Consequences of test score use as validity evidence: Roles and responsibilities. Educational Measurement: Issues and Practice, 28(1), 3-9.

Petot, D. (2002). Rorschach characteristics of depressive children with suicidal ideation. Rorschachiana, 25,163–174.

Petot, J.M. (2004). Le modèle de personnalité en cinq facteurs et le test de Rorschach. Psychologie française, 49, 81-94.

Porter, S. (2007). Validity, trustworthiness and rigour: Reasserting realism in qualitative research. Journal of

Advanced Nursing, 60(1), 79-86.

Rausch de Traubenberg, N. (1990). La pratique du Rorschach (6ème édition). Paris : P.U.F.

Rausch de Traubenberg, N., Boizou, M.-F. (1984). Le Rorschach en clinique infantile. L'imaginaire et le réel chez

l'enfant. Paris : Dunod.


sur 63

Réveillère, C. (1995). Crise psychologique et capacité adaptative. A partir d’une étude clinique chez des adolescents handicapés moteurs avec ou sans troubles d’apprentissages. Perspectives Psychiatriques, 49, 200–213.

Réveillère, C. (1996). A comparative clinical approach to learning disabilities: Starting with Rorschach Test. Acta

Psychiatrica Belgica, 96 (suppl. I), 71–96.

Réveillère, C., Yéprémian, D., & Benony, H. (1994). Etude clinique et psychopathologique d’un groupe d’adolescents spina-bifida. Neuropsychiatrie de l’Enfant, 42 (10), 715–724.

Ribaupierre (de), A. (2005). Développement et vieillissement cognitifs. In J. Lautrey et J.F. Richard (Eds.), L’intelligence (pp. 213-226). Paris : Lavoisier.

Riccio, C.A., & Rodriguez, O.L. (2007). Integration of psychological assessment approaches in school psychology. Psychology in the Schools, 44(3), 243-255.

Rickel, A.U., & Brown, R.T. (2007). Attention-Deficit/Hyperactivity Disorder in Children and Adults. Cambridge MA: Hogrefe & Huber Publishers.

Riddle, R., Morton, A., Sampson, J.D., Vachha, B., & Adams, R. (2005). Performance on the NEPSY among children with spina bifida. Archives of Clinical Neuropsychology, 20, 243-248.

Roman, P. (2009). Le Rorschach en clinique de l’enfant et de l’adolescent. Approche psychanalytique. Paris : Dunod.

Rorschach, H. (1921). Psychodiagnostic (7ème édition, 1993). Paris : P.U.F.

Rozencwajg, P. (2006). Quelques réflexions sur l’évaluation de l’intelligence générale : Un retour à Binet ? Pratiques Psychologiques, 12(3), 395-410.

Rozencwajg, P. (2007). Cognitive Process Development as Measured by an Adapted Version of Wechsler’s Similarities Test. Learning and Individual Differences, 17(4), 298-306.

Rozencwajg, P., Aliamer, V. & Ombredanne, E. (2009). Le fonctionnement cognitif d’enfants atypiques à travers leur QI. Pratiques Psychologiques, 15(3), 343-365.

Rozencwajg, P., & Bertoux, M.L. (2008). Categorization and Aging. Current Psychology Letters : Behaviour, Brain

& Cognition, 24(2), 82-97.

Rozencwajg, P., & Corroyer, D. (2002). Strategy development in a block design task. Intelligence, 30, 1–25.

Rozencwajg, P., & Corroyer, D. (2007). L’analyse des processus cognitifs dans une version adaptée du test des Similitudes des échelles de Wechsler. Psychologie & Education, 4, 25-40.

Rozencwajg P., Corroyer, D. & Altman, P. (2002). SAMUEL : Diagnostic du fonctionnement cognitif. Cergy : Delta Expert.

Segal, Z., & Duron, Y. (2000). Système informatisé pour l’évaluation des intérêts professionnels et de la motivation. Paris : ECPA.


sur 63

Shepard, L.A. (1993). Evaluating test validity. In L. Darling-Hammon (Ed.), Review of Resesarch in Education, Vol. 19 (pp. 405-450). Washington, DC: AERA.

Skinner, B.F. (1945). The operational analysis of psychological terms. Psychological Review, 52(5), 270-277.

Sultan, S. (2004). Le diagnostic psychologique. Théorie, éthique, pratique. Paris : Frison-Roche.

Sultan, S., Andronikof, A., Fouques, D., Lemmel, G., Mormont, C., Réveillère, C., Bénony, H., & Saïas, T. (2004). Vers des normes francophones pour le Rorschach en système intégré : premiers résultats sur un échantillon de 146 adultes. Psychologie française, 49, 7-24.

Sultan S, Andronikof A, Réveillère C, Lemmel G. (2006). A Rorschach stability study in a nonpatient adult sample. Journal of Personality Assessment, 87(3), 330-348.

Suppe, F. (Ed.) (1977). The Structure of Scientific Theories (2nd ed.). Chicago: University of Illinois Press.

Teglasi, H. (2004). Clinical assessment: The advantage of multiple perspectives. School Psychology Quarterly, 19(2), 179-185.

Thayer-Bacon, B. (2003) Relational (e)pistemologies. New York, Peter Lang.

Thomas, A., & Grimes, J. (Eds.) (2002). Best practices in school psychology IV. Washington, DC US: National Association of School Psychologists.

Thompson B. (2003). Score reliability: Contemporary thinking on reliability issues. Sage, Thousand Oaks, CA.

Tourrette, C. (2006). Evaluer les enfants avec déficiences ou troubles du développement. Paris : Dunod.

Trendler, G. (2009). Measurement theory, psychology and the revolution that cannot happen. Theory & Psychology, 19(5), 579-599.

Turgeon, L., & Chartrand, E. (2003). Reliability and Validity of the Revised Children's Manifest Anxiety Scale in a French-Canadian sample. Psychological Assessment 15(3), 378-383.

Tyler, R.W. (1934). Constructing achievement tests. Columbus: Bureau of Educational Research, Ohio State University.

Voyazopoulos, R., Andronikof, A., Castro, D., Cognet, G., Gibello, B., Lemmel, G., Meljac, C., Perron, R., & Verdier-Gibello, M.L. (2005). Des psychologues s’interrogent sur le QI et certains de ses usages. Journal des

Psychologues, n°230.

Vrignaud, P. (2002). Les biais de mesure : savoir les identifier pour y remédier. Bulletin de psychologie, 55(6), 625-634.

Wechsler, D. (1981). Manuel de l’échelle d’intelligence de Wechsler pour enfants. Forme révisée (WISC-R). Paris : ECPA.

Wechsler, D. (2005). Manuels d’administration de cotation et d’interprétation de l’échelle d’intelligence de

Wechsler pour enfants (4ème édition). Paris : ECPA.


sur 63

Wiley, D.E. (1991). Test validity and invalidity reconsidered. In D. E. Wiley (Ed.), Improving inquiry in social

science: A volume in honor of Lee J. Cronbach (pp. 75-107). Hillsdale, NJ England: Lawrence Erlbaum Associates, Inc.

Wood, J.M., Nezworski, M.T., & Stejskal, W.J. (1996). The Comprehensive System for the Rorschach: A critical examination. Psychological Science, 7, 3-10.

Wood, J., Lilienfeld, S.O., Garb, H., Nezworski, T. (2000). The Rorschach test in clinical diagnosis : A critical review, with a backward look at Garfield (1947). Journal of Clinical Psychology, 56, 395-430.

Zarka, J. (1977). Conseil psychologique et psychologie du conseil : quelques propositions. L'Orientation. Scolaire et

Professionnelle, 6(1), 21-51.

Zuriff, G. (1998). Against metaphysical social constructionism in psychology. Behavior and Philosophy, 26(1-2), 5-28.

Juhel, J., Gilles, P.-Y., Bouvard, M., et al. (2011). Validité des modèles et des outils de...

Documents

Transcript of Juhel, J., Gilles, P.-Y., Bouvard, M., et al. (2011). Validité des modèles et des outils de...