Étude par la méthode des coincidences de la variation du ...
L’étalon-or des évaluations randomisées : du discours de la méthode à l’économie politique
-
Upload
univ-paris1 -
Category
Documents
-
view
1 -
download
0
Transcript of L’étalon-or des évaluations randomisées : du discours de la méthode à l’économie politique
L’é talon-or dés é valuations randomisé és : du discours dé la mé thodé a l’é conomié politiqué
The gold standard of randomised control trials :
from theoretical method to political economics
Florent Bédécarrats (Cerise : Comité d’échange, de réflexion et d’information sur les systèmes
d’épargne-crédit)
Isabelle Guérin (IRD (Institut de Recherche pour le Développement)
François Roubaud (IRD-DIAL)
Résumé
Cet article explore le contraste entre les limites (nombreuses) et la circonscription (très étroite) du
champ réel d’application des méthodes expérimentales d’évaluation d’impacts par assignation
aléatoire ; et également leur succès, attesté à la fois par leur nombre et leur forte médiatisation.
L’analyse suggère que ce contraste est le fruit d’une conjonction économique et politique
particulière, émanant de stratégies novatrices de la part des chercheurs de cette nouvelle école, et
d’intérêts et de préférences spécifiques provenant à la fois du monde académique et de la
communauté des donateurs.
Abstract
The last decade has seen the emergence of a new field of research in development economics : the
use of randomised controlled trials (RCT) in the experimental assessment of impact. This article
explores the disparity between the many limitations inherent in the actual scope of RCT along with
its very narrow sphere, and the success of RCT as evidenced by the number of times it has been
applied and by the significant amount of media coverage it has received. Our analysis suggests that
this disparity is the product of a highly specific blend of economics and politics, which can be linked
to the innovative strategies developed by researchers from this new school of thought, and to the
interests and preferences shown by the academic/donor community.
La dernière décennie a vu l’émergence d’un nouveau champ de recherche en économie du
développement : les méthodes expérimentales d’évaluation d’impacts par assignation aléatoire
(Randomized Control Trial ; dans la suite du texte RCT). Si le principe des RCT n’est pas une
innovation scientifique, son application à grande échelle dans les pays en développement (ped) est
en revanche un phénomène sans précédent. Dérivées des sciences médicales, et déjà largement
utilisées dans les pays développés (essentiellement aux États-Unis ; SFE, 2010), ces méthodes ont été
adaptées aux problématiques et aux contextes des pays pauvres. Elles ont connu un succès
retentissant, ce qu’atteste leur multiplication. Leurs promoteurs ont rapidement bénéficié d’une
véritable consécration internationale. Rares sont aujourd’hui les formations académiques prétendant
« tutoyer l’excellence » qui ne proposent un cursus spécialisé dans ce domaine, comme à l’École
d’économie de Paris, la London School of Economics, Harvard, Yale, etc. Rares sont également les
agences d’aides qui n’aient pas créé de département qui leur soit dédié, ou engagé ou financé leurs
propres RCT.
Sur le plan méthodologique et de la connaissance en économie du développement, les RCT
représentent un progrès que nous allons expliquer. Néanmoins, et en dépit d’une posture
méthodologique excessivement modeste (évaluation de projets spécifiques, localement circonscrits
et souvent à petite échelle), les RCT sont aujourd’hui labélisées « Gold Standard » de l’évaluation, à
l’aune duquel il conviendrait de jauger toute approche alternative. Présentées par leurs adeptes
comme une véritable révolution copernicienne en économie du développement, on leur attribue en
exclusive le qualificatif de « rigoureuses », voire de « scientifiques ». Mais comme nous allons le voir
plus bas, bien au-delà du champ méthodologique, l’ambition de certains défenseurs des RCT les plus
médiatiques, comme par exemple Esther Duflo, est de fournir une liste exhaustive des bonnes et des
mauvaises politiques en matière de développement. L’accumulation d’un nombre toujours plus
grand d’études d’impact sur lesquelles il conviendrait de capitaliser afin d’en tirer les enseignements
généralisateurs, nous le verrons, serait la voie fondatrice de cette ambition universalisante. Plus
concrètement, la suprématie revendiquée des RCT dans le champ de l’évaluation quantitative
engendre un certain nombre d’effets pervers, comme le souligne un rapport récent de la coopération
britannique (DFID, 2012) : disqualification et effet d’éviction des méthodes alternatives, mobilisation
toujours plus grande des ressources allouées, positions de rentes, etc. C’est ce paradoxe que nous
nous proposons d’explorer ici.
Notre propos combine un double regard. Nous nous intéressons d’une part à l’importance
grandissante des RCT dans le monde de l’évaluation de l’aide et de la discipline économique,
importance appréciée en termes de nombre d’études mais aussi de notoriété. Nous nous penchons
d’autre part sur la mise en œuvre de ce type de méthode, en combinant notre propre observation de
plusieurs RCT, menées en France, au Maroc et au Cambodge1 et la littérature existante sur le sujet
afin de pouvoir monter en généralité (Naudet et al., 2012 ; DFID, 2012 ; Shaffer, 2011 ; Barrett et
Carter, 2010 ; Deaton, 2010 ; Khandker et al., 2010 ; Labrousse, 2010 ; Rodrik, 2008).
Dans la première partie, nous présentons brièvement les principes fondateurs des RCT et ses
avantages, notamment scientifiques, mais dont la plupart sont finalement très théoriques. La
seconde partie décrit le champ réel d’application de ces méthodes, beaucoup plus limité que ce
1 Deux d’entre elles ont fait l’objet de publications distinctes et seront repris ici de manière très synthétique les
principaux enseignements concernant les limites de la méthode rct (Quentin et Guérin, 2013 ; Morvant-Roux, Guérin, Roesch et Moisseron, à paraître).
qu’avancent certains de leurs promoteurs. Enfin, la troisième partie, inspirée d’une analyse en
termes d’économie politique, propose d’expliquer pourquoi ces méthodes jouissent d’une légitimité
politique et académique (en économie) qui va bien au-delà de leur réelle portée scientifique. Nous
concluons en proposant notre propre vision en matière de méthode d’évaluation d’impact et en
dressant quelques pistes de recherche dans le prolongement de cet article.
La montée en puissance d’une méthodologie
Les méthodes expérimentales visent à comparer la situation issue d’un projet (d’un programme ou
d’une politique) à celle qui aurait eu cours s’il n’avait pas été mis en place, afin d’en mesurer l’impact
net ; c’est-à-dire, une fois purgé de tous les changements advenus par ailleurs. Toute la difficulté est
de construire la situation de référence hypothétique (sans projet ; appelée contrefactuel), qui par
définition n’est jamais observée. La solution proposée par les méthodes expérimentales consiste à
sélectionner par tirage aléatoire deux échantillons au sein d’une même population susceptible de
bénéficier du projet. Celui-ci ne sera attribué qu’à l’un des groupes, mais les deux feront l’objet
d’enquêtes avant et après le projet. Les propriétés statistiques issues de la théorie des sondages
garantissent qu’en moyenne, les différences observées entre les bénéficiaires et les non-bénéficiaires
peuvent être attribuées au projet. Comme dans toute méthode probabiliste, les résultats sont
connus avec une marge d’erreur (l’intervalle de confiance) qui dépend des caractéristiques de
l’échantillonnage (taille, méthode, défections).
Ces méthodes cherchent donc à établir formellement une relation causale entre une intervention et
un certain nombre de variables de résultats. D’un point de vue scientifique, et en théorie, elles
peuvent être légitimement considérées comme l’alternative la plus convaincante pour identifier
l’existence et quantifier l’ampleur de l’impact observé. Dans le champ des évaluations quantitatives,
elles apparaissent a priori plus crédibles que les autres méthodes existantes : en l’absence de groupe
de contrôle constitué ex ante, les approches avant-après ou sans-avec ne permettent pas de
contrôler les variations du contexte ; les méthodes quasi-expérimentales d’appariements –qui
associent bénéficiaires et non bénéficiaires sur la base de caractéristiques observables communes –
lèvent partiellement cette contrainte. Mais en l’absence de sélection aléatoire ex ante, elles
omettent les caractéristiques inobservables qui pourraient avoir influencé la sélection et qui
différencieraient donc le groupe traité du groupe de contrôle (« dynamisme entrepreneurial »,
insertion dans des réseaux sociaux, etc.). Toujours dans le champ quantitatif, les RCT permettent de
surmonter, a priori, le défi méthodologique que constitue la démonstration du sens de la causalité,
sans reposer sur des hypothèses économétriques complexes et toujours réfutables. Enfin et plus
classiquement, elles se distinguent des méthodes qualitatives (études de cas, monographies,
entretiens, observation participante) en proposant une mesure chiffrée de l’impact, hors de portée
(et de propos) de ces dernières. Comme nous le verrons ci-dessous, toutes les qualités énoncées ne
sont toutefois que théoriques ; elles supposent de multiples conditions si bien qu’au final, les
thématiques susceptibles d’être évaluées de cette manière sont en fait très circonscrites.
Au-delà de ces avantages génériques (et théoriques), la transposition et la promotion des RCT dans le
domaine du développement comportent d’autres avantages. Nous en citerons trois principaux. En
premier lieu, elles ont mis le doigt sur un point aveugle des politiques dans les ped, qu’elles soient
nationales ou issues de l’apd (Aide pour le développement), à savoir leur manque criant d’évaluation
quantitative dans le passé. Des sommes colossales ont ainsi été dépensées sans qu’on ait une idée
précise de leur efficacité, ouvrant un boulevard à des critiques radicales sur des bases plus
idéologiques que scientifiques (Easterly, 2009 ; Moyo, 2009). L’acceptation du principe des
évaluations et leur multiplication ne peuvent que concourir à la redevabilité démocratique aussi bien
au Sud qu’au Nord (Cling et al., 2003). En second lieu, les RCT ont donné un nouvel élan à la collecte
de données d’enquêtes de première main par les économistes du développement. Longtemps
cantonnés à la modélisation d’agrégats macroéconomiques issus des grandes bases de données
internationales de qualité douteuse (voir par exemple pour le cas de l’Afrique, Jerven, 2010 ;
Devaradjan, 2013), les chercheurs peuvent s’appuyer sur la légitimité accordée aux RCT par le
courant dominant en science économique pour opérer un rapprochement nécessaire avec le terrain
et les acteurs. Enfin, jusqu’alors, les PED étaient marginalisés par la recherche économique en raison
de leur déficit de données de qualité, en particulier longitudinales. La généralisation des RCT place la
recherche sur ces pays au niveau des meilleurs standards internationaux.
Ces atouts ont conduit au poids croissant des RCT dans les PED à partir du milieu des années 2000. Le
Jameel Lateef Poverty Action Lab (J-PAL) a constitué l’un des promoteurs les plus influents des RCT,
animant une vaste campagne de plaidoyer en leur faveur. Il a été fondé en 2003 par Abhijit Banerjee,
Esther Duflo, chercheurs au Massachussets Institute of Technology et Sendhil Mullainathan,
chercheur à Harvard. Spécialisé uniquement dans les RCT, reconnu comme un label de qualité en la
matière, le J-PAL organise des formations et des échanges de pratiques au travers d’un réseau
affiliant notamment 64 professeurs d’universités2 ainsi que de nombreux chercheurs. Il facilite l’accès
aux financements pour mener des études randomisées et stimule la diffusion des résultats, tant dans
le champ scientifique qu’à l’attention des dirigeants politiques. Ce laboratoire est étroitement lié à
l’ong ipa (Innovation for Poverty Action), une organisation chargée de répliquer à grande échelle les
évaluations et les programmes. En février 2013, dix ans après sa création, le J-PAL affiche s’être
engagé dans pas moins de 370 évaluations (achevées ou en cours) dans 52 pays, avec une croissance
exponentielle au fil des ans. L’Afrique arrive au premier rang des terrains d’application (avec 125
expériences), loin devant l’Asie du Sud (90, essentiellement en Inde) et l’Amérique latine (64). Les
thèmes de prédilection portent sur la micro-finance (135), suivi des secteurs sociaux (santé et
éducation ; 93 chacun), la question de la gouvernance suscitant un intérêt croissant (55). On notera
le rôle central joué par Esther Duflo, qui a participé à pas moins de 39 évaluations, dépassée
cependant par Dean Karlan, qui lui en affiche 79 ! Si la Banque mondiale semble avoir une politique
plus nuancée en matière de méthodologie d’évaluation d’impact, en diversifiant les méthodes
(toujours quantitatives), les RCT en représentent près des deux tiers, avec 64 % des 368 évaluations
engagées (jusqu’en 2010). Non seulement les RCT tendent à occuper une position de plus en plus
dominante, mais elles exercent un effet d’éviction sur les autres approches, comme le montre la
figure ci-dessous. Au cours de la période 2000-2004, à peine 20 % des évaluations étaient des RCT.
Dans les cinq années suivantes, les proportions ont été totalement inversées (76 %). Le nombre de
RCT est en progression constante, les évaluations appliquant d’autres méthodes stagnent voire
régressent.
2 Selon la page Wikipedia de J-PAL, consultée le 14/05/2013.
Évolution des évaluations d’impact lancées par J-PAL et la Banque mondiale
-PAL (2003-2012) Banque mondiale (2000-2010)
Source : Site J-PAL, février 2013 ; IEG, 2012.
Une telle systématisation des RCT est-elle scientifiquement légitime et politiquement souhaitable ?
Nous allons voir que deux questions font problème : d’une part la revendication de la supériorité
intrinsèque des RCT sur toutes les autres méthodes (Duflo et al., 2007) ; d’autre part l’idée que
l’accumulation tous azimuts des RCT permettra, par effet de masse, de répondre à toutes les
questions de développement, sur « ce qui marche et ce qui ne marche pas » sur des bases
incontestables (Duflo et Kremer, 2005).
La mise en œuvre de la méthode : un champ d’application très
circonscrit
Les limites relatives à ce type d’évaluation sont de trois ordres : des biais pouvant limiter la fiabilité
des résultats obtenus (validité interne), la portée restreinte des résultats pour expliquer d’autres
situations que le cas particulier étudié (validité externe) et les apories du projet visant à en
généraliser l’usage.
Validité interne
Les RCT n’échappent pas au « bricolage » habituel des protocoles de recherche. Dans de nombreux
cas, les contraintes pratiques et éthiques d’échantillonnage nous emmènent loin du monde idéal de
l’expérimentation, avec des décalages susceptibles de remettre en question le principe même du
tirage aléatoire, de l’absence de biais de sélection et donc de la supériorité supposée des RCT par
rapport à d’autres techniques statistiques (Scriven, 2008 ; Labrousse, 2010 ; Deaton, 2010). Pour des
raisons d’ordre éthique, il arrive que les partenaires de terrain refusent le tirage aléatoire, obligeant
les équipes de recherche à opter pour d’autres modes de sélection, par exemple le tirage
alphabétique. Or celui-ci peut engendrer des biais, suggère Angus Deaton dans la mesure où de
nombreuses ressources sont également allouées de manière alphabétique (Deaton, 2010). Il arrive
0
10
20
30
40
50
60
20002001200220032004200520062007200820092010
No
mb
re d
'éva
luat
ion
s
Expérimentale Quasi-expériementale
0
10
20
30
40
50
60
20002001200220032004200520062007200820092010
No
mb
re d
'éva
luat
ion
s
Expérimentale Quasi-expériementale
également que les responsables des projets dont on évalue l’impact imposent des protocoles de
sélection spécifique afin de ne pas perturber leurs méthodes d’interventions. Citons l’exemple d’un
projet de micro-assurance santé au Cambodge, où les participants ont été tirés au sort lors d’une
réunion de village. Il y a de fortes chances pour que les participants aux réunions villageoises soient
plus disponibles, plus curieux et ouverts à l’innovation, plus proches du leader du village, plus insérés
socialement, davantage malades, etc., et curieusement, cette question n’est pas discutée (Quentin et
Guérin, 2013). Dans certains cas, on peut donc fortement douter de la neutralité des protocoles de
sélection et de leur capacité réelle à éliminer les « caractéristiques inobservables », que les RCT sont
supposées gommer.
Il arrive également que les protocoles de tirage aléatoire se heurtent aux résistances des
bénéficiaires, a fortiori lorsque l’intervention n’est pas fondée sur le don, mais suppose un
enrôlement volontaire. Il est alors extrêmement difficile de s’assurer que les personnes sélectionnées
aléatoirement y souscriront ou que ceux qui ont été exclus par tirage au sort n’y auront pas accès par
d’autres voies. Or, lorsque l’adhésion des bénéficiaires est plus faible que prévu et incompatible avec
les exigences de précision statistique, les équipes de recherche n’hésitent pas à forcer les conditions
de participation. Dans deux études menées récemment, l’une sur la micro-assurance citée plus haut,
l’autre sur le micro-crédit rural au Maroc, des mesures spécifiques de sensibilisation, d’incitation
auprès du personnel de terrain, d’allègement des coûts, etc. ont été mises en place à l’instigation des
chercheurs (Naudet et al., 2013 ; Quentin et Guérin, 2013 ; Morvant-Roux et al. 2013). Les
programmes évalués s’éloignent alors sensiblement du programme « normal ».
Pour pallier les distorsions induites par des arrangements locaux (par exemple si un bénéficiaire tiré
au sort fait don ou revend sa participation à son voisin), le tirage aléatoire suppose aussi des
précautions multiples, une collaboration très étroite des partenaires de terrain, ainsi qu’une
formation et une motivation adéquate des enquêteurs. Le principe de la randomisation suppose que
le groupe de contrôle (une population et/ou un territoire) reste exempt de toute intervention tout au
long de l’étude. Mais lorsqu’il s’agit de secteurs dynamiques ou concurrentiels (par exemple le micro-
crédit), il semble illusoire d’espérer des groupes de contrôle qu’ils restent à l’écart de toute
intervention et qu’ils n’en subissent pas les effets, contrairement à ce que prévoit le protocole de
recherche. Par ailleurs, les effets de contamination sont difficiles à prendre en compte.
Plus généralement, la lourdeur des protocoles de recherche (tirages au sort complexes, mais aussi
enquêtes répétées, échantillons de plusieurs milliers de personnes, homogénéisation des modes
d’intervention), leur durée3 et leur coût suscitent des jeux d’acteurs, tant avec les partenaires étudiés
qu’avec les équipes locales en charge des enquêtes. Il arrive que d’autres acteurs soient imposés ou
suggérés par les bailleurs (par exemple les gouvernements). Ces jeux d’acteurs suscitent
nécessairement des compromis et des ajustements, tant au niveau de l’échantillonnage, des objectifs
de la recherche, de l’élaboration des questionnaires, que de l’interprétation des résultats4. Alors que
ces bricolages et jeux d’acteurs sont courants et constituent un tour de main notoire des
randomisateurs (cf. par exemple Goldstein 2011 ; Ozler, 2012), ils sont généralement passés sous
silence lors de la publication des résultats. Leurs conséquences sur la nature des protocoles et donc
la validité interne des études sont pourtant déterminantes.
3 Même pour des enquêtes à un an, les études peuvent durer 4 à 5 ans compte tenu de la lourdeur des
protocoles de préparation (et du nombre d’études que les équipes RCT gèrent). 4 Pour un exemple détaillé, voir Quentin et Guérin (2013).
Validité externe
Sur le plan de la validité externe, l’étroitesse des questions susceptibles d’être traitées par les RCT
questionne les enseignements que l’on peut en tirer au-delà de la politique étudiée. Pour des raisons
de précision statistique, les RCT requièrent des échantillons de population très importants pour
apporter la réponse à une question binaire (est-ce qu’avec le projet on est mieux que sans ?). Pour
cela, elles traitent difficilement la question de l’hétérogénéité, la plupart l’ignorent pour se
concentrer sur les impacts moyens. Or, les politiques de développement peuvent avoir des effets très
contrastés en fonction des caractéristiques disparates de leurs bénéficiaires ou de la manière dont
elles sont localement mises en œuvre5. Est-ce que le projet fonctionne mieux dans certains contextes
que dans d’autres ? Qu’il s’agisse de l’amélioration des services ou de réplication à plus large échelle,
cette question est pourtant essentielle (Ravallion, 2009 ; DFID, 2012).
En outre, afin de maîtriser les paramètres de l’expérimentation, les RCT sont souvent très limitées
dans l’espace – ne sont ciblées que des zones spécifiques – et dans le temps. Pour des raisons de
coût, mais aussi d’attrition (le nombre de participants tend à décroître au fil du temps), les RCT
dépassent rarement deux ans (et certaines se limitent à un an, notamment lorsque la participation
ne va pas de soi et si les abandons sont nombreux). Cette contrainte temporelle amène souvent à se
focaliser sur des résultats intermédiaires (Durand et Nordmann, 2011). On peut également
s’interroger sur la sensibilité des effets à l’épreuve du temps (Labrousse, 2010). Pour de multiples
raisons, des impacts constatés à court terme peuvent évoluer au cours du temps, voire s’inverser à
moyen ou long terme. Il est assez rare que les trajectoires des projets de développement soient
linéaires, ce qui limite fortement la validité des conclusions à un instant t (Woolcock, 2009).
Ainsi nombre de programmes de développement ont des effets d’entraînement, de composition ou
d’équilibre général, c’est-à-dire qu’ils affectent une région ou une filière, positivement ou
négativement, bien au-delà des seuls bénéficiaires du programme en question. C’est le cas par
exemple de programmes d’accès à l’emploi. Ceux-ci peuvent avoir pour effet d’augmenter
l’ensemble des revenus du travail (Ravallion, 2009), mais aussi susciter des effets de saturation ou de
substitution (l’exemple typique est celui du micro-crédit, où les entreprises créées peuvent
provoquer une saturation des marchés locaux ou déloger leurs concurrents). En somme, il semble
extrêmement risqué d’étendre les leçons d’une évaluation menée à un instant t à l’ensemble d’un
pays ou à un type d’intervention en général.
Sur le plan de leur portée scientifique, les RCT permettent éventuellement de mesurer certains
impacts ou de tester plusieurs modalités d’une politique de développement, mais elles ne
permettent pas d’en analyser les raisons ni les processus sous-jacents (Ravallion, 2009), c’est-à-dire
les mécanismes à travers lesquels une intervention donnée parvient à un certain résultat (Rao et
Woolcock, 2003 ; Hulme, 2007).
In fine, la mise en œuvre de ce type de méthode suppose de multiples conditions, qui ne sont
respectées que dans le cas de programmes « tunnels », caractérisés par des impacts de court terme,
des inputs et outputs clairement identifiés, facilement mesurables, des liens de causalité
unidirectionnels (A cause B), linéaires et enfin non soumis à des risques de faible participation de la
part des populations visées (Naudet et al., 2012). L’ensemble de ces conditions exclut un grand
5 En ce qui concerne le micro-crédit voir par exemple Morvant-Roux et al. (à paraître).
nombre de politiques de développement, qui mettent en jeu des combinaisons de mécanismes
socioéconomiques et des boucles de rétroaction (effets d’émulation, d’apprentissage des
bénéficiaires, d’amélioration de la qualité des programmes, effets d’équilibre général, etc.) (DFID,
2012).
Projet généralisateur
Reconnaissant que les résultats des RCT restent très liés aux spécificités de leur application (période,
lieu, modalités d’intervention du projet), certains de leurs promoteurs les plus en vue, notamment
Esther Duflo, arguent qu’il convient de les considérer comme des « biens publics mondiaux » et de
créer une instance internationale chargée de les multiplier (Savedoff et al., 2006, Glennerster, 2012).
Celle-ci constituerait ainsi une base de données universelle et jouerait le rôle de « chambre de
compensation » apportant des réponses sur tout ce qui marche ou ne marche pas en matière de
développement (Duflo et Kremer, 2005). Toutefois, de par leurs caractéristiques évoquées plus haut,
les RCT se focalisent sur de petits dispositifs, relativement simples et facilement actionnables, qui ne
sauraient, mis bout à bout, retranscrire l’intégralité des enjeux du développement ou fonder une
politique sociale. Ainsi, François Bourguignon6, chercheur renommé ayant largement contribué à
promouvoir les RCT, considère cette proposition absurde et scientifiquement infondée7. Dans ces
conditions, la poursuite de ce projet pharaonique est au mieux une fuite en avant, mais plus
probablement le fruit d’intérêts qu’il convient d’identifier.
Éléments d’économie politique d’une entreprise scientifique
Comprendre les décalages entre les limites de la méthode et sa très grande légitimité, aussi bien
dans le champ académique que politique, suppose de s’interroger sur les rapports de force qui sont
en jeu et qui contribuent à forger les préférences collectives en faveur de telle ou telle méthode.
Du côté académique, et au premier chef de l’économie, la conjoncture est favorable à la montée en
puissance des RCT : défaite des écoles hétérodoxes centrées sur les structures sociales et les
processus de domination, recherche des fondements micro de la macro, primat de la quantification
et de l’économie et alignement sur les standards en vigueur au Nord (Labrousse 2013 ; Durand et
Nordmann, 2011). Ces méthodes répondent en outre à toutes les conditions requises par ce
tournant : primauté à l’empirisme, simplicité apparente (simple comparaison de moyennes),
mobilisation élégante de la théorie mathématique (gage de scientificité), et concentration sur les
6 François Bourguignon est directeur de l’École d’économie de Paris depuis 2007. Il a été économiste en chef et
premier vice-président de la Banque mondiale à Washington entre 2003 et 2007. 7 Extrait du discours de clôture de la conférence de afd-eudn à Paris le 26 mars 2012 : « There has been this
fashion during the last couple of years on the RCTs. We even heard colleagues, good colleagues, saying that in the field of development, and in the field of development aid, the only fruitful approach from now on was to do random control trials in all possible fields of interventions. And at the end, we’ll have a huge map, a huge catalogue saying “This works, this doesn’t work”. This is crazy ! This will never work and, because of that, we absolutely need the other approaches to evaluating policies and programs. The “pure, scientific evidence” on all what is concerned with development is simply completely impossible. We have to live with this imperfect knowledge. » (souligné par nous)
pauvres (enquêtes auprès des ménages)8. Leur simplicité les rend aisément compréhensibles par les
décideurs. Elles apparaissent donc comme un vecteur privilégié pour éclairer la décision publique.
L’élan en faveur des RCT a en outre été conforté par l’émergence d’une nouvelle génération de
chercheurs. Ils sont jeunes, issus du sérail des meilleures universités (pour la plupart américaines), ils
ont su combiner excellence académique (légitimité scientifique), effort de séduction en direction du
public (visibilité médiatique et légitimité citoyenne) et des bailleurs de fonds (demande solvable) et
modèle d’entreprise performant (rentabilité financière) ; toutes ces qualités se renforçant
mutuellement. En s’engageant dans une intense activité de communication et de plaidoyer, à l’aide
de toute une série de supports de presse ou para-académiques (policy brief, blogs, forums de
vulgarisation, happenings, etc.), les randomisateurs montrent l’image avenante de chercheurs ayant
accepté de sortir de leur tour d’ivoire. En affichant une posture modeste au plus proche du terrain, ils
incarnent l’engagement, l’empathie et le désintéressement.
La figure d’Esther Duflo est l’exemple le plus illustratif de cette mouvance. Jeune chercheure franco-
américaine, elle cumule les distinctions académiques, dont la célèbre médaille Bates, qui
récompense le « meilleur économiste » de moins de 40 ans et qu’elle a reçue en 2010. Elle a à son
actif un nombre impressionnant de publications dans les revues d’économie les plus prestigieuses,
mais elle vulgarise également ses travaux sous la forme d’ouvrages accessibles au grand public9.
Depuis 2008, elle figure sur la liste des 100 premiers intellectuels mondiaux du magazine américain
Foreign Policy. En 2011, c’est le Time qui la compte parmi les 100 personnes les plus influentes au
monde. Fin 2012, elle a été nommée conseillère du Président Obama sur les questions de
« développement global ». En France, elle a été la première titulaire de la toute nouvelle chaire
« Savoir contre pauvreté » du Collège de France, créée et financée par l’Agence française de
développement (AFD). Son nom est régulièrement cité comme candidate potentielle à un prochain
prix Nobel d’économie.
Ces jeunes chercheurs de la mouvance RCT se distinguent également dans le mode de gestion de leur
activité. En montant des ong ou des bureaux d’étude spécialisés, ils créent les structures idoines pour
recevoir des fonds de toutes origines : publique bien sûr, mais également de fondations,
d’entreprises, de mécènes, etc., hors des circuits classiques de financement de la recherche publique.
Sur ce plan, ils sont en parfaite adéquation avec les nouvelles sources de financement de l’aide que
constituent les fondations privées et les institutions philanthropiques, qui se montrent
particulièrement enclines à leur confier des études. En parvenant à créer leurs propres guichets de
financement, principalement multilatéraux (l’initiative de la Banque mondiale pour l’évaluation
d’impact du développement, l’initiative internationale pour l’évaluation d’impact, la Banque africaine
de développement, le fonds stratégique pour le développement humain), mais aussi bilatéraux (la
coopération espagnole et britannique) et des fondations (Rockefeller, Citi, Gates), les randomisateurs
ont créé un oligopole sur le marché florissant de l’expérience aléatoire.
La nébuleuse organisée autour de j-pal, co-dirigée par Esther Duflo, constitue le modèle le plus
emblématique et le plus abouti de ce nouveau scientific business model. Le laboratoire j-pal est l’un
des centres de recherche du département d’économie du Massachusetts Institute of Technology. Cet
ancrage institutionnel, au sein d’une des plus prestigieuses universités américaines, ainsi que la
8 Notons que ces méthodes sont désormais importées en France.
9 En langue anglaise, Banerjee et Duflo (2011) et en langue française, Duflo (2010a, 2010b).
notoriété de ses dirigeants, jouent le rôle de caution académique et de catalyseur. Au côté de j-pal,
Innovations for Poverty Action (ipa) joue un rôle névralgique. Organisation à but non lucratif, outre
sa fonction de communication et de plaidoyer en faveur des RCT10, elle est chargée d’étendre et de
répliquer les expériences aléatoires une fois testées par j-pal. C’est donc l’articulation des deux
institutions qui doit permettre de mener à bien le « projet généralisateur » décrit dans la deuxième
partie.
L’industrie des RCT, est une entreprise rentable sous tous rapports. Elle est académiquement
profitable, et il y a tout à gagner à s’inscrire dans cette mouvance (ou tout à perdre à ne pas y être). Il
est aujourd’hui très difficile de publier dans des revues d’économie des articles basés sur d’autres
approches. Cet effet d’éviction est aussi lié au fait que les promoteurs les plus influents des RCT sont
souvent membres des comités de rédaction des plus grandes revues d’économie et d’économie du
développement11. Mais les profits ne sont pas uniquement symboliques. Se spécialiser dans les RCT
est aussi une excellente façon d’obtenir un poste de chercheur ou d’enseignant, comme en
témoignent les modes de recrutement actuels dans la discipline économique. C’est aussi une
garantie d’obtenir des fonds conséquents pour mener ses propres recherches. En économie du
développement, il est aujourd’hui très ardu d’obtenir des financements européens sans méthode
RCT. Plusieurs stratégies sont mises en œuvre pour éviter un rééquilibrage au tout RCT. Les
méthodes alternatives sont disqualifiées, les RCT s’arrogeant le monopole de la scientificité
(Harrison, 2011). Les réflexions critiques sont longtemps restées inaudibles, car cantonnées sur des
supports de publication marginalisés. Dans de nombreux cas, les résultats des expériences présentés
comme des « découvertes » inédites, ne sont en fait que la reprise de conclusions obtenues par des
études antérieures. Mais cette littérature est considérée a priori comme non rigoureuse et rarement
citée (Labrousse, 2010 ; Nubukpo, 2012).
Conclusion
Notre propos n’est pas de rejeter les RCT, qui constituent une méthode prometteuse… parmi
d’autres. Si les RCT restent probablement adaptées et légitimes pour certaines politiques
circonscrites de manière précise, il est à la fois nécessaire et possible d’employer d’autres méthodes.
Celles-ci adoptent une approche pragmatique, définissant les questions de recherche et les outils
méthodologiques nécessaires au cas par cas, en concertation avec les partenaires impliqués
(opérateurs de terrain, bailleurs, etc.). Elles s’appuient également sur un pluralisme méthodologique,
fondé sur l’interdisciplinarité et reconnaissent la diversité des modes d’administration de la preuve
(inférence statistique/analyse compréhensive). Il ne s’agit pas de récuser le formalisme ou la
modélisation, mais d’en faire un usage contrôlé. En outre, ces approches ne visent pas l’énoncé de
lois universelles, mais cherchent à expliciter des liens de causalité propres à une période et à un
contexte précis. Les méthodes qualitatives sont mobilisées pour contextualiser les politiques de
10
À la différence de J-PAL, contraint par les réserves académiques de rigueur, ipa peut afficher ses objectifs en usant des recettes directement issues du marketing : « ipa uses randomized evaluations because they provide the highest quality and most reliable answers to what works and what does not » (voir le site d’ipa). 11
Comme par exemple Annual Review of Economics, The American Economic Journal : Applied Economics, Review of Economics and Statistics, Journal of Development Economics, Journal of Quantitative Economics, Journal of Economic Perspectives, etc.
développement, élaborer des hypothèses originales, identifier des phénomènes nouveaux ou
imprévus, et enfin les analyser dans leur globalité, en étudiant la complexité des liens de causalité,
les interactions multiples, dynamiques et contradictoires entre différentes entités, de manière
située.
Les degrés d’articulation et d’intégration entre méthodes (quantitatives, qualitatives et
participatives) peuvent être très variés. Plutôt que de miser systématiquement sur la création de
données nouvelles, ces méthodes alternatives privilégient, lorsque cela se justifie, l’usage de
données existantes, qu’il s’agisse de statistiques officielles ou de données produites par les
partenaires locaux en charge de la mise en œuvre des projets/politiques de développement. Cela
permet notamment de réduire les coûts, et de limiter les jeux d’acteurs liés à des protocoles
d’enquêtes trop lourds, ainsi que les systèmes d’information des programmes évalués ou des pays
dans lesquels ils se situent. Après avoir été emportés par l’effet de mode, certains bailleurs de fonds
comme l’AFD (Naudet et al., 2012) et le DFID (2012) se montrent aujourd’hui plus circonspects quant
au champ réel d’application des RCT et à leur capacité à répondre aux questions qu’ils se posent. Il
reste à espérer que ce retour à des positions plus nuancées se traduise par des mesures concrètes de
soutien à des méthodes d’évaluation alternatives.
Bibliographie
Banerjee A.V. et Duflo E. (2011), Poor Economics : a Radical Rethinking of the Way to Fight Global Poverty, New York (N. Y.), Public Affairs.
Barrett C. B. et Carter M. R, (2010), « The Power and Pitfalls of Experiments in Development Economics : Some Non-random Reflections », Applied Economic Perspectives and Policy, 32 (4), p. 515-548.
Cling J.-P., Razafindrakoto M. et Roubaud F. (dir.) (2003), Les Nouvelles Stratégies internationales de lutte contre la pauvreté, Paris, Economica/IRD.
Deaton A. (2009), Instruments of Development : Randomization in the Tropics, and the Search for the Elusive Keys to Economic Development, Cambridge, National Bureau of Economic Research.
Devaradjan S. (2013), « The Africa’s Statistical Tragedy », Review of Income and Wealth, 59, p. 1-7.
DFID (2012), « Broadening the Range of Designs and Methods for Impact Evaluations. Report of a Study Commissioned by the Department for International Development », DFID, Working Paper, 38.
Duflo E., Glennerster R. et Kremer M. (2007), « Using Randomization in Development Economics Research : A Toolkit », dans T. Paul Schultz, J. A. Strauss (eds), Handbook of Development Economics, 4, Atlanta (Ga.), Elsevier, p. 3895-3962.
Duflo E. et Kremer M. (2005), « Use of Randomization in the Evaluation of Development Effectiveness », dans G. K. Pitman, O. N. Feinstein, G. K. Ingram (eds), Evaluating Development Effectiveness, World Bank Series on Evaluation and Development, 7, Piscataway (N. J.), Transaction Publishers, p. 205-231.
Durand C. et Nordmann C. (2011), « Misère de l’économie du développement », La Revue des livres, www.revuedeslivres.fr/misere-de-leconomie-dudeveloppement-cedric-durand-et-charlotte-nordmann
Easterly W. (2009), Le Fardeau de l’homme blanc : l’échec des politiques occidentales d’aide aux pays pauvres, Genève, Markus Haller.
Glennerster R. (2012), « The Power of Evidence : Improving the Effectiveness of Government by Investing in More Rigorous Evaluation », National Institute Economic Review, 219 (1), p. 4-14.
Goldstein M. (2011), « The Impact Evaluation Roller Coaster », Development Impact : News, Views, Methods, and Insights from the World of Impact Evaluation (en ligne).
Harrison G. W. (2011), « Randomisation and Its Discontents », Journal of African Economics, 20 (4), p. 626-652, doi :10.1093/jae/ejr030.
IEG (2012), World Bank Group Impact Evaluation. Relevance and Effectiveness, Banque mondiale.
Labrousse A. (2010), « Nouvelle économie du développement et essais cliniques randomisés : une mise en perspective d’un outil de preuve et de gouvernement », Revue de la régulation, 7 (2), p. 2-32.
Morvant-Roux S., Guérin I., Roesch M. et Moisseron J.-Y. (à paraître), « Adding Value to Randomization with Qualitative Analysis : the Case of Microcredit in Rural Morocco », World Development.
Moyo D. (2009), L’Aide fatale. Les ravages d’une aide inutile et de nouvelles solutions pour l’Afrique, Paris, Hachette.
Naudet J.-N., Bernard T. et Delarue J. (2012), « Évaluations d’impact : un outil de redevabilité ? Les leçons tirées de l’expérience de l’AFD », Revue d’économie du développement, 4 (26), p. 27-48.
Nubukpo K. (2012), « Esther Duflo, ou “l’économie expliquée aux pauvres d’esprit” », Blog L’actualité vue par Kako Kubukpo, Alternatives Économiques, http://alternatives-economiques.fr//(page consultée le 11 mars 2013).
Ozler B. (2012), « When Randomization Goes Wrong… », Development Impact : News, views, methods, and insights from the world of impact evaluation (en ligne), http://blogs.worldbank.org/impactevaluations/the-impact-evaluationroller-coaster (page consultée le 22 février 2013).
Quentin A. et Guérin I. (2013), « La randomisation à l’épreuve du terrain. L’expérience de la micro-assurance au Cambodge », Revue Tiers Monde.
Ravallion M. (2009), « Evaluation in the Practice of Development », The World Bank Research Observer, 24 (1), p. 29-53.
Rodrik D. (2008), The New Development Economics : We Shall Experiment, but How Shall We Learn ?, Cambridge (Mass.), John F. Kennedy School of Government-Harvard University.
Savedoff W. D., Levine R. et Birdsall N. (eds) (2006), When Will We Ever Learn ? Improving Lives Through Impact Evaluation, Washington (D. C.), Center for Global Development.
Scriven M. (2008), « A Summative Evaluation of rct Methodology : & An Alternative Approach to Causal Research », Journal of MultiDisciplinary Evaluation, 5 (9), p. 11-24.
SFE (2010), « Évaluation des impacts des programmes et services publics », Les cahiers de la SFE, 6.
Shaffer P. (2011), « Against Excessive Rhetoric in Impact Assessment : Overstating the Case for Randomised Controlled Experiments », Journal of Development Studies, 47 (11), p. 1619-1635.