L’étalon-or des évaluations randomisées : du discours de la méthode à l’économie politique

L’é talon-or dés é valuations randomisé és : du discours dé la mé thodé a l’é conomié politiqué

The gold standard of randomised control trials :

from theoretical method to political economics

Florent Bédécarrats (Cerise : Comité d’échange, de réflexion et d’information sur les systèmes

d’épargne-crédit)

Isabelle Guérin (IRD (Institut de Recherche pour le Développement)

François Roubaud (IRD-DIAL)

Résumé

Cet article explore le contraste entre les limites (nombreuses) et la circonscription (très étroite) du

champ réel d’application des méthodes expérimentales d’évaluation d’impacts par assignation

aléatoire ; et également leur succès, attesté à la fois par leur nombre et leur forte médiatisation.

L’analyse suggère que ce contraste est le fruit d’une conjonction économique et politique

particulière, émanant de stratégies novatrices de la part des chercheurs de cette nouvelle école, et

d’intérêts et de préférences spécifiques provenant à la fois du monde académique et de la

communauté des donateurs.

Abstract

The last decade has seen the emergence of a new field of research in development economics : the

use of randomised controlled trials (RCT) in the experimental assessment of impact. This article

explores the disparity between the many limitations inherent in the actual scope of RCT along with

its very narrow sphere, and the success of RCT as evidenced by the number of times it has been

applied and by the significant amount of media coverage it has received. Our analysis suggests that

this disparity is the product of a highly specific blend of economics and politics, which can be linked

to the innovative strategies developed by researchers from this new school of thought, and to the

interests and preferences shown by the academic/donor community.

La dernière décennie a vu l’émergence d’un nouveau champ de recherche en économie du

développement : les méthodes expérimentales d’évaluation d’impacts par assignation aléatoire

(Randomized Control Trial ; dans la suite du texte RCT). Si le principe des RCT n’est pas une

innovation scientifique, son application à grande échelle dans les pays en développement (ped) est

en revanche un phénomène sans précédent. Dérivées des sciences médicales, et déjà largement

utilisées dans les pays développés (essentiellement aux États-Unis ; SFE, 2010), ces méthodes ont été

adaptées aux problématiques et aux contextes des pays pauvres. Elles ont connu un succès

retentissant, ce qu’atteste leur multiplication. Leurs promoteurs ont rapidement bénéficié d’une

véritable consécration internationale. Rares sont aujourd’hui les formations académiques prétendant

« tutoyer l’excellence » qui ne proposent un cursus spécialisé dans ce domaine, comme à l’École

d’économie de Paris, la London School of Economics, Harvard, Yale, etc. Rares sont également les

agences d’aides qui n’aient pas créé de département qui leur soit dédié, ou engagé ou financé leurs

propres RCT.

Sur le plan méthodologique et de la connaissance en économie du développement, les RCT

représentent un progrès que nous allons expliquer. Néanmoins, et en dépit d’une posture

méthodologique excessivement modeste (évaluation de projets spécifiques, localement circonscrits

et souvent à petite échelle), les RCT sont aujourd’hui labélisées « Gold Standard » de l’évaluation, à

l’aune duquel il conviendrait de jauger toute approche alternative. Présentées par leurs adeptes

comme une véritable révolution copernicienne en économie du développement, on leur attribue en

exclusive le qualificatif de « rigoureuses », voire de « scientifiques ». Mais comme nous allons le voir

plus bas, bien au-delà du champ méthodologique, l’ambition de certains défenseurs des RCT les plus

médiatiques, comme par exemple Esther Duflo, est de fournir une liste exhaustive des bonnes et des

mauvaises politiques en matière de développement. L’accumulation d’un nombre toujours plus

grand d’études d’impact sur lesquelles il conviendrait de capitaliser afin d’en tirer les enseignements

généralisateurs, nous le verrons, serait la voie fondatrice de cette ambition universalisante. Plus

concrètement, la suprématie revendiquée des RCT dans le champ de l’évaluation quantitative

engendre un certain nombre d’effets pervers, comme le souligne un rapport récent de la coopération

britannique (DFID, 2012) : disqualification et effet d’éviction des méthodes alternatives, mobilisation

toujours plus grande des ressources allouées, positions de rentes, etc. C’est ce paradoxe que nous

nous proposons d’explorer ici.

Notre propos combine un double regard. Nous nous intéressons d’une part à l’importance

grandissante des RCT dans le monde de l’évaluation de l’aide et de la discipline économique,

importance appréciée en termes de nombre d’études mais aussi de notoriété. Nous nous penchons

d’autre part sur la mise en œuvre de ce type de méthode, en combinant notre propre observation de

plusieurs RCT, menées en France, au Maroc et au Cambodge1 et la littérature existante sur le sujet

afin de pouvoir monter en généralité (Naudet et al., 2012 ; DFID, 2012 ; Shaffer, 2011 ; Barrett et

Carter, 2010 ; Deaton, 2010 ; Khandker et al., 2010 ; Labrousse, 2010 ; Rodrik, 2008).

Dans la première partie, nous présentons brièvement les principes fondateurs des RCT et ses

avantages, notamment scientifiques, mais dont la plupart sont finalement très théoriques. La

seconde partie décrit le champ réel d’application de ces méthodes, beaucoup plus limité que ce

1 Deux d’entre elles ont fait l’objet de publications distinctes et seront repris ici de manière très synthétique les

principaux enseignements concernant les limites de la méthode rct (Quentin et Guérin, 2013 ; Morvant-Roux, Guérin, Roesch et Moisseron, à paraître).

qu’avancent certains de leurs promoteurs. Enfin, la troisième partie, inspirée d’une analyse en

termes d’économie politique, propose d’expliquer pourquoi ces méthodes jouissent d’une légitimité

politique et académique (en économie) qui va bien au-delà de leur réelle portée scientifique. Nous

concluons en proposant notre propre vision en matière de méthode d’évaluation d’impact et en

dressant quelques pistes de recherche dans le prolongement de cet article.

La montée en puissance d’une méthodologie

Les méthodes expérimentales visent à comparer la situation issue d’un projet (d’un programme ou

d’une politique) à celle qui aurait eu cours s’il n’avait pas été mis en place, afin d’en mesurer l’impact

net ; c’est-à-dire, une fois purgé de tous les changements advenus par ailleurs. Toute la difficulté est

de construire la situation de référence hypothétique (sans projet ; appelée contrefactuel), qui par

définition n’est jamais observée. La solution proposée par les méthodes expérimentales consiste à

sélectionner par tirage aléatoire deux échantillons au sein d’une même population susceptible de

bénéficier du projet. Celui-ci ne sera attribué qu’à l’un des groupes, mais les deux feront l’objet

d’enquêtes avant et après le projet. Les propriétés statistiques issues de la théorie des sondages

garantissent qu’en moyenne, les différences observées entre les bénéficiaires et les non-bénéficiaires

peuvent être attribuées au projet. Comme dans toute méthode probabiliste, les résultats sont

connus avec une marge d’erreur (l’intervalle de confiance) qui dépend des caractéristiques de

l’échantillonnage (taille, méthode, défections).

Ces méthodes cherchent donc à établir formellement une relation causale entre une intervention et

un certain nombre de variables de résultats. D’un point de vue scientifique, et en théorie, elles

peuvent être légitimement considérées comme l’alternative la plus convaincante pour identifier

l’existence et quantifier l’ampleur de l’impact observé. Dans le champ des évaluations quantitatives,

elles apparaissent a priori plus crédibles que les autres méthodes existantes : en l’absence de groupe

de contrôle constitué ex ante, les approches avant-après ou sans-avec ne permettent pas de

contrôler les variations du contexte ; les méthodes quasi-expérimentales d’appariements –qui

associent bénéficiaires et non bénéficiaires sur la base de caractéristiques observables communes –

lèvent partiellement cette contrainte. Mais en l’absence de sélection aléatoire ex ante, elles

omettent les caractéristiques inobservables qui pourraient avoir influencé la sélection et qui

différencieraient donc le groupe traité du groupe de contrôle (« dynamisme entrepreneurial »,

insertion dans des réseaux sociaux, etc.). Toujours dans le champ quantitatif, les RCT permettent de

surmonter, a priori, le défi méthodologique que constitue la démonstration du sens de la causalité,

sans reposer sur des hypothèses économétriques complexes et toujours réfutables. Enfin et plus

classiquement, elles se distinguent des méthodes qualitatives (études de cas, monographies,

entretiens, observation participante) en proposant une mesure chiffrée de l’impact, hors de portée

(et de propos) de ces dernières. Comme nous le verrons ci-dessous, toutes les qualités énoncées ne

sont toutefois que théoriques ; elles supposent de multiples conditions si bien qu’au final, les

thématiques susceptibles d’être évaluées de cette manière sont en fait très circonscrites.

Au-delà de ces avantages génériques (et théoriques), la transposition et la promotion des RCT dans le

domaine du développement comportent d’autres avantages. Nous en citerons trois principaux. En

premier lieu, elles ont mis le doigt sur un point aveugle des politiques dans les ped, qu’elles soient

nationales ou issues de l’apd (Aide pour le développement), à savoir leur manque criant d’évaluation

quantitative dans le passé. Des sommes colossales ont ainsi été dépensées sans qu’on ait une idée

précise de leur efficacité, ouvrant un boulevard à des critiques radicales sur des bases plus

idéologiques que scientifiques (Easterly, 2009 ; Moyo, 2009). L’acceptation du principe des

évaluations et leur multiplication ne peuvent que concourir à la redevabilité démocratique aussi bien

au Sud qu’au Nord (Cling et al., 2003). En second lieu, les RCT ont donné un nouvel élan à la collecte

de données d’enquêtes de première main par les économistes du développement. Longtemps

cantonnés à la modélisation d’agrégats macroéconomiques issus des grandes bases de données

internationales de qualité douteuse (voir par exemple pour le cas de l’Afrique, Jerven, 2010 ;

Devaradjan, 2013), les chercheurs peuvent s’appuyer sur la légitimité accordée aux RCT par le

courant dominant en science économique pour opérer un rapprochement nécessaire avec le terrain

et les acteurs. Enfin, jusqu’alors, les PED étaient marginalisés par la recherche économique en raison

de leur déficit de données de qualité, en particulier longitudinales. La généralisation des RCT place la

recherche sur ces pays au niveau des meilleurs standards internationaux.

Ces atouts ont conduit au poids croissant des RCT dans les PED à partir du milieu des années 2000. Le

Jameel Lateef Poverty Action Lab (J-PAL) a constitué l’un des promoteurs les plus influents des RCT,

animant une vaste campagne de plaidoyer en leur faveur. Il a été fondé en 2003 par Abhijit Banerjee,

Esther Duflo, chercheurs au Massachussets Institute of Technology et Sendhil Mullainathan,

chercheur à Harvard. Spécialisé uniquement dans les RCT, reconnu comme un label de qualité en la

matière, le J-PAL organise des formations et des échanges de pratiques au travers d’un réseau

affiliant notamment 64 professeurs d’universités2 ainsi que de nombreux chercheurs. Il facilite l’accès

aux financements pour mener des études randomisées et stimule la diffusion des résultats, tant dans

le champ scientifique qu’à l’attention des dirigeants politiques. Ce laboratoire est étroitement lié à

l’ong ipa (Innovation for Poverty Action), une organisation chargée de répliquer à grande échelle les

évaluations et les programmes. En février 2013, dix ans après sa création, le J-PAL affiche s’être

engagé dans pas moins de 370 évaluations (achevées ou en cours) dans 52 pays, avec une croissance

exponentielle au fil des ans. L’Afrique arrive au premier rang des terrains d’application (avec 125

expériences), loin devant l’Asie du Sud (90, essentiellement en Inde) et l’Amérique latine (64). Les

thèmes de prédilection portent sur la micro-finance (135), suivi des secteurs sociaux (santé et

éducation ; 93 chacun), la question de la gouvernance suscitant un intérêt croissant (55). On notera

le rôle central joué par Esther Duflo, qui a participé à pas moins de 39 évaluations, dépassée

cependant par Dean Karlan, qui lui en affiche 79 ! Si la Banque mondiale semble avoir une politique

plus nuancée en matière de méthodologie d’évaluation d’impact, en diversifiant les méthodes

(toujours quantitatives), les RCT en représentent près des deux tiers, avec 64 % des 368 évaluations

engagées (jusqu’en 2010). Non seulement les RCT tendent à occuper une position de plus en plus

dominante, mais elles exercent un effet d’éviction sur les autres approches, comme le montre la

figure ci-dessous. Au cours de la période 2000-2004, à peine 20 % des évaluations étaient des RCT.

Dans les cinq années suivantes, les proportions ont été totalement inversées (76 %). Le nombre de

RCT est en progression constante, les évaluations appliquant d’autres méthodes stagnent voire

régressent.

2 Selon la page Wikipedia de J-PAL, consultée le 14/05/2013.

Évolution des évaluations d’impact lancées par J-PAL et la Banque mondiale

-PAL (2003-2012) Banque mondiale (2000-2010)

Source : Site J-PAL, février 2013 ; IEG, 2012.

Une telle systématisation des RCT est-elle scientifiquement légitime et politiquement souhaitable ?

Nous allons voir que deux questions font problème : d’une part la revendication de la supériorité

intrinsèque des RCT sur toutes les autres méthodes (Duflo et al., 2007) ; d’autre part l’idée que

l’accumulation tous azimuts des RCT permettra, par effet de masse, de répondre à toutes les

questions de développement, sur « ce qui marche et ce qui ne marche pas » sur des bases

incontestables (Duflo et Kremer, 2005).

La mise en œuvre de la méthode : un champ d’application très

circonscrit

Les limites relatives à ce type d’évaluation sont de trois ordres : des biais pouvant limiter la fiabilité

des résultats obtenus (validité interne), la portée restreinte des résultats pour expliquer d’autres

situations que le cas particulier étudié (validité externe) et les apories du projet visant à en

généraliser l’usage.

Validité interne

Les RCT n’échappent pas au « bricolage » habituel des protocoles de recherche. Dans de nombreux

cas, les contraintes pratiques et éthiques d’échantillonnage nous emmènent loin du monde idéal de

l’expérimentation, avec des décalages susceptibles de remettre en question le principe même du

tirage aléatoire, de l’absence de biais de sélection et donc de la supériorité supposée des RCT par

rapport à d’autres techniques statistiques (Scriven, 2008 ; Labrousse, 2010 ; Deaton, 2010). Pour des

raisons d’ordre éthique, il arrive que les partenaires de terrain refusent le tirage aléatoire, obligeant

les équipes de recherche à opter pour d’autres modes de sélection, par exemple le tirage

alphabétique. Or celui-ci peut engendrer des biais, suggère Angus Deaton dans la mesure où de

nombreuses ressources sont également allouées de manière alphabétique (Deaton, 2010). Il arrive

0

10

20

30

40

50

60

20002001200220032004200520062007200820092010

No

mb

re d

'éva

luat

ion

s

Expérimentale Quasi-expériementale

0

10

20

30

40

50

60

20002001200220032004200520062007200820092010

No

mb

re d

'éva

luat

ion

s

Expérimentale Quasi-expériementale

également que les responsables des projets dont on évalue l’impact imposent des protocoles de

sélection spécifique afin de ne pas perturber leurs méthodes d’interventions. Citons l’exemple d’un

projet de micro-assurance santé au Cambodge, où les participants ont été tirés au sort lors d’une

réunion de village. Il y a de fortes chances pour que les participants aux réunions villageoises soient

plus disponibles, plus curieux et ouverts à l’innovation, plus proches du leader du village, plus insérés

socialement, davantage malades, etc., et curieusement, cette question n’est pas discutée (Quentin et

Guérin, 2013). Dans certains cas, on peut donc fortement douter de la neutralité des protocoles de

sélection et de leur capacité réelle à éliminer les « caractéristiques inobservables », que les RCT sont

supposées gommer.

Il arrive également que les protocoles de tirage aléatoire se heurtent aux résistances des

bénéficiaires, a fortiori lorsque l’intervention n’est pas fondée sur le don, mais suppose un

enrôlement volontaire. Il est alors extrêmement difficile de s’assurer que les personnes sélectionnées

aléatoirement y souscriront ou que ceux qui ont été exclus par tirage au sort n’y auront pas accès par

d’autres voies. Or, lorsque l’adhésion des bénéficiaires est plus faible que prévu et incompatible avec

les exigences de précision statistique, les équipes de recherche n’hésitent pas à forcer les conditions

de participation. Dans deux études menées récemment, l’une sur la micro-assurance citée plus haut,

l’autre sur le micro-crédit rural au Maroc, des mesures spécifiques de sensibilisation, d’incitation

auprès du personnel de terrain, d’allègement des coûts, etc. ont été mises en place à l’instigation des

chercheurs (Naudet et al., 2013 ; Quentin et Guérin, 2013 ; Morvant-Roux et al. 2013). Les

programmes évalués s’éloignent alors sensiblement du programme « normal ».

Pour pallier les distorsions induites par des arrangements locaux (par exemple si un bénéficiaire tiré

au sort fait don ou revend sa participation à son voisin), le tirage aléatoire suppose aussi des

précautions multiples, une collaboration très étroite des partenaires de terrain, ainsi qu’une

formation et une motivation adéquate des enquêteurs. Le principe de la randomisation suppose que

le groupe de contrôle (une population et/ou un territoire) reste exempt de toute intervention tout au

long de l’étude. Mais lorsqu’il s’agit de secteurs dynamiques ou concurrentiels (par exemple le micro-

crédit), il semble illusoire d’espérer des groupes de contrôle qu’ils restent à l’écart de toute

intervention et qu’ils n’en subissent pas les effets, contrairement à ce que prévoit le protocole de

recherche. Par ailleurs, les effets de contamination sont difficiles à prendre en compte.

Plus généralement, la lourdeur des protocoles de recherche (tirages au sort complexes, mais aussi

enquêtes répétées, échantillons de plusieurs milliers de personnes, homogénéisation des modes

d’intervention), leur durée3 et leur coût suscitent des jeux d’acteurs, tant avec les partenaires étudiés

qu’avec les équipes locales en charge des enquêtes. Il arrive que d’autres acteurs soient imposés ou

suggérés par les bailleurs (par exemple les gouvernements). Ces jeux d’acteurs suscitent

nécessairement des compromis et des ajustements, tant au niveau de l’échantillonnage, des objectifs

de la recherche, de l’élaboration des questionnaires, que de l’interprétation des résultats4. Alors que

ces bricolages et jeux d’acteurs sont courants et constituent un tour de main notoire des

randomisateurs (cf. par exemple Goldstein 2011 ; Ozler, 2012), ils sont généralement passés sous

silence lors de la publication des résultats. Leurs conséquences sur la nature des protocoles et donc

la validité interne des études sont pourtant déterminantes.

3 Même pour des enquêtes à un an, les études peuvent durer 4 à 5 ans compte tenu de la lourdeur des

protocoles de préparation (et du nombre d’études que les équipes RCT gèrent). 4 Pour un exemple détaillé, voir Quentin et Guérin (2013).

Validité externe

Sur le plan de la validité externe, l’étroitesse des questions susceptibles d’être traitées par les RCT

questionne les enseignements que l’on peut en tirer au-delà de la politique étudiée. Pour des raisons

de précision statistique, les RCT requièrent des échantillons de population très importants pour

apporter la réponse à une question binaire (est-ce qu’avec le projet on est mieux que sans ?). Pour

cela, elles traitent difficilement la question de l’hétérogénéité, la plupart l’ignorent pour se

concentrer sur les impacts moyens. Or, les politiques de développement peuvent avoir des effets très

contrastés en fonction des caractéristiques disparates de leurs bénéficiaires ou de la manière dont

elles sont localement mises en œuvre5. Est-ce que le projet fonctionne mieux dans certains contextes

que dans d’autres ? Qu’il s’agisse de l’amélioration des services ou de réplication à plus large échelle,

cette question est pourtant essentielle (Ravallion, 2009 ; DFID, 2012).

En outre, afin de maîtriser les paramètres de l’expérimentation, les RCT sont souvent très limitées

dans l’espace – ne sont ciblées que des zones spécifiques – et dans le temps. Pour des raisons de

coût, mais aussi d’attrition (le nombre de participants tend à décroître au fil du temps), les RCT

dépassent rarement deux ans (et certaines se limitent à un an, notamment lorsque la participation

ne va pas de soi et si les abandons sont nombreux). Cette contrainte temporelle amène souvent à se

focaliser sur des résultats intermédiaires (Durand et Nordmann, 2011). On peut également

s’interroger sur la sensibilité des effets à l’épreuve du temps (Labrousse, 2010). Pour de multiples

raisons, des impacts constatés à court terme peuvent évoluer au cours du temps, voire s’inverser à

moyen ou long terme. Il est assez rare que les trajectoires des projets de développement soient

linéaires, ce qui limite fortement la validité des conclusions à un instant t (Woolcock, 2009).

Ainsi nombre de programmes de développement ont des effets d’entraînement, de composition ou

d’équilibre général, c’est-à-dire qu’ils affectent une région ou une filière, positivement ou

négativement, bien au-delà des seuls bénéficiaires du programme en question. C’est le cas par

exemple de programmes d’accès à l’emploi. Ceux-ci peuvent avoir pour effet d’augmenter

l’ensemble des revenus du travail (Ravallion, 2009), mais aussi susciter des effets de saturation ou de

substitution (l’exemple typique est celui du micro-crédit, où les entreprises créées peuvent

provoquer une saturation des marchés locaux ou déloger leurs concurrents). En somme, il semble

extrêmement risqué d’étendre les leçons d’une évaluation menée à un instant t à l’ensemble d’un

pays ou à un type d’intervention en général.

Sur le plan de leur portée scientifique, les RCT permettent éventuellement de mesurer certains

impacts ou de tester plusieurs modalités d’une politique de développement, mais elles ne

permettent pas d’en analyser les raisons ni les processus sous-jacents (Ravallion, 2009), c’est-à-dire

les mécanismes à travers lesquels une intervention donnée parvient à un certain résultat (Rao et

Woolcock, 2003 ; Hulme, 2007).

In fine, la mise en œuvre de ce type de méthode suppose de multiples conditions, qui ne sont

respectées que dans le cas de programmes « tunnels », caractérisés par des impacts de court terme,

des inputs et outputs clairement identifiés, facilement mesurables, des liens de causalité

unidirectionnels (A cause B), linéaires et enfin non soumis à des risques de faible participation de la

part des populations visées (Naudet et al., 2012). L’ensemble de ces conditions exclut un grand

5 En ce qui concerne le micro-crédit voir par exemple Morvant-Roux et al. (à paraître).

nombre de politiques de développement, qui mettent en jeu des combinaisons de mécanismes

socioéconomiques et des boucles de rétroaction (effets d’émulation, d’apprentissage des

bénéficiaires, d’amélioration de la qualité des programmes, effets d’équilibre général, etc.) (DFID,

2012).

Projet généralisateur

Reconnaissant que les résultats des RCT restent très liés aux spécificités de leur application (période,

lieu, modalités d’intervention du projet), certains de leurs promoteurs les plus en vue, notamment

Esther Duflo, arguent qu’il convient de les considérer comme des « biens publics mondiaux » et de

créer une instance internationale chargée de les multiplier (Savedoff et al., 2006, Glennerster, 2012).

Celle-ci constituerait ainsi une base de données universelle et jouerait le rôle de « chambre de

compensation » apportant des réponses sur tout ce qui marche ou ne marche pas en matière de

développement (Duflo et Kremer, 2005). Toutefois, de par leurs caractéristiques évoquées plus haut,

les RCT se focalisent sur de petits dispositifs, relativement simples et facilement actionnables, qui ne

sauraient, mis bout à bout, retranscrire l’intégralité des enjeux du développement ou fonder une

politique sociale. Ainsi, François Bourguignon6, chercheur renommé ayant largement contribué à

promouvoir les RCT, considère cette proposition absurde et scientifiquement infondée7. Dans ces

conditions, la poursuite de ce projet pharaonique est au mieux une fuite en avant, mais plus

probablement le fruit d’intérêts qu’il convient d’identifier.

Éléments d’économie politique d’une entreprise scientifique

Comprendre les décalages entre les limites de la méthode et sa très grande légitimité, aussi bien

dans le champ académique que politique, suppose de s’interroger sur les rapports de force qui sont

en jeu et qui contribuent à forger les préférences collectives en faveur de telle ou telle méthode.

Du côté académique, et au premier chef de l’économie, la conjoncture est favorable à la montée en

puissance des RCT : défaite des écoles hétérodoxes centrées sur les structures sociales et les

processus de domination, recherche des fondements micro de la macro, primat de la quantification

et de l’économie et alignement sur les standards en vigueur au Nord (Labrousse 2013 ; Durand et

Nordmann, 2011). Ces méthodes répondent en outre à toutes les conditions requises par ce

tournant : primauté à l’empirisme, simplicité apparente (simple comparaison de moyennes),

mobilisation élégante de la théorie mathématique (gage de scientificité), et concentration sur les

6 François Bourguignon est directeur de l’École d’économie de Paris depuis 2007. Il a été économiste en chef et

premier vice-président de la Banque mondiale à Washington entre 2003 et 2007. 7 Extrait du discours de clôture de la conférence de afd-eudn à Paris le 26 mars 2012 : « There has been this

fashion during the last couple of years on the RCTs. We even heard colleagues, good colleagues, saying that in the field of development, and in the field of development aid, the only fruitful approach from now on was to do random control trials in all possible fields of interventions. And at the end, we’ll have a huge map, a huge catalogue saying “This works, this doesn’t work”. This is crazy ! This will never work and, because of that, we absolutely need the other approaches to evaluating policies and programs. The “pure, scientific evidence” on all what is concerned with development is simply completely impossible. We have to live with this imperfect knowledge. » (souligné par nous)

pauvres (enquêtes auprès des ménages)8. Leur simplicité les rend aisément compréhensibles par les

décideurs. Elles apparaissent donc comme un vecteur privilégié pour éclairer la décision publique.

L’élan en faveur des RCT a en outre été conforté par l’émergence d’une nouvelle génération de

chercheurs. Ils sont jeunes, issus du sérail des meilleures universités (pour la plupart américaines), ils

ont su combiner excellence académique (légitimité scientifique), effort de séduction en direction du

public (visibilité médiatique et légitimité citoyenne) et des bailleurs de fonds (demande solvable) et

modèle d’entreprise performant (rentabilité financière) ; toutes ces qualités se renforçant

mutuellement. En s’engageant dans une intense activité de communication et de plaidoyer, à l’aide

de toute une série de supports de presse ou para-académiques (policy brief, blogs, forums de

vulgarisation, happenings, etc.), les randomisateurs montrent l’image avenante de chercheurs ayant

accepté de sortir de leur tour d’ivoire. En affichant une posture modeste au plus proche du terrain, ils

incarnent l’engagement, l’empathie et le désintéressement.

La figure d’Esther Duflo est l’exemple le plus illustratif de cette mouvance. Jeune chercheure franco-

américaine, elle cumule les distinctions académiques, dont la célèbre médaille Bates, qui

récompense le « meilleur économiste » de moins de 40 ans et qu’elle a reçue en 2010. Elle a à son

actif un nombre impressionnant de publications dans les revues d’économie les plus prestigieuses,

mais elle vulgarise également ses travaux sous la forme d’ouvrages accessibles au grand public9.

Depuis 2008, elle figure sur la liste des 100 premiers intellectuels mondiaux du magazine américain

Foreign Policy. En 2011, c’est le Time qui la compte parmi les 100 personnes les plus influentes au

monde. Fin 2012, elle a été nommée conseillère du Président Obama sur les questions de

« développement global ». En France, elle a été la première titulaire de la toute nouvelle chaire

« Savoir contre pauvreté » du Collège de France, créée et financée par l’Agence française de

développement (AFD). Son nom est régulièrement cité comme candidate potentielle à un prochain

prix Nobel d’économie.

Ces jeunes chercheurs de la mouvance RCT se distinguent également dans le mode de gestion de leur

activité. En montant des ong ou des bureaux d’étude spécialisés, ils créent les structures idoines pour

recevoir des fonds de toutes origines : publique bien sûr, mais également de fondations,

d’entreprises, de mécènes, etc., hors des circuits classiques de financement de la recherche publique.

Sur ce plan, ils sont en parfaite adéquation avec les nouvelles sources de financement de l’aide que

constituent les fondations privées et les institutions philanthropiques, qui se montrent

particulièrement enclines à leur confier des études. En parvenant à créer leurs propres guichets de

financement, principalement multilatéraux (l’initiative de la Banque mondiale pour l’évaluation

d’impact du développement, l’initiative internationale pour l’évaluation d’impact, la Banque africaine

de développement, le fonds stratégique pour le développement humain), mais aussi bilatéraux (la

coopération espagnole et britannique) et des fondations (Rockefeller, Citi, Gates), les randomisateurs

ont créé un oligopole sur le marché florissant de l’expérience aléatoire.

La nébuleuse organisée autour de j-pal, co-dirigée par Esther Duflo, constitue le modèle le plus

emblématique et le plus abouti de ce nouveau scientific business model. Le laboratoire j-pal est l’un

des centres de recherche du département d’économie du Massachusetts Institute of Technology. Cet

ancrage institutionnel, au sein d’une des plus prestigieuses universités américaines, ainsi que la

8 Notons que ces méthodes sont désormais importées en France.

9 En langue anglaise, Banerjee et Duflo (2011) et en langue française, Duflo (2010a, 2010b).

notoriété de ses dirigeants, jouent le rôle de caution académique et de catalyseur. Au côté de j-pal,

Innovations for Poverty Action (ipa) joue un rôle névralgique. Organisation à but non lucratif, outre

sa fonction de communication et de plaidoyer en faveur des RCT10, elle est chargée d’étendre et de

répliquer les expériences aléatoires une fois testées par j-pal. C’est donc l’articulation des deux

institutions qui doit permettre de mener à bien le « projet généralisateur » décrit dans la deuxième

partie.

L’industrie des RCT, est une entreprise rentable sous tous rapports. Elle est académiquement

profitable, et il y a tout à gagner à s’inscrire dans cette mouvance (ou tout à perdre à ne pas y être). Il

est aujourd’hui très difficile de publier dans des revues d’économie des articles basés sur d’autres

approches. Cet effet d’éviction est aussi lié au fait que les promoteurs les plus influents des RCT sont

souvent membres des comités de rédaction des plus grandes revues d’économie et d’économie du

développement11. Mais les profits ne sont pas uniquement symboliques. Se spécialiser dans les RCT

est aussi une excellente façon d’obtenir un poste de chercheur ou d’enseignant, comme en

témoignent les modes de recrutement actuels dans la discipline économique. C’est aussi une

garantie d’obtenir des fonds conséquents pour mener ses propres recherches. En économie du

développement, il est aujourd’hui très ardu d’obtenir des financements européens sans méthode

RCT. Plusieurs stratégies sont mises en œuvre pour éviter un rééquilibrage au tout RCT. Les

méthodes alternatives sont disqualifiées, les RCT s’arrogeant le monopole de la scientificité

(Harrison, 2011). Les réflexions critiques sont longtemps restées inaudibles, car cantonnées sur des

supports de publication marginalisés. Dans de nombreux cas, les résultats des expériences présentés

comme des « découvertes » inédites, ne sont en fait que la reprise de conclusions obtenues par des

études antérieures. Mais cette littérature est considérée a priori comme non rigoureuse et rarement

citée (Labrousse, 2010 ; Nubukpo, 2012).

Conclusion

Notre propos n’est pas de rejeter les RCT, qui constituent une méthode prometteuse… parmi

d’autres. Si les RCT restent probablement adaptées et légitimes pour certaines politiques

circonscrites de manière précise, il est à la fois nécessaire et possible d’employer d’autres méthodes.

Celles-ci adoptent une approche pragmatique, définissant les questions de recherche et les outils

méthodologiques nécessaires au cas par cas, en concertation avec les partenaires impliqués

(opérateurs de terrain, bailleurs, etc.). Elles s’appuient également sur un pluralisme méthodologique,

fondé sur l’interdisciplinarité et reconnaissent la diversité des modes d’administration de la preuve

(inférence statistique/analyse compréhensive). Il ne s’agit pas de récuser le formalisme ou la

modélisation, mais d’en faire un usage contrôlé. En outre, ces approches ne visent pas l’énoncé de

lois universelles, mais cherchent à expliciter des liens de causalité propres à une période et à un

contexte précis. Les méthodes qualitatives sont mobilisées pour contextualiser les politiques de

10

À la différence de J-PAL, contraint par les réserves académiques de rigueur, ipa peut afficher ses objectifs en usant des recettes directement issues du marketing : « ipa uses randomized evaluations because they provide the highest quality and most reliable answers to what works and what does not » (voir le site d’ipa). 11

Comme par exemple Annual Review of Economics, The American Economic Journal : Applied Economics, Review of Economics and Statistics, Journal of Development Economics, Journal of Quantitative Economics, Journal of Economic Perspectives, etc.

développement, élaborer des hypothèses originales, identifier des phénomènes nouveaux ou

imprévus, et enfin les analyser dans leur globalité, en étudiant la complexité des liens de causalité,

les interactions multiples, dynamiques et contradictoires entre différentes entités, de manière

située.

Les degrés d’articulation et d’intégration entre méthodes (quantitatives, qualitatives et

participatives) peuvent être très variés. Plutôt que de miser systématiquement sur la création de

données nouvelles, ces méthodes alternatives privilégient, lorsque cela se justifie, l’usage de

données existantes, qu’il s’agisse de statistiques officielles ou de données produites par les

partenaires locaux en charge de la mise en œuvre des projets/politiques de développement. Cela

permet notamment de réduire les coûts, et de limiter les jeux d’acteurs liés à des protocoles

d’enquêtes trop lourds, ainsi que les systèmes d’information des programmes évalués ou des pays

dans lesquels ils se situent. Après avoir été emportés par l’effet de mode, certains bailleurs de fonds

comme l’AFD (Naudet et al., 2012) et le DFID (2012) se montrent aujourd’hui plus circonspects quant

au champ réel d’application des RCT et à leur capacité à répondre aux questions qu’ils se posent. Il

reste à espérer que ce retour à des positions plus nuancées se traduise par des mesures concrètes de

soutien à des méthodes d’évaluation alternatives.

Bibliographie

Banerjee A.V. et Duflo E. (2011), Poor Economics : a Radical Rethinking of the Way to Fight Global Poverty, New York (N. Y.), Public Affairs.

Barrett C. B. et Carter M. R, (2010), « The Power and Pitfalls of Experiments in Development Economics : Some Non-random Reflections », Applied Economic Perspectives and Policy, 32 (4), p. 515-548.

Cling J.-P., Razafindrakoto M. et Roubaud F. (dir.) (2003), Les Nouvelles Stratégies internationales de lutte contre la pauvreté, Paris, Economica/IRD.

Deaton A. (2009), Instruments of Development : Randomization in the Tropics, and the Search for the Elusive Keys to Economic Development, Cambridge, National Bureau of Economic Research.

Devaradjan S. (2013), « The Africa’s Statistical Tragedy », Review of Income and Wealth, 59, p. 1-7.

DFID (2012), « Broadening the Range of Designs and Methods for Impact Evaluations. Report of a Study Commissioned by the Department for International Development », DFID, Working Paper, 38.

Duflo E., Glennerster R. et Kremer M. (2007), « Using Randomization in Development Economics Research : A Toolkit », dans T. Paul Schultz, J. A. Strauss (eds), Handbook of Development Economics, 4, Atlanta (Ga.), Elsevier, p. 3895-3962.

Duflo E. et Kremer M. (2005), « Use of Randomization in the Evaluation of Development Effectiveness », dans G. K. Pitman, O. N. Feinstein, G. K. Ingram (eds), Evaluating Development Effectiveness, World Bank Series on Evaluation and Development, 7, Piscataway (N. J.), Transaction Publishers, p. 205-231.

Durand C. et Nordmann C. (2011), « Misère de l’économie du développement », La Revue des livres, www.revuedeslivres.fr/misere-de-leconomie-dudeveloppement-cedric-durand-et-charlotte-nordmann

Easterly W. (2009), Le Fardeau de l’homme blanc : l’échec des politiques occidentales d’aide aux pays pauvres, Genève, Markus Haller.

Glennerster R. (2012), « The Power of Evidence : Improving the Effectiveness of Government by Investing in More Rigorous Evaluation », National Institute Economic Review, 219 (1), p. 4-14.

Goldstein M. (2011), « The Impact Evaluation Roller Coaster », Development Impact : News, Views, Methods, and Insights from the World of Impact Evaluation (en ligne).

Harrison G. W. (2011), « Randomisation and Its Discontents », Journal of African Economics, 20 (4), p. 626-652, doi :10.1093/jae/ejr030.

IEG (2012), World Bank Group Impact Evaluation. Relevance and Effectiveness, Banque mondiale.

Labrousse A. (2010), « Nouvelle économie du développement et essais cliniques randomisés : une mise en perspective d’un outil de preuve et de gouvernement », Revue de la régulation, 7 (2), p. 2-32.

Morvant-Roux S., Guérin I., Roesch M. et Moisseron J.-Y. (à paraître), « Adding Value to Randomization with Qualitative Analysis : the Case of Microcredit in Rural Morocco », World Development.

Moyo D. (2009), L’Aide fatale. Les ravages d’une aide inutile et de nouvelles solutions pour l’Afrique, Paris, Hachette.

Naudet J.-N., Bernard T. et Delarue J. (2012), « Évaluations d’impact : un outil de redevabilité ? Les leçons tirées de l’expérience de l’AFD », Revue d’économie du développement, 4 (26), p. 27-48.

Nubukpo K. (2012), « Esther Duflo, ou “l’économie expliquée aux pauvres d’esprit” », Blog L’actualité vue par Kako Kubukpo, Alternatives Économiques, http://alternatives-economiques.fr//(page consultée le 11 mars 2013).

Ozler B. (2012), « When Randomization Goes Wrong… », Development Impact : News, views, methods, and insights from the world of impact evaluation (en ligne), http://blogs.worldbank.org/impactevaluations/the-impact-evaluationroller-coaster (page consultée le 22 février 2013).

Quentin A. et Guérin I. (2013), « La randomisation à l’épreuve du terrain. L’expérience de la micro-assurance au Cambodge », Revue Tiers Monde.

Ravallion M. (2009), « Evaluation in the Practice of Development », The World Bank Research Observer, 24 (1), p. 29-53.

Rodrik D. (2008), The New Development Economics : We Shall Experiment, but How Shall We Learn ?, Cambridge (Mass.), John F. Kennedy School of Government-Harvard University.

Savedoff W. D., Levine R. et Birdsall N. (eds) (2006), When Will We Ever Learn ? Improving Lives Through Impact Evaluation, Washington (D. C.), Center for Global Development.

Scriven M. (2008), « A Summative Evaluation of rct Methodology : & An Alternative Approach to Causal Research », Journal of MultiDisciplinary Evaluation, 5 (9), p. 11-24.

SFE (2010), « Évaluation des impacts des programmes et services publics », Les cahiers de la SFE, 6.

Shaffer P. (2011), « Against Excessive Rhetoric in Impact Assessment : Overstating the Case for Randomised Controlled Experiments », Journal of Development Studies, 47 (11), p. 1619-1635.

http://alternatives-economiques.fr/

http://blogs.worldbank.org/impactevaluations/the-impact-evaluationroller-coaster

L’étalon-or des évaluations randomisées : du discours de la méthode à l’économie politique

Documents

Transcript of L’étalon-or des évaluations randomisées : du discours de la méthode à l’économie politique