Bry Xavier, Antoine Philippe, 2004 : Explorer l’explicatif : application à l’analyse...

38
Cet article est disponible en ligne à l’adresse : http://www.cairn.info/article.php?ID_REVUE=POPU&ID_NUMPUBLIE=POPU_406&ID_ARTICLE=POPU_406_0909 Explorer l’explicatif. Application à l’analyse biographique par Xavier BRY et Philippe ANTOINE | Institut National d’Etudes Démographiques | Population 2004/6 - Volume 59 ISSN 1634-2941 | pages 909 à 945 Pour citer cet article : — Bry X. et Antoine P., Explorer l’explicatif. Application à l’analyse biographique, Population 2004/6, Volume 59, p. 909-945. Distribution électronique Cairn pour Institut National d’Etudes Démographiques. © Institut National d’Etudes Démographiques. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit.

Transcript of Bry Xavier, Antoine Philippe, 2004 : Explorer l’explicatif : application à l’analyse...

Cet article est disponible en ligne à l’adresse :http://www.cairn.info/article.php?ID_REVUE=POPU&ID_NUMPUBLIE=POPU_406&ID_ARTICLE=POPU_406_0909

Explorer l’explicatif. Application à l’analyse biographique

par Xavier BRY et Philippe ANTOINE

| Institut National d’Etudes Démographiques | Population2004/6 - Volume 59ISSN 1634-2941 | pages 909 à 945

Pour citer cet article : — Bry X. et Antoine P., Explorer l’explicatif. Application à l’analyse biographique, Population 2004/6, Volume 59, p. 909-945.

Distribution électronique Cairn pour Institut National d’Etudes Démographiques.© Institut National d’Etudes Démographiques. Tous droits réservés pour tous pays.La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit.

Population-F

, 59(6), 2004, 909-946

Explorer l’explicatif

Application à l’analyse biographique

Xavier B

RY

* et Philippe A

NTOINE

**

Explorer, décrire et enfin analyser constituent les objectifscommuns de l’ensemble des travaux de recherche. Pour cela, lesdeux types de méthodes couramment mises en œuvre sont soitdes analyses factorielles, soit des régressions linéaires géné-ralisées. Bien que complémentaires, ces démarches sont rare-ment associées dans la pratique. Dans cet article,

Xavier B

RY

et

Philippe A

NTOINE

proposent une démarche originale quiexploite les qualités respectives de ces deux méthodes et leurpermet ensuite d’analyser le divorce des hommes à Dakar àpartir des nombreuses caractéristiques disponibles dans unéchantillon aux effectifs réduits. L’analyse en composantes thé-matiques (ACT) synthétise en effet des variables explicativesredondantes en un petit nombre de facteurs répondant à la pro-blématique de départ, et permet une modélisation linéaire par-cimonieuse.

L’analyse factorielle et l’économétrie ont la réputation d’être commel’eau et l’huile : utiles à la bonne cuisine, mais difficilement miscibles.Les méthodes factorielles classiques (ACP, ACM…) sont certes puissantessur le plan de la réduction dimensionnelle (synthèse de l’hétérogénéité enun petit nombre de facteurs), mais elles ignorent

a priori

tout schémaexplicatif et sont inadaptées à l’exploration des causes et des effets ; cecipour deux raisons essentielles. Elles présentent en effet deux caractéris-tiques difficilement compatibles avec la modélisation explicative : en pre-mier l ieu, une mesure restreinte aux l iaisons deux à deux entre lesvariables et un haut degré de symétrie entre variables. Ces liaisonsbivariées ne permettent pas de mesurer l’effet

partiel

d’une variable surune autre, c’est-à-dire l’effet corrigé de l’influence d’autres déterminants.En second lieu, ces méthodes factorielles présentent la particularité de nepas hiérarchiser les observations, ce qui les rend inadaptées à l’étuded’une dynamique. En effet, lorsque les observations sont datées, l’étude de

* Lise-Ceremade, université Paris IX-Dauphine.** IRD, Équipe Jéremi, UR Dial-Cipre.

BryAntoineF.fm Page 909 Mercredi, 16. mars 2005 11:49 11

910 X. B

RY

, P. A

NTOINE

la dynamique impose le plus souvent de modéliser le futur en fonction dupassé

(1)

, ce qui conduit nécessairement à hiérarchiser les observations

(2)

.

Les méthodes économétriques, quant à elles, qui sont fondées sur desmodèles conditionnels, étudient les liaisons partielles et sont donc tout àfait adaptées à l’analyse explicative. Mais elles doivent s’appuyer sur desmodèles parcimonieux, pour échapper au poison des multicolinéarités pro-duites par une excessive redondance des variables explicatives, et fournirdes estimations stables

(3)

; elles nécessitent donc très souvent une étape deréduction dimensionnelle préalable.

On comprend ainsi en quoi ces techniques sont complémentaires etpourquoi l’enchaînement de leurs séquences est, en pratique, assez strict :l’analyse factorielle est utilisée d’abord, dans une optique purementexploratoire, afin d’extraire quelques dimensions fortes des données. Cesdimensions sont, dans un deuxième temps, introduites dans un modèleéconométrique qui s’appuie sur un schéma explicatif

(4)

.

Malheureusement, cette séquence n’est pas toujours opérationnelle.D’une part, les variables retenues lors de la phase de réduction dimension-nelle ayant été calculées sans prendre en compte un schéma explicatif,elles ne sont pas forcément les plus pertinentes pour la modélisation ulté-rieure. D’autre part, l’analyse factorielle est sérieusement handicapée parles observations incomplètes, alors que la modélisation permet souvent degérer ce genre de situations avec rigueur. Pour ces deux raisons, unmodèle explicatif doit être pris en compte dès le début de l’analyse.

Pour répondre à cette attente, une méthode factorielle nouvelle a étéélaborée : l’Analyse en composantes thématiques (Bry, 2003), qui place lemodèle explicatif à la source de la réduction dimensionnelle. Cetteméthode est une généralisation de la régression PLS (ou MCP) proposée

(1)

Ce n’est toutefois pas vrai des analyses spectrales, telles que l’analyse harmonique.

(2)

Par exemple, la régression de Cox modélise un risque instantané (celui de la survenued’un événement dans un avenir proche) en fonction des caractéristiques acquises de l’individu(ces caractéristiques pouvant évidemment inclure tout aspect de son passé et évoluer dans letemps).

(3)

L’usage de la modélisation économétrique, qui passe par le commentaire de la valeurou même simplement du signe des paramètres estimés, requiert un minimum de stabilité de cesestimations.

(4)

Certaines méthodes factorielles, telles que l’analyse canonique (AC) et l’analyse facto-rielle discriminante (AFD), généralisent la régression multiple (Bry, 2001a). À ce titre, on pour-rait être tenté de les ranger dans les méthodes « explicatives ». Nous pensons qu’il s’agirait làd’une erreur. L’analyse canonique rétablissant une totale symétrie entre les deux groupes devariables impliqués, son usage est naturellement exploratoire. L’« analyse discriminante », quantà elle, a la réputation d’« expliquer » une variable qualitative à partir d’un groupe de variablesprédictives. En réalité, l’appellation « analyse discriminante » recouvre un ensemble de méthodesdont certaines méritent cette réputation, et d’autres non, selon le conditionnement qu’elles utili-sent. La régression logistique, par exemple, utilise un conditionnement de la variable qualitativepar les prédicteurs ; elle peut donc éventuellement prétendre expliquer la première par lesseconds. L’analyse factorielle discriminante, pour sa part, est un cas particulier d’analysecanonique et n’utilise

a priori

aucun conditionnement. On peut proposer un critère pratique per-mettant de trancher facilement : une méthode « explicative » véritable, utilisant un conditionne-ment de la variable à expliquer, débouche immédiatement sur une formule de prédiction de cettedernière. Ce n’est le cas ni de l’AC, ni de l’AFD.

BryAntoineF.fm Page 910 Mercredi, 16. mars 2005 11:49 11

E

XPLORER L’EXPLICATIF

911

par Wold (1985). Elle est, par construction, adaptée à la modélisationlinéaire classique de variables continues dans le cadre de données nontemporelles. Nous proposons ici une façon de la coupler avec la modélisa-tion linéaire généralisée, et notamment la modélisation semi-paramétriquede Cox. Nous présentons d’abord cette démarche méthodologique, puisnous l’appliquons à des données originales tirées d’une enquête africainerécente, en proposant une analyse du divorce des hommes à Dakar.

I. La modélisation fondée sur des variables latentes

La modélisation économétrique est toujours fondée sur un schémaconceptuel. Ce dernier est la synthèse d’une réflexion théorique poussée,qui, seule, peut fonder son caractère explicatif. Le modèle conceptuel estsouvent présenté sous forme de graphe orienté dont les nœuds figurentdivers concepts, ou

thèmes

, permettant de caractériser les observations etdont les arcs figurent des relations de cause à effet ou plus généralementd’influence entre ces concepts. Nous appellerons

modèle thématique

un telschéma.

Par exemple, pour modéliser le risque de divorce des hommes, onproposera le modèle thématique présenté en figure 1. Ce découpage thé-matique correspond à la problématique développée en application en qua-trième partie de cet article.

Figure 1.– Modèle thématique pour l’analyse du risque de divorce

BryAntoineF.fm Page 911 Mercredi, 16. mars 2005 11:49 11

912 X. B

RY

, P. A

NTOINE

Dans la grande majorité des situations, les dimensions explicatives,même si elles sont conceptuellement claires, restent « touffues » et flouesdu point de vue de l’observation car elles relèvent de nombreuses caracté-ristiques qui peuvent se prêter à de multiples mesures. Dans l’exemple ci-dessus, le niveau d’instruction est à la fois mesuré pour l’enquêté, sonpère et sa mère. Les facteurs culturels (ethnie, religion, etc.) influencentnon seulement le niveau d’instruction, mais aussi les caractéristiques del’union. La situation économique du ménage est caractérisée en termesprofessionnels ainsi que du point de vue du logement, etc. Et enfin, lescaractéristiques de l’union jouent

a priori

sur l’issue de l’union.

Pour chacun des thèmes pris en compte dans le modèle, il s’avèrenécessaire de dégager les quelques dimensions conduisant à une modélisa-tion économétrique efficace, autrement dit des dimensions d’interprétationclaire et fournissant un modèle bien ajusté aux observations.

Nous considérons qu’un thème comporte plusieurs dimensionsconceptuelles (par exemple, les facteurs culturels ont une dimensionurbain/rural, une dimension ethnique, une dimension religieuse…). Tradi-tionnellement, on sélectionne une seule variable observée par dimensionconceptuelle, afin d’éviter, dans le modèle, les redondances qui déstabi-lisent l’estimation. Mais la variable choisie ne fait que représenter cettedimension conceptuelle, laquelle peut souvent être mesurée de plusieursautres manières. Cette variable est donc utilisée comme une « proxy »

(5)

pour une variable latente, qui, elle, mesurerait correctement la dimensionconcep tue l le , mais res te inobservée . En pra t ique , l e cho ix de l a« meilleure » proxy est confronté à une difficulté majeure : on doit exigerd’elle une bonne « représentativité » sur le plan conceptuel, mais on aime-rait aussi trouver celle qui a le pouvoir prédictif le plus fort. Or, ce pou-voir prédictif dépend des autres variables explicatives introduites dans lemodèle. On doit donc faire face à un problème combinatoire.

On peut choisir une tout autre stratégie : fonder le modèle sur lesvariables latentes (inobservées), lesquelles seront estimées à partir descorrélations entre les variables observées contribuant à décrire une mêmedimension conceptuelle. Dans cette approche, la redondance des variablesobservées autour d’une même dimension conceptuelle n’est pas un handi-cap, mais un atout. Chaque variable latente sous-jacente à un groupe devariables observées est ainsi supposée satisfaire la double contraintesuivante :

— être globalement liée aux variables observées de ce groupe ;

— être liée aux autres variables latentes conformément aux hypo-thèses du modèle conceptuel.

C’est la prise en compte de cette double contrainte qui permet d’éla-borer une stratégie d’estimation des variables latentes. Une variable latente

(5)

Une proxy ne fait que représenter, avec une certaine erreur, la variable latente associée.

BryAntoineF.fm Page 912 Mercredi, 16. mars 2005 11:49 11

E

XPLORER L’EXPLICATIF

913

sera estimée par un

facteur

optimisant un certain critère. La variable latenteet le facteur qui l’estime seront désignés par la même lettre

F

.

L’approche par les variables latentes présente un avantage en termesde robustesse, particulièrement appréciable lorsque le nombre des obser-vations est assez faible. Dans un tel cas, en effet, une seule observationpeut changer de façon notable les coefficients estimés. Or chaque proxyreprésente sa variable latente avec une certaine erreur. Donc, l’impact decette erreur sur l’estimation des coefficients risque d’être d’autant plusimportant que les observations sont peu nombreuses. L’interprétation desrésultats repose alors sur une hypothèse qui risque d’être caduque, à savoirque les coefficients estimés traduisent correctement l’effet de ces variableslatentes.

Si, par contre, on fonde le modèle sur des estimations stabilisées desvariables latentes s’appuyant sur plusieurs variables observées, on amélio-rera la robustesse des effets estimés.

Dans la suite, nous n’aborderons, par souci de simplicité, que lesmodèles comportant une seule variable observée

y

à expliquer. Il s’agirapar conséquent d’estimer des variables latentes explicatives de

y

.

II. Estimation de variables latentespar les méthodes factorielles

Après un bref rappel des méthodes factorielles les plus classiques(ACP, ACM), estimant des variables latentes sans prendre en compte deschéma explicatif, nous présenterons successivement deux méthodes fac-torielles plus récentes : la régression PLS, qui s’appuie sur un modèleexplicatif simplifié et l’analyse en composantes thématiques, qui étend laprécédente au modèle thématique complet.

1. En l’absence de modèle thématique : ACP, ACM

a) Calcul de la première composante principale

On considère un groupe

X

de

J

variables numériques observées

x

1

, …, x

J

mesurant les différents aspects d’un même thème. On supposed’abord que toutes les variables

x

j

du groupe sont issues, à une perturbation

e

j

près, d’une même variable latente

F

qu’il s’agit d’identifier (figure 2).

La minimisation des carrés des résidus

e

j

conduit à calculer un fac-teur

F

appelé

première composante principale

de

X

. Cette méthode aensuite été étendue au cas plus général où le groupe

X

est pondéré par unemétrique

M

(matrice carrée symétrique positive de dimension

J

) commeindiqué dans l’encadré 1.

BryAntoineF.fm Page 913 Mercredi, 16. mars 2005 11:49 11

914 X. B

RY

, P. A

NTOINE

Encadré 1Estimation de la première composante principale

Soit

u

un vecteur de taille

J

qui soit

M-

normé, c’est-à-dire vérifiant . Soitalors le programme de maximisation suivant :

On montre classiquement que la solution

XMu

de ce programme est précisément lapremière composante principale

F

.Le choix d’une métrique

M

idoine permet de traiter des variables qualitatives.Soit

X

un groupe de

R

variables qualitatives. On code chaque variable par legroupe des indicatrices de ses modalités. On notera ainsi

X

r

la r-ième variable et legroupe d’indicatrices correspondant. Le groupe

X

est formé de la juxtaposition de cesgroupes d’indicatrices :

X = (X

1

, …,

X

R

). Il est ensuite traité à l’aide de la métrique

M

= Diag({(

X

r

'

X

r

)

-1

}

r =

1

à R

). L’ACP utilisant cette métrique donne alors l’analyse descorrespondances multiples (Lebart

et al

., 1995 ; Bry, 1994).

• Dépasser la première composante ?

Une fois trouvé le premier facteur, on peut en chercher un secondsous contrainte d’orthogonalité au premier. Et ainsi de suite jusqu’à obte-nir l’ACP complète de

X

. Le premier facteur estime la variable latented’un modèle qui la suppose unique. S’en contenter n’est possible que si legroupe

X

est essentiellement unidimensionnel, c’est-à-dire constitué devariables qui mesurent toutes, à de petites différences près, la mêmedimension. Une telle situation n’est pas si fréquente : le plus souvent, le

Figure 2.– Schéma conceptuel de l’ACP

u ′Mu 1=

Max XMuu ′Mu 1=

BryAntoineF.fm Page 914 Mercredi, 16. mars 2005 11:49 11

E

XPLORER L’EXPLICATIF

915

groupe

X

est structuré autour de plusieurs dimensions, et il importe de lesidentifier pour ne pas trahir les données. Mais en général, on n’observerapas une absence de corrélation entre les dimensions fortes de

X

prisesdeux à deux. Si l’on cherche des facteurs décorrélés, c’est pour simplifiercertains calculs ainsi que les représentations graphiques des corrélationsentre variables. Ces facteurs ne peuvent donc systématiquement prétendreestimer des variables latentes de façon réaliste. Ils deviennent avant toutun outil de visualisation de la structure de

X

en dimension réduite, ce quiest indispensable à son exploration. La nécessité de cet assouplissementconcerne toutes les méthodes factorielles calculant plusieurs facteurs pargroupes.

Lorsque l’on calcule plusieurs facteurs par groupes, on les notera

F

1

, … ,

F

α

,

b) Interprétation des facteurs

Les facteurs estimant les variables latentes sont interprétables à par-tir de leurs corrélations avec les variables observées. Il est commode deprocéder à la représentation graphique des variables observées dans labase factorielle, chaque variable

x

j

ayant pour coordonnée sur l’axe dirigépar

F

α

la corrélation

r

(

x

j

,

F

α

) qu’elle a avec ce facteur (cf. figure 3).

On cherchera les variables les plus corrélées (positivement ounégativement) avec chaque facteur pour lui donner un sens. Le plan queforment deux facteurs est parfois plus facilement interprétable que les fac-

Figure 3.– Représentation factorielle des variables du groupe X

BryAntoineF.fm Page 915 Mercredi, 16. mars 2005 11:49 11

916 X. B

RY

, P. A

NTOINE

teurs ne le sont isolément

(6)

. Il est important d’examiner, pour chaque planfactoriel, l’ensemble des variables qui y sont bien représentées. On trou-vera le détail des règles d’interprétation d’une ACP dans Lebart

et al

.(1995) et Bry (1994).

Le modèle conceptuel de l’ACP, trop sommaire, ne permet pas detraduire les causalités impliquant des variables latentes.

2. En présence d’un modèle unithème :la régression PLS

a) Modèle et estimation

Reprenons le modèle de l’ACP, en rendant la variable latente

F

expli-cative d’une variable observée

y

(figure 4).

Le groupe

X

est pondéré par lamétrique

M

.

F

est estimée en résolvant un programme de maximisation qui in-tègre la liaison entre

F

et

X

et celle entre F et y (voir encadré 2).

Encadré 2Estimation de F dans une régression PLS

Soit u un vecteur M-normé. On pose F = XMu et on résout le programme suivant :

Q:

Le critère maximisé est mixte. En effet, <XMu|y> = ||XMu|| cos(XMu,y).Or, la maximisation isolée de ||XMu|| conduit, on l’a vu, à l’ACP de X, tandis que

celle du cosinus de Xmu et y conduit à la régression de y sur X.

(6) Les facteurs n’estimant plus a priori de variables latentes, l’interprétation isolée dechacun cesse d’être indispensable – elle est d’ailleurs souvent stérile, puisque les structures for-tes de X, si elles sont non décorrélées, s’écartent de ces variables latentes. Par contre, le sous-es-pace formé par les p premiers axes factoriels contient par définition les structures principales deX. Pour les découvrir, on examinera les premiers plans factoriels, en les mettant en rapport lesuns avec les autres, pour essayer d’aller un peu au-delà de la dimension 2.

Ignorer la multidimensionnalité, d’une part, et vouloir interpréter à tout prix un facteur,d’autre part, sont des attitudes très dangereuses. On rappellera l’exemple historique de la pre-mière composante principale des tests psychométriques de Spearman, interprétée pendant 30 anscomme un « facteur d’intelligence générale » (le fameux facteur G), avant que Thurstone montresa complète vacuité – reconnue par Spearman lui-même à la fin de sa vie – en mettant en évi-dence la structure bi-dimensionnelle profonde des tests (dimensions verbale et mathématique), etle fait que G était très médiocrement corrélé à chacune de ces deux dimensions. On pourrait ensourire si le facteur G n’avait été utilisé pour éjecter prématurément du système scolaire quantitéd’enfants britanniques (« sur des bases scientifiques ») afin de faire des économies (Gould,1983). Comme l’illustre cette affaire, il est tautologiquement irréaliste de vouloir ramener uneréalité multidimensionnelle à une dimension unique.

Max XMu y⟨ ⟩u ′Mu 1=

BryAntoineF.fm Page 916 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 917

Ce nouveau programme conduit ainsi à un compromis entre ACP deX (ajustement de la variable latente au groupe X) et régression de y sur X(estimation de y à partir de la variable latente) (Tenenhaus, 1998 ; Bry,2001b). Ces liaisons entre F et X, d’une part, et entre F et y, d’autre part,sont représentées sur la figure 5.

Figure 4.– Schéma conceptuel de la régression PLS

Figure 5.– Le programme initial de PLS

BryAntoineF.fm Page 917 Mercredi, 16. mars 2005 11:49 11

918 X. BRY, P. ANTOINE

La résolution du programme de maximisation Q fournit un facteur Fproportionnel à XMX'y. On notera RX,M y cette dernière quantité, que l’on abaptisée résultante de y sur le groupe X pondéré par M.

Ses propriétés sont étudiées dans Bry (2001b et 2004). La propriétéessentielle est que lorsqu’on l’applique à une variable z quelconque, l’opé-rateur de résultante RX,M = XMX' rapproche z des structures les plus fortesde X (matérialisées par ses premières composantes principales).

Il est important de noter que désignant la projection orthogonale

(régression usuelle) de y sur X, on a: . Par conséquent, de

façon heuristique, on peut concevoir le calcul du premier facteur de PLScomme la succession des deux opérations suivantes : 1) régression de y surX (optimisation de l’estimation) ; 2) calcul de résultante rapprochant la

partie prédite des structures fortes de X.

La résolution du programme Q fournit un seul facteur. Si l’on désirestructurer X autour de plusieurs facteurs, on relance le programme souscontrainte d’orthogonalité entre les nouveaux facteurs cherchés et les fac-teurs précédemment trouvés.

Lorsque X est composé de variables quantitatives, elles serontcentrées et réduites et l’on utilisera la métrique M = I. Lorsqu’il est com-posé de variables qualitatives, celles-ci seront codées par les indicatricesde leurs modalités, et l’on utilisera la métrique de l’ACM (cf. section 1,p. 913). Il est parfaitement possible de traiter un groupe mixte (contenantà la fois des variables quantitatives et qualitatives) à l’aide d’une métriqueM bloc-diagonale, dont l’élément diagonal mjj correspondant à unevariable quantitative xj est égal à 1, et le bloc diagonal correspondant àune variable qualitative Xr est égal à (Xr 'Xr )-1. Le choix des métriques estdiscuté dans Cazes (1997), Tenenhaus (1999) et Bry (2001b).

b) Interprétation des résultats

Les facteurs de X s’interprètent de la même façon que dans le casd’une ACP (on procède à la même représentation des variables de X enbase factorielle). Visualiser les corrélations entre variables observéesdonne une indication essentielle sur le degré de réalisme du raisonnement« toutes choses égales par ailleurs » lors de l’interprétation du modèleestimé. Cette visualisation est également essentielle pour sélectionner lesdimensions explicatives qui seront finalement conservées : elle en permetle tri et l’interprétation en termes de liaison avec les variables observées.

Par ailleurs, comme les facteurs estiment des variables latentesexplicatives de y, ils peuvent être considérés comme un intermédiaire decalcul pour l’élaboration d’une formule d’estimation de y à partir des

RX M, y XMX′y=

y

RX M, y RX M, y=

y

BryAntoineF.fm Page 918 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 919

variables observées xj. Chaque facteur s’écrit comme une combinaisonlinéaire des variables de son groupe, et il est donc tentant d’interpréter lecoefficient d’une variable dans cette combinaison comme mesurant le rôleque cette variable joue dans la formation du facteur. Ultérieurement, enrégressant y sur les facteurs, on recherchera la part de chaque facteur dansla formation de y. En combinant les deux, il est aisé de reconstruire uneformule prédisant y à partir des xj.

L’interprétation des facteurs à partir des coefficients des variablesqui entrent dans leur formulation, pourtant fréquente, n’est pas sans poserquelques problèmes lorsque les variables présentent certaines multicoli-néarités, ou en sont proches : les coefficients sont alors instables, l’effetde certaines variables pouvant se reporter sur d’autres. Bien que le modede calcul des facteurs de PLS limite la confusion d’effets (De Jong, 1995),l’interprétation à partir des corrélations variables-facteurs nous paraît pré-férable à celle fondée sur les coefficients.

Les observations peuvent être représentées sur les plans factoriels.Ceci permet notamment le dépistage des observations atypiques et desgroupements d’observations. Visualiser la distribution du nuage des obser-vations permet de savoir si tel effet est bien une tendance globale aux don-nées ou s’il est simplement produit par quelques observations atypiques,ce qui en modifie toute l’interprétation.

La variable dépendante est régressée sur les facteurs ; leur décorré-lation permet la décomposition additive de la variance de y et l’élimina-tion des facteurs les moins importants.

c) Intérêt et limites du modèle

L’intérêt des facteurs fournis par la régression PLS, par rapport àceux de l’ACP, est que, tout en se rapprochant des structures fortes de X,ils sont bien plus efficaces a priori pour estimer y. L’avantage de larégression PLS par rapport à la régression classique (Ordinary LeastSquare, OLS) est que, s’appuyant sur des structures fortes de X plutôt quesur la totalité de ses dimensions, elle élimine du modèle sa partie la plusfragile. L’estimation en est rendue plus robuste, et le modèle plus facile àinterpréter. Il en résulte une légère baisse de la qualité de l’ajustement quel’on peut s’efforcer de rendre aussi petite que possible en prenant davan-tage de facteurs dans le modèle. Néanmoins, dans la mesure où une part del’ajustement n’est due qu’à du bruit, l’amélioration obtenue est trompeuse,et mieux vaut éliminer les dimensions correspondantes. Sur le plan pra-tique, la régression PLS facilite grandement l’analyse des déterminants dey en présentant une hiérarchie de facteurs non redondants permettant lavisualisation des structures de corrélation du groupe explicatif X.

La régression PLS possède donc des avantages importants par rap-port à son homologue OLS. Toutefois, dès que le modèle conceptuelcontient plusieurs thèmes explicatifs, elle ne lui correspond plus bien. Si

BryAntoineF.fm Page 919 Mercredi, 16. mars 2005 11:49 11

920 X. BRY, P. ANTOINE

l’on décide, pour l’utiliser, de prendre en compte tous les thèmes explica-tifs, la régression PLS fournira des facteurs hybrides, d’autant plus déli-cats à interpréter qu’i ls mélangent des variables conceptuellementhétérogènes.

3. En présence d’un modèle multithème :l’analyse en composantes thématiques

a) Présentation

On considère ici qu’un phénomène décrit par une variable observée ya pour déterminants R groupes explicatifs X1, …, Xr, … XR correspondantà autant de thèmes (figure 6). L’ensemble des variables des groupesX1, …, XR est noté X. Chaque groupe Xr est pondéré par une métrique .Pour simplifier, on considère d’abord que chaque groupe Xr est structuréautour d’une unique variable latente .

Lorsque nous cherchons un facteur Fr qui représente le groupe Xr

dans ce qu’il a de lié à y, nous devons tenir compte de l’existence d’autresfacteurs explicatifs de y. Avant d’appliquer un programme du type de Qentre y et Xr , il s’agit d’éliminer l’influence des autres facteurs courants.C’est ce que fait l’analyse en composantes thématiques. La constructiongénérale de l’ACT et ses propriétés sont exposées dans Bry (2003). Dans

Mr

Fr

Figure 6.– Schéma conceptuel de l’ACT1 :modélisation multithème d’une variable y

BryAntoineF.fm Page 920 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 921

le cas le plus général, on a un groupe Y de variables yk à expliquer.Lorsque le groupe à expliquer ne contient, comme ici, qu’une variableobservée y, la méthode est notée ACT1, et son algorithme est plus simple.

b) L’algorithme d’ACT1

• Étape 1 (calcul des facteurs de rang 1)Itération 0 (initialisation) :

On prend pour valeur initiale de chaque facteur Fr la résultante de ysur Xr , telle qu’elle a été définie dans la section 1, p. 913.

Itération k, k>0 (illustrée figure 7) :

Pour r allant de 1 à R, on note F-r(k–1) l’ensemble des facteurs obte-nus à l’étape k–1 qui n’inclut pas Fr, et l’on procède comme suit pour cal-culer Fr(k) :

— on régresse y sur {Xr,F-r(k–1)}. On note la composante calcu-lée à partir de Xr de l’estimation .

Cette composante est la projection de sur <Xr > parallèlement à<F-r(k–1)>. Elle fournit la meilleure estimation possible de y à partir dugroupe Xr et des facteurs obtenus dans les autres groupes.

— on pose : normé. Ce calcul de résultante rap-

proche des structures fortes de .

Fin : On s’arrête lorsque les résultats sont jugés suffisamment stables.

• Étape n (calcul des facteurs de rang n), n>1Chaque groupe Xr est remplacé par ses résidus de régression sur ses

facteurs de rang 1, … n–1. On procède alors aux mêmes calculs qu’àl’étape 1, mais avec une petite modification. On doit en effet tenir comptedes facteurs obtenus lors des étapes précédentes : chacun de ces facteurssera considéré dans l’étape courante comme un groupe à lui seul (il estdonc égal à la variable latente de ce « groupe »).

c) Interprétation des résultats

On représente chaque groupe thématique Xr dans sa base factorielle,comme dans le cas de la méthode PLS. L’interprétation des facteurs se faitsuivant les mêmes règles.

On pourra également procéder à la représentation du nuage desobservations dans les plans thématiques et l’utiliser de la même façon quedans la régression PLS.

La variable dépendante y est régressée sur les facteurs retenus, ce quipermet de savoir lesquels jouent un rôle dans son estimation. Après élimi-nation des facteurs les moins importants, on procède une dernière fois à larégression pour estimer le modèle latent.

yr

y

y

Fr k( ) XrMrXr ′ yr

=

yr

Xr

BryAntoineF.fm Page 921 Mercredi, 16. mars 2005 11:49 11

922 X. BRY, P. ANTOINE

d) Les avantages de la méthode

Cette généralisation de la régression PLS respecte le découpage thé-matique opéré par le modèle conceptuel multithèmes. Elle permet l’explo-ration de chaque thème dans le cadre du modèle conceptuel arrêté audépart, en commençant par les dimensions les plus utiles à la prévision de y.

Il est important de comprendre que, tout comme le choix des va-riables explicatives dans une régression classique conditionne complète-ment l’interprétation des effets (et naturellement leur estimation), le choixd’un découpage thématique conditionne fortement les résultats de l’ACT.Rien de plus normal, puisque changer le modèle conceptuel, c’est changerle point de vue sur les données. Cette sensibilité au modèle initial est-elleune faiblesse ? Selon nous, c’est exactement le contraire. On ne sauraitoublier que toute méthode statistique est fondée sur un modèle conceptuel(la sélection des variables l’est elle-même). Lorsque ce modèle n’apparaîtpas clairement, il n’en est pas moins implicite, et son invisibilité faitcourir un risque accru de biais dans les conclusions(7). L’ACT oblige

(7) Un modèle est constitué de contraintes : la présence ou non de tel ou tel aspect du réel,sa quantification, et la forme de la liaison entre les différents aspects quantifiés. Selon les choixretenus, certains phénomènes seront révélés directement tandis que d’autres, occultés en tant quetels, se manifesteront « en fantôme », en transférant leur effet sur des aspects présents dans lemodèle. C’est précisément là que réside le danger, lorsque l’on n’est pas conscient de ce qui estocculté.

Figure 7.– Étape 1 de l’ACT1 :calcul du facteur Fr(k) lors de l’itération courante k

BryAntoineF.fm Page 922 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 923

l’analyste à préciser son modèle dès le départ et, partant, à l’argumenter.Le découpage thématique, rarement univoque, lui impose d’en appelerouvertement à une théorie qui, en retour, est seule à pouvoir lui donner desclefs d’interprétation. Il nous semble ainsi que l’ACT a une fonction derationalisation des pratiques sur le plan épistémologique.

En donnant la possibilité de visualiser chacun des thèmes sur desfacteurs hiérarchisés, l’ACT facilite la sélection des variables prédictivesutiles. En cela, l’ACT s’oppose radicalement aux méthodes de sélectionautomatiques. En effet, ces dernières : 1) n’opèrent aucune distinctionconceptuelle entre les prédicteurs ; 2) opèrent de fait une sélection au seinde variables très redondantes, pouvant évincer, pour quelques décimalesdu critère d’ajustement, la variable la plus pertinente au profit d’une autrequi l’est beaucoup moins ; 3) se substituent à l’analyste dans son rôle dedécideur. L’ACT, en respectant le modèle conceptuel, en réduisant ladimension du problème sans évincer aucune variable des représentationsgraphiques, remet l’analyste au centre de la décision.

Malheureusement, l’ACT présentée ci-dessus n’est pas directementutilisable sur les données complexes telles que les données biographiques,caractérisées par des variations temporelles et des interruptions d’observa-tion. Nous allons donc devoir introduire une étape intermédiaire.

III. Estimation d’un modèle linéaire généralisé

1. Le modèle

Nous considérons ici le cas d’une variable y observée qui n’est pasune variable continue, à expliquer à l’aide de R groupes explicatifs X1, …,Xr, … XR. Pour simplifier, chaque groupe Xr est initialement supposé êtrestructuré autour d’une unique variable latente . La modélisation li-néaire directe de y en fonction des variables latentes continues Fr n’est pasadaptée. Nous allons donc utiliser une modélisation linéaire généralisée dey en fonction de X. On suppose ainsi que y suit une loi Pθ , où θ est unparamètre de la forme g(Xb), g étant une fonction connue. Le vecteur decoefficients b étant inconnu, la variable W = Xb utilisée par cette modéli-sation est inobservée, donc latente. La régression linéaire généralisée es-time classiquement W par maximisation de la vraisemblance du modèle.Nous allons enfin supposer que W est elle-même partiellement fonctiondes variables latentes Fr des Xr matérialisant des structures fortes de cesgroupes. Le modèle conceptuel que nous utilisons est schématisé sur lafigure 8.

Fr

BryAntoineF.fm Page 923 Mercredi, 16. mars 2005 11:49 11

924 X. BRY, P. ANTOINE

2. La méthode d’estimation

Si l’on ne désire pas obtenir d’intervalles de confiance ou tester deshypothèses sur les effets , on pourra se contenter d’une est imationempirique. Dans le cas contraire, certaines modifications devront êtreapportées pour que la démarche soit correcte. En effet, il est primordial dene pas utiliser les facteurs estimés empiriquement comme variablesexogènes d’un modèle de y qu’on voudrait estimer par maximisation de lavraisemblance : le calcul de ces facteurs faisant intervenir la variableendogène y, ils ne sont plus exogènes, et toute méthode inférentielle lesconsidérant comme tels est caduque(8).

a) Approche empirique

Les étapes sont les suivantes :

1. On estime la variable latente W par maximisation de la vraisem-blance du modèle expliquant y en fonction de X.

2. On estime ensuite les Fr en utilisant W comme variable dépen-dante dans l’ACT1.

(8) En toute rigueur, les variables explicatives originelles sélectionnées sur la base de leurcorrélation avec ces facteurs ne sont pas exemptes, de par leur mode de sélection, d’endogénéité,mais c’est le cas de toutes les méthodes de sélection de variables explicatives.

Figure 8.– Schéma conceptuel du couplage entre l’ACTet la modélisation linéaire généralisée

BryAntoineF.fm Page 924 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 925

3. On détermine le nombre p de facteurs explicatifs utiles. Ceci peutêtre fait en examinant la part de variance de W expliquée par lesfacteurs retenus.

4. On interprète les facteurs.

Remarques :

— on utilise, pour la maximisation de vraisemblance de l’étape 1,toutes les variables prédictives disponibles. Ce faisant, on exploite aumieux le potentiel de prédiction de ces variables : l’espace qu’elles engen-drent est utilisé dans son intégralité, et toutes ses dimensions sont mises àcontribution avec une égale importance a priori, qu’il s’agisse de dimen-sions structurellement fortes ou de dimensions résiduelles ;

— si l’on prend en compte la totalité des facteurs, lors de l’étape 3,on retrouve l’estimateur du maximum de vraisemblance de W initialementcalculé ;

— dans le cas particulier où y est une variable continue suivant unmodèle linéaire gaussien classique en fonction de X, la procédure que nousproposons ici est identique à l’ACT1. En effet, l’estimation de W (pre-

mière étape) fournit la régression de y sur X. Or il est très facile de voir,

à la lecture de son algorithme, que l’ACT1 de (étape suivante) est équi-valente à celle de y ;

— une autre extension de l’ACT1 à un modèle linéaire généralisé estpossible. Elle consiste simplement, dans l’étape courante, à remplacer larégression de y sur {Xr,F-r(k–1)} par sa régression généralisée (logistique,

Cox…). La composante est égale au obtenu dans cette régression.

Si cette extension paraît plus directe, c’est que la variable latente W y estrendue implicite. Cependant, cette méthode est plus coûteuse en temps decalcul, car elle doit maximiser une vraisemblance à chaque itération.

b) Approche inférentielle

On peut construire un modèle permettant l’inférence (calcul d’inter-valles de confiance et tests) à la suite de l’étape 4. Si l’on désire spécifierun modèle fondé sur une sélection de variables observées, on procèderaselon les étapes suivantes :

5. On sélectionne un sous-ensemble des variables explicatives origi-nelles représentant bien l’ensemble des facteurs, au sens où cesvariables sont à la fois corrélées aux facteurs et illustratives del’interprétation substantielle qu’on a pu faire de ceux-ci.

6. On procède à l’estimation du maximum de vraisemblance dumodèle limité aux variables explicatives sélectionnées.

y

y

yr Xrbrˆ

BryAntoineF.fm Page 925 Mercredi, 16. mars 2005 11:49 11

926 X. BRY, P. ANTOINE

Si l’on désire spécifier un modèle fondé sur des variables latentes, onprocèdera selon les étapes suivantes:

5’.On sélectionne, pour chaque facteur (ou chaque direction impor-tante d’un plan explicatif), un sous-ensemble de variables explica-tives originelles qui lui soient fortement corrélées et illustrativesde l’interprétation substantielle qu’on a pu en faire.

On procède à l’ACP séparée de chacun de ces sous-ensembles et l’onretient la première composante principale comme étant celle quiestime la variable latente sous-jacente à chaque sous-ensemble.

6’.On procède à l’estimation du maximum de vraisemblance dumodèle fondé sur ces composantes principales. Bien que leurmode de sélection fasse entrer un peu d’endogénéité dans lesvariables observées retenues, le calcul des composantes princi-pales ne fait pas intervenir y. Par conséquent, l’inférence fondéesur ce modèle peut être considérée comme légitime.

3. Application à l’analyse de durée

Nous allons modéliser la survenue d’un événement E chez un indi-vidu en fonction des caractéristiques de celui-ci.

a) Le modèle de Cox

Le risque de connaître l’événement à l’instant t est une fonctionexponentielle des caractéristiques xt de l’individu à cet instant :

La vraisemblance de la trajectoire d’un individu pour lequel l’événe-ment E survient à l’instant tE est :

Considérons à présent un échantillon d’individus indépendants. L’in-dice utilisé pour repérer les individus est i. La vraisemblance du modèleappliqué à l’échantillon est le produit des vraisemblances individuelles:

Formellement, ceci équivaut à une vraisemblance d’échantillon dontles observations seraient, non les individus eux-mêmes, mais les couples(individu, date d’observation) : (i,t). Un individu donne lieu à autant d’ob-servations qu’il y a de dates, et le modèle ci-dessus les rend formellement

h t xt( ) h0 t( )eb ′xt=

f h t xt( )dt( )1 tE t t dt[+,[∈( )

1 h t xt( )dt–( )1 1 tE t t dt[+,[∈( )–

t∏=

f ech h t xit( )dt 1 h t xit( )dt–( )i ti⁄ t dt+≥

∏i ti⁄ t t dt[+;[∈

t∏=

BryAntoineF.fm Page 926 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 927

indépendantes, ce qui permet de traiter les caractéristiques variant dans letemps. À chacun des couples (i,t) correspond une valeur des déterminantsxit du risque, donc une valeur de la variable latente W = b’xit et une valeur

du risque : . De même, les facteurs Fr que nous calcu-

lerons par la suite auront une valeur pour chaque couple (i,t).

b) ACT après régression de Cox

On procède à la régression de Cox en utilisant toutes les caractéris-tiques disponibles. La gestion des sorties d’observation et la modélisationde la dynamique s’effectuent à ce stade. La régression de Cox fournit une

estimation de W notée pour l’individu i à la date t. Cette estimation

repose autant sur les dimensions fortes que sur les dimensions résiduellesde l’espace des variables explicatives.

On procède ensuite à l’ACT de cette estimation sur les groupesexplicatifs, pour extraire les variables explicatives latentes. Cette ACTprend pour observation les couples (individus, date d’observation) : (i,t).

Nous allons maintenant appliquer cette méthode à l’analyse du di-vorce des hommes à Dakar.

IV. Analyse du divorce à Dakar

1. Le cadre d’analyse

Au Sénégal, comme d’ailleurs plus généralement en Afrique, onignore presque tout de l’évolution de la fréquence du divorce et de sesdéterminants (Kaufmann et al., 1988). La faiblesse des connaissances surl’instabilité des mariages en Afrique limite les analyses de l’évolution duphénomène au cours du temps (Smith et al., 1984 ; Hertrich et Locoh,1999). L’activité professionnelle des femmes apparaît comme le facteurexerçant l’influence la plus importante sur le divorce. Elle est associée àune possibilité d’indépendance financière de la femme qui est alors sus-cept ible de s’assumer économiquement après un éventuel divorce(McDonald, 1985 ; Burnham, 1987).

Les données du moment issues d’une enquête ou d’un recensementsous-estiment la fréquence des divorces. En effet, que ce soit dans lesrecensements ou les enquêtes, seul le statut matrimonial au moment del’étude est demandé ; parfois on connaît également le nombre d’unionscontractées par l’individu sans toutefois savoir si les remariages sontconsécutifs à un veuvage ou à un divorce. Dans les sociétés qui pratiquent

h t xit( ) h0 t( )eb ′xit=

b′xit

BryAntoineF.fm Page 927 Mercredi, 16. mars 2005 11:49 11

928 X. BRY, P. ANTOINE

la polygamie, les études concernant les hommes se focalisent davantagesur le nombre d’épouses que sur le nombre de divorces (Antoine et al.,1998). Les ruptures d’union sont souvent masquées par les remariagesrapides. Au Sénégal, par exemple, en 1986, la proportion de femmesdivorcées était de 3,8 % à 20-24 ans et de 5,4 % à 35-39 ans, cette propor-tion allant en diminuant aux âges plus élevés (ministère de l’Économie,des Finances et du Plan du Sénégal et DHS, 1988). Ces proportions étaientsensiblement inférieures en 1992-1993, soit respectivement 3,5 % et 4,7 %aux mêmes âges (ministère de l’Économie, des Finances et du Plan duSénégal et DHS, 1994). Elles masquent totalement l’ampleur du phéno-mène. Ainsi selon une enquête effectuée à Dakar en 2001, à 40-44 ans,environ 4 % des hommes déclarent avoir le statut de divorcé(9), alors que22 % ont déjà connu un divorce à l’âge de 40 ans(10) (Antoine et Fall,2002). D’après nos données biographiques, près d’une union sur trois setermine par un divorce à Dakar (Antoine et Dial, 2003).

Le divorce, parce qu’il remet en cause les alliances entre famillesnouées lors du mariage, apparaît comme un désordre dont on évite de par-ler (Locoh et Thiriat, 1995). Les familles s’impliquent dans le mariagecomme dans le divorce, et parfois la décision échappe aux individus. Lespressions familiales pour faire obstacle au divorce sont nombreuses. Enfait, le divorce est souvent perçu par la parenté comme un échec : il repré-sente généralement une rupture entre les familles des deux conjoints, etcelles-ci peuvent tenter d’y faire obstacle. Néanmoins, l’ingérence de labelle-famille dans la vie du couple est souvent invoquée par les femmescomme une des raisons qui les ont poussées à se séparer de leur conjoint.

Au Sénégal, avant l’instauration du code de la famille en 1972, laséparation était légalement uniquement du ressort de l’homme : il pouvait,en effet, répudier sa femme devant deux témoins adultes. La loi de 1972 atenté de contrebalancer le déséquilibre qu’instaure la répudiation, acteunilatéral dont l’initiative revient uniquement à l’homme, en permettant àla femme de demander le divorce devant les tr ibunaux. Malgré cesavancées, dans la grande majorité des cas, le divorce continue de se pra-tiquer en dehors de la législation : moins de 20 % des divorces(11) fontl’objet d’une procédure judiciaire. Le mariage civil est rare, c’est avanttout le mariage religieux qui compte(12). Traditionnellement, la femmepeut demander le divorce(13) à son mari (nâan baat) ; cette forme dedivorce est appelée tagoo en Wolof et nettement distinguée de la répudia-tion (fase) (Diop, 1985).

(9) À partir du questionnaire ménage. Cette enquête a été effectuée par l’Institut fonda-mental d’Afrique noire (IFAN) et par l’Institut de recherche pour le développement (IRD).

(10) À partir du questionnaire biographique de l’enquête IFAN-IRD.(11) Selon les résultats de notre enquête. La plupart des recours judiciaires se font à l’insti-

gation des femmes.(12) Le mariage religieux est censé être enregistré par la suite à l’état civil, mais c’est loin

d’être toujours le cas.(13) Il s’agit du divorce au sens large (juridique ou non).

BryAntoineF.fm Page 928 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 929

Toutefois, certaines femmes semblent prendre conscience des droitsacquis et l’on note un accroissement des divorces à l’init iative desfemmes : selon notre enquête, elles sont à l’origine de 80 % des divorces,phénomène déjà souligné par Diop (1985). En effet, l’accroissement desdivorces à l’initiative des femmes semble témoigner d’un changementsocial. Banni autant par l’islam que par la société, le divorce est malgrétout devenu un phénomène courant et banalisé (Dial, 2001). Il est non seu-lement fréquent, mais aussi relativement rapide : une part importante desdivorces se produisent au cours des cinq premières années du mariage(Antoine et Dial, 2003). La primauté du mariage pour les femmes à Dakarpeut pousser à des choix parfois précipités. Le phénomène est d’autantplus mal connu qu’il est mal mesuré.

a) Les données biographiques

L’analyse s’appuie sur des données provenant d’une enquêtebiographique récente réalisée à Dakar en 2001(14). Trois cohortes sontprises en considération : les personnes âgées respectivement de 25-34 ans,35-44 ans et 45-59 ans au moment de l’enquête(15). L’enquête à Dakar apermis de recueillir 1 290 biographies d’hommes et de femmes, qui retra-cent la vie des individus jusqu’à la date de l’enquête. On peut doncconnaître les caractéristiques de l’individu telles que sa profession, sonétat matrimonial, le nombre d’enfants, etc., tout au long de sa vie.

Dans l’exemple particulier traité ici, nous nous sommes intéressés àl’itinéraire matrimonial d’hommes âgés de 25 à 44 ans au moment del’enquête(16). Sont prises en considération les premières unions de137 hommes qui se sont mariés à Dakar. Toutes ces unions ne se sont passoldées par un divorce au moment de l’enquête (23 couples se sont déjàséparés), et ces dernières restent soumises au risque de divorce(17). Onpourrait craindre que l’effectif des personnes comme celui des événementss’avèrent insuffisants pour entreprendre une analyse. En l’absence de laméthode ACT, nous ne l’aurions certainement pas fait. Précisons que notrefichier comprend autant de lignes que d’épisodes (soit 546) ; par épisodeon entend chaque changement d’état(18) vécu par un individu depuis ledébut de son union. La dernière colonne du tableau 1 donne la répartitiondes individus statistiques (ou des hommes-mois en cas de changement

(14) Cette enquête a été réalisée à Dakar par une équipe IRD-IFAN (Antoine et Fall, 2002)grâce à un financement du CODESRIA (Conseil pour le développement de la recherche enAfrique) et de l’IRD.

(15) Soit, respectivement, les générations qui sont nées en 1967-1976, en 1957-1966 et en1942-1956. Ces générations sont donc parvenues à l’âge de fonder une famille dans des contextesfort différents.

(16) Les travaux publiés jusqu’ici à partir de cette enquête concernent surtout les femmes,pour lesquelles les informations semblent plus fiables. Leur mariage étant bien plus précoce quecelui des hommes (environ 10 ans d’écart d’âge), l’analyse du divorce porte également sur davan-tage de cas.

(17) Si l’un des conjoints décède, l’observation cesse.(18) Naissance d’un enfant, changement d’activité, nouvelle résidence, etc.

BryAntoineF.fm Page 929 Mercredi, 16. mars 2005 11:49 11

930 X. BRY, P. ANTOINE

d’état au cours du temps(19)) selon les différentes modalités des variablesprises en compte dans l’analyse.

b) Les hypothèses et la conceptualisation

Diverses questions concernant le divorce se posent. On peut parexemple se demander si, pour les hommes, l’union avec une secondefemme n’est pas une façon de provoquer le départ de la première sansavoir à évoquer le divorce avec elle. L’arrivée d’une seconde épouse n’est pasune cause légitime de divorce, mais il semble bien qu’en milieu urbain lespremières épouses de polygames divorcent plus souvent que les secondes. Une descauses de divorce les plus courantes(20) reste le défaut d’entretien de la femmepar son mari (Diop, 1985 ; Dial, 2001). Du fait de la crise économique,l’homme éprouve de plus en plus de difficultés à subvenir correctementaux besoins du ménage dont il a la charge.

Aborder la question du divorce, c’est pénétrer l’intimité du couple etévoquer un événement douloureux. La plupart des enquêtés sont réticentsà parler d’une situation encore mal acceptée par la société. Même si cer-tains aspects du vécu du divorce restent non dits, nous pouvons essayer dedépasser les cas individuels pour tenter d’appréhender certains facteursstructurels et mettre en évidence les composantes qui favorisent ou non ledivorce dans cette génération. Pour ce faire, nous avons utilisé un modèlede Cox(21) qui intègre les facteurs influant sur la durée écoulée entre ledébut de l’union (c’est-à-dire sa célébration à la mosquée) et l’éventuelleséparation(22).

Pour entreprendre cette analyse, nous disposons essentiellement decaractéristiques concernant la personne enquêtée. En effet, il s’avère diffi-cile d’obtenir des informations précises sur l’épouse, a fortiori quand ellene vit plus avec l’enquêté. Plusieurs facteurs concernant l’homme sontpris en considérat ion (voir la figure 1) ; nous les avons classés en4 catégories : facteurs culturels, niveau d’instruction, facteurs écono-miques, facteurs démographiques et matrimoniaux.

Les facteurs culturels – facteurs liés à l’environnement social de lapersonne – recouvrent l’ethnie(23), la religion (en tenant compte des dif-férentes confréries musulmanes(24)), le lieu de naissance et le milieu de

(19) Les variables qui varient au cours du temps sont l’activité, la descendance et la naturede l’union.

(20) Parmi les autres causes de divorce, citons la difficile cohabitation avec la belle-familleou entre co-épouses (Dial, 2001).

(21) Pour plus d’explications concernant l’analyse biographique de la nuptialité, voirAntoine (2002).

(22) Pour les personnes qui ne sont pas divorcées, l’observation cesse par troncature à ladate de l’enquête.

(23) L’ethnie Wolof est majoritaire à Dakar et ses pratiques culturelles sont de plus en plusadoptées par les autres groupes ethniques.

(24) La très grande majorité de la population dakaroise est musulmane. Parmi ces musul-mans, on distingue les membres des confréries Mouride et Tidiane.

BryAntoineF.fm Page 930 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 931

socialisation (c’est-à-dire le lieu où l’enfant a passé la majeure partie deson enfance). Différentes questions concernent ce groupe de variables. Lesdifférences de position sur le divorce selon les religions(25) conduisent-elles à des propensions différentes au divorce ? Lieu de naissance et lieude socialisation sont des marqueurs du milieu dans lequel la personne apassé sa jeunesse : les jeunes socialisés à Dakar ont-ils des comportementsdifférents de ceux des ruraux arrivés plus tardivement en ville ?

Le second groupe de facteurs concerne des facteurs liés à l’éducationdonnée par les parents ou l’école. L’éducation dépend de l’origine socialedes individus et nous en prenons pour proxy le niveau d’instruction atteintpar chacun des parents. On retient également le niveau d’instruction del’individu, qui est un marqueur d’un certain degré d’indépendance par rap-port aux traditions.

Le troisième groupe recouvre des variables qui caractérisent la situa-tion socio-économique, à savoir l’activité de l’homme, le type d’emploioccupé par la première épouse au moment du mariage et la situation dedépendance en termes de logement.

Enfin, nous retenons des variables démographiques qui concernent ladescendance issue de l’union et les caractéristiques de l’union commel’âge au mariage, le choix du conjoint, l’existence d’un lien de parentéavec le conjoint et l’expérience antérieure du divorce par le conjoint. Cesdifférents facteurs peuvent influer ou non sur le divorce. La précocité desunions ou l’absence d’enfants sont-ils des facteurs favorisant le divorce ?La stabilité de l’union est-elle plus assurée quand un lien de parenté relieles conjoints ? Le statut de l’union peut aussi changer au cours du temps :le mari peut prendre une seconde épouse et devenir polygame. Dans lemodèle, ce changement de statut matrimonial est pris en considération ;l’historique des unions permet de connaître la date d’arrivée d’une nou-velle épouse et de noter ainsi le passage de la monogamie à la polygamie.

2. L’analyse statistique

L’analyse a été effectuée avec le logiciel STATA, et utilise le pro-gramme de l’ACT1 développé par Xavier Bry. Les étapes sont décrites ci-dessous.

a) Estimation de la variable latente W

On procède à la régression de Cox usuelle utilisant toutes les varia-bles explicatives possibles. Les résultats sont donnés dans le tableau 1. La

variable latente W est estimée par le fourni par cette régression.

(25) On connaît par exemple la prohibition du divorce chez les catholiques.

Xb

BryAntoineF.fm Page 931 Mercredi, 16. mars 2005 11:49 11

932 X. BRY, P. ANTOINE

TA

BL

EA

U 1

.– E

STIM

AT

ION

DE

S E

FFE

TS D

ES D

ÉT

ER

MIN

AN

TS P

OT

EN

TIE

LS D

U D

IVO

RC

E D

ES H

OM

ME

S À

DA

KA

R(R

ÉSU

LT

AT

S D

E L

A R

ÉG

RE

SSIO

N D

E C

OX

)

Gro

upe

Var

iabl

eM

odal

ités

Lib

ellé

sM

ultip

licat

eur

du r

isqu

e(a)

Rép

artit

ion

en %

(h

omm

e-m

ois)

Fact

eurs

cul

ture

lsE

thni

eW

olof

wol

ofR

éf.

43Po

ular

alpo

ular

1,38

28Se

rer

sere

r0,

2514

Dio

ladi

ola

1,72

2A

utre

eth

nie

aut_

eth

0,01

**13

Rel

igio

nA

utre

mus

ulm

anau

t_m

usu

Réf

.25

Mou

ride

mou

ride

36,5

5*47

Tid

iane

tidia

ne3,

9425

Chr

étie

nch

rétie

n13

,77

3L

ieu

de n

aiss

ance

Dak

arln

_dak

arR

éf.

66M

ilieu

rur

alln

_rur

al1,

1419

Mili

eu u

rbai

nln

_urb

ain

4,48

14L

ieu

de s

ocia

lisat

ion

Dak

arse

_dak

arR

éf.

63M

ilieu

rur

alse

_rur

al1,

8520

Mili

eu u

rbai

nse

_urb

ain

0,01

17Fa

cteu

rs d

’ins

truc

tion

Inst

ruct

ion

de la

mèr

eN

on s

cola

risé

em

nons

cR

éf.

92Pr

imai

rem

prim

0,18

7Se

cond

aire

ou

plus

mse

cp7,

041

Inst

ruct

ion

du p

ère

Non

sco

lari

sépn

onsc

Réf

.71

Prim

aire

ppri

m0,

9914

Seco

ndai

re o

u pl

usps

ecp

4,42

15In

stru

ctio

n de

l’in

divi

duN

on s

cola

risé

nons

col

Réf

.31

Prim

aire

prim

aire

0,63

33Se

cond

aire

ou

plus

seco

nd_p

2,11

36

BryAntoineF.fm Page 932 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 933G

roup

eV

aria

ble

Mod

alité

sL

ibel

lés

Mul

tiplic

ateu

rdu

ris

que(

a)R

épar

titio

n en

%

(hom

me-

moi

s)

Fact

eurs

éco

nom

ique

sL

ogem

ent a

uton

ome

Oui

loga

uto

Réf

.55

Jam

ais

jam

loau

23,8

6**

45Ty

pe d

’act

ivité

de l’

indi

vidu

Sect

eur

info

rmel

info

rmel

Réf

.26

Patr

onpa

tron

2,93

17Sa

lari

ésa

lari

e2,

4647

App

rent

i ou

élèv

eap

p_el

ev0,

667

Chô

meu

rch

omeu

r1,

813

Act

ivité

de

l’ép

ouse

Inac

tive

cfno

nact

Réf

.67

Em

ploy

éecf

empl

oy9,

562

Ven

deus

ecf

vent

e0,

1619

Dom

estiq

uecf

dom

est

0,90

13Fa

cteu

rs d

émog

raph

ique

set

mat

rim

onia

uxD

esce

ndan

cePa

s d’

enfa

ntpa

senf

Réf

.26

1 en

fant

enf1

2,11

252

enfa

nts

enf2

0,23

213

enfa

nts

ou p

lus

enf3

p0,

3629

Âge

au

mar

iage

Moi

ns d

e 21

ans

am_a

v20

Réf

.5

21-2

5 an

sam

21a2

50,

2937

26-2

9 an

sam

26a2

90,

2533

30-3

4 an

sam

30a3

42,

9219

35 a

ns o

u pl

usam

_ap3

53,

917

Cho

ix d

u co

njoi

ntPa

r un

par

ent

chxp

arR

éf.

12Pa

r l’

inté

ress

éch

xmoi

m2,

2088

Pare

nté

avec

le c

onjo

int

Non

app

aren

téno

npar

tR

éf.

54C

ôté

pate

rnel

parp

at0,

8225

Côt

é m

ater

nel

parm

at0,

13*

21E

xpér

ienc

e di

vorc

edu

con

join

tJa

mai

s di

vorc

é au

para

vant

cj1n

odiv

Réf

.97

Déj

à di

vorc

écj

1exd

iv0,

053

Nat

ure

de l’

unio

nM

onog

ame

mon

ogam

eR

éf.

94Po

lyga

me

poly

gam

e5,

746

(a) D

ans

un m

odèl

e de

Cox

, le

ris

que

de d

ivor

ce e

st m

odél

isé

par

h(t)

= h

0(t)

exp

(X

b) ;

le m

ultip

licat

eur

du r

isqu

e va

ut 1

pou

r la

cat

égor

ie d

e ré

fére

nce

etex

p(b i

) po

ur c

haqu

e m

odal

ité x

i don

née.

** S

igne

sig

nifi

catif

au

seui

l de

1 %

; * s

igne

sig

nifi

catif

au

seui

l de

5 %

.C

ham

p : h

omm

es m

arié

s âg

és d

e 25

à 4

4 an

s au

mom

ent d

e l’

enqu

ête.

Sour

ce :

enqu

ête

biog

raph

ique

IFA

N-I

RD

(20

01).

BryAntoineF.fm Page 933 Mercredi, 16. mars 2005 11:49 11

934 X. BRY, P. ANTOINE

Très peu de variables explicatives ont un effet statistiquement signi-ficatif sur le risque. Si l’on ne retient que les modalités interprétables, iln’y en a que trois(26) qui influencent nettement le risque de divorcerrapidement : être de religion Mouride, ne pas avoir de logement autonomeet être apparenté du côté maternel avec son épouse. Le mariage chez lesMourides est peut-être plus instable que chez les autres musulmans. Danscertains cas, c’est le marabout qui célèbre l’union et quelquefois sans véri-table concertation avec les intéressés.

Le principal facteur qui favorise le divorce est d’ordre économique.Lorsque le nouveau noyau familial constitué n’acquiert pas une autonomiede logement et reste dépendant de la parenté pour être logé, les risques dedivorce sont alors nettement accrus. L’incapacité du mari à assurer unlogement autonome à son couple accroît la rapidité du divorce. Cette inca-pacité renvoie au défaut d’entretien, cause de divorce souvent évoquée. Lacrise économique qui perdure fait qu’aujourd’hui, les jeunes coupless’installent dans la maison familiale du mari et qu’ils sont alors contraintsde vivre au quotidien les problèmes que pose la cohabitation. Les relationsentre la femme et sa belle-famille sont très complexes d’une manièregénérale. Ces couples sont plus exposés au divorce que les autres.

L’existence d’un lien de parenté entre les conjoints marque uneunion où la famille au sens large s’est investie, et donc a priori des unionsplus stables. Les unions avec un parent côté maternel font en général l’ob-jet d’une vigilance plus grande.

Notre modèle comprend de nombreuses variables, dont plusieurssont redondantes. Compte tenu des multicolinéarités qui en découlent, onne peut pas savoir à ce stade si, outre les trois facteurs mis en évidence,d’autres variables ne jouent pas un rôle explicatif important, dont l’effetserait masqué par les multicolinéarités(27).

L’existence éventuelle de multicolinéarités impose le recours à unoutil permettant de les repérer, de les prendre en compte, et de sélec-t ionner les variables les plus uti les à la modélisat ion. Nous al lonsemployer successivement trois méthodes. La première (régression ACP) nes’appuie sur aucun modèle conceptue l pour dé terminer les p lansfactoriels ; la deuxième (régression PLS) prend en compte l’existence d’unschéma explicatif, mais sans en distinguer les thèmes ; la troisième (ACT)intègre la totalité du schéma explicatif du divorce, en tenant compte desquatre thèmes présentés plus haut.

(26) Autre ethnie constitue une catégorie hétérogène.(27) Il y a de fortes chances par exemple qu’il y ait une corrélation entre lieu de naissance

et lieu de socialisation, par exemple. Une telle redondance éventuelle ne pose aucun problème àl’ACT.

BryAntoineF.fm Page 934 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 935

b) Régression de sur les composantes principales de X

L’ACP de X estime des variables explicatives latentes sans utiliser demodèle thématique. Les deux premiers facteurs captent 16,79 % del’inertie ; les 10 premiers facteurs, 53 % et il faut prendre les 20 premierspour capter 79,6 % de l’inertie. La décroissance des valeurs propres estfaible, ce qui dénote un nuage peu structuré (pas de faisceaux de corréla-tion très importants). Les deux premières valeurs propres sont très proches(8,63 % et 8,06 % d’inertie), ce qui nécessite d’interpréter le plan factoriel(1,2) globalement plutôt que les facteurs isolément. Les deux premièrescomposantes principales de X fournissent un plan mettant en relief l’im-portance des lieux de naissance et de socialisation.

La régression de sur les facteurs donne les résultats suivants :

Sur les 2 premiers facteurs, le coefficient de corrélation R2 est égal à0,007 ; sur les 10 premiers facteurs, R2 = 0,512.

Les facteurs ayant le plus de pouvoir explicatif sont, dans l’ordre dé-croissant, les 9e , 20e et 5e. Il s’agit de facteurs d’ordre élevé, donc struc-turellement faibles, très mal illustrés par les variables observées.

Les résultats de cette méthode s’avèrent pratiquement inutilisables.

c) Régression PLS de sur les variables de X

La régression PLS est, contrairement à l’ACP, orientée vers l’expli-cation. On constate immédiatement que cette orientation améliore consi-dérablement le pouvoir prédictif des dimensions trouvées. La régression

de sur les facteurs PLS donne en effet les résultats suivants:

Sur les deux premiers facteurs, le coefficient de corrélation R2 estégal à 0,945 ; sur les quatre premiers facteurs, R2 est égal à 0,987.

On a constaté sur les graphiques init iaux que les axes étaientmédiocrement illustrés par les variables observées. Le brouillage théma-tique a pour conséquence un ensemble peu lisible. Toutefois, on voitémerger, en périphérie de nuage, quelques variables telles que : Mouride,logement autonome, autre ethnie, passage à la polygamie, niveau d’ins-truction d’ego et de ses parents.

Par manque de hiérarchisation thématique, cette méthode fournit un

résultat encore décevant ; certes, est très bien représentée sur les pre-miers facteurs, mais ceux-ci sont en trop faible rapport avec les variablesexplicatives observées.

d) L’analyse en composantes thématiques

On a retenu les quatre thèmes explicatifs présentés précédemment :

X1 = facteurs culturels ;

W Xb=

Xb

W Xb=

Xb

Xb

BryAntoineF.fm Page 935 Mercredi, 16. mars 2005 11:49 11

936 X. BRY, P. ANTOINE

X2 = facteurs d’instruction ;

X3 = facteurs économiques ;

X4 = facteurs démographiques et matrimoniaux.

• Calcul des facteursOn calcule deux facteurs par groupe thématique. Le facteur j du

groupe i est appelé XiFj. Les facteurs sont centrés réduits. On régresse

sur l’ensemble de ces facteurs, ce qui permet d’écrire W commeune combinaison linéaire de ces facteurs, pondérés par des coefficients.Les résultats de la régression sont présentés dans le tableau 2 (R2 = 0,96).

Les facteurs de rang 2 ayant des coefficients systématiquement beau-coup plus faibles (ils sont environ deux fois moins élevés) que leurs homo-logues de rang 1, on procède à la régression sur ces derniers seulement.Les résultats sont retracés dans le tableau 3 (R2 = 0,86).

On parvient donc à capter 86 % de la variable W sur les quatre fac-teurs de rang 1. Cette performance est moins bonne que celle de larégression PLS, mais cela n’a rien de surprenant, car les facteurs de l’ACTsont thématiquement contraints. Mais cette contrainte, qui supprime lebrouillage thématique, devrait donner des facteurs d’interprétation plusclairs.

On note que les facteurs ayant les pouvoirs explicatifs les plusfaibles sont ceux des groupes 2 (niveau d’instruction) et 4 (démographiqueet matrimonial).

TABLEAU 2.– COEFFICIENTS DE RÉGRESSION DE W SUR L’ENSEMBLEDES FACTEURS FOURNIS PAR L’ACT

Thème Facteur Coefficient

Culturel X1F1 2,60X1F2 0,85

Niveau d’instruction X2F1 1,02X2F2 0,43

Économique X3F1 1,62X3F2 0,70

Démographique et matrimonial X4F1 1,52X4F2 0,73

TABLEAU 3.– COEFFICIENTS DE RÉGRESSION DE WSUR LES FACTEURS DE RANG 1 DE L’ACT

Thème Facteur Coefficient

Culturel X1F1 2,68Niveau d’instruction X2F1 0,99Économique X3F1 1,87Démographique et matrimonial X4F1 1,40

W Xb=

BryAntoineF.fm Page 936 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 937

• Examen des groupes dans les plans thématiquesLes facteurs 1 et 2 de chaque groupe fournissent les plans des

figures 9 à 12 (ci-dessous et pages suivantes)(28) :

(28) Sur chaque plan thématique, on a également projeté l’ensemble des variables desautres thèmes (leurs intitulés sont en italique), afin de contrôler l’absence de recouvrement tropfort entre les thèmes. Une telle multicolinéarité inter-thèmes rendrait en effet caduc le modèlethématique proposé.

Figure 9.– Premier plan factoriel du groupe 1 (facteurs culturels)Les variables illustrant bien ce plan sont : mouride, pour l’axe 1; lieu de naissance

et lieu de socialisation, pour l’ensemble du plan (configuration triangulaire).La gradation urbaine (rural–ville de province–capitale) est reproduite par le facteur 2

et non par le premier. Or, ce second facteur a un pouvoir explicatif plus faible que le premier.

BryAntoineF.fm Page 937 Mercredi, 16. mars 2005 11:49 11

Figure 10.– Premier plan factoriel du groupe 2 (facteurs d’instruction)Le premier facteur reproduit la hiérarchie des niveaux de formation (non scolarisé, primaire, secon-

daire ou plus), tant pour ego que pour ses parents. Le second – au pouvoir explicatifnettement moins important – distingue les personnes non scolarisées des personnes

peu scolarisées. Notons au passage la forte reproduction sociale : ego a toutes les chances d’avoir le même niveau d’instruction que son père et sa mère.

Figure 11.– Premier plan factoriel du groupe 3 (facteurs économiques)L’axe 1 met en relief l’autonomie en matière de logement, facteur particulièrement fort

du divorce qui reflète certainement l’importance des revenus du mari. L’axe 2, secondaire,fait ressortir trois professions de l’épouse (domestique, employée, vendeuse),

mais il est médiocrement corrélé avec ces trois modalités.

BryAntoineF.fm Page 938 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 939

• Sélection des prédicteursLes pouvoirs explicatifs globaux des groupes sont facilement mesu-

rés par les coefficients de régression de leurs facteurs. Le fait de distinguerdifférents thèmes clarifie très nettement le rôle des groupes. Les plans thé-matiques sont bien illustrés (à l’exception du groupe 4 qui concerne lesfacteurs démographiques et familiaux) et donc clairement interprétables.

Il faut éliminer les facteurs de rang 2 des groupes de faible pouvoirprédictif, lorsque ces facteurs n’ont pas d’interprétation claire (X2F2 etX4F2). Le facteur X1F2 est également équivoque et a un faible pouvoirprédictif, mais il fait intervenir des modalités de variables présentes sur lefacteur X1F1 (lieux de naissance et de socialisation). On peut donc éven-tuellement le conserver, à titre transitoire. Le facteur X3F2 est faiblementprédictif, mais exclusivement illustré par les modalités de la profession del’épouse. On conserve donc provisoirement ce facteur.

Concernant les facteurs de rang 1, on les conserve tous, mais avecdes illusions modérées sur ceux qui n’ont pas un grand pouvoir prédictifet/ou qui sont d’interprétation ambiguë car mal illustrés ou influencés partrop de variables. Ces derniers ne nous indiquent pas avec netteté le petitnombre de modalités à inclure dans un modèle parcimonieux et efficace.

Figure 12.– Premier plan factoriel du groupe 4(facteurs démographiques et matrimoniaux)

Le premier plan thématique est mal illustré par les variables de ce quatrième groupe.Ce groupe ne possède pas de structures fortes ayant un pouvoir explicatif important.

BryAntoineF.fm Page 939 Mercredi, 16. mars 2005 11:49 11

940 X. BRY, P. ANTOINE

Ici, on est conduit à conserver les facteurs suivants (accompagnésdes modalités qui leur sont liées) :

X1F1 : il concerne à la fois la religion (mouride, aut_musu) et l’ori-gine urbaine, (ln_urbain/se_urbain) ;

X1F2 : il oppose l’origine dakaroise (ln_dakar/se_dakar) à l’originerurale (ln_rural/se_rural) ;

X2F1 : toutes les modalités concernant le niveau scolaire (voirtableau 4) ;

X3F1 : la résidence ou non dans un logement autonome (jamloau,logauto)

X3F2 : l’emploi exercé par l’épouse (cfemploy, cfdomest, cfvente) ;

X4F1 : les caractéristiques familiales (nombre d’enfants, âge aumariage, nonpart).

Concernant X2F1 (premier facteur du groupe 2), nous avons vu qu’ilreproduit la hiérarchie des niveaux de formation en utilisant de façon trèséquilibrée toutes les modalités de niveau scolaire ; il est donc intéressantde le synthétiser en effectuant une ACP sur ces modalités, afin de l’utiliserdans le modèle final en tant que variable latente exogène. On obtient ainsila variable niscola (combinaison linéaire des variables de niveau scolaireaffectées des coefficients présentés dans le tableau 4) qui permet d’avoirune gradation du « patrimoine » scolaire de l’individu.

On peut procéder de même avec les lieux de naissance et de sociali-sation, afin d’estimer une variable latente de ruralité/urbanisation. Onobtient pour celle-ci (dénommée ruralité) un jeu de coefficients fournisdans le tableau 5.

Concernant le nombre d’enfants et l’âge au mariage, on a intérêt àreconvertir ces variables en variables quantitatives, ou au moins ordinales,puisque l’axe X4F1 reproduit à peu près leur gradation. Cela permettraune estimation plus précise de l’effet éventuel. Ces deux variables appa-

TABLEAU 4.– PONDÉRATIONS DES VARIABLES DANS LE NIVEAU SCOLAIREMESURÉ PAR NISCOLA

Variable Libellé Coefficient dans niscola

Mère non scolarisée mnonsc – 1,64Père non scolarisé pnonsc – 0,93Ego non scolarisé nonscol – 0,72Mère niveau primaire mprim 1,33Père niveau primaire pprim 0,36Ego niveau primaire primaire – 0,07Mère niveau secondaire ou plus msecp 2,12Père niveau secondaire ou plus psecp 1,16Ego niveau secondaire ou plus second_p 0,66

Constante 1,74

BryAntoineF.fm Page 940 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 941

raissant liées, il est vraisemblable qu’elles ne peuvent pas coexister dansle même modèle et qu’il faille donc en éliminer une. On retiendra celledont le rôle causal est le plus interprétable, ou, à défaut, celle qui fournitle meilleur ajustement.

e) Modèle de Cox final

On introduit d’abord dans le modèle économétrique l’ensemble desprédicteurs retenus ci-dessus. Puis on élimine graduellement ceux quin’ont pas d’effet probant. Le tri est beaucoup plus facile que si l’on com-mence avec toutes les variables disponibles. Le tableau 6 récapitule lesvariables finalement retenues, c’est-à-dire celles qui ont un effet significa-tif à 5%.

TABLEAU 5.– PONDÉRATIONS DES LIEUX DANS LA VARIABLE DE RURALITÉ

Variable Libellé Coefficient dans ruralité

Né à Dakar ln_dakar – 1,10Socialisé à Dakar se_dakar – 1,07Né en milieu urbain ln_urbain 0,69Socialisé en milieu urbain se_urbain 0,58Né en milieu rural ln_rural 1,00Socialisé en milieu rural se_rural 0,99

Constante 0,73

TABLEAU 6.– EFFETS DES DÉTERMINANTS DU DIVORCE SÉLECTIONNÉS APRÈS L’ACT, (RÉSULTATS DE LA RÉGRESSION DE COX DU MODÈLE FINAL)

Variable Libellé Multiplicateur du risque(a)

Intervalle de confiance (95 %)

Religion mouride mouride 8,53** [2,87 ;25,29]Jamais de logement

autonome jamloau 4,73** [1,77 ; 12,64]Non apparenté à l’épouse nonpart 2,80* [0,95 ;8,20]Activité de l’épouse :

employée de bureau cfemploy 4,87* [0,77 ;30,90]Niveau scolaire

(variable continue) niscola 1,30* [1,00 ;1,70]Âge au mariage

(variable continue) agordmar 1,52* [0,94 ;2,46](a) Dans un modèle de Cox, le risque de divorce est modélisé par h(t) = h0(t) exp (Xb) ; le multiplicateur durisque vaut 1 pour la catégorie de référence et exp(bi) pour chaque modalité xi donnée.** Signe significatif au seuil de 1 %; * signe significatif au seuil de 5 %.Lecture : l’accroissement d’une année de l’âge au mariage correspond à un risque de divorce augmenté de52 %.Champ : les hommes mariés âgés de 25 à 44 ans au moment de l’enquête.Source : enquête biographique IFAN-IRD (2001).

BryAntoineF.fm Page 941 Mercredi, 16. mars 2005 11:49 11

942 X. BRY, P. ANTOINE

Ce modèle est plus riche d’enseignements que le modèle initial(tableau 1). Aux trois facteurs déjà mis en évidence précédemment (la reli-gion mouride, l’absence de logement autonome et le lien de parenté avecle conjoint) s’ajoutent des facteurs favorisant le divorce comme le fait quel’épouse exerce une activité salariée, d’être allé à l’école, et de se marierplus tardivement. L’exercice d’une activité salariée de la femme semblefavoriser le divorce : les femmes qui acquièrent une certaine indépendanceéconomique divorcent plus rapidement que les femmes en situation de pré-carité. L’effet du lien de parenté avec le conjoint est plus facilement inter-prétable que dans le tableau 1, met tant s implement en opposi t ionl’existence ou non d’un lien de parenté, l’absence de lien facilitant ledivorce.

Par ailleurs, certaines de nos hypothèses ne sont pas confirmées. Lenombre d’enfants (notamment l’absence de descendance) ne semble pasconstituer un facteur de divorce, contrairement à l’hypothèse selonlaquelle l’infécondité de la femme serait considérée comme un facteurfavorisant le divorce. Le modèle n’indique pas non plus que la polygamiejoue un rôle(29). I l est vrai que nous étudions le phénomène auprèsd’hommes encore jeunes, mariés dans l’ensemble depuis peu de temps etdont seul un très petit nombre est concerné par cette pratique.

Conclusion :tout voir et retenir l’essentiel

La méthodologie présentée ici occupe une position intermédiaireentre démarche exploratoire et démarche « confirmatoire ». Si, à l’instarde cette dernière, elle requiert la spécification d’un schéma explicatifconceptuel, celui-ci peut rester très global, et peu directif sur le plan de lamesure.

Le fait de devoir spécifier un modèle conceptuel canalise le cher-cheur de l’empirisme vers l’explication, ce qui n’est pas vraiment le casavec les méthodes plus classiques d’analyse des données.

Le fait de conserver quasiment jusqu’à la fin les multiples mesuresrelatives à un concept présente deux avantages : primo, on donne à cha-cune la possibilité de s’exprimer dans le cadre du modèle explicatif (mal-gré les redondances entre elles), ce qui permet la sélection des meilleures ;secundo, l’éventuelle redondance entre diverses mesures relatives à unmême concept permet de représenter celui-ci de façon plus robuste à l’aidede facteurs synthétiques. La mesure des concepts est ainsi « débruitée » etl’effet statistique correspondant dans le modèle estimé devient plus fiable.À cet égard, l’exemple du niveau d’instruction est particulièrement parlant(cf. tableau 4).

(29) Sur cette question voir Antoine et al., 1998.

BryAntoineF.fm Page 942 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 943

Pour conclure, la démarche proposée nous a permis d’éviter de longstâtonnements dans le choix des variables explicatives lors de la construc-tion du modèle statistique. La participation initiale de toutes les variablescandidates prémunit contre l’omission d’une dimension importante. Enoutre, la méthode permet l’élimination aisée des redondances. Elle nous aainsi permis d’aboutir à un modèle plus riche et plus fiable (tableau 6) quele modèle initial (tableau 1), et ce, pour étudier un événement relativementrare à partir d’un échantillon de taille modeste pour ce type d’analyse.

RÉFÉRENCES

ANTOINE Philippe, 2002, « Les complexités de la nuptialité : de la précocité des unionsféminines à la polygamie masculine en Afrique », in G. Caselli, J. Vallin, G. Wunsch(dir.), Démographie : analyse et synthèses. vol. II – Les déterminants de la fécondité,Paris, Ined (coll. Manuels), p. 75-102.

ANTOINE Philippe, DJIRÉ Mamadou, NANITELAMIO Jeanne, 1998, « Au cœur des relationshommes-femmes : polygamie et divorce », in P. Antoine, D. Ouédraogo, V. Piché (éd.),Trois générations de citadins au Sahel, Paris, L’Harmattan, p. 147-180.

ANTOINE Philippe, ABDOU Salam Fall (dir.), 2002, Crise, passage à l’âge adulte et devenir de lafamille dans les classes moyennes et pauvres à Dakar, rapport d’étape pour le Codesria,IRD-Ifan, Dakar, 118 p + 22 p annexes.

ANTOINE Philippe, DIAL Fatou Binetou, 2003, « Mariage, divorce et remariage à Dakar etLomé », Journées scientifiques de l’AUF, Familles du Nord, Familles du Sud, Marseille23-26 juin 2003, 22 p. (à paraître).

BRY Xavier, 1994, Analyses Factorielles Simples, Economica Poche, 112 p.BRY Xavier, 2001a, « Analyses Discriminantes Régularisées via la régression PLS et l’Analyse

en Résultantes Covariantes », MODULAD, n° 28, p. 27-61.BRY Xavier, 2001b, « Une autre approche de l’analyse factorielle : l’Analyse en Résultantes

Covariantes, RSA, 49(3), p. 5-38.BRY Xavier, 2003, « Une méthode d’estimation empirique d’un modèle à variables latentes :

l’Analyse en Composantes Thématiques », RSA, 51(2), p. 5-45.BRY Xavier, 2004, « Estimation empirique d’un modèle à variables latentes comportant des

interactions », RSA, 52(3) (à paraître).BURNHAM Philip, 1987, « Changing themes in the analysis of african marriage », in D. Parkin,

D. Nyamwaya (éd.), Transformations of African Marriage, Manchester, Manchester Uni-versity Press (International African Seminars, New Series, n° 3), p 37-54.

CAZES Pierre, 1997, « Adaptation de la régression PLS au cas de la régression après analyse descorrespondances multiples », RSA, XLV(2), p. 89-99.

DE JONG Sijmen, 1995, « PLS shrinks », Journal of Chemometrics, vol. 9, p. 323-326.DIAL Fatou Binetou, 2001, « Le divorce, source de promotion pour la femme ?. L’exemple des

femmes divorcées de Dakar et de Saint-Louis (Sénégal) », in T. Locoh, K. Nguessan,P. Makinwa-Adebusoye (éd.), Systèmes de genre et questions de population en Afrique.Résistances et innovations, Dakar, UEPA/Paris, INED, 15 p. (à paraître).

DIOP Abdoulaye Bara, 1985, La famille wolof : tradition et changement, Paris, Karthala, 262 p.GOULD Stephen J., 1983, La mal-mesure de l’Homme, Ramsay.HERTRICH Véronique, LOCOH Thérèse, 1999, Rapports de genre, formation et dissolution des

unions dans les pays en développement, Liège, UIESP (Gender in population series),46 p.

KAUFMAN Georgia, LESTHAEGHE Ron, MEEKERS Dominique, 1988, « Les caractéristiques et ten-dances du mariage », in D. Tabutin (éd.), Population et sociétés en Afrique au sud duSahara, p. 217-248.

LEBART Ludovic, MORINEAU Alain, PIRON Marie, 1995, Statistique exploratoire multidimension-nelle, Dunod.

BryAntoineF.fm Page 943 Mercredi, 16. mars 2005 11:49 11

944 X. BRY, P. ANTOINE

LOCOH Thérèse, THIRIAT Marie-Paule, 1995, « Divorce et remariage des femmes en Afrique del’Ouest. Le cas du Togo », Population, 50(1), p. 61-94.

MCDONALD Peter, 1985, « Social organisation and nuptiality in developing countries », in J. Cleland,J. Hobcraft (éd.), Reproductive Change in Developing Countries, Oxford, Oxford UniversityPress, p. 87-114.

MINISTÈRE DE L’ÉCONOMIE, DES FINANCES ET DU PLAN (Direction de la prévision et de la statis-tique), 1988, Enquête démographique et de santé au Sénégal 1986, Dakar, DHS/MacroInternational, 173 p.

MINISTÈRE DE L’ÉCONOMIE, DES FINANCES ET DU PLAN (Direction de la prévision et de la statis-tique), 1994, Enquête démographique et de santé au Sénégal 1992-93 (EDS II). Dakar;Calverton, DHS/Macro International, 284 p.

SMITH David P., CARRASCO Enrique, MCDONALD Peter, 1984, Marriage Dissolution and Remar-riage, Voorburg, International Statistical Institute (World Fertility Survey ComparativeStudies, n° 34), 94 p.

TENENHAUS Michel, 1998, La régression PLS, théorie et pratique, Technip.TENENHAUS Michel, 1999, « L’approche PLS », RSA, 47(2), p. 5-40.WOLD Hermann, 1985, « Partial least squares », Encyclopedia of Statistical Sciences, John

Wiley & Sons, p. 581-591.

BryAntoineF.fm Page 944 Mercredi, 16. mars 2005 11:49 11

EXPLORER L’EXPLICATIF 945

BRY Xavier, ANTOINE Philippe.– Explorer l’explicatif : application à l’analyse biographique

Ce travail relie de façon empirique analyses factorielles et régressions linéaires géné-ralisées (régression logistique, de Cox, etc.). Nous montrons comment ce couplage permet defaciliter l’exploration de données complexes comme les données biographiques (variant dansle temps, incomplètement observées) en vue de leur modélisation. Nous associons uneméthode de régression à une nouvelle méthode factorielle – l’analyse en composantesthématiques – qui permet de tenir compte, dès le départ, d’un modèle conceptuel explicatifdes données. Cette méthode est ensuite appliquée à l’analyse du divorce des hommes à Dakar,ce qui permet d’illustrer simplement chaque point méthodologique abordé.

BRY Xavier, ANTOINE Philippe.– Exploring the explanatory: an application to event historydata

This article presents an empirical plugging of factor analysis and generalized linearregression (logistic regression, Cox models, …). We show that this combination can facilitatethe exploration of complex data such as that on event histories (time-varying, censored) formodelling purposes. By combining a regression method with a new type of factor analysis— Thematic Components Analysis — we show how an explanatory conceptual model for thedata can be included from the start of the exploratory phase. This method is then applied toan analysis of the divorce behaviour of men in Dakar, and used to give a simple illustrationof each methodological point discussed.

BRY Xavier, ANTOINE Philippe.– Analizar las causas: aplicación al análisis biográfico

En este artículo se relacionan de modo empírico análisis factoriales y regresioneslineales generalizadas (regresión logística, de Cox, etc.). También se muestra como tal co-nexión facilita el análisis de datos complejos tales como los datos biográficos (que varían através del tiempo y cuya observación es incompleta) y su modelización. Asociamos un métodode regresión a un nuevo método factorial – el análisis de componentes temáticos – que permi-te tomar en cuenta, desde el principio, un modelo conceptual explicativo de los datos. A con-tinuación aplicamos este método al análisis del divorcio masculino en Dakar para ilustrar deforma simple cada paso metodológico.

Xavier BRY, Lise-Ceremade, université Paris IX-Dauphine, courriel : [email protected]

BryAntoineF.fm Page 945 Mercredi, 16. mars 2005 11:49 11