LEY 909 DE 2004 Y DECRETOS REGLAMENTARIOS -PREGUNTAS FRECUENTES
Bry Xavier, Antoine Philippe, 2004 : Explorer l’explicatif : application à l’analyse...
Transcript of Bry Xavier, Antoine Philippe, 2004 : Explorer l’explicatif : application à l’analyse...
Cet article est disponible en ligne à l’adresse :http://www.cairn.info/article.php?ID_REVUE=POPU&ID_NUMPUBLIE=POPU_406&ID_ARTICLE=POPU_406_0909
Explorer l’explicatif. Application à l’analyse biographique
par Xavier BRY et Philippe ANTOINE
| Institut National d’Etudes Démographiques | Population2004/6 - Volume 59ISSN 1634-2941 | pages 909 à 945
Pour citer cet article : — Bry X. et Antoine P., Explorer l’explicatif. Application à l’analyse biographique, Population 2004/6, Volume 59, p. 909-945.
Distribution électronique Cairn pour Institut National d’Etudes Démographiques.© Institut National d’Etudes Démographiques. Tous droits réservés pour tous pays.La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit.
Population-F
, 59(6), 2004, 909-946
Explorer l’explicatif
Application à l’analyse biographique
Xavier B
RY
* et Philippe A
NTOINE
**
Explorer, décrire et enfin analyser constituent les objectifscommuns de l’ensemble des travaux de recherche. Pour cela, lesdeux types de méthodes couramment mises en œuvre sont soitdes analyses factorielles, soit des régressions linéaires géné-ralisées. Bien que complémentaires, ces démarches sont rare-ment associées dans la pratique. Dans cet article,
Xavier B
RY
et
Philippe A
NTOINE
proposent une démarche originale quiexploite les qualités respectives de ces deux méthodes et leurpermet ensuite d’analyser le divorce des hommes à Dakar àpartir des nombreuses caractéristiques disponibles dans unéchantillon aux effectifs réduits. L’analyse en composantes thé-matiques (ACT) synthétise en effet des variables explicativesredondantes en un petit nombre de facteurs répondant à la pro-blématique de départ, et permet une modélisation linéaire par-cimonieuse.
L’analyse factorielle et l’économétrie ont la réputation d’être commel’eau et l’huile : utiles à la bonne cuisine, mais difficilement miscibles.Les méthodes factorielles classiques (ACP, ACM…) sont certes puissantessur le plan de la réduction dimensionnelle (synthèse de l’hétérogénéité enun petit nombre de facteurs), mais elles ignorent
a priori
tout schémaexplicatif et sont inadaptées à l’exploration des causes et des effets ; cecipour deux raisons essentielles. Elles présentent en effet deux caractéris-tiques difficilement compatibles avec la modélisation explicative : en pre-mier l ieu, une mesure restreinte aux l iaisons deux à deux entre lesvariables et un haut degré de symétrie entre variables. Ces liaisonsbivariées ne permettent pas de mesurer l’effet
partiel
d’une variable surune autre, c’est-à-dire l’effet corrigé de l’influence d’autres déterminants.En second lieu, ces méthodes factorielles présentent la particularité de nepas hiérarchiser les observations, ce qui les rend inadaptées à l’étuded’une dynamique. En effet, lorsque les observations sont datées, l’étude de
* Lise-Ceremade, université Paris IX-Dauphine.** IRD, Équipe Jéremi, UR Dial-Cipre.
BryAntoineF.fm Page 909 Mercredi, 16. mars 2005 11:49 11
910 X. B
RY
, P. A
NTOINE
la dynamique impose le plus souvent de modéliser le futur en fonction dupassé
(1)
, ce qui conduit nécessairement à hiérarchiser les observations
(2)
.
Les méthodes économétriques, quant à elles, qui sont fondées sur desmodèles conditionnels, étudient les liaisons partielles et sont donc tout àfait adaptées à l’analyse explicative. Mais elles doivent s’appuyer sur desmodèles parcimonieux, pour échapper au poison des multicolinéarités pro-duites par une excessive redondance des variables explicatives, et fournirdes estimations stables
(3)
; elles nécessitent donc très souvent une étape deréduction dimensionnelle préalable.
On comprend ainsi en quoi ces techniques sont complémentaires etpourquoi l’enchaînement de leurs séquences est, en pratique, assez strict :l’analyse factorielle est utilisée d’abord, dans une optique purementexploratoire, afin d’extraire quelques dimensions fortes des données. Cesdimensions sont, dans un deuxième temps, introduites dans un modèleéconométrique qui s’appuie sur un schéma explicatif
(4)
.
Malheureusement, cette séquence n’est pas toujours opérationnelle.D’une part, les variables retenues lors de la phase de réduction dimension-nelle ayant été calculées sans prendre en compte un schéma explicatif,elles ne sont pas forcément les plus pertinentes pour la modélisation ulté-rieure. D’autre part, l’analyse factorielle est sérieusement handicapée parles observations incomplètes, alors que la modélisation permet souvent degérer ce genre de situations avec rigueur. Pour ces deux raisons, unmodèle explicatif doit être pris en compte dès le début de l’analyse.
Pour répondre à cette attente, une méthode factorielle nouvelle a étéélaborée : l’Analyse en composantes thématiques (Bry, 2003), qui place lemodèle explicatif à la source de la réduction dimensionnelle. Cetteméthode est une généralisation de la régression PLS (ou MCP) proposée
(1)
Ce n’est toutefois pas vrai des analyses spectrales, telles que l’analyse harmonique.
(2)
Par exemple, la régression de Cox modélise un risque instantané (celui de la survenued’un événement dans un avenir proche) en fonction des caractéristiques acquises de l’individu(ces caractéristiques pouvant évidemment inclure tout aspect de son passé et évoluer dans letemps).
(3)
L’usage de la modélisation économétrique, qui passe par le commentaire de la valeurou même simplement du signe des paramètres estimés, requiert un minimum de stabilité de cesestimations.
(4)
Certaines méthodes factorielles, telles que l’analyse canonique (AC) et l’analyse facto-rielle discriminante (AFD), généralisent la régression multiple (Bry, 2001a). À ce titre, on pour-rait être tenté de les ranger dans les méthodes « explicatives ». Nous pensons qu’il s’agirait làd’une erreur. L’analyse canonique rétablissant une totale symétrie entre les deux groupes devariables impliqués, son usage est naturellement exploratoire. L’« analyse discriminante », quantà elle, a la réputation d’« expliquer » une variable qualitative à partir d’un groupe de variablesprédictives. En réalité, l’appellation « analyse discriminante » recouvre un ensemble de méthodesdont certaines méritent cette réputation, et d’autres non, selon le conditionnement qu’elles utili-sent. La régression logistique, par exemple, utilise un conditionnement de la variable qualitativepar les prédicteurs ; elle peut donc éventuellement prétendre expliquer la première par lesseconds. L’analyse factorielle discriminante, pour sa part, est un cas particulier d’analysecanonique et n’utilise
a priori
aucun conditionnement. On peut proposer un critère pratique per-mettant de trancher facilement : une méthode « explicative » véritable, utilisant un conditionne-ment de la variable à expliquer, débouche immédiatement sur une formule de prédiction de cettedernière. Ce n’est le cas ni de l’AC, ni de l’AFD.
BryAntoineF.fm Page 910 Mercredi, 16. mars 2005 11:49 11
E
XPLORER L’EXPLICATIF
911
par Wold (1985). Elle est, par construction, adaptée à la modélisationlinéaire classique de variables continues dans le cadre de données nontemporelles. Nous proposons ici une façon de la coupler avec la modélisa-tion linéaire généralisée, et notamment la modélisation semi-paramétriquede Cox. Nous présentons d’abord cette démarche méthodologique, puisnous l’appliquons à des données originales tirées d’une enquête africainerécente, en proposant une analyse du divorce des hommes à Dakar.
I. La modélisation fondée sur des variables latentes
La modélisation économétrique est toujours fondée sur un schémaconceptuel. Ce dernier est la synthèse d’une réflexion théorique poussée,qui, seule, peut fonder son caractère explicatif. Le modèle conceptuel estsouvent présenté sous forme de graphe orienté dont les nœuds figurentdivers concepts, ou
thèmes
, permettant de caractériser les observations etdont les arcs figurent des relations de cause à effet ou plus généralementd’influence entre ces concepts. Nous appellerons
modèle thématique
un telschéma.
Par exemple, pour modéliser le risque de divorce des hommes, onproposera le modèle thématique présenté en figure 1. Ce découpage thé-matique correspond à la problématique développée en application en qua-trième partie de cet article.
Figure 1.– Modèle thématique pour l’analyse du risque de divorce
BryAntoineF.fm Page 911 Mercredi, 16. mars 2005 11:49 11
912 X. B
RY
, P. A
NTOINE
Dans la grande majorité des situations, les dimensions explicatives,même si elles sont conceptuellement claires, restent « touffues » et flouesdu point de vue de l’observation car elles relèvent de nombreuses caracté-ristiques qui peuvent se prêter à de multiples mesures. Dans l’exemple ci-dessus, le niveau d’instruction est à la fois mesuré pour l’enquêté, sonpère et sa mère. Les facteurs culturels (ethnie, religion, etc.) influencentnon seulement le niveau d’instruction, mais aussi les caractéristiques del’union. La situation économique du ménage est caractérisée en termesprofessionnels ainsi que du point de vue du logement, etc. Et enfin, lescaractéristiques de l’union jouent
a priori
sur l’issue de l’union.
Pour chacun des thèmes pris en compte dans le modèle, il s’avèrenécessaire de dégager les quelques dimensions conduisant à une modélisa-tion économétrique efficace, autrement dit des dimensions d’interprétationclaire et fournissant un modèle bien ajusté aux observations.
Nous considérons qu’un thème comporte plusieurs dimensionsconceptuelles (par exemple, les facteurs culturels ont une dimensionurbain/rural, une dimension ethnique, une dimension religieuse…). Tradi-tionnellement, on sélectionne une seule variable observée par dimensionconceptuelle, afin d’éviter, dans le modèle, les redondances qui déstabi-lisent l’estimation. Mais la variable choisie ne fait que représenter cettedimension conceptuelle, laquelle peut souvent être mesurée de plusieursautres manières. Cette variable est donc utilisée comme une « proxy »
(5)
pour une variable latente, qui, elle, mesurerait correctement la dimensionconcep tue l le , mais res te inobservée . En pra t ique , l e cho ix de l a« meilleure » proxy est confronté à une difficulté majeure : on doit exigerd’elle une bonne « représentativité » sur le plan conceptuel, mais on aime-rait aussi trouver celle qui a le pouvoir prédictif le plus fort. Or, ce pou-voir prédictif dépend des autres variables explicatives introduites dans lemodèle. On doit donc faire face à un problème combinatoire.
On peut choisir une tout autre stratégie : fonder le modèle sur lesvariables latentes (inobservées), lesquelles seront estimées à partir descorrélations entre les variables observées contribuant à décrire une mêmedimension conceptuelle. Dans cette approche, la redondance des variablesobservées autour d’une même dimension conceptuelle n’est pas un handi-cap, mais un atout. Chaque variable latente sous-jacente à un groupe devariables observées est ainsi supposée satisfaire la double contraintesuivante :
— être globalement liée aux variables observées de ce groupe ;
— être liée aux autres variables latentes conformément aux hypo-thèses du modèle conceptuel.
C’est la prise en compte de cette double contrainte qui permet d’éla-borer une stratégie d’estimation des variables latentes. Une variable latente
(5)
Une proxy ne fait que représenter, avec une certaine erreur, la variable latente associée.
BryAntoineF.fm Page 912 Mercredi, 16. mars 2005 11:49 11
E
XPLORER L’EXPLICATIF
913
sera estimée par un
facteur
optimisant un certain critère. La variable latenteet le facteur qui l’estime seront désignés par la même lettre
F
.
L’approche par les variables latentes présente un avantage en termesde robustesse, particulièrement appréciable lorsque le nombre des obser-vations est assez faible. Dans un tel cas, en effet, une seule observationpeut changer de façon notable les coefficients estimés. Or chaque proxyreprésente sa variable latente avec une certaine erreur. Donc, l’impact decette erreur sur l’estimation des coefficients risque d’être d’autant plusimportant que les observations sont peu nombreuses. L’interprétation desrésultats repose alors sur une hypothèse qui risque d’être caduque, à savoirque les coefficients estimés traduisent correctement l’effet de ces variableslatentes.
Si, par contre, on fonde le modèle sur des estimations stabilisées desvariables latentes s’appuyant sur plusieurs variables observées, on amélio-rera la robustesse des effets estimés.
Dans la suite, nous n’aborderons, par souci de simplicité, que lesmodèles comportant une seule variable observée
y
à expliquer. Il s’agirapar conséquent d’estimer des variables latentes explicatives de
y
.
II. Estimation de variables latentespar les méthodes factorielles
Après un bref rappel des méthodes factorielles les plus classiques(ACP, ACM), estimant des variables latentes sans prendre en compte deschéma explicatif, nous présenterons successivement deux méthodes fac-torielles plus récentes : la régression PLS, qui s’appuie sur un modèleexplicatif simplifié et l’analyse en composantes thématiques, qui étend laprécédente au modèle thématique complet.
1. En l’absence de modèle thématique : ACP, ACM
a) Calcul de la première composante principale
On considère un groupe
X
de
J
variables numériques observées
x
1
, …, x
J
mesurant les différents aspects d’un même thème. On supposed’abord que toutes les variables
x
j
du groupe sont issues, à une perturbation
e
j
près, d’une même variable latente
F
qu’il s’agit d’identifier (figure 2).
La minimisation des carrés des résidus
e
j
conduit à calculer un fac-teur
F
appelé
première composante principale
de
X
. Cette méthode aensuite été étendue au cas plus général où le groupe
X
est pondéré par unemétrique
M
(matrice carrée symétrique positive de dimension
J
) commeindiqué dans l’encadré 1.
BryAntoineF.fm Page 913 Mercredi, 16. mars 2005 11:49 11
914 X. B
RY
, P. A
NTOINE
Encadré 1Estimation de la première composante principale
Soit
u
un vecteur de taille
J
qui soit
M-
normé, c’est-à-dire vérifiant . Soitalors le programme de maximisation suivant :
On montre classiquement que la solution
XMu
de ce programme est précisément lapremière composante principale
F
.Le choix d’une métrique
M
idoine permet de traiter des variables qualitatives.Soit
X
un groupe de
R
variables qualitatives. On code chaque variable par legroupe des indicatrices de ses modalités. On notera ainsi
X
r
la r-ième variable et legroupe d’indicatrices correspondant. Le groupe
X
est formé de la juxtaposition de cesgroupes d’indicatrices :
X = (X
1
, …,
X
R
). Il est ensuite traité à l’aide de la métrique
M
= Diag({(
X
r
'
X
r
)
-1
}
r =
1
à R
). L’ACP utilisant cette métrique donne alors l’analyse descorrespondances multiples (Lebart
et al
., 1995 ; Bry, 1994).
• Dépasser la première composante ?
Une fois trouvé le premier facteur, on peut en chercher un secondsous contrainte d’orthogonalité au premier. Et ainsi de suite jusqu’à obte-nir l’ACP complète de
X
. Le premier facteur estime la variable latented’un modèle qui la suppose unique. S’en contenter n’est possible que si legroupe
X
est essentiellement unidimensionnel, c’est-à-dire constitué devariables qui mesurent toutes, à de petites différences près, la mêmedimension. Une telle situation n’est pas si fréquente : le plus souvent, le
Figure 2.– Schéma conceptuel de l’ACP
u ′Mu 1=
Max XMuu ′Mu 1=
BryAntoineF.fm Page 914 Mercredi, 16. mars 2005 11:49 11
E
XPLORER L’EXPLICATIF
915
groupe
X
est structuré autour de plusieurs dimensions, et il importe de lesidentifier pour ne pas trahir les données. Mais en général, on n’observerapas une absence de corrélation entre les dimensions fortes de
X
prisesdeux à deux. Si l’on cherche des facteurs décorrélés, c’est pour simplifiercertains calculs ainsi que les représentations graphiques des corrélationsentre variables. Ces facteurs ne peuvent donc systématiquement prétendreestimer des variables latentes de façon réaliste. Ils deviennent avant toutun outil de visualisation de la structure de
X
en dimension réduite, ce quiest indispensable à son exploration. La nécessité de cet assouplissementconcerne toutes les méthodes factorielles calculant plusieurs facteurs pargroupes.
Lorsque l’on calcule plusieurs facteurs par groupes, on les notera
F
1
, … ,
F
α
,
…
b) Interprétation des facteurs
Les facteurs estimant les variables latentes sont interprétables à par-tir de leurs corrélations avec les variables observées. Il est commode deprocéder à la représentation graphique des variables observées dans labase factorielle, chaque variable
x
j
ayant pour coordonnée sur l’axe dirigépar
F
α
la corrélation
r
(
x
j
,
F
α
) qu’elle a avec ce facteur (cf. figure 3).
On cherchera les variables les plus corrélées (positivement ounégativement) avec chaque facteur pour lui donner un sens. Le plan queforment deux facteurs est parfois plus facilement interprétable que les fac-
Figure 3.– Représentation factorielle des variables du groupe X
BryAntoineF.fm Page 915 Mercredi, 16. mars 2005 11:49 11
916 X. B
RY
, P. A
NTOINE
teurs ne le sont isolément
(6)
. Il est important d’examiner, pour chaque planfactoriel, l’ensemble des variables qui y sont bien représentées. On trou-vera le détail des règles d’interprétation d’une ACP dans Lebart
et al
.(1995) et Bry (1994).
Le modèle conceptuel de l’ACP, trop sommaire, ne permet pas detraduire les causalités impliquant des variables latentes.
2. En présence d’un modèle unithème :la régression PLS
a) Modèle et estimation
Reprenons le modèle de l’ACP, en rendant la variable latente
F
expli-cative d’une variable observée
y
(figure 4).
Le groupe
X
est pondéré par lamétrique
M
.
F
est estimée en résolvant un programme de maximisation qui in-tègre la liaison entre
F
et
X
et celle entre F et y (voir encadré 2).
Encadré 2Estimation de F dans une régression PLS
Soit u un vecteur M-normé. On pose F = XMu et on résout le programme suivant :
Q:
Le critère maximisé est mixte. En effet, <XMu|y> = ||XMu|| cos(XMu,y).Or, la maximisation isolée de ||XMu|| conduit, on l’a vu, à l’ACP de X, tandis que
celle du cosinus de Xmu et y conduit à la régression de y sur X.
(6) Les facteurs n’estimant plus a priori de variables latentes, l’interprétation isolée dechacun cesse d’être indispensable – elle est d’ailleurs souvent stérile, puisque les structures for-tes de X, si elles sont non décorrélées, s’écartent de ces variables latentes. Par contre, le sous-es-pace formé par les p premiers axes factoriels contient par définition les structures principales deX. Pour les découvrir, on examinera les premiers plans factoriels, en les mettant en rapport lesuns avec les autres, pour essayer d’aller un peu au-delà de la dimension 2.
Ignorer la multidimensionnalité, d’une part, et vouloir interpréter à tout prix un facteur,d’autre part, sont des attitudes très dangereuses. On rappellera l’exemple historique de la pre-mière composante principale des tests psychométriques de Spearman, interprétée pendant 30 anscomme un « facteur d’intelligence générale » (le fameux facteur G), avant que Thurstone montresa complète vacuité – reconnue par Spearman lui-même à la fin de sa vie – en mettant en évi-dence la structure bi-dimensionnelle profonde des tests (dimensions verbale et mathématique), etle fait que G était très médiocrement corrélé à chacune de ces deux dimensions. On pourrait ensourire si le facteur G n’avait été utilisé pour éjecter prématurément du système scolaire quantitéd’enfants britanniques (« sur des bases scientifiques ») afin de faire des économies (Gould,1983). Comme l’illustre cette affaire, il est tautologiquement irréaliste de vouloir ramener uneréalité multidimensionnelle à une dimension unique.
Max XMu y⟨ ⟩u ′Mu 1=
BryAntoineF.fm Page 916 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 917
Ce nouveau programme conduit ainsi à un compromis entre ACP deX (ajustement de la variable latente au groupe X) et régression de y sur X(estimation de y à partir de la variable latente) (Tenenhaus, 1998 ; Bry,2001b). Ces liaisons entre F et X, d’une part, et entre F et y, d’autre part,sont représentées sur la figure 5.
Figure 4.– Schéma conceptuel de la régression PLS
Figure 5.– Le programme initial de PLS
BryAntoineF.fm Page 917 Mercredi, 16. mars 2005 11:49 11
918 X. BRY, P. ANTOINE
La résolution du programme de maximisation Q fournit un facteur Fproportionnel à XMX'y. On notera RX,M y cette dernière quantité, que l’on abaptisée résultante de y sur le groupe X pondéré par M.
Ses propriétés sont étudiées dans Bry (2001b et 2004). La propriétéessentielle est que lorsqu’on l’applique à une variable z quelconque, l’opé-rateur de résultante RX,M = XMX' rapproche z des structures les plus fortesde X (matérialisées par ses premières composantes principales).
Il est important de noter que désignant la projection orthogonale
(régression usuelle) de y sur X, on a: . Par conséquent, de
façon heuristique, on peut concevoir le calcul du premier facteur de PLScomme la succession des deux opérations suivantes : 1) régression de y surX (optimisation de l’estimation) ; 2) calcul de résultante rapprochant la
partie prédite des structures fortes de X.
La résolution du programme Q fournit un seul facteur. Si l’on désirestructurer X autour de plusieurs facteurs, on relance le programme souscontrainte d’orthogonalité entre les nouveaux facteurs cherchés et les fac-teurs précédemment trouvés.
Lorsque X est composé de variables quantitatives, elles serontcentrées et réduites et l’on utilisera la métrique M = I. Lorsqu’il est com-posé de variables qualitatives, celles-ci seront codées par les indicatricesde leurs modalités, et l’on utilisera la métrique de l’ACM (cf. section 1,p. 913). Il est parfaitement possible de traiter un groupe mixte (contenantà la fois des variables quantitatives et qualitatives) à l’aide d’une métriqueM bloc-diagonale, dont l’élément diagonal mjj correspondant à unevariable quantitative xj est égal à 1, et le bloc diagonal correspondant àune variable qualitative Xr est égal à (Xr 'Xr )-1. Le choix des métriques estdiscuté dans Cazes (1997), Tenenhaus (1999) et Bry (2001b).
b) Interprétation des résultats
Les facteurs de X s’interprètent de la même façon que dans le casd’une ACP (on procède à la même représentation des variables de X enbase factorielle). Visualiser les corrélations entre variables observéesdonne une indication essentielle sur le degré de réalisme du raisonnement« toutes choses égales par ailleurs » lors de l’interprétation du modèleestimé. Cette visualisation est également essentielle pour sélectionner lesdimensions explicatives qui seront finalement conservées : elle en permetle tri et l’interprétation en termes de liaison avec les variables observées.
Par ailleurs, comme les facteurs estiment des variables latentesexplicatives de y, ils peuvent être considérés comme un intermédiaire decalcul pour l’élaboration d’une formule d’estimation de y à partir des
RX M, y XMX′y=
y
RX M, y RX M, y=
y
BryAntoineF.fm Page 918 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 919
variables observées xj. Chaque facteur s’écrit comme une combinaisonlinéaire des variables de son groupe, et il est donc tentant d’interpréter lecoefficient d’une variable dans cette combinaison comme mesurant le rôleque cette variable joue dans la formation du facteur. Ultérieurement, enrégressant y sur les facteurs, on recherchera la part de chaque facteur dansla formation de y. En combinant les deux, il est aisé de reconstruire uneformule prédisant y à partir des xj.
L’interprétation des facteurs à partir des coefficients des variablesqui entrent dans leur formulation, pourtant fréquente, n’est pas sans poserquelques problèmes lorsque les variables présentent certaines multicoli-néarités, ou en sont proches : les coefficients sont alors instables, l’effetde certaines variables pouvant se reporter sur d’autres. Bien que le modede calcul des facteurs de PLS limite la confusion d’effets (De Jong, 1995),l’interprétation à partir des corrélations variables-facteurs nous paraît pré-férable à celle fondée sur les coefficients.
Les observations peuvent être représentées sur les plans factoriels.Ceci permet notamment le dépistage des observations atypiques et desgroupements d’observations. Visualiser la distribution du nuage des obser-vations permet de savoir si tel effet est bien une tendance globale aux don-nées ou s’il est simplement produit par quelques observations atypiques,ce qui en modifie toute l’interprétation.
La variable dépendante est régressée sur les facteurs ; leur décorré-lation permet la décomposition additive de la variance de y et l’élimina-tion des facteurs les moins importants.
c) Intérêt et limites du modèle
L’intérêt des facteurs fournis par la régression PLS, par rapport àceux de l’ACP, est que, tout en se rapprochant des structures fortes de X,ils sont bien plus efficaces a priori pour estimer y. L’avantage de larégression PLS par rapport à la régression classique (Ordinary LeastSquare, OLS) est que, s’appuyant sur des structures fortes de X plutôt quesur la totalité de ses dimensions, elle élimine du modèle sa partie la plusfragile. L’estimation en est rendue plus robuste, et le modèle plus facile àinterpréter. Il en résulte une légère baisse de la qualité de l’ajustement quel’on peut s’efforcer de rendre aussi petite que possible en prenant davan-tage de facteurs dans le modèle. Néanmoins, dans la mesure où une part del’ajustement n’est due qu’à du bruit, l’amélioration obtenue est trompeuse,et mieux vaut éliminer les dimensions correspondantes. Sur le plan pra-tique, la régression PLS facilite grandement l’analyse des déterminants dey en présentant une hiérarchie de facteurs non redondants permettant lavisualisation des structures de corrélation du groupe explicatif X.
La régression PLS possède donc des avantages importants par rap-port à son homologue OLS. Toutefois, dès que le modèle conceptuelcontient plusieurs thèmes explicatifs, elle ne lui correspond plus bien. Si
BryAntoineF.fm Page 919 Mercredi, 16. mars 2005 11:49 11
920 X. BRY, P. ANTOINE
l’on décide, pour l’utiliser, de prendre en compte tous les thèmes explica-tifs, la régression PLS fournira des facteurs hybrides, d’autant plus déli-cats à interpréter qu’i ls mélangent des variables conceptuellementhétérogènes.
3. En présence d’un modèle multithème :l’analyse en composantes thématiques
a) Présentation
On considère ici qu’un phénomène décrit par une variable observée ya pour déterminants R groupes explicatifs X1, …, Xr, … XR correspondantà autant de thèmes (figure 6). L’ensemble des variables des groupesX1, …, XR est noté X. Chaque groupe Xr est pondéré par une métrique .Pour simplifier, on considère d’abord que chaque groupe Xr est structuréautour d’une unique variable latente .
Lorsque nous cherchons un facteur Fr qui représente le groupe Xr
dans ce qu’il a de lié à y, nous devons tenir compte de l’existence d’autresfacteurs explicatifs de y. Avant d’appliquer un programme du type de Qentre y et Xr , il s’agit d’éliminer l’influence des autres facteurs courants.C’est ce que fait l’analyse en composantes thématiques. La constructiongénérale de l’ACT et ses propriétés sont exposées dans Bry (2003). Dans
Mr
Fr
Figure 6.– Schéma conceptuel de l’ACT1 :modélisation multithème d’une variable y
BryAntoineF.fm Page 920 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 921
le cas le plus général, on a un groupe Y de variables yk à expliquer.Lorsque le groupe à expliquer ne contient, comme ici, qu’une variableobservée y, la méthode est notée ACT1, et son algorithme est plus simple.
b) L’algorithme d’ACT1
• Étape 1 (calcul des facteurs de rang 1)Itération 0 (initialisation) :
On prend pour valeur initiale de chaque facteur Fr la résultante de ysur Xr , telle qu’elle a été définie dans la section 1, p. 913.
Itération k, k>0 (illustrée figure 7) :
Pour r allant de 1 à R, on note F-r(k–1) l’ensemble des facteurs obte-nus à l’étape k–1 qui n’inclut pas Fr, et l’on procède comme suit pour cal-culer Fr(k) :
— on régresse y sur {Xr,F-r(k–1)}. On note la composante calcu-lée à partir de Xr de l’estimation .
Cette composante est la projection de sur <Xr > parallèlement à<F-r(k–1)>. Elle fournit la meilleure estimation possible de y à partir dugroupe Xr et des facteurs obtenus dans les autres groupes.
— on pose : normé. Ce calcul de résultante rap-
proche des structures fortes de .
Fin : On s’arrête lorsque les résultats sont jugés suffisamment stables.
• Étape n (calcul des facteurs de rang n), n>1Chaque groupe Xr est remplacé par ses résidus de régression sur ses
facteurs de rang 1, … n–1. On procède alors aux mêmes calculs qu’àl’étape 1, mais avec une petite modification. On doit en effet tenir comptedes facteurs obtenus lors des étapes précédentes : chacun de ces facteurssera considéré dans l’étape courante comme un groupe à lui seul (il estdonc égal à la variable latente de ce « groupe »).
c) Interprétation des résultats
On représente chaque groupe thématique Xr dans sa base factorielle,comme dans le cas de la méthode PLS. L’interprétation des facteurs se faitsuivant les mêmes règles.
On pourra également procéder à la représentation du nuage desobservations dans les plans thématiques et l’utiliser de la même façon quedans la régression PLS.
La variable dépendante y est régressée sur les facteurs retenus, ce quipermet de savoir lesquels jouent un rôle dans son estimation. Après élimi-nation des facteurs les moins importants, on procède une dernière fois à larégression pour estimer le modèle latent.
yr
y
y
Fr k( ) XrMrXr ′ yr
=
yr
Xr
BryAntoineF.fm Page 921 Mercredi, 16. mars 2005 11:49 11
922 X. BRY, P. ANTOINE
d) Les avantages de la méthode
Cette généralisation de la régression PLS respecte le découpage thé-matique opéré par le modèle conceptuel multithèmes. Elle permet l’explo-ration de chaque thème dans le cadre du modèle conceptuel arrêté audépart, en commençant par les dimensions les plus utiles à la prévision de y.
Il est important de comprendre que, tout comme le choix des va-riables explicatives dans une régression classique conditionne complète-ment l’interprétation des effets (et naturellement leur estimation), le choixd’un découpage thématique conditionne fortement les résultats de l’ACT.Rien de plus normal, puisque changer le modèle conceptuel, c’est changerle point de vue sur les données. Cette sensibilité au modèle initial est-elleune faiblesse ? Selon nous, c’est exactement le contraire. On ne sauraitoublier que toute méthode statistique est fondée sur un modèle conceptuel(la sélection des variables l’est elle-même). Lorsque ce modèle n’apparaîtpas clairement, il n’en est pas moins implicite, et son invisibilité faitcourir un risque accru de biais dans les conclusions(7). L’ACT oblige
(7) Un modèle est constitué de contraintes : la présence ou non de tel ou tel aspect du réel,sa quantification, et la forme de la liaison entre les différents aspects quantifiés. Selon les choixretenus, certains phénomènes seront révélés directement tandis que d’autres, occultés en tant quetels, se manifesteront « en fantôme », en transférant leur effet sur des aspects présents dans lemodèle. C’est précisément là que réside le danger, lorsque l’on n’est pas conscient de ce qui estocculté.
Figure 7.– Étape 1 de l’ACT1 :calcul du facteur Fr(k) lors de l’itération courante k
BryAntoineF.fm Page 922 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 923
l’analyste à préciser son modèle dès le départ et, partant, à l’argumenter.Le découpage thématique, rarement univoque, lui impose d’en appelerouvertement à une théorie qui, en retour, est seule à pouvoir lui donner desclefs d’interprétation. Il nous semble ainsi que l’ACT a une fonction derationalisation des pratiques sur le plan épistémologique.
En donnant la possibilité de visualiser chacun des thèmes sur desfacteurs hiérarchisés, l’ACT facilite la sélection des variables prédictivesutiles. En cela, l’ACT s’oppose radicalement aux méthodes de sélectionautomatiques. En effet, ces dernières : 1) n’opèrent aucune distinctionconceptuelle entre les prédicteurs ; 2) opèrent de fait une sélection au seinde variables très redondantes, pouvant évincer, pour quelques décimalesdu critère d’ajustement, la variable la plus pertinente au profit d’une autrequi l’est beaucoup moins ; 3) se substituent à l’analyste dans son rôle dedécideur. L’ACT, en respectant le modèle conceptuel, en réduisant ladimension du problème sans évincer aucune variable des représentationsgraphiques, remet l’analyste au centre de la décision.
Malheureusement, l’ACT présentée ci-dessus n’est pas directementutilisable sur les données complexes telles que les données biographiques,caractérisées par des variations temporelles et des interruptions d’observa-tion. Nous allons donc devoir introduire une étape intermédiaire.
III. Estimation d’un modèle linéaire généralisé
1. Le modèle
Nous considérons ici le cas d’une variable y observée qui n’est pasune variable continue, à expliquer à l’aide de R groupes explicatifs X1, …,Xr, … XR. Pour simplifier, chaque groupe Xr est initialement supposé êtrestructuré autour d’une unique variable latente . La modélisation li-néaire directe de y en fonction des variables latentes continues Fr n’est pasadaptée. Nous allons donc utiliser une modélisation linéaire généralisée dey en fonction de X. On suppose ainsi que y suit une loi Pθ , où θ est unparamètre de la forme g(Xb), g étant une fonction connue. Le vecteur decoefficients b étant inconnu, la variable W = Xb utilisée par cette modéli-sation est inobservée, donc latente. La régression linéaire généralisée es-time classiquement W par maximisation de la vraisemblance du modèle.Nous allons enfin supposer que W est elle-même partiellement fonctiondes variables latentes Fr des Xr matérialisant des structures fortes de cesgroupes. Le modèle conceptuel que nous utilisons est schématisé sur lafigure 8.
Fr
BryAntoineF.fm Page 923 Mercredi, 16. mars 2005 11:49 11
924 X. BRY, P. ANTOINE
2. La méthode d’estimation
Si l’on ne désire pas obtenir d’intervalles de confiance ou tester deshypothèses sur les effets , on pourra se contenter d’une est imationempirique. Dans le cas contraire, certaines modifications devront êtreapportées pour que la démarche soit correcte. En effet, il est primordial dene pas utiliser les facteurs estimés empiriquement comme variablesexogènes d’un modèle de y qu’on voudrait estimer par maximisation de lavraisemblance : le calcul de ces facteurs faisant intervenir la variableendogène y, ils ne sont plus exogènes, et toute méthode inférentielle lesconsidérant comme tels est caduque(8).
a) Approche empirique
Les étapes sont les suivantes :
1. On estime la variable latente W par maximisation de la vraisem-blance du modèle expliquant y en fonction de X.
2. On estime ensuite les Fr en utilisant W comme variable dépen-dante dans l’ACT1.
(8) En toute rigueur, les variables explicatives originelles sélectionnées sur la base de leurcorrélation avec ces facteurs ne sont pas exemptes, de par leur mode de sélection, d’endogénéité,mais c’est le cas de toutes les méthodes de sélection de variables explicatives.
Figure 8.– Schéma conceptuel du couplage entre l’ACTet la modélisation linéaire généralisée
BryAntoineF.fm Page 924 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 925
3. On détermine le nombre p de facteurs explicatifs utiles. Ceci peutêtre fait en examinant la part de variance de W expliquée par lesfacteurs retenus.
4. On interprète les facteurs.
Remarques :
— on utilise, pour la maximisation de vraisemblance de l’étape 1,toutes les variables prédictives disponibles. Ce faisant, on exploite aumieux le potentiel de prédiction de ces variables : l’espace qu’elles engen-drent est utilisé dans son intégralité, et toutes ses dimensions sont mises àcontribution avec une égale importance a priori, qu’il s’agisse de dimen-sions structurellement fortes ou de dimensions résiduelles ;
— si l’on prend en compte la totalité des facteurs, lors de l’étape 3,on retrouve l’estimateur du maximum de vraisemblance de W initialementcalculé ;
— dans le cas particulier où y est une variable continue suivant unmodèle linéaire gaussien classique en fonction de X, la procédure que nousproposons ici est identique à l’ACT1. En effet, l’estimation de W (pre-
mière étape) fournit la régression de y sur X. Or il est très facile de voir,
à la lecture de son algorithme, que l’ACT1 de (étape suivante) est équi-valente à celle de y ;
— une autre extension de l’ACT1 à un modèle linéaire généralisé estpossible. Elle consiste simplement, dans l’étape courante, à remplacer larégression de y sur {Xr,F-r(k–1)} par sa régression généralisée (logistique,
Cox…). La composante est égale au obtenu dans cette régression.
Si cette extension paraît plus directe, c’est que la variable latente W y estrendue implicite. Cependant, cette méthode est plus coûteuse en temps decalcul, car elle doit maximiser une vraisemblance à chaque itération.
b) Approche inférentielle
On peut construire un modèle permettant l’inférence (calcul d’inter-valles de confiance et tests) à la suite de l’étape 4. Si l’on désire spécifierun modèle fondé sur une sélection de variables observées, on procèderaselon les étapes suivantes :
5. On sélectionne un sous-ensemble des variables explicatives origi-nelles représentant bien l’ensemble des facteurs, au sens où cesvariables sont à la fois corrélées aux facteurs et illustratives del’interprétation substantielle qu’on a pu faire de ceux-ci.
6. On procède à l’estimation du maximum de vraisemblance dumodèle limité aux variables explicatives sélectionnées.
y
y
yr Xrbrˆ
BryAntoineF.fm Page 925 Mercredi, 16. mars 2005 11:49 11
926 X. BRY, P. ANTOINE
Si l’on désire spécifier un modèle fondé sur des variables latentes, onprocèdera selon les étapes suivantes:
5’.On sélectionne, pour chaque facteur (ou chaque direction impor-tante d’un plan explicatif), un sous-ensemble de variables explica-tives originelles qui lui soient fortement corrélées et illustrativesde l’interprétation substantielle qu’on a pu en faire.
On procède à l’ACP séparée de chacun de ces sous-ensembles et l’onretient la première composante principale comme étant celle quiestime la variable latente sous-jacente à chaque sous-ensemble.
6’.On procède à l’estimation du maximum de vraisemblance dumodèle fondé sur ces composantes principales. Bien que leurmode de sélection fasse entrer un peu d’endogénéité dans lesvariables observées retenues, le calcul des composantes princi-pales ne fait pas intervenir y. Par conséquent, l’inférence fondéesur ce modèle peut être considérée comme légitime.
3. Application à l’analyse de durée
Nous allons modéliser la survenue d’un événement E chez un indi-vidu en fonction des caractéristiques de celui-ci.
a) Le modèle de Cox
Le risque de connaître l’événement à l’instant t est une fonctionexponentielle des caractéristiques xt de l’individu à cet instant :
La vraisemblance de la trajectoire d’un individu pour lequel l’événe-ment E survient à l’instant tE est :
Considérons à présent un échantillon d’individus indépendants. L’in-dice utilisé pour repérer les individus est i. La vraisemblance du modèleappliqué à l’échantillon est le produit des vraisemblances individuelles:
Formellement, ceci équivaut à une vraisemblance d’échantillon dontles observations seraient, non les individus eux-mêmes, mais les couples(individu, date d’observation) : (i,t). Un individu donne lieu à autant d’ob-servations qu’il y a de dates, et le modèle ci-dessus les rend formellement
h t xt( ) h0 t( )eb ′xt=
f h t xt( )dt( )1 tE t t dt[+,[∈( )
1 h t xt( )dt–( )1 1 tE t t dt[+,[∈( )–
t∏=
f ech h t xit( )dt 1 h t xit( )dt–( )i ti⁄ t dt+≥
∏i ti⁄ t t dt[+;[∈
∏
t∏=
BryAntoineF.fm Page 926 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 927
indépendantes, ce qui permet de traiter les caractéristiques variant dans letemps. À chacun des couples (i,t) correspond une valeur des déterminantsxit du risque, donc une valeur de la variable latente W = b’xit et une valeur
du risque : . De même, les facteurs Fr que nous calcu-
lerons par la suite auront une valeur pour chaque couple (i,t).
b) ACT après régression de Cox
On procède à la régression de Cox en utilisant toutes les caractéris-tiques disponibles. La gestion des sorties d’observation et la modélisationde la dynamique s’effectuent à ce stade. La régression de Cox fournit une
estimation de W notée pour l’individu i à la date t. Cette estimation
repose autant sur les dimensions fortes que sur les dimensions résiduellesde l’espace des variables explicatives.
On procède ensuite à l’ACT de cette estimation sur les groupesexplicatifs, pour extraire les variables explicatives latentes. Cette ACTprend pour observation les couples (individus, date d’observation) : (i,t).
Nous allons maintenant appliquer cette méthode à l’analyse du di-vorce des hommes à Dakar.
IV. Analyse du divorce à Dakar
1. Le cadre d’analyse
Au Sénégal, comme d’ailleurs plus généralement en Afrique, onignore presque tout de l’évolution de la fréquence du divorce et de sesdéterminants (Kaufmann et al., 1988). La faiblesse des connaissances surl’instabilité des mariages en Afrique limite les analyses de l’évolution duphénomène au cours du temps (Smith et al., 1984 ; Hertrich et Locoh,1999). L’activité professionnelle des femmes apparaît comme le facteurexerçant l’influence la plus importante sur le divorce. Elle est associée àune possibilité d’indépendance financière de la femme qui est alors sus-cept ible de s’assumer économiquement après un éventuel divorce(McDonald, 1985 ; Burnham, 1987).
Les données du moment issues d’une enquête ou d’un recensementsous-estiment la fréquence des divorces. En effet, que ce soit dans lesrecensements ou les enquêtes, seul le statut matrimonial au moment del’étude est demandé ; parfois on connaît également le nombre d’unionscontractées par l’individu sans toutefois savoir si les remariages sontconsécutifs à un veuvage ou à un divorce. Dans les sociétés qui pratiquent
h t xit( ) h0 t( )eb ′xit=
b′xit
BryAntoineF.fm Page 927 Mercredi, 16. mars 2005 11:49 11
928 X. BRY, P. ANTOINE
la polygamie, les études concernant les hommes se focalisent davantagesur le nombre d’épouses que sur le nombre de divorces (Antoine et al.,1998). Les ruptures d’union sont souvent masquées par les remariagesrapides. Au Sénégal, par exemple, en 1986, la proportion de femmesdivorcées était de 3,8 % à 20-24 ans et de 5,4 % à 35-39 ans, cette propor-tion allant en diminuant aux âges plus élevés (ministère de l’Économie,des Finances et du Plan du Sénégal et DHS, 1988). Ces proportions étaientsensiblement inférieures en 1992-1993, soit respectivement 3,5 % et 4,7 %aux mêmes âges (ministère de l’Économie, des Finances et du Plan duSénégal et DHS, 1994). Elles masquent totalement l’ampleur du phéno-mène. Ainsi selon une enquête effectuée à Dakar en 2001, à 40-44 ans,environ 4 % des hommes déclarent avoir le statut de divorcé(9), alors que22 % ont déjà connu un divorce à l’âge de 40 ans(10) (Antoine et Fall,2002). D’après nos données biographiques, près d’une union sur trois setermine par un divorce à Dakar (Antoine et Dial, 2003).
Le divorce, parce qu’il remet en cause les alliances entre famillesnouées lors du mariage, apparaît comme un désordre dont on évite de par-ler (Locoh et Thiriat, 1995). Les familles s’impliquent dans le mariagecomme dans le divorce, et parfois la décision échappe aux individus. Lespressions familiales pour faire obstacle au divorce sont nombreuses. Enfait, le divorce est souvent perçu par la parenté comme un échec : il repré-sente généralement une rupture entre les familles des deux conjoints, etcelles-ci peuvent tenter d’y faire obstacle. Néanmoins, l’ingérence de labelle-famille dans la vie du couple est souvent invoquée par les femmescomme une des raisons qui les ont poussées à se séparer de leur conjoint.
Au Sénégal, avant l’instauration du code de la famille en 1972, laséparation était légalement uniquement du ressort de l’homme : il pouvait,en effet, répudier sa femme devant deux témoins adultes. La loi de 1972 atenté de contrebalancer le déséquilibre qu’instaure la répudiation, acteunilatéral dont l’initiative revient uniquement à l’homme, en permettant àla femme de demander le divorce devant les tr ibunaux. Malgré cesavancées, dans la grande majorité des cas, le divorce continue de se pra-tiquer en dehors de la législation : moins de 20 % des divorces(11) fontl’objet d’une procédure judiciaire. Le mariage civil est rare, c’est avanttout le mariage religieux qui compte(12). Traditionnellement, la femmepeut demander le divorce(13) à son mari (nâan baat) ; cette forme dedivorce est appelée tagoo en Wolof et nettement distinguée de la répudia-tion (fase) (Diop, 1985).
(9) À partir du questionnaire ménage. Cette enquête a été effectuée par l’Institut fonda-mental d’Afrique noire (IFAN) et par l’Institut de recherche pour le développement (IRD).
(10) À partir du questionnaire biographique de l’enquête IFAN-IRD.(11) Selon les résultats de notre enquête. La plupart des recours judiciaires se font à l’insti-
gation des femmes.(12) Le mariage religieux est censé être enregistré par la suite à l’état civil, mais c’est loin
d’être toujours le cas.(13) Il s’agit du divorce au sens large (juridique ou non).
BryAntoineF.fm Page 928 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 929
Toutefois, certaines femmes semblent prendre conscience des droitsacquis et l’on note un accroissement des divorces à l’init iative desfemmes : selon notre enquête, elles sont à l’origine de 80 % des divorces,phénomène déjà souligné par Diop (1985). En effet, l’accroissement desdivorces à l’initiative des femmes semble témoigner d’un changementsocial. Banni autant par l’islam que par la société, le divorce est malgrétout devenu un phénomène courant et banalisé (Dial, 2001). Il est non seu-lement fréquent, mais aussi relativement rapide : une part importante desdivorces se produisent au cours des cinq premières années du mariage(Antoine et Dial, 2003). La primauté du mariage pour les femmes à Dakarpeut pousser à des choix parfois précipités. Le phénomène est d’autantplus mal connu qu’il est mal mesuré.
a) Les données biographiques
L’analyse s’appuie sur des données provenant d’une enquêtebiographique récente réalisée à Dakar en 2001(14). Trois cohortes sontprises en considération : les personnes âgées respectivement de 25-34 ans,35-44 ans et 45-59 ans au moment de l’enquête(15). L’enquête à Dakar apermis de recueillir 1 290 biographies d’hommes et de femmes, qui retra-cent la vie des individus jusqu’à la date de l’enquête. On peut doncconnaître les caractéristiques de l’individu telles que sa profession, sonétat matrimonial, le nombre d’enfants, etc., tout au long de sa vie.
Dans l’exemple particulier traité ici, nous nous sommes intéressés àl’itinéraire matrimonial d’hommes âgés de 25 à 44 ans au moment del’enquête(16). Sont prises en considération les premières unions de137 hommes qui se sont mariés à Dakar. Toutes ces unions ne se sont passoldées par un divorce au moment de l’enquête (23 couples se sont déjàséparés), et ces dernières restent soumises au risque de divorce(17). Onpourrait craindre que l’effectif des personnes comme celui des événementss’avèrent insuffisants pour entreprendre une analyse. En l’absence de laméthode ACT, nous ne l’aurions certainement pas fait. Précisons que notrefichier comprend autant de lignes que d’épisodes (soit 546) ; par épisodeon entend chaque changement d’état(18) vécu par un individu depuis ledébut de son union. La dernière colonne du tableau 1 donne la répartitiondes individus statistiques (ou des hommes-mois en cas de changement
(14) Cette enquête a été réalisée à Dakar par une équipe IRD-IFAN (Antoine et Fall, 2002)grâce à un financement du CODESRIA (Conseil pour le développement de la recherche enAfrique) et de l’IRD.
(15) Soit, respectivement, les générations qui sont nées en 1967-1976, en 1957-1966 et en1942-1956. Ces générations sont donc parvenues à l’âge de fonder une famille dans des contextesfort différents.
(16) Les travaux publiés jusqu’ici à partir de cette enquête concernent surtout les femmes,pour lesquelles les informations semblent plus fiables. Leur mariage étant bien plus précoce quecelui des hommes (environ 10 ans d’écart d’âge), l’analyse du divorce porte également sur davan-tage de cas.
(17) Si l’un des conjoints décède, l’observation cesse.(18) Naissance d’un enfant, changement d’activité, nouvelle résidence, etc.
BryAntoineF.fm Page 929 Mercredi, 16. mars 2005 11:49 11
930 X. BRY, P. ANTOINE
d’état au cours du temps(19)) selon les différentes modalités des variablesprises en compte dans l’analyse.
b) Les hypothèses et la conceptualisation
Diverses questions concernant le divorce se posent. On peut parexemple se demander si, pour les hommes, l’union avec une secondefemme n’est pas une façon de provoquer le départ de la première sansavoir à évoquer le divorce avec elle. L’arrivée d’une seconde épouse n’est pasune cause légitime de divorce, mais il semble bien qu’en milieu urbain lespremières épouses de polygames divorcent plus souvent que les secondes. Une descauses de divorce les plus courantes(20) reste le défaut d’entretien de la femmepar son mari (Diop, 1985 ; Dial, 2001). Du fait de la crise économique,l’homme éprouve de plus en plus de difficultés à subvenir correctementaux besoins du ménage dont il a la charge.
Aborder la question du divorce, c’est pénétrer l’intimité du couple etévoquer un événement douloureux. La plupart des enquêtés sont réticentsà parler d’une situation encore mal acceptée par la société. Même si cer-tains aspects du vécu du divorce restent non dits, nous pouvons essayer dedépasser les cas individuels pour tenter d’appréhender certains facteursstructurels et mettre en évidence les composantes qui favorisent ou non ledivorce dans cette génération. Pour ce faire, nous avons utilisé un modèlede Cox(21) qui intègre les facteurs influant sur la durée écoulée entre ledébut de l’union (c’est-à-dire sa célébration à la mosquée) et l’éventuelleséparation(22).
Pour entreprendre cette analyse, nous disposons essentiellement decaractéristiques concernant la personne enquêtée. En effet, il s’avère diffi-cile d’obtenir des informations précises sur l’épouse, a fortiori quand ellene vit plus avec l’enquêté. Plusieurs facteurs concernant l’homme sontpris en considérat ion (voir la figure 1) ; nous les avons classés en4 catégories : facteurs culturels, niveau d’instruction, facteurs écono-miques, facteurs démographiques et matrimoniaux.
Les facteurs culturels – facteurs liés à l’environnement social de lapersonne – recouvrent l’ethnie(23), la religion (en tenant compte des dif-férentes confréries musulmanes(24)), le lieu de naissance et le milieu de
(19) Les variables qui varient au cours du temps sont l’activité, la descendance et la naturede l’union.
(20) Parmi les autres causes de divorce, citons la difficile cohabitation avec la belle-familleou entre co-épouses (Dial, 2001).
(21) Pour plus d’explications concernant l’analyse biographique de la nuptialité, voirAntoine (2002).
(22) Pour les personnes qui ne sont pas divorcées, l’observation cesse par troncature à ladate de l’enquête.
(23) L’ethnie Wolof est majoritaire à Dakar et ses pratiques culturelles sont de plus en plusadoptées par les autres groupes ethniques.
(24) La très grande majorité de la population dakaroise est musulmane. Parmi ces musul-mans, on distingue les membres des confréries Mouride et Tidiane.
BryAntoineF.fm Page 930 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 931
socialisation (c’est-à-dire le lieu où l’enfant a passé la majeure partie deson enfance). Différentes questions concernent ce groupe de variables. Lesdifférences de position sur le divorce selon les religions(25) conduisent-elles à des propensions différentes au divorce ? Lieu de naissance et lieude socialisation sont des marqueurs du milieu dans lequel la personne apassé sa jeunesse : les jeunes socialisés à Dakar ont-ils des comportementsdifférents de ceux des ruraux arrivés plus tardivement en ville ?
Le second groupe de facteurs concerne des facteurs liés à l’éducationdonnée par les parents ou l’école. L’éducation dépend de l’origine socialedes individus et nous en prenons pour proxy le niveau d’instruction atteintpar chacun des parents. On retient également le niveau d’instruction del’individu, qui est un marqueur d’un certain degré d’indépendance par rap-port aux traditions.
Le troisième groupe recouvre des variables qui caractérisent la situa-tion socio-économique, à savoir l’activité de l’homme, le type d’emploioccupé par la première épouse au moment du mariage et la situation dedépendance en termes de logement.
Enfin, nous retenons des variables démographiques qui concernent ladescendance issue de l’union et les caractéristiques de l’union commel’âge au mariage, le choix du conjoint, l’existence d’un lien de parentéavec le conjoint et l’expérience antérieure du divorce par le conjoint. Cesdifférents facteurs peuvent influer ou non sur le divorce. La précocité desunions ou l’absence d’enfants sont-ils des facteurs favorisant le divorce ?La stabilité de l’union est-elle plus assurée quand un lien de parenté relieles conjoints ? Le statut de l’union peut aussi changer au cours du temps :le mari peut prendre une seconde épouse et devenir polygame. Dans lemodèle, ce changement de statut matrimonial est pris en considération ;l’historique des unions permet de connaître la date d’arrivée d’une nou-velle épouse et de noter ainsi le passage de la monogamie à la polygamie.
2. L’analyse statistique
L’analyse a été effectuée avec le logiciel STATA, et utilise le pro-gramme de l’ACT1 développé par Xavier Bry. Les étapes sont décrites ci-dessous.
a) Estimation de la variable latente W
On procède à la régression de Cox usuelle utilisant toutes les varia-bles explicatives possibles. Les résultats sont donnés dans le tableau 1. La
variable latente W est estimée par le fourni par cette régression.
(25) On connaît par exemple la prohibition du divorce chez les catholiques.
Xb
BryAntoineF.fm Page 931 Mercredi, 16. mars 2005 11:49 11
932 X. BRY, P. ANTOINE
TA
BL
EA
U 1
.– E
STIM
AT
ION
DE
S E
FFE
TS D
ES D
ÉT
ER
MIN
AN
TS P
OT
EN
TIE
LS D
U D
IVO
RC
E D
ES H
OM
ME
S À
DA
KA
R(R
ÉSU
LT
AT
S D
E L
A R
ÉG
RE
SSIO
N D
E C
OX
)
Gro
upe
Var
iabl
eM
odal
ités
Lib
ellé
sM
ultip
licat
eur
du r
isqu
e(a)
Rép
artit
ion
en %
(h
omm
e-m
ois)
Fact
eurs
cul
ture
lsE
thni
eW
olof
wol
ofR
éf.
43Po
ular
alpo
ular
1,38
28Se
rer
sere
r0,
2514
Dio
ladi
ola
1,72
2A
utre
eth
nie
aut_
eth
0,01
**13
Rel
igio
nA
utre
mus
ulm
anau
t_m
usu
Réf
.25
Mou
ride
mou
ride
36,5
5*47
Tid
iane
tidia
ne3,
9425
Chr
étie
nch
rétie
n13
,77
3L
ieu
de n
aiss
ance
Dak
arln
_dak
arR
éf.
66M
ilieu
rur
alln
_rur
al1,
1419
Mili
eu u
rbai
nln
_urb
ain
4,48
14L
ieu
de s
ocia
lisat
ion
Dak
arse
_dak
arR
éf.
63M
ilieu
rur
alse
_rur
al1,
8520
Mili
eu u
rbai
nse
_urb
ain
0,01
17Fa
cteu
rs d
’ins
truc
tion
Inst
ruct
ion
de la
mèr
eN
on s
cola
risé
em
nons
cR
éf.
92Pr
imai
rem
prim
0,18
7Se
cond
aire
ou
plus
mse
cp7,
041
Inst
ruct
ion
du p
ère
Non
sco
lari
sépn
onsc
Réf
.71
Prim
aire
ppri
m0,
9914
Seco
ndai
re o
u pl
usps
ecp
4,42
15In
stru
ctio
n de
l’in
divi
duN
on s
cola
risé
nons
col
Réf
.31
Prim
aire
prim
aire
0,63
33Se
cond
aire
ou
plus
seco
nd_p
2,11
36
BryAntoineF.fm Page 932 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 933G
roup
eV
aria
ble
Mod
alité
sL
ibel
lés
Mul
tiplic
ateu
rdu
ris
que(
a)R
épar
titio
n en
%
(hom
me-
moi
s)
Fact
eurs
éco
nom
ique
sL
ogem
ent a
uton
ome
Oui
loga
uto
Réf
.55
Jam
ais
jam
loau
23,8
6**
45Ty
pe d
’act
ivité
de l’
indi
vidu
Sect
eur
info
rmel
info
rmel
Réf
.26
Patr
onpa
tron
2,93
17Sa
lari
ésa
lari
e2,
4647
App
rent
i ou
élèv
eap
p_el
ev0,
667
Chô
meu
rch
omeu
r1,
813
Act
ivité
de
l’ép
ouse
Inac
tive
cfno
nact
Réf
.67
Em
ploy
éecf
empl
oy9,
562
Ven
deus
ecf
vent
e0,
1619
Dom
estiq
uecf
dom
est
0,90
13Fa
cteu
rs d
émog
raph
ique
set
mat
rim
onia
uxD
esce
ndan
cePa
s d’
enfa
ntpa
senf
Réf
.26
1 en
fant
enf1
2,11
252
enfa
nts
enf2
0,23
213
enfa
nts
ou p
lus
enf3
p0,
3629
Âge
au
mar
iage
Moi
ns d
e 21
ans
am_a
v20
Réf
.5
21-2
5 an
sam
21a2
50,
2937
26-2
9 an
sam
26a2
90,
2533
30-3
4 an
sam
30a3
42,
9219
35 a
ns o
u pl
usam
_ap3
53,
917
Cho
ix d
u co
njoi
ntPa
r un
par
ent
chxp
arR
éf.
12Pa
r l’
inté
ress
éch
xmoi
m2,
2088
Pare
nté
avec
le c
onjo
int
Non
app
aren
téno
npar
tR
éf.
54C
ôté
pate
rnel
parp
at0,
8225
Côt
é m
ater
nel
parm
at0,
13*
21E
xpér
ienc
e di
vorc
edu
con
join
tJa
mai
s di
vorc
é au
para
vant
cj1n
odiv
Réf
.97
Déj
à di
vorc
écj
1exd
iv0,
053
Nat
ure
de l’
unio
nM
onog
ame
mon
ogam
eR
éf.
94Po
lyga
me
poly
gam
e5,
746
(a) D
ans
un m
odèl
e de
Cox
, le
ris
que
de d
ivor
ce e
st m
odél
isé
par
h(t)
= h
0(t)
exp
(X
b) ;
le m
ultip
licat
eur
du r
isqu
e va
ut 1
pou
r la
cat
égor
ie d
e ré
fére
nce
etex
p(b i
) po
ur c
haqu
e m
odal
ité x
i don
née.
** S
igne
sig
nifi
catif
au
seui
l de
1 %
; * s
igne
sig
nifi
catif
au
seui
l de
5 %
.C
ham
p : h
omm
es m
arié
s âg
és d
e 25
à 4
4 an
s au
mom
ent d
e l’
enqu
ête.
Sour
ce :
enqu
ête
biog
raph
ique
IFA
N-I
RD
(20
01).
BryAntoineF.fm Page 933 Mercredi, 16. mars 2005 11:49 11
934 X. BRY, P. ANTOINE
Très peu de variables explicatives ont un effet statistiquement signi-ficatif sur le risque. Si l’on ne retient que les modalités interprétables, iln’y en a que trois(26) qui influencent nettement le risque de divorcerrapidement : être de religion Mouride, ne pas avoir de logement autonomeet être apparenté du côté maternel avec son épouse. Le mariage chez lesMourides est peut-être plus instable que chez les autres musulmans. Danscertains cas, c’est le marabout qui célèbre l’union et quelquefois sans véri-table concertation avec les intéressés.
Le principal facteur qui favorise le divorce est d’ordre économique.Lorsque le nouveau noyau familial constitué n’acquiert pas une autonomiede logement et reste dépendant de la parenté pour être logé, les risques dedivorce sont alors nettement accrus. L’incapacité du mari à assurer unlogement autonome à son couple accroît la rapidité du divorce. Cette inca-pacité renvoie au défaut d’entretien, cause de divorce souvent évoquée. Lacrise économique qui perdure fait qu’aujourd’hui, les jeunes coupless’installent dans la maison familiale du mari et qu’ils sont alors contraintsde vivre au quotidien les problèmes que pose la cohabitation. Les relationsentre la femme et sa belle-famille sont très complexes d’une manièregénérale. Ces couples sont plus exposés au divorce que les autres.
L’existence d’un lien de parenté entre les conjoints marque uneunion où la famille au sens large s’est investie, et donc a priori des unionsplus stables. Les unions avec un parent côté maternel font en général l’ob-jet d’une vigilance plus grande.
Notre modèle comprend de nombreuses variables, dont plusieurssont redondantes. Compte tenu des multicolinéarités qui en découlent, onne peut pas savoir à ce stade si, outre les trois facteurs mis en évidence,d’autres variables ne jouent pas un rôle explicatif important, dont l’effetserait masqué par les multicolinéarités(27).
L’existence éventuelle de multicolinéarités impose le recours à unoutil permettant de les repérer, de les prendre en compte, et de sélec-t ionner les variables les plus uti les à la modélisat ion. Nous al lonsemployer successivement trois méthodes. La première (régression ACP) nes’appuie sur aucun modèle conceptue l pour dé terminer les p lansfactoriels ; la deuxième (régression PLS) prend en compte l’existence d’unschéma explicatif, mais sans en distinguer les thèmes ; la troisième (ACT)intègre la totalité du schéma explicatif du divorce, en tenant compte desquatre thèmes présentés plus haut.
(26) Autre ethnie constitue une catégorie hétérogène.(27) Il y a de fortes chances par exemple qu’il y ait une corrélation entre lieu de naissance
et lieu de socialisation, par exemple. Une telle redondance éventuelle ne pose aucun problème àl’ACT.
BryAntoineF.fm Page 934 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 935
b) Régression de sur les composantes principales de X
L’ACP de X estime des variables explicatives latentes sans utiliser demodèle thématique. Les deux premiers facteurs captent 16,79 % del’inertie ; les 10 premiers facteurs, 53 % et il faut prendre les 20 premierspour capter 79,6 % de l’inertie. La décroissance des valeurs propres estfaible, ce qui dénote un nuage peu structuré (pas de faisceaux de corréla-tion très importants). Les deux premières valeurs propres sont très proches(8,63 % et 8,06 % d’inertie), ce qui nécessite d’interpréter le plan factoriel(1,2) globalement plutôt que les facteurs isolément. Les deux premièrescomposantes principales de X fournissent un plan mettant en relief l’im-portance des lieux de naissance et de socialisation.
La régression de sur les facteurs donne les résultats suivants :
Sur les 2 premiers facteurs, le coefficient de corrélation R2 est égal à0,007 ; sur les 10 premiers facteurs, R2 = 0,512.
Les facteurs ayant le plus de pouvoir explicatif sont, dans l’ordre dé-croissant, les 9e , 20e et 5e. Il s’agit de facteurs d’ordre élevé, donc struc-turellement faibles, très mal illustrés par les variables observées.
Les résultats de cette méthode s’avèrent pratiquement inutilisables.
c) Régression PLS de sur les variables de X
La régression PLS est, contrairement à l’ACP, orientée vers l’expli-cation. On constate immédiatement que cette orientation améliore consi-dérablement le pouvoir prédictif des dimensions trouvées. La régression
de sur les facteurs PLS donne en effet les résultats suivants:
Sur les deux premiers facteurs, le coefficient de corrélation R2 estégal à 0,945 ; sur les quatre premiers facteurs, R2 est égal à 0,987.
On a constaté sur les graphiques init iaux que les axes étaientmédiocrement illustrés par les variables observées. Le brouillage théma-tique a pour conséquence un ensemble peu lisible. Toutefois, on voitémerger, en périphérie de nuage, quelques variables telles que : Mouride,logement autonome, autre ethnie, passage à la polygamie, niveau d’ins-truction d’ego et de ses parents.
Par manque de hiérarchisation thématique, cette méthode fournit un
résultat encore décevant ; certes, est très bien représentée sur les pre-miers facteurs, mais ceux-ci sont en trop faible rapport avec les variablesexplicatives observées.
d) L’analyse en composantes thématiques
On a retenu les quatre thèmes explicatifs présentés précédemment :
X1 = facteurs culturels ;
W Xb=
Xb
W Xb=
Xb
Xb
BryAntoineF.fm Page 935 Mercredi, 16. mars 2005 11:49 11
936 X. BRY, P. ANTOINE
X2 = facteurs d’instruction ;
X3 = facteurs économiques ;
X4 = facteurs démographiques et matrimoniaux.
• Calcul des facteursOn calcule deux facteurs par groupe thématique. Le facteur j du
groupe i est appelé XiFj. Les facteurs sont centrés réduits. On régresse
sur l’ensemble de ces facteurs, ce qui permet d’écrire W commeune combinaison linéaire de ces facteurs, pondérés par des coefficients.Les résultats de la régression sont présentés dans le tableau 2 (R2 = 0,96).
Les facteurs de rang 2 ayant des coefficients systématiquement beau-coup plus faibles (ils sont environ deux fois moins élevés) que leurs homo-logues de rang 1, on procède à la régression sur ces derniers seulement.Les résultats sont retracés dans le tableau 3 (R2 = 0,86).
On parvient donc à capter 86 % de la variable W sur les quatre fac-teurs de rang 1. Cette performance est moins bonne que celle de larégression PLS, mais cela n’a rien de surprenant, car les facteurs de l’ACTsont thématiquement contraints. Mais cette contrainte, qui supprime lebrouillage thématique, devrait donner des facteurs d’interprétation plusclairs.
On note que les facteurs ayant les pouvoirs explicatifs les plusfaibles sont ceux des groupes 2 (niveau d’instruction) et 4 (démographiqueet matrimonial).
TABLEAU 2.– COEFFICIENTS DE RÉGRESSION DE W SUR L’ENSEMBLEDES FACTEURS FOURNIS PAR L’ACT
Thème Facteur Coefficient
Culturel X1F1 2,60X1F2 0,85
Niveau d’instruction X2F1 1,02X2F2 0,43
Économique X3F1 1,62X3F2 0,70
Démographique et matrimonial X4F1 1,52X4F2 0,73
TABLEAU 3.– COEFFICIENTS DE RÉGRESSION DE WSUR LES FACTEURS DE RANG 1 DE L’ACT
Thème Facteur Coefficient
Culturel X1F1 2,68Niveau d’instruction X2F1 0,99Économique X3F1 1,87Démographique et matrimonial X4F1 1,40
W Xb=
BryAntoineF.fm Page 936 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 937
• Examen des groupes dans les plans thématiquesLes facteurs 1 et 2 de chaque groupe fournissent les plans des
figures 9 à 12 (ci-dessous et pages suivantes)(28) :
(28) Sur chaque plan thématique, on a également projeté l’ensemble des variables desautres thèmes (leurs intitulés sont en italique), afin de contrôler l’absence de recouvrement tropfort entre les thèmes. Une telle multicolinéarité inter-thèmes rendrait en effet caduc le modèlethématique proposé.
Figure 9.– Premier plan factoriel du groupe 1 (facteurs culturels)Les variables illustrant bien ce plan sont : mouride, pour l’axe 1; lieu de naissance
et lieu de socialisation, pour l’ensemble du plan (configuration triangulaire).La gradation urbaine (rural–ville de province–capitale) est reproduite par le facteur 2
et non par le premier. Or, ce second facteur a un pouvoir explicatif plus faible que le premier.
BryAntoineF.fm Page 937 Mercredi, 16. mars 2005 11:49 11
Figure 10.– Premier plan factoriel du groupe 2 (facteurs d’instruction)Le premier facteur reproduit la hiérarchie des niveaux de formation (non scolarisé, primaire, secon-
daire ou plus), tant pour ego que pour ses parents. Le second – au pouvoir explicatifnettement moins important – distingue les personnes non scolarisées des personnes
peu scolarisées. Notons au passage la forte reproduction sociale : ego a toutes les chances d’avoir le même niveau d’instruction que son père et sa mère.
Figure 11.– Premier plan factoriel du groupe 3 (facteurs économiques)L’axe 1 met en relief l’autonomie en matière de logement, facteur particulièrement fort
du divorce qui reflète certainement l’importance des revenus du mari. L’axe 2, secondaire,fait ressortir trois professions de l’épouse (domestique, employée, vendeuse),
mais il est médiocrement corrélé avec ces trois modalités.
BryAntoineF.fm Page 938 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 939
• Sélection des prédicteursLes pouvoirs explicatifs globaux des groupes sont facilement mesu-
rés par les coefficients de régression de leurs facteurs. Le fait de distinguerdifférents thèmes clarifie très nettement le rôle des groupes. Les plans thé-matiques sont bien illustrés (à l’exception du groupe 4 qui concerne lesfacteurs démographiques et familiaux) et donc clairement interprétables.
Il faut éliminer les facteurs de rang 2 des groupes de faible pouvoirprédictif, lorsque ces facteurs n’ont pas d’interprétation claire (X2F2 etX4F2). Le facteur X1F2 est également équivoque et a un faible pouvoirprédictif, mais il fait intervenir des modalités de variables présentes sur lefacteur X1F1 (lieux de naissance et de socialisation). On peut donc éven-tuellement le conserver, à titre transitoire. Le facteur X3F2 est faiblementprédictif, mais exclusivement illustré par les modalités de la profession del’épouse. On conserve donc provisoirement ce facteur.
Concernant les facteurs de rang 1, on les conserve tous, mais avecdes illusions modérées sur ceux qui n’ont pas un grand pouvoir prédictifet/ou qui sont d’interprétation ambiguë car mal illustrés ou influencés partrop de variables. Ces derniers ne nous indiquent pas avec netteté le petitnombre de modalités à inclure dans un modèle parcimonieux et efficace.
Figure 12.– Premier plan factoriel du groupe 4(facteurs démographiques et matrimoniaux)
Le premier plan thématique est mal illustré par les variables de ce quatrième groupe.Ce groupe ne possède pas de structures fortes ayant un pouvoir explicatif important.
BryAntoineF.fm Page 939 Mercredi, 16. mars 2005 11:49 11
940 X. BRY, P. ANTOINE
Ici, on est conduit à conserver les facteurs suivants (accompagnésdes modalités qui leur sont liées) :
X1F1 : il concerne à la fois la religion (mouride, aut_musu) et l’ori-gine urbaine, (ln_urbain/se_urbain) ;
X1F2 : il oppose l’origine dakaroise (ln_dakar/se_dakar) à l’originerurale (ln_rural/se_rural) ;
X2F1 : toutes les modalités concernant le niveau scolaire (voirtableau 4) ;
X3F1 : la résidence ou non dans un logement autonome (jamloau,logauto)
X3F2 : l’emploi exercé par l’épouse (cfemploy, cfdomest, cfvente) ;
X4F1 : les caractéristiques familiales (nombre d’enfants, âge aumariage, nonpart).
Concernant X2F1 (premier facteur du groupe 2), nous avons vu qu’ilreproduit la hiérarchie des niveaux de formation en utilisant de façon trèséquilibrée toutes les modalités de niveau scolaire ; il est donc intéressantde le synthétiser en effectuant une ACP sur ces modalités, afin de l’utiliserdans le modèle final en tant que variable latente exogène. On obtient ainsila variable niscola (combinaison linéaire des variables de niveau scolaireaffectées des coefficients présentés dans le tableau 4) qui permet d’avoirune gradation du « patrimoine » scolaire de l’individu.
On peut procéder de même avec les lieux de naissance et de sociali-sation, afin d’estimer une variable latente de ruralité/urbanisation. Onobtient pour celle-ci (dénommée ruralité) un jeu de coefficients fournisdans le tableau 5.
Concernant le nombre d’enfants et l’âge au mariage, on a intérêt àreconvertir ces variables en variables quantitatives, ou au moins ordinales,puisque l’axe X4F1 reproduit à peu près leur gradation. Cela permettraune estimation plus précise de l’effet éventuel. Ces deux variables appa-
TABLEAU 4.– PONDÉRATIONS DES VARIABLES DANS LE NIVEAU SCOLAIREMESURÉ PAR NISCOLA
Variable Libellé Coefficient dans niscola
Mère non scolarisée mnonsc – 1,64Père non scolarisé pnonsc – 0,93Ego non scolarisé nonscol – 0,72Mère niveau primaire mprim 1,33Père niveau primaire pprim 0,36Ego niveau primaire primaire – 0,07Mère niveau secondaire ou plus msecp 2,12Père niveau secondaire ou plus psecp 1,16Ego niveau secondaire ou plus second_p 0,66
Constante 1,74
BryAntoineF.fm Page 940 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 941
raissant liées, il est vraisemblable qu’elles ne peuvent pas coexister dansle même modèle et qu’il faille donc en éliminer une. On retiendra celledont le rôle causal est le plus interprétable, ou, à défaut, celle qui fournitle meilleur ajustement.
e) Modèle de Cox final
On introduit d’abord dans le modèle économétrique l’ensemble desprédicteurs retenus ci-dessus. Puis on élimine graduellement ceux quin’ont pas d’effet probant. Le tri est beaucoup plus facile que si l’on com-mence avec toutes les variables disponibles. Le tableau 6 récapitule lesvariables finalement retenues, c’est-à-dire celles qui ont un effet significa-tif à 5%.
TABLEAU 5.– PONDÉRATIONS DES LIEUX DANS LA VARIABLE DE RURALITÉ
Variable Libellé Coefficient dans ruralité
Né à Dakar ln_dakar – 1,10Socialisé à Dakar se_dakar – 1,07Né en milieu urbain ln_urbain 0,69Socialisé en milieu urbain se_urbain 0,58Né en milieu rural ln_rural 1,00Socialisé en milieu rural se_rural 0,99
Constante 0,73
TABLEAU 6.– EFFETS DES DÉTERMINANTS DU DIVORCE SÉLECTIONNÉS APRÈS L’ACT, (RÉSULTATS DE LA RÉGRESSION DE COX DU MODÈLE FINAL)
Variable Libellé Multiplicateur du risque(a)
Intervalle de confiance (95 %)
Religion mouride mouride 8,53** [2,87 ;25,29]Jamais de logement
autonome jamloau 4,73** [1,77 ; 12,64]Non apparenté à l’épouse nonpart 2,80* [0,95 ;8,20]Activité de l’épouse :
employée de bureau cfemploy 4,87* [0,77 ;30,90]Niveau scolaire
(variable continue) niscola 1,30* [1,00 ;1,70]Âge au mariage
(variable continue) agordmar 1,52* [0,94 ;2,46](a) Dans un modèle de Cox, le risque de divorce est modélisé par h(t) = h0(t) exp (Xb) ; le multiplicateur durisque vaut 1 pour la catégorie de référence et exp(bi) pour chaque modalité xi donnée.** Signe significatif au seuil de 1 %; * signe significatif au seuil de 5 %.Lecture : l’accroissement d’une année de l’âge au mariage correspond à un risque de divorce augmenté de52 %.Champ : les hommes mariés âgés de 25 à 44 ans au moment de l’enquête.Source : enquête biographique IFAN-IRD (2001).
BryAntoineF.fm Page 941 Mercredi, 16. mars 2005 11:49 11
942 X. BRY, P. ANTOINE
Ce modèle est plus riche d’enseignements que le modèle initial(tableau 1). Aux trois facteurs déjà mis en évidence précédemment (la reli-gion mouride, l’absence de logement autonome et le lien de parenté avecle conjoint) s’ajoutent des facteurs favorisant le divorce comme le fait quel’épouse exerce une activité salariée, d’être allé à l’école, et de se marierplus tardivement. L’exercice d’une activité salariée de la femme semblefavoriser le divorce : les femmes qui acquièrent une certaine indépendanceéconomique divorcent plus rapidement que les femmes en situation de pré-carité. L’effet du lien de parenté avec le conjoint est plus facilement inter-prétable que dans le tableau 1, met tant s implement en opposi t ionl’existence ou non d’un lien de parenté, l’absence de lien facilitant ledivorce.
Par ailleurs, certaines de nos hypothèses ne sont pas confirmées. Lenombre d’enfants (notamment l’absence de descendance) ne semble pasconstituer un facteur de divorce, contrairement à l’hypothèse selonlaquelle l’infécondité de la femme serait considérée comme un facteurfavorisant le divorce. Le modèle n’indique pas non plus que la polygamiejoue un rôle(29). I l est vrai que nous étudions le phénomène auprèsd’hommes encore jeunes, mariés dans l’ensemble depuis peu de temps etdont seul un très petit nombre est concerné par cette pratique.
Conclusion :tout voir et retenir l’essentiel
La méthodologie présentée ici occupe une position intermédiaireentre démarche exploratoire et démarche « confirmatoire ». Si, à l’instarde cette dernière, elle requiert la spécification d’un schéma explicatifconceptuel, celui-ci peut rester très global, et peu directif sur le plan de lamesure.
Le fait de devoir spécifier un modèle conceptuel canalise le cher-cheur de l’empirisme vers l’explication, ce qui n’est pas vraiment le casavec les méthodes plus classiques d’analyse des données.
Le fait de conserver quasiment jusqu’à la fin les multiples mesuresrelatives à un concept présente deux avantages : primo, on donne à cha-cune la possibilité de s’exprimer dans le cadre du modèle explicatif (mal-gré les redondances entre elles), ce qui permet la sélection des meilleures ;secundo, l’éventuelle redondance entre diverses mesures relatives à unmême concept permet de représenter celui-ci de façon plus robuste à l’aidede facteurs synthétiques. La mesure des concepts est ainsi « débruitée » etl’effet statistique correspondant dans le modèle estimé devient plus fiable.À cet égard, l’exemple du niveau d’instruction est particulièrement parlant(cf. tableau 4).
(29) Sur cette question voir Antoine et al., 1998.
BryAntoineF.fm Page 942 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 943
Pour conclure, la démarche proposée nous a permis d’éviter de longstâtonnements dans le choix des variables explicatives lors de la construc-tion du modèle statistique. La participation initiale de toutes les variablescandidates prémunit contre l’omission d’une dimension importante. Enoutre, la méthode permet l’élimination aisée des redondances. Elle nous aainsi permis d’aboutir à un modèle plus riche et plus fiable (tableau 6) quele modèle initial (tableau 1), et ce, pour étudier un événement relativementrare à partir d’un échantillon de taille modeste pour ce type d’analyse.
RÉFÉRENCES
ANTOINE Philippe, 2002, « Les complexités de la nuptialité : de la précocité des unionsféminines à la polygamie masculine en Afrique », in G. Caselli, J. Vallin, G. Wunsch(dir.), Démographie : analyse et synthèses. vol. II – Les déterminants de la fécondité,Paris, Ined (coll. Manuels), p. 75-102.
ANTOINE Philippe, DJIRÉ Mamadou, NANITELAMIO Jeanne, 1998, « Au cœur des relationshommes-femmes : polygamie et divorce », in P. Antoine, D. Ouédraogo, V. Piché (éd.),Trois générations de citadins au Sahel, Paris, L’Harmattan, p. 147-180.
ANTOINE Philippe, ABDOU Salam Fall (dir.), 2002, Crise, passage à l’âge adulte et devenir de lafamille dans les classes moyennes et pauvres à Dakar, rapport d’étape pour le Codesria,IRD-Ifan, Dakar, 118 p + 22 p annexes.
ANTOINE Philippe, DIAL Fatou Binetou, 2003, « Mariage, divorce et remariage à Dakar etLomé », Journées scientifiques de l’AUF, Familles du Nord, Familles du Sud, Marseille23-26 juin 2003, 22 p. (à paraître).
BRY Xavier, 1994, Analyses Factorielles Simples, Economica Poche, 112 p.BRY Xavier, 2001a, « Analyses Discriminantes Régularisées via la régression PLS et l’Analyse
en Résultantes Covariantes », MODULAD, n° 28, p. 27-61.BRY Xavier, 2001b, « Une autre approche de l’analyse factorielle : l’Analyse en Résultantes
Covariantes, RSA, 49(3), p. 5-38.BRY Xavier, 2003, « Une méthode d’estimation empirique d’un modèle à variables latentes :
l’Analyse en Composantes Thématiques », RSA, 51(2), p. 5-45.BRY Xavier, 2004, « Estimation empirique d’un modèle à variables latentes comportant des
interactions », RSA, 52(3) (à paraître).BURNHAM Philip, 1987, « Changing themes in the analysis of african marriage », in D. Parkin,
D. Nyamwaya (éd.), Transformations of African Marriage, Manchester, Manchester Uni-versity Press (International African Seminars, New Series, n° 3), p 37-54.
CAZES Pierre, 1997, « Adaptation de la régression PLS au cas de la régression après analyse descorrespondances multiples », RSA, XLV(2), p. 89-99.
DE JONG Sijmen, 1995, « PLS shrinks », Journal of Chemometrics, vol. 9, p. 323-326.DIAL Fatou Binetou, 2001, « Le divorce, source de promotion pour la femme ?. L’exemple des
femmes divorcées de Dakar et de Saint-Louis (Sénégal) », in T. Locoh, K. Nguessan,P. Makinwa-Adebusoye (éd.), Systèmes de genre et questions de population en Afrique.Résistances et innovations, Dakar, UEPA/Paris, INED, 15 p. (à paraître).
DIOP Abdoulaye Bara, 1985, La famille wolof : tradition et changement, Paris, Karthala, 262 p.GOULD Stephen J., 1983, La mal-mesure de l’Homme, Ramsay.HERTRICH Véronique, LOCOH Thérèse, 1999, Rapports de genre, formation et dissolution des
unions dans les pays en développement, Liège, UIESP (Gender in population series),46 p.
KAUFMAN Georgia, LESTHAEGHE Ron, MEEKERS Dominique, 1988, « Les caractéristiques et ten-dances du mariage », in D. Tabutin (éd.), Population et sociétés en Afrique au sud duSahara, p. 217-248.
LEBART Ludovic, MORINEAU Alain, PIRON Marie, 1995, Statistique exploratoire multidimension-nelle, Dunod.
BryAntoineF.fm Page 943 Mercredi, 16. mars 2005 11:49 11
944 X. BRY, P. ANTOINE
LOCOH Thérèse, THIRIAT Marie-Paule, 1995, « Divorce et remariage des femmes en Afrique del’Ouest. Le cas du Togo », Population, 50(1), p. 61-94.
MCDONALD Peter, 1985, « Social organisation and nuptiality in developing countries », in J. Cleland,J. Hobcraft (éd.), Reproductive Change in Developing Countries, Oxford, Oxford UniversityPress, p. 87-114.
MINISTÈRE DE L’ÉCONOMIE, DES FINANCES ET DU PLAN (Direction de la prévision et de la statis-tique), 1988, Enquête démographique et de santé au Sénégal 1986, Dakar, DHS/MacroInternational, 173 p.
MINISTÈRE DE L’ÉCONOMIE, DES FINANCES ET DU PLAN (Direction de la prévision et de la statis-tique), 1994, Enquête démographique et de santé au Sénégal 1992-93 (EDS II). Dakar;Calverton, DHS/Macro International, 284 p.
SMITH David P., CARRASCO Enrique, MCDONALD Peter, 1984, Marriage Dissolution and Remar-riage, Voorburg, International Statistical Institute (World Fertility Survey ComparativeStudies, n° 34), 94 p.
TENENHAUS Michel, 1998, La régression PLS, théorie et pratique, Technip.TENENHAUS Michel, 1999, « L’approche PLS », RSA, 47(2), p. 5-40.WOLD Hermann, 1985, « Partial least squares », Encyclopedia of Statistical Sciences, John
Wiley & Sons, p. 581-591.
BryAntoineF.fm Page 944 Mercredi, 16. mars 2005 11:49 11
EXPLORER L’EXPLICATIF 945
BRY Xavier, ANTOINE Philippe.– Explorer l’explicatif : application à l’analyse biographique
Ce travail relie de façon empirique analyses factorielles et régressions linéaires géné-ralisées (régression logistique, de Cox, etc.). Nous montrons comment ce couplage permet defaciliter l’exploration de données complexes comme les données biographiques (variant dansle temps, incomplètement observées) en vue de leur modélisation. Nous associons uneméthode de régression à une nouvelle méthode factorielle – l’analyse en composantesthématiques – qui permet de tenir compte, dès le départ, d’un modèle conceptuel explicatifdes données. Cette méthode est ensuite appliquée à l’analyse du divorce des hommes à Dakar,ce qui permet d’illustrer simplement chaque point méthodologique abordé.
BRY Xavier, ANTOINE Philippe.– Exploring the explanatory: an application to event historydata
This article presents an empirical plugging of factor analysis and generalized linearregression (logistic regression, Cox models, …). We show that this combination can facilitatethe exploration of complex data such as that on event histories (time-varying, censored) formodelling purposes. By combining a regression method with a new type of factor analysis— Thematic Components Analysis — we show how an explanatory conceptual model for thedata can be included from the start of the exploratory phase. This method is then applied toan analysis of the divorce behaviour of men in Dakar, and used to give a simple illustrationof each methodological point discussed.
BRY Xavier, ANTOINE Philippe.– Analizar las causas: aplicación al análisis biográfico
En este artículo se relacionan de modo empírico análisis factoriales y regresioneslineales generalizadas (regresión logística, de Cox, etc.). También se muestra como tal co-nexión facilita el análisis de datos complejos tales como los datos biográficos (que varían através del tiempo y cuya observación es incompleta) y su modelización. Asociamos un métodode regresión a un nuevo método factorial – el análisis de componentes temáticos – que permi-te tomar en cuenta, desde el principio, un modelo conceptual explicativo de los datos. A con-tinuación aplicamos este método al análisis del divorcio masculino en Dakar para ilustrar deforma simple cada paso metodológico.
Xavier BRY, Lise-Ceremade, université Paris IX-Dauphine, courriel : [email protected]
BryAntoineF.fm Page 945 Mercredi, 16. mars 2005 11:49 11