TyPWeb : décrire la Toile pour mieux comprendre les parcours

33
© Réseaux n° 116 – FT R&D / Hermès Science Publications – 2002 DECRIRE LA TOILE POUR MIEUX COMPRENDRE LES PARCOURS Sites personnels et sites marchands Valérie BEAUDOUIN Serge FLEURY Marie PASQUIER Benoît HABERT Christian LICOPPE

Transcript of TyPWeb : décrire la Toile pour mieux comprendre les parcours

© Réseaux n° 116 – FT R&D / Hermès Science Publications – 2002

DECRIRE LA TOILE POUR MIEUXCOMPRENDRE LES PARCOURS

Sites personnels et sites marchands

Valérie BEAUDOUIN

Serge FLEURY

Marie PASQUIER

Benoît HABERT

Christian LICOPPE

ans une perspective d’étude des usages d’internet, l’analyse descaractéristiques des objets rencontrés sur le web est une étapeindispensable. En effet, il apparaît nécessaire d’avoir une

représentation formelle de la structure des sites et de leurs contenus avant depouvoir comprendre la logique des parcours sur ces sites1.

Si l’on se place sur le poste de l’utilisateur, les systèmes de recueil de tracesd’utilisation d’internet permettent de récupérer les adresses des fichiersconstituant la page (URL), ce qui ne nous dit rien ou pas grand-chose sur leurcontenu. Il est donc nécessaire, pour donner sens à une navigation sur le web,d’explorer la matière formelle et sémantique qui se cache derrière une URL,autrement dit de retourner sur la page visitée pour en explorer la forme et lecontenu. L’étude des parcours est donc indissociable de l’étude desproductions de la toile, à la fois pour donner sens aux parcours et pour montrercomment la structure et les contenus des sites agissent sur les visites. Typer lescontenus et les formes constitue un préalable indispensable. Une telleapproche permet de nourrir l’étude des parcours, mais aussi d’apporter desindications sur les modes de publication présents sur le web et de voircomment est organisée la circulation à travers un site donné et quelles sont lesformes et structures des documents qui s’offrent aux visiteurs. Elle permetd’aborder la question du sens donné aux parcours par les acteurs, à la fois pourceux qui naviguent, car se sont le contenu et la forme qui vont guider leuractivité, et pour ceux qui créent les sites, qu’ils soient marchands ou nonmarchands, car ils cherchent, à travers le contenu et la forme à orienterl’activité des visiteurs.

Nous avons sélectionné deux types de production sur le web : les sitesmarchands et les sites personnels qui forment deux catégories socialementconstituées et diamétralement opposées. Le choix de ces deux catégories desites répond d’abord à un souci de diversification de l’échantillon. Il répondaussi à un désir de valider les hypothèses sur l’articulation du web marchand

1. Nous remercions pour leur relecture critique Thomas Beauvisage, Dominique Cardon,Alain Rallet et Patrice Flichy.

D

22 Réseaux n° 116

et du web non marchand2, qui posent que l’existence du second seraitindispensable à la survie du premier. Les sites personnels présentent à nosyeux un intérêt supplémentaire. De nombreux travaux ont tenté de montrerque ces derniers constituaient un genre à part entière3, voire le premier genreexclusivement numérique4. Il nous semble au contraire que la catégorie dessites personnels est la plus hétérogène de la toile et la plus opaque.Hétérogène, car s’y côtoient des sites ayant atteint un haut degréd’élaboration en termes de contenu et de structure et des pagesembryonnaires ; opaque, car les adresses des sites, qui correspondent le plussouvent au nom de leur concepteur, donnent en fait peu d’indications sur lecontenu du site. Pour l’analyse des parcours sur le web, la qualification dessites personnels par leurs contenus devient particulièrement cruciale.

Nous avons adopté une double perspective pour décrire les objets de la toile.La première, qui se situe clairement du côté de la production, consiste àmontrer les caractéristiques propres à ces deux grandes catégories de sites etvise à proposer des critères qui pourront permettre de « reconnaître »automatiquement les genres. La seconde se situe dans une perspective deréception, puisque nous analysons un corpus de pages personnelles visitées5

par une cohorte d’internautes. Cette cohorte est extraite du panel résidentielFrance de NetValue6. Cette approche vise à montrer comment la nature despages varie selon l’endroit où celles-ci sont hébergées, et par conséquentvisitées, et comment elle joue sur la manière dont les sites sont visités.

Dans une perspective comme dans l’autre, la page est le lieu de contact entrela production et la réception, puisque, d’une part, elle se situe dans leprocessus de création d’un site et, d’autre part, elle prend place dans unparcours de navigation.

Nous commençons par décrire la chaîne de traitement mise en place pourdécrire les documents web, puis nous présentons les traits qui distinguent les

2. Voir GENSOLLEN, 1999, qui le premier avait annoncé : « Le moteur de la valeur [sur internet]résidera principalement dans les externalités entre les sites bénévoles et les sites marchands. »3. Voir AMITAY, 1999 ; REHM, 2002.4. DILLON, GUSHROWSKI, 2000.5. Les pages personnelles visitées sont des pages appartenant à des sites personnels ayant étévisitées par la cohorte d’internautes en 2000.6. NetValue est une société de mesure d’audience sur internet : les données du panel ont étémises à notre disposition dans le cadre d’un partenariat entre France Télécom R&D etNetValue.

Décrire la toile 23

sites marchands et les sites personnels, pour finalement analyser le champdes pages personnelles visitées.

LE DISPOSITIF DE TRAITEMENT

Nous présenterons tout d’abord la logique de sélection et de constitution descorpus de sites et de pages web, puis nous décrirons sommairement lachaîne de traitement mise en place pour l’analyse7, en insistant sur deuxmoments-clés de la chaîne : la sélection de traits descriptifs et les démarchesde traitement.

Cette démarche s’apparente aux travaux de Ivory et Hearst8. Ces auteursproposent en effet une batterie de 157 traits formels et structurels pourdifférencier les mauvais, moyens et bons sites, en prenant comme référenceles sites récompensés par des prix. Leur objectif est différent du nôtre,puisque leurs travaux visent à aider les concepteurs à améliorer leur site, enreprenant les critères dominants, tandis que nous voudrions rendre comptedes caractéristiques des objets qui sont effectivement visités par lesinternautes. Cependant, les démarches ont un point commun en ce qu’elless’appuient sur des traits formels et structurels.

Logiques de constitution des corpus

La première étape consiste à sélectionner des sites ou pages à collecter sur leweb. Une fois les corpus sélectionnés, ils sont recopiés localement grâce àdes logiciels d’aspiration de sites, ou « aspirateurs », ce qui permet deconstituer des corpus de « sites miroirs ».

Deux logiques ont présidé à la constitution des corpus, celle de la productionet celle de la réception. Du côté de la production, nous avons retenu les sitespersonnels et les sites marchands. Un site est constitué d’un ensemble dedocuments interconnectés relevant d’une même entité éditoriale9. Nousconsidérons qu’un site personnel est un site hébergé par un fournisseurd’accès à internet. Cette définition est restrictive, puisqu’elle se situe du côtéde l’offre et n’intègre pas les sites personnels hébergés par des sites

7. Pour une présentation détaillée de la chaîne de traitements, voir BEAUDOUIN et al., 2001.8. IVORY, HEARST, 2002.9. Voir note 14 de BEAUVISAGE et ASSADI, dans ce numéro.

24 Réseaux n° 116

d’université, d’entreprise ou sur des serveurs autonomes. Elle ne recouvre pasforcément le point de vue des concepteurs ou visiteurs de sites personnels10.

Un premier corpus est constitué par les sites personnels de participants actifsdans un forum Wanadoo (wanadoo.abonnes.entraide). Une précédente étudesur les interactions électroniques a montré comment les différents supportsde communication (pages personnelles, forums, mail, chat…) étaiententrelacés par les pratiques des acteurs et comment les liens d’amitié entreles participants du forum étaient reflétés par les liens entre leurs pagespersonnelles11. Ainsi, en déployant l’aspiration à partir du site du « leader »,les sites des habitués du forum sont rapatriés grâce aux connexionshypertextuelles. Au total, ce corpus, constitué en 1999, contient 539 sitespersonnels (Corpus PPWanadooForum-été99).

Le deuxième corpus est composé de sites personnels hébergés chezWanadoo et dont une page au moins a été visitée par la cohorte d’internautesen mars 2000. Le corpus, aspiré en 2000, se compose de 568 sites (CorpusPPWanadoo-mars00).

Nous avons, d’une part, un corpus de sites étroitement interconnectés, refletd’un collectif réduit d’internautes actifs sur un forum et, d’autre part, uncorpus de sites personnels qui ont atteint un niveau d’audience élevé,puisqu’ils ont été visités par une cohorte d’internautes. Ces deux corpusdiffèrent par l’audience qu’ils recueillent et nous montrerons que leur formeet leur structure sont corrélées à leur situation dans le champ des sitespersonnels (sites ouverts versus sites fermés).

Le troisième corpus rassemble des sites marchands (45 sites) pour lesquelsdes entretiens approfondis ont été menés auprès des responsables et desprestataires de technologies12. Deux vagues d’entretiens ont été faites à unan d’intervalle et les sites ont été aspirés parallèlement aux entretiens, ce quinous permet de mesurer leur évolution dans le temps. Deux sous-corpus ontdonc été constitués : le premier corpus (Marchands-99-00) contient 29 sitesmarchands aspirés entre août 1999 et février 2000 ; le second (Marchands-été 2000) en contient 16, aspirés pendant l’été 2000.

10. Voir LICOPPE, BEAUDOUIN dans ce numéro.11. BEAUDOUIN, VELKOVSKA, 1999.12. Voir LICOPPE, 2000.

Décrire la toile 25

La seconde logique qui a présidé à la constitution des corpus est celle de laréception. Nous avons retenu des pages visitées appartenant à des sitespersonnels. Le dernier corpus est constitué de pages personnelles visitées aumoins une fois par la cohorte d’internautes entre janvier et juin 2000. Dansce cas, l’unité minimale d’analyse n’est plus le site mais la page. Constituéen 2001, ce corpus contient 100 000 pages (Corpus 100 000 PP).

Les approches « sites » et « pages visitées » ne sont pas déconnectées,puisque nous pouvons mettre en relation la structure de certains sites aspirésavec la manière dont ils ont été visités.

Une fois les sites et les pages sélectionnés et aspirés, il faut normaliser lescorpus, c’est-à-dire convertir tous les documents aspirés dans un mêmeformat, ce qui permet de manipuler de manière uniforme les différentscomposants des pages et des sites (texte, structure, liens, images, applets,etc.). Pour ce faire, nous avons converti pages et sites au format XML, formatqui permet notamment de s’affranchir des incohérences et de la mauvaisequalité du code HTML des pages aspirées. Les corpus manipulés sontvolumineux et, pour permettre de se faire une idée de leur taille, nous endonnons les principales caractéristiques dans le tableau ci-dessous.

Tableau 1. Caractéristiques des corpus de sites

PPWanadooForum-été-99

PPWanadoo-mars-00

Marchands-99-00

Marchandsété-00

Total

Nb de sites 539 568 29 16 1 162

Nb de pages 11 006 24 938 29 199 5 726 96 885

Moyenne pages/site 20 44 1 007 358 83

Nb d’occurrences(mots)

3 878 647 10 577 421 3 090 399 1 284 664 18 831 131

Nb de formes (mots) 148 360 348 092 66 635 53 805 616 892

Nb d’éléments HTML 13 882 836

Nb de formes HTML 349

Taille des fichiersXML (en ko)

292 074 1 029 274 450 433 159 434

26 Réseaux n° 116

Ensuite, vient la phase d’identification, puis de sélection de traits pertinentspour décrire les documents. Cette phase conduit à l’élaboration de matricesde description des pages qui sont ensuite soumises à des traitementsstatistiques. Le travail d’interprétation consiste enfin à articuler les résultatsobtenus avec l’observation manuelle des pages13 et avec les entretiensauprès des concepteurs de sites. A partir de configurations de traitssyntaxiques (syntaxe du français et syntaxe du langage ����), nousconstruisons une interprétation sémantique guidée par l’analyse sémiotiquemanuelle des documents.

Identification de traits

L’objectif est de soumettre des sites (et des pages) différents à un mêmeprojet de description systématique. Le cœur du dispositif de traitementconsiste à décrire les documents web à l’aide d’un ensemble de traits.Plusieurs familles de traits ont été identifiées : les indicateurs lexicaux,portant sur le vocabulaire utilisé dans les pages, les indicateurshypertextuels (liens, images…), les indicateurs sémantiques (identificationde la langue, thématiques), les indicateurs présentationnels (polices decaractère, couleurs, fond d’écran…).

Les indicateurs retenus sont pour certains d’entre eux propres auxdocuments du web et diffèrent de ceux qui sont habituellement retenus pourl’étude des documents textuels. Les traits doivent en effet intégrer lesphénomènes propres aux écrits du web :

– la structure joue un rôle primordial dans le mode d’interaction, associée àla dimension multimédia et hypertextuelle, il est donc indispensable d’entenir compte et de ne pas se limiter à l’analyse du texte ;

– les textes comportent de nombreuses scories : ils passent brutalementd’une langue à l’autre, et sont « bruités » par les balisages de mise en formeou de structure. Le français employé (smileys, onomatopées, orthographe« souple », « oralismes ») est moins contrôlé que dans des écrits plusclassiques témoignant d’une forte empreinte du travail éditorial, ce qui rendplus difficile l’utilisation des outils de traitement automatique de la langue.

13. C’est pourquoi il est important de conserver une photographie des sites tels qu’ils étaientau moment de l’aspiration : le web est un médium en perpétuel changement.

Décrire la toile 27

Ne travailler que sur la dimension textuelle des pages web est une démarcheinsuffisante, mais l’élaboration de traits adaptés à ces documentshypertextuels ne va pas de soi. Pour identifier les traits pertinents, nousavons exploité les éléments de codage des documents du web (le langageHTML). Le nombre de traits disponibles à partir de l’analyse fine du codeHTML est quasiment inépuisable. Traiter sans discernement une tellequantité de traits dont la signification et la valeur sont très variables n’auraitpas de sens. C’est pourquoi l’analyse sémiotique des pages nous a guidéspour sélectionner des traits-candidats.

Le travail de sélection et de définition des traits est une étape cruciale etpose des problèmes de différentes natures. L’analyse de la répartition dutrait candidat dans le corpus conduit à le retenir ou à l’exclure. Ainsi parexemple, le trait « outil de conception du site » s’est révélé être nonpertinent pour nos analyses. Ensuite, le choix du niveau de granularitéretenu constitue également une étape décisive : par exemple, faut-ilconserver l’indication de la police de caractère choisie, de sa taille et de sacouleur ou simplement le fait qu’il y ait eu un choix éditorial portant sur lescaractères utilisés ? Plus on retient un niveau fin de granularité, plus laquestion du regroupement des valeurs devient aiguë. Ainsi, sur un corpus de50 000 pages, nous avons identifié 2 021 polices de caractère et 7 068couleurs différentes, ce qui témoigne d’un effort de distinction de la part desconcepteurs dans un champ aussi concurrentiel que les pages personnelles14.Cette variabilité est difficile à organiser et à interpréter : quel sens donner auchoix d’une police particulière ? Comme par ailleurs, dans 52 % des pages,il n’y a aucune indication de police de caractère, le type de police choisinous a paru être un critère moins pertinent que le simple fait d’introduire unmarquage de police.

Deux démarches d’analyse

Nous avons adopté deux approches distinctes pour explorer nos corpus.L’approche déductive consiste, à partir de catégories de sites ou de pagesdéfinies a priori, à identifier les traits spécifiques de chacune d’elles.Certains genres semblent constitués, comme les sites personnels et les sites 14. DANET, 2000 a montré la créativité des concepteurs de polices de caractères sur le web.A travers la forme graphique que les concepteurs donnent aux lettres, celles-ci véhiculent unsens fort. Dans notre approche portant sur des grands corpus, nous avons de fait laissé de côtécette diversité.

28 Réseaux n° 116

marchands. Nous cherchons alors à montrer comment cette existence socialeproduit des spécificités formelles et discursives. Dans la même logique,nous avons identifié les spécificités des pages personnelles selon leur lieud’hébergement ou selon le nombre de pages vues par site.

Dans la seconde approche, inductive, à partir d’un ensemble de documentsdécrits par des traits, nous avons identifié des types de documents quiprésentent des configurations de traits similaires. Nous nous situons dans leprolongement des travaux de Biber15 qui tente d’identifier des types detextes en s’appuyant sur la répartition de traits morphosyntaxiques trèsfins16. Les typologies obtenues ne coïncident pas forcément avec des genres,qui sont des formes de cristallisation de pratiques sociales. Cette approche aété reprise dans le cadre du projet TyPTex17 piloté par B. Habert18 et trouvedes applications sur les corpus du web dans les travaux de J. Karlgren19.

Ces deux démarches se nourrissent des entretiens menés auprès desconcepteurs de sites comme de l’observation fine de tels sites, qui ontpermis d’émettre et de valider des hypothèses. Le travail d’interprétation desfaisceaux de traits typiques de certains sites ou de types de pages a été guidépar l’examen des pages présentant ces configurations de traits, tellesqu’elles se présentent aux visiteurs.

SITES MARCHANDS, SITES PERSONNELS :DES PRODUCTIONS CONTRASTEES

Les internautes distinguent sans difficultés les sites marchands des sitespersonnels. Nous cherchons à mettre au jour les traits formels qui permettentde montrer en quoi ils s’opposent. Commençons donc par contraster le profil

15. BIBER, 1995.16. Il ne s’agit pas de retrouver des styles prédéfinis (narratif, descriptif, explicatif, argumentatif,poétique, etc.) mais de regrouper des documents (ou des portions de documents) en fonction del’emploi qu’ils font de l’outillage grammatical (pronoms, temps et modes...) et de certainsmarqueurs lexicaux spécifiques (par exemple, types sémantiques d’adverbes : négation,possibilité, temps et espace...). La classification des documents se fait donc sur la base de traitslinguistiques fins articulant étiquetage grammatical et projection de dictionnaires spécifiques(classes sémantiques d’adverbes ou de conjonctions de subordination, par exemple).17. Voir ILLOUZ et al., 1999 et FOLCH et al., 2000.18. Voir HABERT et al., 1997 pour une présentation globale du champ des linguistiques decorpus, dans lequel s’inscrit ce travail.19. KARLGREN, 1999.

Décrire la toile 29

des sites marchands et des sites personnels, à partir de traits simples comme ladistribution des pronoms personnels, la taille des sites et la structure des liens.

Sites personnels centrés sur la relation, sites marchands centréssur le client

Nous retenons les marques de la première et deuxième personne (dusingulier et du pluriel) et laissons de côté la troisième personne, queBenvéniste désignait comme la non-personne, puisque seules la première etdeuxième mettent en scène la relation20. Près de la moitié des sites (42 %)ne cherchent pas à mettre en scène la relation entre émetteur et récepteur : lesite se présente alors comme centré sur le référent (le contenu) et n’invitepas au dialogue : la relation est anonyme. Nous ne traitons dans la suite quedes sites qui rendent visible cette relation fictive entre l’auteur et sesvisiteurs. La répartition des pronoms est donnée dans le tableau 2.

Tableau 2. Répartition des pronoms aux 1re et 2e personnes (en %)

Corpustotal

(665 sites)

PPWanadooForum-été99

(219 sites)

PPWanadoo-mars00

(410 sites)

Marchands-0999

(22 sites)

Marchands-0800(14 sites)

je, me, moi 41 46 41 18 21tu, te, toi 8 8 9 3 9nous, 17 17 17 16 18vous 34 29 33 63 52Σ 100 100 100 100 100

L’examen des pronoms aux 1re et 2e personnes met en évidence uneséparation très nette entre sites personnels et sites marchands. En effet,l’utilisation de la première personne du singulier (je, me, moi) estcaractéristique des sites personnels, tandis que la deuxième personne du 20. Nous avons défini 4 catégories de pronoms fondées sur le nombre (singulier/pluriel) et lapersonne grammaticale qui est désignée : p1 ={je/j, me/m, moi}, p2 ={tu, t, toi}, p4 ={nous}et p5 ={vous}. Les pronoms on et soi n’apparaissent pas dans cette catégorisation de pronomscar nous avons choisi de les classer avec les pronoms de la 3e personne du singulier. Ensuite,pour obtenir des résultats significatifs, nous avons uniquement pris en compte les sites danslesquels apparaissent au moins 10 pronoms : nous réduisons ainsi notre corpus à 665 sites,soit 58 % du corpus initial.

30 Réseaux n° 116

pluriel (vous) est spécifique des sites marchands. Ainsi, un site personnel estun lieu de présentation de soi centré sur un individu (le concepteur du sitequi se présente et se raconte). Il existe cependant une forme d’équilibreentre l’émetteur (moi) et le destinataire (toi ou vous) qui montre bien que lapage personnelle tend vers l’échange. Au contraire, les sites marchands sontrésolument adressés à un visiteur qui peut devenir un acheteur potentiel aufil des consultations : l’émetteur s’efface au profit du destinataire. Nousvoyons donc que l’analyse des occurrences des pronoms est capable decaractériser empiriquement des classes de sites, y compris dans des corpusde sites web très volumineux.

A partir de cette répartition de pronoms, il est aussi possible d’affiner lesanalyses par type de corpus. Il est d’abord intéressant de constater que les sitespersonnels des participants du forum contiennent légèrement plus de pronomsà la première personne du singulier (46 %) que les sites personnels visités(41 %) : les concepteurs de ces derniers sites tendent à s’effacer au profit deleurs visiteurs, ce qui tempère l’apparition directe du je. L’observation de larépartition des couples de pronom je/nous et tu/vous accentue d’autant plus laspécificité des deux corpus de sites personnels : le premier est davantagecentré sur le concepteur (63 % de je/nous contre 37 % de tu/vous), tandis quele second présente un équilibre entre la présence du concepteur de site et celledu visiteur (58 % de je/nous contre 42 % de tu/vous).

En parallèle, nous observons la présence massive du vous dans les deuxcorpus de sites marchands (63 % et 52 %) et du couple tu/vous (66 % et61 % de tu/vous contre seulement 34 % et 39 % de je/nous). Au sein dessites marchands, des distinctions doivent cependant être faites. Ainsi,l’examen de la répartition des pronoms dans un corpus thématique devoyage fait apparaître des stratégies de marketing nettement différenciées.La majorité des sites utilisent massivement le vous en considérant le visiteursoit comme un acteur (vous découvrirez, vous traverserez, vous survolerez),soit comme un spectateur21 (nous vous ferons découvrir, nous vous feronstraverser, etc.). Néanmoins, quelques sites se positionnent différemment enprivilégiant l’utilisation des pronoms je et nous indépendamment ou lecouple je/nous.

21. Cette distinction entre acteur et spectateur a été construite à partir d’une analyse fine despages des sites.

Décrire la toile 31

La répartition des pronoms personnels permet donc de différencier les sitespersonnels des sites marchands. Elle pourrait constituer un critère opératoirede distinction. La prise en charge par un locuteur de ce qui est dit estclairement affirmée dans les pages personnelles. A l’inverse, dans les sitesmarchands, le discours est orienté vers le destinataire ou client potentiel :l’utilisation de la première personne est nettement plus rare et relève d’unestratégie de marketing marquée.

Sites personnels versus sites marchands :logiques d’ouverture ou de fermeture

Par-delà la répartition des pronoms personnels, en quoi les éléments destructure permettent-ils de distinguer les sites personnels des sitesmarchands22 ?

La première opposition majeure entre pages personnelles et sites marchandsse construit autour du nombre de pages du site : les sites marchands ont enmoyenne 20 fois plus de pages que les sites personnels. Ils ont globalementbeaucoup plus de liens, mais il n’y a pas de différence très marquée dans lenombre moyen de liens par page entre sites personnels et marchands.

Des différences sensibles existent entre les deux corpus de sites personnels.Les sites visités par des internautes sont en moyenne plus gros que les sitesdes participants au forum (44 pages par site contre 25). Ils ont davantage deliens externes (1,9 par page contre 1,2) et surtout davantage de liens internes(10 par page contre 6). La taille d’un site, l’importance des liens internes quifacilitent la navigation, l’insertion dans un réseau d’interconnexion de sitessemblent être des conditions nécessaires pour pouvoir bénéficier de visites.Les sites personnels des participants du forum sont plus simples et moinsouverts sur l’extérieur. Nous avons montré23 que le réseau des sitespersonnels du forum était le reflet des relations amicales au sein du forum :les sites constituent alors un réseau dense mais assez fermé.

22. Outre le nombre de pages par site et le nombre de liens par page, nous avons construit lesindicateurs suivants : nombre de liens hypertextuels internes (pointant vers une autre page dusite) et externes (pointant vers un autre site), nombre de liens vers des images internes etexternes, nombre de liens vers une boîte aux lettres ou vers un fichier FTP pour letéléchargement.23. BEAUDOUIN, VELKOVSKA, 1999.

32 Réseaux n° 116

Sur les sites marchands, nous observons un contraste important entre la paged’accueil et les autres pages. Alors qu’il y a en moyenne 4 liens internes parpage, il y en a 11 sur la page d’accueil. Pour les liens externes, il y en a 3 surla page d’accueil contre 0,1 sur les autres. Ce contraste est beaucoup plusfaible pour les pages personnelles et signale donc une spécificité des sitesmarchands.

La page d’accueil du site marchand est donc un concentré de lienshypertextuels internes et externes. De plus, les liens y sont particulièrementredondants : une même rubrique peut être atteinte en cliquant en diversendroits de la page d’accueil : tantôt sur une zone de texte, tantôt sur unepetite icône, tantôt sur une bannière… Nous avons constitué un indicateurde redondance (nombre de liens total divisé par le nombre de liensdifférents) qui vaut 1 si aucun lien n’est redondant et dont la valeuraugmente avec la redondance. Cet indicateur vaut 1,25 sur les pagesd’accueil contre 1,1 sur les autres pages.

La densité en liens et la redondance des liens dans les pages d’accueilconstituent autant de points d’entrée dans le site selon le niveau d’expertisedu visiteur ou de son approche cognitive : certains visiteurs privilégient lesliens sous forme de listes, d’autres sous forme d’icônes. Tous les moyenssont mis en œuvre pour faire entrer le visiteur dans le site et pour éviter qu’ils’en échappe (peu de liens externes dans les pages intérieures).

Contrairement aux sites personnels, le site marchand ne pointe pas vers sesconcurrents : au mieux il pointe vers ses partenaires commerciaux sur lapage d’accueil. La force d’un site personnel tient au contraire à sa capacité àêtre insérée dans un réseau de sites consacrés à un sujet donné ou dans unréseau d’amis. Tandis que le site marchand cherche à maintenir ses visiteursdans son espace une fois que ceux-ci ont franchi la page d’accueil, le sitepersonnel, au contraire, joue l’ouverture en pointant vers d’autres sites.Cette ouverture est payée de retour, puisqu’en général les liens entre sitespersonnels sont réciproques.

A L’ARTICULATION DE LA PRODUCTION ET DE LA RECEPTION :LES PAGES PERSONNELLES VISITEES

Quelles sont les caractéristiques des documents que rencontrent lesinternautes dans leur parcours de navigation ? Comment les internautes

Décrire la toile 33

s’orientent-ils dans ces sites ? Nous avons cherché à répondre à cettequestion en nous limitant à l’espace des pages personnelles visitées par unecohorte de 1 140 internautes au premier semestre 2000. Les pagespersonnelles ne constituent qu’une part réduite de la navigation sur le web,mais cette part est à peu près constante chez tous les internautes (entre 4 %et 5 % du trafic de chaque utilisateur). Nous explorons ici lescaractéristiques de ces écrits électroniques, c’est-à-dire les caractéristiquesde la production dans une perspective de lecture et de réception, puisque lechamp des documents retenus est défini par la réception : un ensemble depages visitées.

A travers l’examen de ce corpus et du suivi ethnographique d’un certainnombre de sites personnels sur plusieurs années, nous montrons commentces sites sont des objets qui se transforment et qui constituent des lieuxd’expérimentation de l’écriture électronique, le changement de lieud’hébergement étant un des éléments de la trajectoire. Cela nous a conduitsà explorer les spécificités des pages selon le lieu où elles étaient hébergées.Nous montrons ainsi comment les pages adoptent une forme et un contenuspécifique selon leur espace de publication, ce qui nous permet de montrercomment l’offre et la demande s’ajustent pour créer des territoirescohérents.

Dans la même perspective, nous identifions dans la masse des pages vuesdes types de documents en fonction de leur structure et de leur contenu, cequi nous autorise à distinguer des pages fonctionnelles et des pages àcontenu et, pour ces dernières, à identifier des degrés d’élaboration desdocuments et des postures d’auteur nettement différenciées.

Les degrés divers d’élaboration, les choix éditoriaux et les façons d’articulerdans un site des modes d’énonciation contrastés ont une incidence directesur la manière dont les sites sont explorés. C’est ce que nous cherchons àmontrer dans les dernières sections.

Les pages personnelles : des objets en transformation

Nous considérons la page personnelle comme un terrain d’expérimentationde l’écriture hypertextuelle : lieu d’apprentissage de l’écriture multimédia etlieu de confrontation immédiate avec le public. Pour valider cette hypothèse,

34 Réseaux n° 116

nous avons étudié comment évoluaient les pages personnelles de notrecorpus avec le temps.

Un an après avoir été visitées par notre cohorte, 40 % des pagespersonnelles avaient disparu du réseau. Beaucoup de pages visitées sont desbrouillons, des tentatives sans suite. En fonction des serveursd’hébergement, la disparition de pages personnelles varie considérablement(voir tableau 3). Chez Free, le taux de pages exploitables estparticulièrement faible. Nous verrons que chez cet hébergeur, les sites sontnettement plus sophistiqués qu’ailleurs et savent en particulier mieux seprotéger contre la copie. Certains lieux d’hébergement ont des durées de vieplus longues que d’autres (en fonction de leur notoriété). Inversement,lorsqu’un serveur d’hébergement n’existe plus, toutes les pagesdisparaissent avec lui. C’est le cas de citeweb.net disparu entre 2000 et2001. Par ailleurs, dans les pages aspirées, nous avons aussi relevé des pagesd’erreurs ou des pages vides qui indiquaient aussi une disparition des pages.

La brièveté de leur existence caractérise donc une bonne part des pagespersonnelles. Inversement, les sites marchands ou institutionnels semblentainsi avoir une existence plus durable que les pages personnelles24.

Parmi les pages encore accessibles un an après la visite (57 000 sur 101 000visitées), nous avons identifié 6 % de pages redirigées, qui correspondentexplicitement à une évolution de la page personnelle. Il peut alors s’agird’une migration vers un autre service d’hébergement, dont le style convientmieux aux attentes du concepteur, ou d’un désir d’autonomisation qui seconcrétise par l’acquisition d’un nom de domaine. L’analyse minutieuse despages redirigées révèle que, dans la moitié des cas, la redirection correspond

24. En effet, au cours de la constitution de corpus de sites personnels et marchands, nous noussommes aperçus que les sites marchands « vivaient » beaucoup plus longtemps que les pagespersonnelles. Pour illustrer ce point, nous nous appuyons sur l’observation d’une quinzainede sites marchands aspirés et archivés tous les ans depuis 1999, soit quatre états différents desmêmes sites. Du côté marchand, les rares changements observés proviennent soit de la fusionde deux sites (ex. des sites de voyage lastminute et degriftour), soit de l’intégration d’un sitedans un autre (ex. de l’intégration du site de voyage expedia dans le site de la SNCF), soit desa disparition (ex. le site de vente de biens culturels bol). Dans les deux premiers cas, les deuxURL coexistent sur le web et l’utilisateur est automatiquement redirigé vers le site principal :l’opération de redirection est alors transparente pour le visiteur ; tandis que, dans le derniercas, l’URL disparaît : le visiteur est alors confronté, dans le meilleur des cas, à une page quil’informe de la disparition du site ou, dans le pire, à une page d’erreur.

Décrire la toile 35

à l’acquisition d’un nom de domaine, tandis que les autres migrations se fontchez un fournisseur d’accès concurrent.

Tableau 3. Taux de pages analysables en fonction du serveur d’hébergement

Pagesvisitées

Répartitionpages

visitées

%de pagesaspirées

% des pagesanalysables

nbde pages

analysableswww.multimania.com 20 864 21 % 73 % 66 % 13 773Free_fr 19 192 19 % 49 % 46 % 8 753Perso.wanadoo.fr 16 791 17 % 77 % 70 % 11 827www.chez.com 11 082 11 % 68 % 63 % 6 943www.geocities.com 9 068 9 % 70 % 69 % 6 236Ifrance.com 6 662 7 % 44 % 40 % 2 675Perso.club-internet 4 785 5 % 66 % 65 % 3 134www.citeWeb.net 1 638 2 % 0 % 0 % 0Autres 11 365 11 % 39 % 37 % 4 150Total 10 1447 100 % 61 % 53 % 53 341

Clé de lecture : 20 864 pages ont été visitées chez Multimania, soit 21 % des pages visitées. Un an après,73 % des pages ont pu être aspirées. Après examen de ces pages aspirées, il apparaît que 66 % des pagesvisitées, soit 13 773, sont de fait exploitables.

Il est donc possible d’opposer différentes trajectoires dans le cycle de vie dela page personnelle : soit la page disparaît du réseau sans laisser de trace,ainsi 40 % des pages ne sont plus accessibles ; soit la page est abandonnée :elle se maintient alors sur le réseau, mais perd ses visiteurs et semblecondamnée à disparaître ; soit la page évolue, mûrit et le plus souvent ledéveloppement de l’objet s’accompagne d’une migration vers d’autres lieuxd’hébergement (acquisition de nom de domaine ou changement de serveurd’hébergement). On se situe dès lors dans des trajectoires d’expansion quis’accompagnent par le développement de stratégies de communication(listes de discussion, forums…) et de visibilité (référencement dans lesmoteurs, annuaires…).

Nous avons reconstitué la trajectoire de quelques-uns de ces sites choisis pourleur caractère archétypal. Cet examen nous conduit à poser que latransformation des pages personnelles se fait dans une triple direction, quenous illustrerons par deux exemples. Premièrement, l’évolution de la pagepersonnelle s’accompagne d’une disparition ou d’une mise en arrière-plan du

36 Réseaux n° 116

moi. Ainsi, le titre de la page (figure 1) comportait dans son premier état lenom de son auteur : « La page de Frédéric Grillot » ; un an plus tard, le titre estdevenu : « La buticulamicrophilie ou la passion d’un collectionneur ».

Le second mouvement de transformation est une autonomisation du site quipasse par l’acquisition d’un nom de domaine. Ce mouvement permet des’affranchir de l’image du serveur d’hébergement. Ainsi, le site de FrançoisBon a-t-il d’abord été hébergé chez Wanadoo, puis chez Free, avantd’acquérir son propre nom de domaine (Remue.net). Au fil de cettetrajectoire, l’auteur s’est peu à peu effacé au bénéfice du thème de son site(littérature contemporaine et ateliers d’écriture).

Enfin, les sites tendent à se centrer sur un seul sujet. La page d’accueil dusite de la figure 1 est symptomatique de ce mouvement. Dans son premierétat, elle présente trois centres d’intérêt : la ville de Carcassonne, le Canaldu Midi et la collection de petites bouteilles. Un an plus tard, le site estuniquement centré sur la collection de petites bouteilles. La cohérencethématique du site est devenue prioritaire sur la présentation de l’ensembledes centres d’intérêt de l’auteur. Là encore nous observons un glissement dusujet vers le thème, contrainte sans doute imposée par la logique del’audience25.

Figure 1. Page d’accueil d’un site personnel en 1999

25. Voir LICOPPE, BEAUDOUIN dans ce numéro.

Décrire la toile 37

Figure 2. Page d’accueil du même site en 2001

Des territoires marqués

Si l’on observe des phénomènes de migration d’un serveur d’hébergement àl’autre, c’est que les offres d’hébergement sont sensiblement différentes etque ces différences sont perçues par les concepteurs. Les spécificitéstiennent aux caractéristiques techniques de l’offre, mais aussi à l’identitéque cherche à se donner chaque fournisseur d’espace. Les pagespersonnelles visitées ont-elles des caractéristiques de forme et de contenuspécifiques selon le lieu où elles sont hébergées ?

Commençons par la structure hypertextuelle. Le tableau ci-dessous, quiprésente la répartition de quelques traits selon le serveur d’hébergement,montre effectivement que la forme des sites varie selon leurs territoires. Lespages chez Free et Chez ont beaucoup plus de liens internes, ce qui est lié,d’une part, à la taille des sites, d’autre part, au mode d’organisation du sitevoulu par le concepteur : privilégier les pages courtes et les liens de page àpage. Les pages de Geocities ont un profil nettement différent. En premierlieu, le nombre de pages visitées par site est particulièrement faible. Nouspouvons supposer que la présence de l’anglais (dans près de la moitié despages) est un frein à une visite approfondie du site : la barrière linguistiquejouerait ainsi pleinement son effet. Mais l’autre particularité des pages chezGeocities tient au faible nombre de liens internes et au nombre élevé de

38 Réseaux n° 116

liens externes par page. Il semble que les sites personnels chez Geocitiessoient fortement reliés entre eux par le biais de pages de liens etd’anneaux26, ce qui favorise des sauts de site en site et pourrait expliquer leplus faible nombre de pages visitées par site.

Il est difficile de trancher entre l’argument de la langue et celui de lastructure pour expliquer que les sites de Geocities soient si peu visités dansleur profondeur. Les contrastes entre les pages de Wanadoo et celles de Freetiennent en grande partie aux caractéristiques de l’offre au moment del’observation : l’espace disque offert chez Free était dix fois plus élevé etFree acceptait l’utilisation de scripts sur les sites, contrairement à Wanadoo.Il s’ensuit que Free accueille des sites plus élaborés et sophistiqués queWanadoo.

Tableau 4. Répartition de traits par page selon les hébergeurs

Serveurd’hébergement

Nb moyen depages visitées

par siteImages

Liensinternes

Liensexternes

Lien versboîte aux

lettres

www.multimania.com 5,0 7,1 8,5 4,7 0,26

free.fr 10,1 8,6 22,5 3,8 0,20

perso.wanadoo.fr 5,8 7,0 12,5 2,3 0,27

www.chez.com 6,9 7,2 21,7 4,7 0,27

www.geocities.com 3,3 10,1 6,5 6,5 0,27

ifrance.com 6,5 8,2 8,0 4,2 0,29

perso.club-internet. 5,9 8,6 13,9 3,6 0,31

autres 4,6 7,3 8,4 5,0 0,22

Ensemble 4,3 7,8 13,1 4,2 0,26

26. Les anneaux de sites sont des ensemble de sites volontairement interconnectés via undispositif ergonomique et technique spécifique et extérieur au site : les concepteurs intègrentdans leurs pages un élément permettant de naviguer au sein de l’anneau et le glissement d’unsite à l’autre est possible dès la page d’accueil.

Décrire la toile 39

Voyons à présent les mots spécifiques des pages personnelles vues selonleur serveur d’hébergement27. Dans les pages personnelles de Free visitées,quelques domaines sémantiques peuvent clairement être identifiés : lesmessages renvoyés par les serveurs d’interdiction d’accès ou de redirection(you don’t have permission, forbidden, click here), le champ sémantique dusexe (y compris les mises en garde pour les visiteurs), celui des logiciels(cracks, download…) et celui de la gratuité. Chez Free, nous observons unentrelacement intéressant entre la liberté (sexuelle et logicielle) et lagratuité, portée par le double sens du mot free. Dans les sites visités sur leserveur Chez.com, la thématique sexe-pornographie est surreprésentée, lediscours promotionnel y étant plus marqué et le positionnement plus prochede la sphère marchande. La gratuité n’est plus revendiquée, les sponsorssont mis en avant. Chez Wanadoo, le contenu des pages visitées a diversescaractéristiques : forte présence des verbes dire, parler, penser ; mise enscène de l’échange (moi, nous/toi, vous) ; thèmes du gravage de CD ; letravail (bureau, directeur, patron, licenciement…) ; l’amour (rencontrer,regard, plaire) ; la vie (vieillir, mourir…) et autres préoccupationsexistentielles. Le site est alors un lieu d’expression intime du moi quis’adresse à l’autre. Les pages visitées hébergées par Club-internet présententdes caractéristiques proches de celles de Wanadoo. Les pages visitées deMultimania ont un profil assez différent : le nom de l’hébergeur y apparaîtfréquemment (sans doute à cause de l’affichage du bandeau publicitaire) ;les références aux « objets » internet, en particulier aux messageriesinstantanées (IRC, ICQ, chat…), aux loisirs (BD, musique), aux études(formation, école, bac) sont spécifiques de ces sites. Enfin, la moitié despages de Geocities est en anglais ou au moins bilingue : c’est donc ladifférence de langue que fait ressortir les calculs statistiques.

Les pages personnelles visitées relèvent donc globalement de tonalitésdifférentes selon leur serveur d’hébergement : le domaine, au sens de terroir,donne un style aux productions de ses habitants. Cela est à mettre en relationavec l’image que cherche à véhiculer l’hébergeur (campagnes de publicité,portail…), ainsi qu’avec l’offre d’hébergement proposée et avec la manièredont sont référencées dans les annuaires les pages en question.

27. Nous avons constitué un sous-échantillon aléatoire d’environ 4 000 pages que nous avonsexploitées avec différents outils de statistique textuelle (Lexico, Alceste), pour identifier lesspécificités lexico-sémantiques des pages personnelles visitées selon leur serveurd’hébergement.(Lexico www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ ; Alceste :http://www.image.cict.fr/Index_Alceste.htm).

40 Réseaux n° 116

Reprenons le cas de Free. Ce fournisseur axe son discours sur la gratuité etla liberté (son slogan publicitaire fut longtemps : « la liberté n’a pas deprix ») : ces thématiques reviennent dans les sites. Free propose à la fois unespace d’hébergement beaucoup plus important que les autres fournisseurset la possibilité d’installer des scripts sur les pages personnelles, ce qui tendà attirer des sites avec images et vidéos très consommatrices d’espace et dessites à contenu dynamique, pourvus d’une forte interactivité. Enfin, Freeaffiche dès le premier niveau de son annuaire de sites une rubrique« charme ». Il se constitue donc une sorte d’adéquation entre l’idéologieportée par le fournisseur d’accès et ce que mettent en scène les clients dansleur site. Cette adéquation se construit par le biais des collectifsd’utilisateurs qui, d’une part, tendent à ancrer leurs sites dans les mêmesespaces et, d’autre part, en s’échangeant les caractéristiques de chaque lieud’hébergement, peuvent déplacer ensemble leurs sites vers d’autres lieux depublication. Ainsi, les participants actifs du forum Wanadoo avaient touspublié leur site chez Wanadoo ; quelques années plus tard, une partie de cessites avaient migré chez d’autres hébergeurs comme Free. La notion deterritoire se constitue par la médiation des concepteurs de sites qui, enpartageant leurs commentaires sur les lieux de publication et en s’installantdans les lieux qui leur correspondent le mieux, contribuent à l’élaborationd’un caractère propre à chaque territoire, d’un « habitus social28 ».

Des pages aux profils contrastés

A quels types de documents sont confrontés les visiteurs de sites personnels,quels types de pages s’affichent dans leur navigateur29 ?

Les sciences cognitives distinguent la mémoire de la métamémoire celle-cirecouvrant l’ensemble des procédures pour retrouver l’information30. Dans uncontexte de mémoire extériorisée sur le support numérique, la métamémoire 28. Une enquête auprès des concepteurs de sites permettrait sans doute d’identifier desdifférences de profil selon les hébergeurs.29. Nous avons construit une typologie de pages en utilisant comme traits de description : lenombre de liens internes et externes, de liens vers la boîte aux lettres, le nombre d’images, lenombre d’occurrences de mots sur la page, le nombre de pronoms de chaque personne, laprésence d’une image en fond d’écran ou la définition d’une couleur de fond, la présenced’indications sur la police. Huit types de pages ont ainsi été identifiés. Les frontières entrecatégories sont particulièrement floues et chaque classe doit plutôt être interprétée en termesde modèle ou d’idéal type.30. Dan Sperber : www.dan.sperber.com/memoire.htm

Décrire la toile 41

correspond à toutes les ressources, services qui peuvent être mobilisés pouraccéder au contenu, les moteurs de recherche et annuaires étant les exemplesles plus significatifs. Cette distinction nous paraît également pertinente pourles pages personnelles : nous pouvons en effet identifier dans notre corpus uneligne de partage entre les pages à contenu et les pages qui facilitent lanavigation à l’intérieur du site. Dans l’ensemble de ces pages d’orientation(qui correspondent à 15 % des pages visitées), peuvent être distinguées : lespages de redirection qui pointent vers la nouvelle localisation du site (nousavons vu que cette pratique est loin d’être négligeable) ; les pages de menu quidonnent accès aux différentes rubriques du site (elles peuvent se présentercomme une page autonome ou être inscrites dans une page à contenu) ; lespages de listes qui regroupent des pointeurs vers d’autres pages du site. Ainsiune page d’un site de musique présente la liste des albums avec un lien verschaque album ou bien sur les sites pornographiques, les photo-vignettesprésentées sous forme de mosaïque renvoient à des photos en grande taille.

Dans une perspective d’analyse des contenus sur le web, il est utile depouvoir différencier ces pages de navigation des autres : elles se définissentdavantage par leur fonction que par leur contenu, il est donc peu pertinentd’en analyser le contenu.

Du côté des documents ou pages à contenu, nous observons une assez grandedifférenciation dans la forme des documents, qui traduit des degrésd’élaboration très différenciés : 44 % des documents visités peuvent êtreconsidérés comme des pages élaborées, parce qu’elles spécifient le cadre del’écriture hypertextuelle (présence de cadre, définition du fond de la page,choix de polices de caractère, de couleurs), elles présentent un ensemble deliens hypertextuels et articulent le texte et les images. A l’inverse, 28 % dedocuments présentent une syntaxe très simplifiée, avec peu de liens, peud’images, peu de spécifications sur la mise en forme : ceux-ci peuvent êtreinterprétés comme des brouillons peu travaillés. Cette distinction est liée àl’expertise et à l’engagement du concepteur dans l’animation de son site. Lesexperts exploitent toutes les possibilités de l’écriture hypertextuelle, lescontenus textuels y étant plus riches et la relation au visiteur souvent mise enscène. La figure ci-dessous donne un exemple de page très peu élaborée, à côtéd’une page qui s’apparente à un site professionnel : la première présente peude liens, peu d’images et un texte sans mise en forme particulière, la situationde la page dans le site n’est pas très claire. A l’inverse, la seconde pagepropose une organisation structurée pour l’accès aux documents et les liensentre texte, images et liens y sont fortement motivés.

42 Réseaux n° 116

Figure 3. Page de contenu rudimentaire d’un site personnel

Figure 4. Page de contenu sophistiquée d’un site personnel

Décrire la toile 43

Figure 5. Page d’accueil et page de liens d’un site personnel

44 Réseaux n° 116

Au sein des pages les plus élaborées (44 % des pages visitées), deuxpostures éditoriales peuvent être distinguées : sur certains documents, il y aune présence forte de l’émetteur et du récepteur (28 % des pages), la page secentre sur la relation en rendant présent le moi et en s’adressant directementau visiteur ; tandis que dans d’autres documents (16 % des pages), lespronoms sont absents et le discours est centré sur le thème de la page.Quand la relation émetteur-récepteur n’est pas mise en scène, il y a aucontraire une exploitation approfondie des propriétés de l’écriturehypertextuelle : le texte est moins bavard, mais il s’articule plus savammentaux images et aux autres documents du site (liens hypertextuels trèsdéveloppés).

Dans un même site, il est courant que la posture d’auteur change selon letype de page. Ainsi dans le site de la figure 5, la page d’accueil adopte unton impersonnel centré sur le thème, alors que dans la page de liens il y ades commentaires personnels, voire intimes, sur les sites recommandés :ainsi, en bas du document de liens, trouve-t-on une rubrique « ami(e)s ». Lavitrine du site garde une forme d’anonymat tandis que l’intérieur du siteoffre des espaces plus personnels.

La diversité des documents que l’on trouve sur la toile, du moins dansl’espace des pages personnelles, tient à plusieurs éléments. Le premierrelève des spécificités de l’écriture hypertextuelle, qui rend nécessaire laprésence de pages de navigation, le deuxième du degré d’expertise desconcepteurs de sites qui fabriquent des documents plus ou moins élaborés etle troisième aux choix de représentation de la relation au lecteur sur le site,lesquelles vont d’une posture anonyme, centrée sur le thème, à une mise enscène sophistiquée de la relation au visiteur, en passant par desreprésentations très narcissiques. Sur ce dernier point, ce qu’on observe surle réseau n’est pas fondamentalement différent de ce que montre lalittérature qui parcourt tout l’éventail : de l’objectivité du récit (absence deréférence au narrateur) jusqu’à la subjectivité du discours31 (présencemarquée du narrateur).

Maintenant que nous avons décrit le type de documents rencontrés par lesinternautes dans leurs visites de sites personnels, nous allons voir commentces derniers s’orientent dans l’espace de ces pages.

31. GENETTE, 1969, p. 61-69.

Décrire la toile 45

Le local prime sur le lointain

Dans les travaux consacrés à la fracture numérique, il est courant desouligner la domination des productions américaines, en particulier à traversl’utilisation de l’anglais32. Cette domination devient toute relative si l’on sesitue du côté des pratiques. Ainsi, dans l’ensemble des pages personnellesque nous avons visitées, 86 % des pages étaient en français, sans texte dansune autre langue étrangère. Les pages avec présence d’anglais ou d’autreslangues sont le plus souvent des pages bilingues, où en-dessous ou à côté dechaque proposition figure la traduction. Les internautes résidant en Franceconsultent majoritairement des contenus dans la langue du pays. Lespratiques de navigation et d’exploration échappent peu aux barrièreslinguistiques. Elles sont également ancrées dans des territoiresgéographiques : la majorité des pages personnelles visitées sont hébergéesen France, à l’exception de Geocities, serveur de pages personnellesaméricain. Même chez Geocities, la part des pages francophones visitées parnotre panel est particulièrement élevée au regard du serveur dans sonensemble où les productions anglaises doivent largement dominer. Cepropos est sans doute à nuancer si l’on met en regard les pratiques d’internetavec des pratiques plus traditionnelles. Dans la lecture sous forme papier(presse, livre…), la part des productions francophones n’est-elle pas en effetencore plus majoritaire que sur le réseau ? Internet offre de réellesouvertures vers les autres langues, opportunités qui sont en partie explorées.

Cette préférence pour la proximité se lit aussi dans la manière dont les sitessont visités. Les internautes marquent une très nette préférence pour ce quiest à portée de clic et s’ils naviguent de lien en lien, c’est rarement pourexplorer les sites dans leur profondeur et dans toutes leurs ramifications.Grâce à nos différentes campagnes d’aspiration, nous pouvons comparer lenombre moyen de pages visitées par site avec le nombre moyen de pagescomposant un site chez Wanadoo33. Alors qu’un site personnel Wanadoocomprend en moyenne 44 pages, le nombre moyen de pages visitées par siteest de 6. Des pans entiers des sites restent donc inexplorés et la navigationsur la toile s’apparente à un rapide survol. Les métaphores de la navigation,du surf traditionnellement utilisées pour décrire les usages du web rendentbien compte de pratiques qui, le plus souvent, restent à la surface de ces

32. DIMAGGIO et al., 2001.33. Nous avons en effet aspiré un corpus de sites Wanadoo dont au moins une page avait étévisitée en mars 2000 par notre cohorte.

46 Réseaux n° 116

sites personnels34. Nous pouvons supposer que dans ces parcours, les pagesd’accueil et les pages de liens jouent des rôles pivots, les premières commepoint d’entrée, les secondes comme portes de sortie.

Ancrage dans le territoire et exploration de surface, telles semblent être lescaractéristiques de la fréquentation des pages personnelles.

Tableau 5. Taux de pages visitées francophones selon les hébergeurs

Pages en français Taux de pages en français

www.multimania.com 12 413 90 %

perso.wanadoo.fr 10 986 93 %

free_fr 8 130 93 %

www.chez.com 6 219 90 %

www.geocities.com 2 996 48 %

perso.club-internet 2 869 92 %

ifrance.com 2 471 92 %

autres 3 406 82 %

Total 49 490 86 %

Le contenu et la forme des pages favorise-t-elle l’exploration des sites ?

Les 57 000 pages visitées proviennent de 13 685 sites différents. Le nombrede pages visitées par site est très variable, puisque, pour 43 % des sites,seule une page a été visitée, que, dans 33 % des sites de deux à quatre pagesl’ont été et dans 24 % des cas, plus de cinq pages35. Peut-on identifiercertaines spécificités propres à la page qui expliqueraient que la visiten’aille pas au-delà d’une page ? Nous avons retenu trois facteursd’explication : la langue utilisée dans la page, la structure des liens et lecaractère peu élaboré des pages.

34. Une comparaison avec d’autres catégories de sites permettra de voir si cette navigation desurface est propre aux sites personnels ou si elle est valable pour toutes les productions duweb.35. Pour 1 % des sites, plus de 34 pages ont été visitées, le maximum étant atteint pour un sitedont 284 pages ont été vues.

Décrire la toile 47

La langue employée dans la page semble avoir un effet surl’approfondissement de la visite du site. Quand les pages ne sont pas enfrançais (essentiellement en anglais), la visite tend en effet significativementà se limiter à une seule page. Les pages en langue étrangère représentent14 % de notre corpus global, elles sont deux fois plus nombreuses dans lessites dont une seule page a été visitée.

En ce qui concerne la structure des liens hypertextuels, les sites dont ungrand nombre de pages a été visité sont également ceux qui proposent leplus de liens internes par page. Autrement dit, plus la navigation est aisée,plus les internautes visitent de pages sur le site. Nous observons lephénomène inverse pour les liens externes qui pointent vers d’autres sites.Une structure dense de liens vers les rubriques internes du site favorisel’exploration en profondeur du site, ce qui est cohérent avec ce que nousavons observé sur les sites marchands. Inversement, les liens externesentraînent les visiteurs hors du site.

Figure 6. Nombre moyen de liens selon le nombre de pages visitées par site

0

2

4

6

8

10

12

1 page du sitevisitée

Deux à quatrepages visitées

Plus de 5pages vues

Liens internes

Liens externes

Clé de lecture : chaque point représente le nombre moyen de liens internes ou externes par page, en fonctiondu nombre de pages visitées par site.

Enfin, la part des pages peu élaborées est sensiblement plus élevée sur lessites dont une seule page a été visitée (33 % contre 28 % en moyenne). Lesinternautes, lors des entretiens qualitatifs, soulignent l’effet de répulsion

48 Réseaux n° 116

produit par ces « pages perso de base », sans contenu spécifique, au designpeu élaboré.

Nous avons montré que la structure et le contenu des pages étaientsensiblement différents selon le nombre de pages visitées par site. Nouspouvons donc poser que la nature des pages visitées a une incidence sur lamanière dont les sites sont explorés : en superficie ou en profondeur. Dansune perspective d’étude des parcours sur internet, il paraît opportund’intégrer les caractéristiques de ces écrits d’écran dans la compréhensionde la logique des parcours. L’appréciation de la qualité d’une page peutinfléchir un parcours thématique, même si la page en question s’inscrit biendans la logique de la recherche : évaluée comme une page personnelle peuélaborée, cette branche du parcours sera abandonnée.

CONCLUSION ET PERSPECTIVES

L’analyse des productions du web nous a conduits à mettre au point unechaîne de traitement des documents web, qui pourra être réexploitée dansd’autres contextes (pour d’autres types de sites et pages visités, pour desdocuments web liés à des intranets…), à montrer les traits de forme et destructure qui suffisent à distinguer les sites personnels des sites marchands ;à identifier les types de documents que les internautes rencontrent dans leursvisites de pages personnelles. Ainsi avons-nous montré comment les acteursmarchands et non marchands produisent des objets en cohérence avec leursprojets et comment acteurs et objets se structurent réciproquement.

La spécificité de notre approche tient au fait que nous posons un regard surla production du point de vue de la réception : nous étudions les documentsweb qui ont été visités. A l’articulation entre production et réception, lapage web joue un rôle central puisque de sa forme et de son contenudépendent sans doute la poursuite de l’exploration du site ou un retourarrière vers d’autres itinéraires. C’est pourquoi nous avons cherché à mettreen évidence la diversité des documents offerts aux lecteurs (langue, niveaud’expertise, place de l’auteur) pour souligner comment les caractéristiquesde ces documents peuvent jouer sur les parcours. Il ne s’agit pas àproprement parler de parcours, puisque nous considérons les pagespersonnelles visitées pendant un an par mille personnes, comme si lacohorte constituait un grand visiteur.

Décrire la toile 49

Nous avons passé sous silence la lourdeur des dispositifs techniques mis enplace pour aboutir aux résultats présentés et les innombrablesquestionnements qui ont accompagné ce travail. L’objet – les pages et lessites de la toile – est nouveau, leurs formes sont en transformation, et lesmodèles de référence changent au fil des innovations de la technique et dudesign. Les outils sont également à construire et à adapter en fonction desévolutions de l’objet.

Par-delà ces traits qui ont principalement à voir avec le design du site et lesmodes de navigation, il nous reste aussi à traiter la question des référents :comment rendre compte des contenus qui sont visités ? Plusieurs démarchessont testées en parallèle : l’exploitation des annuaires du web pour qualifierles documents36, l’analyse des contenus aspirés avec des outils d’analysesémantique comme Tropes, les traitements de statistique textuelle appliquésaux corpus textuels…, sans qu’il nous soit possible aujourd’hui de direquelle voie sera la plus efficace. Il y a fort à parier que c’est en combinantces différentes démarches que nous pourrons mieux décrire ce que lesinternautes lisent sur le web, autrement dit, donner un sens aux trois millionsde pages distinctes qu’une cohorte de 1 000 personnes a pu voir en 2000.

36. Voir BEAUVISAGE, ASSADI dans ce numéro.

REFERENCES

AMITAY E. (1999), “Anchors in context”, Words on the Web – Computer MediatedCommunication, Lynn Pemberton & Simon Shurville eds., Intellect Books, UK.

BEAUDOUIN V., FLEURY S., HABERT B., ILLOUZ G., LICOPPE C.,PASQUIER M. (2001), « TyPWeb : décrire la toile pour mieux comprendre lesparcours », CIUST’01 (Colloque International sur les Usages et les Services desTélécommunications -- e-Usages), Paris, ENST, p. 492-503.

BEAUDOUIN V. VELKOVSKA J. (1999), « Constitution d’un espace decommunication sur Internet (forums, pages personnelles, courrier électronique…) »,Réseaux, vol. 17, n° 97, p. 121-177.

BIBER D. (1995), Dimensions of register variation: a cross-linguistic comparison,Cambridge University Press, Cambridge.

DANET B. (2001), Cyberpl@y: Communicating Online, Oxford, Berg Publishers.

DILLON A., GUSHROWSKI B. (2000), “Genres and the Web: Is the personalhome page the first uniquely digital genre ?”, Journal of the American Society forInformation Science, 51, 2, p. 202-205.

DIMAGGIO P., HARGITTAI E., RUSSELL N.W., ROBINSON J.P. (2001),“Social Implications of the Internet”, Annual Review of Sociology, 27, p. 307-336.

FOLCH H., HEIDEN S., HABERT B., FLEURY S., LAFON P., NIOCHE J.,PRÉVOST S., ILLOUZ G. (2000), “TyPTex: Inductive typological textclassification analysis for NLP systems tuning/evaluation”, Second InternationalConference on Language Resources and Evaluation, p. 141-148, vol. 1, Athens(Greece), 31 May-2 June.

GENETTE G. (1969), Figures II, Paris, Le Seuil.

GENSOLLEN M. (1999), « La création de valeur sur Internet », Réseaux, vol. 17,n° 97, p. 15-76.

HABERT A., SALEM B., NAZARENKO A. (1997), Les linguistiques de corpus,Armand Colin-Masson, Paris.

ILLOUZ G., HABERT B., FLEURY S., HEIDEN S., LAFON P. (1999), « Maîtriserles déluges de données hétérogènes », in Condamines A., Fabre C., Pery-WoodleyM.-P., eds., « Corpus et traitement automatique des langues : pour une réflexionméthodologique », TALN’99, Cargèse, Corse, p. 37-46.

IVORY M.Y., HEARST M.A. (2002), Statistical Profiles of Highly-Rated WebSites. CHI 2002, Minneapolis, Minnesota, Etats-Unis.

Décrire la toile 51

KARLGREN J. (1999), “Stylistic experiments in information retrieval”, inStrzalkowski T., Natural language information retrieval, Dordrecht, Kluwer,p. 147-166.

LICOPPE C. (2000), « Commerce électronique, la question de la vente aux particulierssur internet (« Business to Consumers ») », Réseaux, vol. 18, n° 100, p. 359-384.

REHM G. (2002), “Toward Automatic Web Genre identification. A Corpus-BasedApproach in the Domain of Academia by Example of the Academic’s PersonalHomepage”, 35th Hawaii International Conference on System Sciences, Hawaii.