Nuove teorie della ricerca documentaria: un passo avanti e due indietro.

ALBERTO PETRUCCIANI

NUOVE TEORIE DELLA RICERCA DOCUMENTARIA:

UN PASSO AVANTI E DUE INDIETRO

Estratto dalla Rivista ACCADEMIE E BIBLIOTECHE D'ITALIA

Anno LI- N. 3 - 1983

R O M A F R A T E L L I P A L O M B I E D I T O R I

1 9 8 3

NUOVE TEORIE DELLA RICERCA DOCUMENTARIA:

UN PASSO AVANTI E DUE INDIETRO

UANDO diversi ricercatori, in maniera indipendente, iniziarono a d allestire esperimenti di valutazione quantitativa dei sistemi di ricerca documentaria (infonnation retrieval o, più specificamente, reference retrievat) e ad elaborare i modelli e le misure secondo i quali ef

fettuare i confronti, si potè credere che l'epoca delle discussioni e delle polemiche sulla superiorità dell'uno o dell'altro sistema (alfabetico o sistematico, diretto o indiretto, manuale o meccanico, ecc.) stesse per chiudersi. Si attendeva il responso non da un consenso difficile da ottenere ma dal neutro verdetto delle cifre .

Invece, dopo dieci anni fitti di esperimenti su grande e piccola scala e di polemiche sulle metodologie e i modeUi suggeriti, Jason Farradane chiudeva con una cruda diagnosi una delle tante rassegne dedicate al tema della valutazione dei sistemi di ricerca documentaria: «The present position is most unsatisfactory, and unpromising of further advance » . Gli anni trascorsi non hanno mutato questo giudizio, richiamato dal Robertson più per un auspicio che per una constatazione .

Anche gli esperimenti megho condotti, come quello svolto da Lancaster sul maggiore archivio di dati in campo biomedico, non hanno potuto fornire che valanghe di cifre nelle quali non era discernibile alcuna regolarità, e che non avevano quindi valore esplicativo né predittivo. Era semmai l'esame di casi singoli di grave inadempienza a fornire indicazioni concrete sulla base delle quali intervenire*. Ma gli esperimenti stessi, e le indagini e le polemi-

(1) C. W. CLEVEBDON, Evaluatìon tests of information retrieval systems, « Journal of documentation » 26 (1970), pp. 55-67. Cfr. tra gli altri D . R . SWANSOX, Searching naturai language text hy computer, «Science» 132 (1960), pp. 1099-1104; C. W. CLEVEBDON, Report on the testing and analysis of an ìnvestigatìon ìnto the comparative efficiency of indexìng systems, Cranfleld, College of Aeronautics, 1962; J . A. SWETS, Information retrieval systems, « Science » 141 (1963), pp. 245-50.

(2) J . FAHHADANE, The evaluatìon of information retrieval systems, « Journal of documentation » 30 (1974), pp. 195-209.

(3) S. E . ROBERTSON, Theories and models in information retrieval, «Journal of documentation» 33 (1977), pp. 126-48.

(4) F . W. LANCASTEB, Evaluatìon of the Medlars demand search service, Bethesda, National Library of Medicine, 1968; ID., Medlars: Report on the evaluatìon of ìts operat-ìng efficiency, « .4merican documentation » 20 (1969), pp. 119-42.

— 222 —

A C C A D E M I E E B I B L I O T E C H E D ' I T A L I A - Anno L I (34° n. s.) n. 3

che che h hanno accompagnati, hanno costituito il terreno per una riconsiderazione, che si voleva libera da pregiudizi e da assunzioni non esplicite, delle problematiche della indicizzazione, sia tramite le tradizionali classificazioni bibliografiche e voci di soggetto, sia tramite sistemi post-coordinati basati su parole chiave o su tesauri. Proprio su questo terreno si sono sviluppate le teorie probabiliste e/o utilitaristiche che oggi si propongono esphcitamente come quadro di riferimento alternativo alle concezioni tradizionali.

Nella concezione tradizionale l'indicizzazione consiste nella individuazione corretta dell'argomento (termine volutamente lasciato indefinito) del documento e nella sua espressione tramite un linguaggio controllato e inequivoco, per esempio quello di un soggettarlo. Questo secondo momento è stato largamente esplorato (intestazione diretta contro suddivisione, ordine naturale contro inversione, ecc.); il primo invece è stato quasi sempre messo da parte, o affidato a una comprensione intuitiva. Ogni documento tratta, di per sé e oggettivamente, al di fuori di ogni riferimento a degli usi e a degli utenti, di un particolare argomento? La sua pertinenza è un dato oggettivo, e in questo caso con quali alchimie la si individua, e come la si verifica?

Nel primo esperimento condotto a Cranfield una piccola collezione di documenti venne indicizzata secondo differenti sistemi; si generarono poi, prendendo spunto da alcuni dei documenti, alcune richieste, verificando se esse conducessero, in ciascuno degli indici, al reperimento del documento usato come fonte e di altri attinenti. Si voleva misurare, in particolare, quanti dei documenti obiettivamente pertinenti a una richiesta fossero reperiti (fattore di richiamo o recali), e quanti dei documenti reperiti fossero effettivamente pertinenti (fattore di pertinenza o, megho, di precisione). A questo fine un gruppo di esperti, dopo uno screening preliminare, doveva esaminare quali documenti fossero effettivamente pertinenti a quaH richieste, ossia fornire gli elementi sulla base dei quali calcolare i due fattori. Ma questi risultati avevano valore anche per una situazione di ricerca reale, in cui la richiesta è l'espressione di un bisogno di informazioni non simulato, e l'utente stesso è giudice della risposta?

Altre indagini mostrarono che questo interrogativo non era ingiustificato: il giudizio di pertinenza è estremamente variabile anche quando è pronunciato da terzi, che non hanno particolari motivazioni o specifici interessi®. Rifacendosi al consenso degli esperti si finiva per valutare soltanto fino a che punto — errore umano a parte — la definizione operativa di pertinenza assunta dal sistema (p. es. con la scelta di una profondità di indicizzazione) coincideva con i metri impliciti di osservatori distaccati.

La principale obiezione mossa agli esperimenti condotti dalla équipe di

(5) C. A. CuADHA, R . V. KATTER, Opening the black box of " relevance ", « Journal of documentation» 2 3 (1967), pp. 291-303. Cfr. anche T . SAKACEVIC, Relevance: a review of the literature and a framework fot thinking on the notion in information science, « Ad-vances in librarianship » 6 (1976), pp. 79-138.

— 223 —


Cleverdon era di metodo, ma conduceva ad una riconsiderazione complessiva del modello di ricerca documentaria che essi sottendevano. La situazione sperimentale era artificiale, e non vi era alcuna garanzia che corrispondesse alle realtà della ricerca bibliografica. Si assumeva che esistesse ima relazione di pertinenza accertabile tra richieste e documenti, sulla quale sarebbe dovuto convergere il giudizio degli esperti. Mancava qualsiasi convalida di questa assunzione cruciale, e anzi i dati stessi mostravano che lo screening preliminare dei documenti che sembravano indubbiamente non pertinenti aveva portato a risultati largamente contraddetti dai successivi esami . L'« errore della delega» (fallacy of delegation), additato da Swanson, consisteva nel non riconoscere che il giudizio dell'interessato diverge da quelli di terzi, e che è il primo che un sistema di ricerca bibliografica deve soddisfare.

Si metteva così in dubbio il concetto stesso di pertinenza, suggerendo un concetto più comprensivo di utilità, per il quale non si cercavano referenti diversi dal soggettivo giudizio del ricercatore interessato, in quanto autore della richiesta.

La medesima revoca della fiducia in una pertinenza oggettiva era alla base delle prime applicazioni di concetti probabilistici alla ricerca documentaria. Nell'incapacità di asserire con certezza la pertinenza di un documento al bisogno di informazioni di un utente, si cercava piuttosto di stimarne la probabilità'. Queste ricerche nascevano in un periodo di vivace sperimentazione di applicazioni del calcolo automatico a problemi di natura linguistica, e in primo luogo alla traduzione meccanica. Alla indicizzazione e alla classificazione automatiche non si adattava il modello tradizionale, basato sull'esame del contenuto del documento da parte di un essere umano che ne conosceva la lingua e i concetti: l'elaboratore poteva prendere in considerazione solo sequenze di segni fisicamente distinti, sottoponendole a lunghe e complesse operazioni per isolarne delle componenti e/o per stabilire misure di associazione fra esse. E ' chiaro che i risultati potevano essere valutati soltanto a posteriori, perché tutte le garanzie interne dell'indicizzazione (principi, canoni, convenzioni, ecc.) richiedono una comprensione del significato dei segni.

E ' in questo contesto che si sono sviluppate le teorie probabiUstiche e utilitaristiche (nel senso della teoria matematica delle utilità) dell'indicizza-

(6) Nel secondo esperimento di Cranfleld, secondo Swanson, questo giudizio preliminare aveva condotto ad escludere erroneamente ben il 9 2 % dei documenti pertinenti. Cfr. D. R . SWANSON, The evidence underlying the Cranfield results, « Library quarterly » 35 (1965), pp. 1-20, e Information retrieval as a trial-and-error process, ivi 4 7 (1977), pp. 128-48.

(7) Su alcuni aspetti metodologici dell'applicazione di concetti probabilistici cfr. Y . B A R - H I L L E L , Theoretìcal aspects of the mechanization of literature searching (1962), in Language and information, Reading (Mass.), Addison-Wesley, 1964, pp. 330-64; S. E . ROBERTSON, The probabilistic character of relevance, « Information processing and management » 13 (1977), pp. 247-51; S. E . ROBERTSON, N . J . B E L K I N , Ranking in principle, « Journal of documentation » 34 (1978), pp. 93-100; A. BOOKSTEIN, Relevance, « Journal of the American Society for Information Science» 30 (1979), pp. 269-73.

— 224 —


zione e della ricerca documentaria. VV. S. Cooper e M. E . Maron, gli autori del « manifesto » teorico di queste concezioni ®, sono stati tra i primi, con Swanson, Salton e qualche altro, a sperimentare sistemi di indicizzazione automatica e di elaborazione automatica di informazioni. Le sedi principali in cui essi, e studiosi mossisi in prospettive analoghe, hanno condotto le loro ricerche sono state prima l'industria privata, poi la Graduate Library School di Chicago (in cui insegnano ora Swanson e Bookstein) e la School of Library and Information Studies di Berkeley (dove insegnano Cooper, Maron e Patrick Wilson)^. , , .

Il primo modello suggerito da Cooper per la valutazione dell'efficacia della ricerca documentaria aveva già carattere probabifistico. La ricerca in un archivio ordinato veniva contrapposta a quella casuale (sequenziale o per estrazione) sulla base della durata media dell'esame da compiere (su schede o elenchi, o sui documenti stessi) per isolare quelli desiderati (comunque e in qualsiasi momento individuati) Se non possiamo prevedere in che posizione si trovi ciò che cerchiamo, dovremo esaminare in media una metà dell'archivio; ogni ordinamento utile ci permette di ridurre la quantità di segnalazioni o documenti irrilevanti da esaminare, fino a zero quando possiamo individuare esattamente quelli desiderati. Questo modello può essere reso piri ricco se attribuiamo utihtà positive differenti ai documenti di interesse: il reperimento di ciascuno di essi potrà equivalere, per esempio, a diverse quantità di tempo speso nella ricerca e nella selezione. Secondo queste linee possiamo valutare l'efficacia di una singola ricerca e quindi, tramite un campione, stimare quella di un intero sistema o servizio, di un catalogo bibliotecario, di un bollettino bibliografico o di una base di dati

Resta da rispondere alla domanda su come svolgere l'indicizzazione al fine di conseguire la massima utilità. Sembra che non ci interessi più individuare, in un modo o nell'altro, di cosa il documento tratti: infatti tra la sua circalità (aboutness) e la sua utilità per i diversi utenti potrebbero esservi delle relazioni, ma esse ci sfuggono. Si tratta allora di stimare quale utilità

(8) W. S. COOPER, M . E . MARON, Foundations of probabilistic and utility-theoretìc indexìng, «Journal of tiie Association for Computing Machinery » 2 5 (1978), pp. 67-80.

(9) W. S. COOPER, Fact retrieval and deductive questìon-answering systems, « Journal of the Association for Computing Machinery» 11 (1964), pp. 117-37; In., Automatic fact retrieval, « Science journal » 1 (1965), pp. 81-86; M. E . MARON, J . L . KUHNS, On relevance, probabilistic indexing and information retrìevcd, « Journal of the Association for Computing Machinery» 7 (1960), pp. 216-44; M. E . MARON, Automatic indexing: an experimental inquiry, ivi 8 (1961), pp. 404-17. Cfr. anche A. BOOKSTEIN, D . R. SWANSON, Probabilistic models of indexing, « Journal of the American Society for Information Science » 25 (1974), pp. 312-19, e In., A decision theoretic foundation for indexing, ivi 26 (1975), pp. 45-50.

(10) W. S. COOPER, Expected search length: a single measure of retrieval effecti-veness..., «American documentation» 19 (1968), pp. 30-41.

(11) W. S. COOPER, On selecting a measure of retrieval effectiveness, «Journal of the American Society for Information Science» 24 (1973), pp. 87-100 e 413-24. Cfr. anche gh interventi di Robertson e di Soergel e le repliche di Cooper, ivi 2 5 (1974), pp. 208-09, e 27 (1976), pp. 256-59 e 263.

— 225 —


il documento avrebbe per gli autori delle diverse richieste possibiU; certo questa sembra una base anche più fragile e insicura di quella tradizionale, ma Cooper ha suggerito ausilii ingegnosi, anche se difficilmente praticabili, per la formulazione delle necessarie congetture

E ' dal problema dell'indicizzazione, piuttosto che da quello della valutazione, che è partito Maron: c'è un «rumore semantico» nella comunicazione, il termine di indice e il termine di richiesta non esprimono completamente e senza ambiguità il contenuto del documento e il bisogno, e quindi quando i termini coincidono c'è soltanto una probabilità, per quanto elevata, che il primo soddisfi il secondo Come decidere, allora, se attribuire un certo indice a un certo documento? Bisogna stimare la probabilità che un utente interessato a quel documento ponga la sua richiesta tramite quel termine, oppure, inversamente, la probabilità che un utente che esprime il suo bisogno con quel termine sia soddisfatto da quel documento

Per adottare questo modello, però, bisogna accettare come dati i due veicoli della mediazione bibliografica: da un lato il Unguaggio di indicizzazione, cioè tutte le voci di indice semplici o complesse che si possono formulare, e dall'altro le richieste degli utenti, cosi come vengono espresse inizialmente. A queste condizioni la soluzione del problema, sul piano teorico, è relativamente banale: anche se le accettiamo i risultati conseguibili sarebbero insoddisfacenti, perché le abitudini di ricerca degli utenti sono notoriamente contraddittorie e lo sviluppo delle conoscenze rende obsoleti o insufficienti i linguaggi di indicizzazione. Un caso semphcissimo è quello di concetti diversi espressi con un medesimo termine: « società » nella sociologia e nel diritto, « valore » in filosofia e in economia, ecc. Il lettore, verosimilmente, non pensa a formulare la sua richiesta in forma differenziata, e quindi la nostra strategia probabilistica «ottimale» dovrebbe consistere nel frammischiare le registrazioni scontentando, nelle più rigorose proporzioni, i due gruppi di utenti.

L'utente è accettato come pietrificato nelle proprie abitudini, senza prevedere un possibile affinamento di strategie o apprendimento di convenzioni. Sull'altro versante, il momento dell'elaborazione di un linguaggio di indicizzazione è rigidamente separato da quello della sua applicazione, che deve invece costituire una continua verifica. Il problema della ricerca mediata da strumenti bibliografici e catalografici non ammette soluzioni soddisfacenti al di fuori di una interazione che chiarifichi da un lato i bisogni e gli interessi dell'utente e dall'altro la struttura e le convenzioni espressive dell'organizzazione indicale: «if we seek to optimize both parts — ha chiarito Robert-

(12) W. S. COOPER, Indexing documents by gedanken experimentation, ivi 29 (1978), pp. 107-19. Cfr. anche le critiche di Wilson e la replica dell'autore, ivi 30 (1979), pp. 169-72.

(13) M . E . MARON, J . L . KUHNS, art. cit., pp. 218-19. (14) M . E . MARON, On indexing, retrieval and the meaning of about, « Journal of the

American Society for Information Science » 28 (1977), pp. 38-43.

— 226 —


son — then we cannot start taking either for granted; but that takes the grounds from under the feet of both theories »

Partite dalle medesime assunzioni, la teoria probabilista e quella utih-tarista si sono mostrate compatibili; più precisamente, la teoria probabilista poteva essere considerata nel quadro dell'altra come modello semplificato, nel quale non si teneva conto dei valori quantitativi dell'utilità, ma soltanto del suo segno (positivo o negativo) Esse sono venute così a costituire un quadro teorico imificato con il quale bisogna fare i conti.

Queste teorie non sono state le prime a mettere in dubbio la considerazione tradizionale del problema della ricerca documentaria come problema di separazione delle raccolte nei due sottoinsiemi dei documenti pertinenti e di quelli non pertinenti. Fairthome, sulla base di considerazioni sia teoriche che pratiche, aveva negato che i sistemi di ricerca potessero individuare tutti

e solo i documenti pertinenti, dovendosi limitare di fatto al reperimento di tutti ma non solo i pertinenti o di solo ma non tutti i pertinenti L'obiezione era epistemologica piuttosto che ontologica: non era esclusa l'esistenza di una mappa ideale di pertinenze oggettive, di sapore platonico, ma soltanto la possibilità, da parte dell'indicizzatore o del sistema (e perché no, aggiungiamo, da parte dell'esperto stesso o del ricercatore), di eliminare ogni residuo di ignoranza e di semplificazione. « To take an extreme case — scriveva Fairthorne —, no indexing or request language — with one exception — can describe any subset of items in the coUection » L'eccezione è il linguaggio della catalogazione descrittiva (per autore, per titolo, ecc.), che consente di enumerare qualsiasi gruppo di documenti; se non ricorriamo a questo genere di dati non disponiamo di una ricchezza concettuale bastante a definire, per ogni raggruppamento possibile (che un utente potrebbe richiedere), condizioni necessarie e sufficienti di appartenenza.

L'attribuzione di indici è una trasformazione da molti a uno, nella quale cioè a più documenti non identici può corrispondere un medesimo indice (con l'aggiimta, ovviamente, di dati di individuazione). Si tratta quindi sempre di una semplificazione: proprio per questo, d'altronde, vi ricorriamo. Non ci sono oggi garanzie obiettive per questa semphficazione, e non mancano convincenti argomentazioni che ne escludono anche la possibilità. Le ricerche logiche, semantiche ed epistemologiche sui concetti di informazione seman

tica, di circalità e di pertinenza non hanno potuto fornire indicazioni valide per sistemi « aperti », che non presuppongano un inventario esaustivo della

(15) S. E . ROBERTSON, Theories and models in information retrieval, cit., p. 145. (16) W . S. COOPER, M . E . MARON, art. cit., p. 80. Cfr. anche M . E . MARON, Depth

of indexing, « Journal of the American Society for Information Science » 30 (1979), pp. 224-28.

(17) R . A. FAIRTHORNE, Delegation of classification (1958), in Towards information retrieval, London, Butterworths, 1961, pp. 124-34.

(18) R . A. FAIRTHORNE, Some basic comments on retrieval testing, « Journal of documentation » 21 (1965), pp. 267-70.

— 227 —

A C C A D E M I E E B I B L I O T E C H E D* I T A L I A - Anno L I (34° n. s.) n. 3

realtà e delle nostre risorse espressive Il fatto che queste condizioni non siano soddisfatte non costituisce semplicemente un limite pratico; esse travisano completamente la natura della ricerca scientifica, tesa proprio a mutare la nostra comprensione della realtà e ad arricchire il patrimonio concettuale mediante il quale la conosciamo e operiamo in essa. **. Insufficienti, al di fuori di situazioni marginali, sono anche i tentativi ricorrenti di catturare la relazione di circalità tramite quella di deducibilità Anche quando si cerca di tener conto della dipendenza dallo stato informativo del ricercatore, si finisce sempre per concepire il sapere come sistema chiuso e omogeneo, in cui tutti i nessi hanno carattere deduttivo e sono già stabiliti (anche se non riconosciuti)

Certo al bibliotecario che svolge il suo lavoro può sembrare di disporre di un insieme di garanziie, ma esse hanno carattere sostanzialmente normativo. Ci si orienta secondo principi, ci si adegua a regole definite, si insegue la coerenza delle scelte e delle formulazioni; a un livello più profondo ci si affida, solitamente senza esplicitarla, a una concezione della pertinenza confinata ad argomenti e discorsi riconosciuti, istituzionalizzati (i topica della terminologia inglese). Ma certamente questa non è, per il ricercatore, l'unica prospettiva di interesse, né nell'ambito delle scienze naturali e della tecnica né, a maggior ragione, in quello delle scienze sociali e delle discipline umanistiche. Se ammettiamo almeno in via di ipotesi che i documenti citati in un saggio o in una monografia costituiscano un insieme che l'autore ha giudicato pertinente (o almeno vi appartengano), ci accorgiamo di come possa essere ampio il ventaglio delle prospettive di interesse. Sono già stati suggeriti concetti che ne abbracciano alcune (punto di vista, metodologia, modelli, applicazioni, ecc.), e si è tentato di utilizzarle quali chiavi di ricerca sia integrandole in una struttura sintagmatica ricorrente sia segnalandole auto-

(19) R. CARNAP, Y . B A R - H I L L E L , An outlìne of a theory of semantic information (1952), in Y . B.-H. , op. cit., pp. 221-74; J . KEMENY, A logicai measure function, « Journal of symbolic logie » 18 (1953), pp. 289-308; D. M. MACKAY, Complementary measures of scientific information-content, « Methodos » 7 (1955), pp. 63-90; P. OPPENHEIM, Dimen-sions of knowledge, « Revue Internationale de philosophie » 11 (1957), pp. 151-91; H . PuTNAM, Formalization of the concepì " ahout ", « Philosophy of science » 25 (1958), pp. 125-30.

(20) J . HiNTiKKA, Logic, language-games and information, Oxford, Clarendon Press, 1973, capp. VII e X (tr. it., Milano, I l saggiatore, 1975).

(21) N. GOODMAN, Ahout, « Mind » 70 (1961), pp. 1-24; W. S. COOPER, A definition of relevance for information retrieval, « Information Storage and retrieval » 7 (1971), pp. 19-37; N. A. STOKOLOVA, Elements of a semantic theory of information retrieval. I: The concepts of relevance and information language, « Information processing and management » 13 (1977), pp. 227-34.

(22) P. WILSON, Situational relevance, « Infonnation Storage and retrieval » 9 (1973), pp. 457-71, e cfr. T . H . NELSON, Getting it out of our system, in: Information retrieval. A criticai view, a c. d i G. Schecter, Washington, Thompson, 1967, pp. 191-210, e N. J . B E L K I N , S. E . ROBERTSON, Information science and the phenomenon of information, « Journal of the American Society for Information Science » 2 7 (1976), pp. 197-204.

(23) Cfr. R.-C. CROS, J . - C . GARDIN, F . LÉVY, L'automatisation des recherches docu-mentaires. Un modèle general: le Syntol, Paris, Gauthier-Villars, 1964; D. AUSTIN, Precis. A manual of concepì andysis and subject indexing, London, British National Bibliography, 1974.

— 228 —


nomamente in indici idealmente separati^. Questa estensione dei criteri di selezione riconosciuti arricchisce le potenzialità informative di uno strumento bibhografico o catalografico ma non elimina una condizione fondamentale di indeterminazione del bersaglio della ricerca.

Il processo della ricerca documentaria è ima esplorazione idealmente non interrotta in cui ogni tappa parziale o compiuta (cioè limitata all'esame di segnalazioni bibliografiche o spinta alla lettura dei testi stessi) porta a un chiarimento del proprio bisogno e quindi delle proprie richieste. Né al termine del suo studio né, a fortiori, nelle fasi di indagine, il ricercatore può giudicare definitivamente la pertinenza dei documenti con cui entra in contatto: ogni documento nuovo può istituire dei nessi che portano alla riconsiderazione di quelli già noti. Il giudizio di pertinenza si rivela congetturale quanto la formulazione della richiesta: questa è il tentativo fallibile di anticipare quali caratteristiche avranno i documenti che si riveleranno utili, quella è il risultato di una altrettanto fallibile valutazione del contributo che i documenti reperiti possono dare allo sviluppo delle proprie ricerche. In questo senso la pertinenza si può dire, almeno originariamente, creata, e in seguito ricreata quanto riconosciuta^®.

Il giudizio di pertinenza ci appare così come una componente fondamentale della ricerca stessa, come sua retroazione permanente e non definitiva, invece che come dato supplementare che interessa soltanto la metodologia della valutazione di efiìcacia dei sistemi soltanto la metodologia della valutazione di efficacia dei sistemi di ricerca documentaria. Questa è stata elaborata in massima parte nel contesto di sistemi basati sulla elaborazione automatica a lotti, o comunque operanti in maniera non interattiva, nei quali la formulazione della richiesta era separata di parecchie ore o giorni dall'esame dei risultati. Nei convenzionali strumenti di ricerca bibliografica a stampa o a schede, come nell'interrogazione di basi di dati in linea, vi è invece una dinamica continua di aggiustamento, di correzione e di valutazione almeno implicita dei costi e dei benefici delle fasi successive. Purtroppo gli strumenti del primo tipo rendono difficile controllare e seguire, come in un monitor,

questo processo; ciò è realizzabile almeno in parte negli altri, ma su questo punto le ricerche sono ancora agli inizi

Se questa impostazione è corretta, commisurare la ricerca su un opaco giudizio di utihtà complessiva è futile quanto valutarne la distanza da una

(24) D. F . SwiFT, V . A. WiNN, D. A. BRAMER, A multi-modal approach to indexing and classification, « International classification » 4 (1977), pp. 90-94; Io., " Aboutness " as a strategy for retrieval in the social sciences, « Aslib proceedings » 30 (1978), pp. 182-87.

(25) D. R. SWANSON, Information retrieval as a trial-and-error process, cit., in part. p. 139; ID., Libraries and the growth of knowledge, « Library quarterly » 49 (1979), pp. 3-25.

(26) R . S. TAYLOR, Question-negotiatìon and information seeking in libraries, « College and research libraries » 2 9 (1968), pp. 178-94; E . D. BARRACLOUGH, On-line searching in information retrieval, « Journal of documentation » 33 (1977), pp. 220-38; P. INGWERSEN, Search procedures in the librarymanàlysed from the cognitive point of view, ivi 3 8 (1982), pp. 165-91.

— 229 —


risposta obiettiva ideale, il presunto sottoinsieme dei documenti pertinenti, che può non rispondere ai bisogni di alcun utente.

Il concetto di utilità che ci si propone di sostituire a quello di pertinenza è altrettanto statico e ancor meno esphcabile. Questi due limiti sono interdipendenti: possiamo spiegare la pertinenza soltanto nella interazione fra utente e sistema, e questa soltanto in funzione di quella. E ' vero che le ragioni per le quali l'utente giudica utile o disutile un documento possono essere le più diverse, che documenti obiettivamente rispondenti ai requisiti espressi nella richiesta possono non interessare (anche semplicemente perché già noti) e che documenti obiettivamente da escludere possono rivelarsi preziosi (il fenomeno della seredipity). Ma questo significa semplicemente che oggi non siamo in grado di istituire alcuna connessione definita tra metodi di indicizzazione e risultati conseguiti in ogni singolo caso. Lo mostra anche un paradosso: i documenti di cui l'utente ignora l'esistenza, perché non compaiono nella risposta, non possono avere utilità né positiva né negativa, eppure sono presi abitualmente in considerazione in misure come il fattore di richiamo Dal punto di vista utilitaristico è irrilevante che un documento non figuri nella risposta perché non acquisito o perché erroneamente indicizzato: all'utente potrebbe risultarne perfino un vantaggio. Ma la soluzione del paradosso non è quella che Cooper suggerisce: la valutazione complessiva di utilità non permette di isolare le prestazioni del sistema da fattori estranei e certamente incontrollabili. Si può pensare che una deficienza di indicizzazione o di linguaggio documentario debba emergere prima o poi anche in termini complessivi, ma la variabilità delle situazioni di ricerca è così ampia che il mutamento di un singolo fattore, anche in rilevazioni più analitiche quali quelle tradizionali, non produce quasi mai, in campioni praticabili, effetti significativi (in senso anche statistico) . ., .. .

Né la valutazione complessiva dell'utiUtà soggettivamente percepita né la verifica obiettiva della rispondenza ai requisiti posti nella richiesta ci forniscono da sole elementi sufficienti per comprendere la situazione di ricerca. E ' proprio questa doppia prospettiva a spiegare l'interazione fra utente e sistema, che altrimenti potrebbero procedere soltanto a tentoni. E ' un modello di questo tipo, per tentativi ed errori, che è stato suggerito da Swanson, anch'egli orientato, nel quadro di indipendenti e sempre interessanti ricerche, verso la sostituzione del concetto di utilità a quello di pertinenza. Però simili modelli, proprio nel campo in cui sono stati sviluppati, quello della

(27) W . S. COOPER, The paradoxical role of unexamined documents in the evaluatìon of retrieval effectiveness, « Information processing and management » 12 (1976), pp. 367-75.

(28) R. FuGMANN, On the role of subfectivity in establishing, using, operating and evaluating information retrieval systems, « Information Storage and retrieval » 9 (1973), pp. 353-72.

— 230 —


psicologia dell'apprendimento, sono oggi riconosciuti come parziali: i tentativi procedono secondo logiche, riflesse o semplicemente operative

Per usufruire degli strumenti e dei servizi bibliografici il ricercatore deve anticipare, almeno provvisoriamente, dei requisiti di selezione; poiché di solito l'offerta è predisposta (ossia i documenti sono analizzati e indicizzati in un momento antecedente alla richiesta), questi requisiti devono essere convertibili nel linguaggio di indicizzazione e di ricerca accettato. L'esecuzione della ricerca delegata può mirare soltanto ad una fedele osservanza dei requisiti espressi nella richiesta, anche se essi, come spesso accade, non traducono nella maniera mighore il sottostante, inespresso bisogno.

Questo ciclo di richiesta, esecuzione delegata e risposta è soltanto un momento della ricerca complessiva: proprio verificando che la selezione è stata (approssimativamente) corretta ma che la risposta non soddisfa (sufficientemente) il bisogno l'utente scopre in che misura e sotto quali rispetti la formulazione della richiesta è stata inadeguata. Questo carattere aperto della ricerca documentaria appare anche più chiaro quando la consideriamo quale momento ineludibile e componente intrinseca della ricerca tout court, dello studio specializzato, dell'informazione. Il lavoro di chiarificazione che permette un uso il più efficace possibile degli strumenti e dei servizi documentari non è che una parte del lavoro di chiarificazione a contatto con i testi stessi, nella sperimentazione, nella riflessione e nell'elaborazione originale. Quello è ineliminabile quanto questo, anche se può esser liberato da pastoie estrinseche e agevolato da metodi più razionali e più efficienti.

L'efficacia di ogni ricerca documentaria dipende in maniera cruciale dal chiarimento dei suoi bersagli. La spiegazione tradizionale in termini di «pertinenza a un argomento » si è dimostrata insufficiente, ma possiamo superarla soltanto elaborando spiegazioni più potenti e, verosimilmente, più complesse. Accettare di chiudere l'interazione fra utenti e sistema in una « scatola nera » significa precludersi l'analisi di quei fenomeni di individuazione, classificazione e categorizzazione del sapere e del discorso che costituiscono lo specifico oggetto di studio di una teoria dell'organizzazione e della ricerca documentaria che aspiri alla scientificità. Dobbiamo, al contrario, approfondire l'analisi dei criteri di caratterizzazione e di selezione di cui gli utenti fanno uso, nella ricerca documentaria come nell'esame della letteratura e nelle comunicazioni informali, cercare di renderli espliciti e di precisarli in condizioni suscettibili di verifica il più possibile obiettiva, perché possano essere utilizzati efficacemente come attributi indicali e come prescrizioni di ricerca. E ' possibile, certo, che alcuni di essi coinvolgano valutazioni qualitative difficilmente delegabili, o che possono essere considerate estranee alle competenze della mediazione bibliografica. Qtteto dubbio indica forse il limite, mobile, della ricerca. Già oggi, comunque, i diversi sistemi e linguaggi di indicizza-

(29) Cfr. J. PIAGET, Le scienze dell'uomo, Roma-Bari, Laterza, 1973.

— 231 —


zione si mostrano differentemente eflBcaci nel soddisfare diversi requisiti; le ricerche sulla compatibilità tra linguaggi di indicizzazione, ora in pieno sviluppo, fanno intravedere la possibilità di allentare i vincoli tecnici ed economici alla estensione del ventaglio di scelte offerte*.

La teoria della organizzazione e della ricerca documentaria sta forse ancora attraversando la fase della ricerca di una panacea, di una soluzione universalmente efficace che prescinda dalla comprensione analitica delle diverse situazioni di ricerca. L'ipotizzare una soluzione unica conferisce attrattive di semphcità e di generalità ai modelli proposti, ma esse si scontano con l'inapplicabilità nella progettazione e definizione concreta degli strumenti e dei metodi. La mistica della « soddisfazione dei bisogni degli utenti », senza che prima si accerti di quali bisogni si tratta e li si espliciti, può affascinare ma non convince.

Per divenire « scienze dell'artificiale » le attività sviluppatesi in funzione di un servizio devono riuscire a spiegare in termini obiettivi, pubblici,

il nesso tra le operazioni svolte e i risultati conseguiti. Solo questo chiarimento rende possibili la riflessione critica, la convalida della ricerca e l'insegnamento.

I fenomeni sottostanti alla ricerca documentaria sono probabilmente molto complessi e differenziati: lo mostrano anche gli inviti a rinunciare alle spiegazioni tradizionalmente proposte perché insufficienti. Il lavoro dell'analisi è ancora ai suoi primi passi. Non possiamo anticipare dove ci condurrà, ma possiamo almeno esprimere la non ingiustificata congettura che esso porterà verso soluzioni che potranno essere tanto più « immediate » per l'utente e flessibili quanto più saranno basate su una comprensione profonda dei processi sottostanti .

ALBERTO PETRUCCIANI

(30) Questo tema traspare, per esempio, in molti dei contributi presentati alla quarta International Study Conference on Classification Research, tenuta a Augsburg nell'estate 1982. Cfr. Universal classification. Subject analysis and ordering systems, a cura di I. Dahlberg, Frankfurt a.M., Indeks Verlag, 1982.

(31) H. A. SIMON, The sciences of the artificial, Cambridge (Mass.), MIT Press, 1969 (tr. it. Milano, Isedi, 1973).

(32) Importante, da questo punto di vista, è l'esperienza del PRECIS: l'utente non è tenuto a conoscere le diverse categorie di operatori e il loro uso né le ricerche su strutture grammaticali profonde che Austin ha avuto presenti. La comprensione immediata delle stringhe di indice, anche in lingue diverse dall'inglese, è però il frutto proprio della chiarificazione concettuale operata nella loro costruzione.

— 232 —

Nuove teorie della ricerca documentaria: un passo avanti e due indietro.

Documents

Transcript of Nuove teorie della ricerca documentaria: un passo avanti e due indietro.