Adaptive information retrieval system applied to digital libraries

9
Sistema de Recuperação de Informações Adaptativo Aplicado a Bibliotecas Digitais * * O presente trabalho foi realizado com o apoio do CNPq (Proc. No 506789/2004-7). Roberto Willrich 1 , Rafael de Moura Speroni 2 , Christopher Viana Lima 1 , André Luiz de Oliveira Diaz 1 , Sérgio Murilo Penedo 1 1 Departamento de Informática e Estatística/UFSC 2 PPGEGC/UFSC Florianópolis, Brasil {willrich, speroni, cviana, aldiaz, penedo}@inf.ufsc.br ABSTRACT Digital libraries generally offer an efficient information retrieval (IR) thanks to the use of the metadata approach to the indexation of its collection. However, when the amount of the collection is large, a traditional IR is not efficient. This paper proposes an adaptive IR system applied to Digital Libraries. In this system, the user profile is considered during the information retrieaval using the metadata approach. In our proposal, the user profile is automatically updated regarding the characteristics of the accessed documents. Based on this profile, the documents satisfying the search criterion of a query are organized in relevance groups and in each group the documents are ordered by a criterion. Both, the grouping and ordering criteria are chosen by the user. RESUMO Bibliotecas digitais geralmente oferecem um modo eficiente de recuperação de informações (RI) graças à adoção da abordagem de metadados para a indexação da coleção. Mesmo assim, quando o volume da coleção é muito grande, uma RI tradicional não é eficiente. Este artigo propõe um sistema de RI Adaptativa aplicado a bibliotecas digitais. Neste sistema, o perfil do usuário é considerado durante a busca de informações usando a abordagem por metadados. Em nossa proposta, o perfil do usuário é automaticamente atualizado com base nas características dos documentos consultados. Baseado neste perfil, os documentos que satisfazem o critério de busca são organizados em grupos de relevância e em cada grupo os documentos são ordenados por um determinado critério. Tanto o critério de agrupamento quanto de ordenação são escolhidos pelo usuário. Categories and Subject Descriptors H.3.3 [Information storage and retrieval]: Information Search and Retrieval – search process; H.3.4 [Systems and Software]:– User profiles and alert services; .3.7 [Digital Libraries]:– User issues. General Terms Algorithms, Design, Human Factors. Keywords Recuperação de Informação Adaptativa, Bibliotecas Digitais. 1. INTRODUÇÃO O CLIR (Council On Library And Information Resources) [1] define Bibliotecas Digitais (BDs) como organizações que oferecem os recursos, incluindo pessoal especializado, para selecionar, estruturar,oferecer acesso intelectual, interpretar, distribuir, preservar a integridade e assegurar a persistência no tempo de coleções digitais de modo que elas sejam prontamente e economicamente disponíveis para uso por uma comunidade ou conjunto de comunidades. Geralmente, os documentos que compõem os documentos disponibilizados por uma BD são indexados usando metadados. Metadados permitem descrever estes documentos. A natureza estruturada dos metadados permite que as BDs ofereçam aos seus usuários a possibilidade de construir consultas por valores em campos específicos das obras como título, autor, resumo e palavra-chave. A abordagem de RI baseada em metadados em geral oferece bons resultados, mas o crescimento constante das coleções das BDs exige o uso de técnicas de RI mais eficientes. Isto devido a maior probabilidade de uma grande quantidade de documentos satisfazendo o critério de busca. A tendência de crescimento exponencial da quantidade de informações disponíveis na Web motivou diversos pesquisadores a desenvolverem técnicas mais eficientes de recuperação de informações. Uma das funções básicas de qualquer sistema RI é a ordenação dos documentos satisfazendo o critério de busca de acordo com seus níveis de relevância. Existem diversas técnicas para determinação do nível de relevância dos resultados que levam em consideração o critério de busca e o conteúdo da informação (como, boolean spread activation, most-cited, TFxIDF e vector spread activation) [2][3]. Visando melhorar o cálculo da relevância de um documento, alguns trabalhos consideram as preferências e conhecimentos do usuário na determinação da relevância [3]. Para isto, os sistemas tentam estabelecer o perfil do usuário, especificando um conjunto de preferências e conhecimentos do usuário. As RIs que levam em conta o perfil do usuário são chamadas de RI Adaptativas (RIA). As BDs estão também sujeitas ao problema da sobrecarga de informações na medida em que suas coleções crescem. Desta forma, as técnicas de RIA são úteis também nas BDs a fim de reduzir o tempo despendido na busca de informações. 165

Transcript of Adaptive information retrieval system applied to digital libraries

Sistema de Recuperação de Informações Adaptativo Aplicado a Bibliotecas Digitais*

* O presente trabalho foi realizado com o apoio do CNPq (Proc. No 506789/2004-7).

Roberto Willrich1, Rafael de Moura Speroni

2,

Christopher Viana Lima1, André Luiz de Oliveira Diaz

1,

Sérgio Murilo Penedo1

1Departamento de Informática e Estatística/UFSC

2PPGEGC/UFSC

Florianópolis, Brasil

{willrich, speroni, cviana, aldiaz, penedo}@inf.ufsc.br

ABSTRACT

Digital libraries generally offer an efficient information retrieval

(IR) thanks to the use of the metadata approach to the indexation

of its collection. However, when the amount of the collection is

large, a traditional IR is not efficient. This paper proposes an

adaptive IR system applied to Digital Libraries. In this system, the

user profile is considered during the information retrieaval using

the metadata approach. In our proposal, the user profile is

automatically updated regarding the characteristics of the accessed

documents. Based on this profile, the documents satisfying the

search criterion of a query are organized in relevance groups and

in each group the documents are ordered by a criterion. Both, the

grouping and ordering criteria are chosen by the user.

RESUMO

Bibliotecas digitais geralmente oferecem um modo eficiente de

recuperação de informações (RI) graças à adoção da abordagem

de metadados para a indexação da coleção. Mesmo assim, quando

o volume da coleção é muito grande, uma RI tradicional não é

eficiente. Este artigo propõe um sistema de RI Adaptativa

aplicado a bibliotecas digitais. Neste sistema, o perfil do usuário é

considerado durante a busca de informações usando a abordagem

por metadados. Em nossa proposta, o perfil do usuário é

automaticamente atualizado com base nas características dos

documentos consultados. Baseado neste perfil, os documentos que

satisfazem o critério de busca são organizados em grupos de

relevância e em cada grupo os documentos são ordenados por um

determinado critério. Tanto o critério de agrupamento quanto de

ordenação são escolhidos pelo usuário.

Categories and Subject Descriptors H.3.3 [Information storage and retrieval]: Information Search

and Retrieval – search process; H.3.4 [Systems and Software]:– User profiles and alert services; .3.7 [Digital Libraries]:– User issues.

General Terms Algorithms, Design, Human Factors.

Keywords Recuperação de Informação Adaptativa, Bibliotecas Digitais.

1. INTRODUÇÃO O CLIR (Council On Library And Information Resources) [1]

define Bibliotecas Digitais (BDs) como organizações que

oferecem os recursos, incluindo pessoal especializado, para

selecionar, estruturar,oferecer acesso intelectual, interpretar,

distribuir, preservar a integridade e assegurar a persistência no

tempo de coleções digitais de modo que elas sejam prontamente e

economicamente disponíveis para uso por uma comunidade ou

conjunto de comunidades.

Geralmente, os documentos que compõem os documentos

disponibilizados por uma BD são indexados usando metadados.

Metadados permitem descrever estes documentos. A natureza

estruturada dos metadados permite que as BDs ofereçam aos seus

usuários a possibilidade de construir consultas por valores em

campos específicos das obras como título, autor, resumo e

palavra-chave. A abordagem de RI baseada em metadados em

geral oferece bons resultados, mas o crescimento constante das

coleções das BDs exige o uso de técnicas de RI mais eficientes.

Isto devido a maior probabilidade de uma grande quantidade de

documentos satisfazendo o critério de busca.

A tendência de crescimento exponencial da quantidade de

informações disponíveis na Web motivou diversos pesquisadores

a desenvolverem técnicas mais eficientes de recuperação de

informações. Uma das funções básicas de qualquer sistema RI é a

ordenação dos documentos satisfazendo o critério de busca de

acordo com seus níveis de relevância. Existem diversas técnicas

para determinação do nível de relevância dos resultados que

levam em consideração o critério de busca e o conteúdo da

informação (como, boolean spread activation, most-cited,

TFxIDF e vector spread activation) [2][3]. Visando melhorar o

cálculo da relevância de um documento, alguns trabalhos

consideram as preferências e conhecimentos do usuário na

determinação da relevância [3]. Para isto, os sistemas tentam

estabelecer o perfil do usuário, especificando um conjunto de

preferências e conhecimentos do usuário. As RIs que levam em

conta o perfil do usuário são chamadas de RI Adaptativas (RIA).

As BDs estão também sujeitas ao problema da sobrecarga de

informações na medida em que suas coleções crescem. Desta

forma, as técnicas de RIA são úteis também nas BDs a fim de

reduzir o tempo despendido na busca de informações.

165

Este artigo propõe um sistema de RIA aplicado à BDs, que

permite organizar o resultado da busca levando em conta o perfil

do usuário. Esta organização se dá via o agrupamento dos

documentos satisfazendo os critérios da consulta em grupos de

relevância. Em cada grupo, os documentos são ordenados

segundo um critério de ordenação escolhido pelo usuário. Dentre

estes critérios, existe a opção de ordenar os documentos com base

nos seus níveis de relevância, levando em conta as preferências do

usuário no domínio tratado pela BD.

Nesta proposta, o perfil do usuário mantém as preferências gerais

independentes do domínio da BD (p.e. língua, formato de

apresentação) e preferências específicas associadas ao domínio da

biblioteca (p.e. preferências em termos de ritmos musicais para

bibliotecas de musicas, de gêneros literários para bibliotecas de

literatura). Na nossa proposta, o administrador da BD deve

escolher quais metadados serão observados para modelar as

preferências específicas do usuário. O perfil de cada usuário da

BD, mais especificamente suas preferências específicas, é

constantemente atualizado com base nas características das obras

acessadas (nos valores dos metadados observados) e na freqüência

de acesso.

A fim de ilustrar a aplicação de nosso sistema de RIA, este artigo

também apresenta a Biblioteca Digital de Literatura Brasileira

(BD-LB), desenvolvida no projeto CNPq SIDIE [4] e que

implementa a técnica de RIA proposta.

Este artigo está organizado na forma que segue. A seção 2 revisa

alguns conceitos de RIA e posiciona nosso trabalho em relação

aos existentes. Em seguida, a seção 3 apresenta a BD-LB. Na

seqüência, a seção 4 apresenta a técnica de RIA proposta. Em

seguida, a seção 5 exemplifica o uso da técnica proposta.

Finalmente, a seção 6 apresenta as conclusões e trabalhos futuros.

2. RECUPERAÇÃO DE INFORMAÇÕES ADAPTATIVA Muitas BDs oferecem um RI baseado em metadados que gera

resultados de busca exclusivamente baseado no critério de busca e

nos valores dos metadados. Portanto, quando o mesmo critério de

busca é utilizado por diferentes usuários, é retornado o mesmo

resultado. Neste caso, as preferências e conhecimentos dos

usuários são desconsiderados.

Várias pesquisas apontam para o desenvolvimento de técnicas de

recuperação de informação que oferecem resultados de busca

personalizados aos perfis dos usuários. Isto é possível pela

combinação das técnicas tradicionais de recuperação de

informação com conceitos de hipermídia adaptativa, chamado de

RI Adaptativo (RIA). Estas pesquisas demonstram que a RI pode

tomar vantagem da adaptabilidade para tornar mais eficiente o

processo de busca.

Existem várias abordagens que podem ser usadas no aprendizado

do perfil do usuário. A captura do perfil pode ser feita de maneira

explícita, onde cada usuário manualmente informa seu perfil, ou

implícita, onde o sistema tenta construir o perfil com base nas

interações do usuário com o sistema.

[3] propõe um sistema multi-agente de RIA que realiza a

ordenação de uma coleção de documentos recuperados da Internet

com base no perfil do usuário. Este sistema realiza a indexação

dos documentos recuperados, a ordenação destes documentos com

base no perfil de usuário e a realimentação do nível de relevância

dos documentos recuperados pelos usuários. O algoritmo genético

(AG) é usado para adaptar os vetores de consulta, que são os

modelos das necessidades de informação do usuário. Com o AG,

os modelos do usuário representam conhecimentos hipotéticos

sobre as necessidades do usuário codificados em cromossomos.

Estes cromossomos são expressos em termos e seus pesos. Cada

cromossomo é uma hipótese de como avaliar a relevância de um

documento, e compete contra outros cromossomos para prever a

satisfação do usuário com os documentos recuperados.

[5] propõe um mecanismo de aquisição do perfil do usuário

usando o modelo vetor-espaço. Esta aquisição é feita com base

nas realimentações de relevância por parte do usuário após a

apresentação do resultado da busca, sendo que são selecionados

termos chaves nos documentos para formar o perfil.

Como vários outros trabalhos [3] e [5] se baseiam em

realimentações explícitas (RF – Relevance Feedback) por parte

dos usuários para indicação do nível de relevância das

informações acessadas. Apesar de estas técnicas serem

potencialmente mais eficientes, elas devem ser evitadas, pois

estudos mostram que a grande maioria dos usuários tendem a não

prover nenhuma informação deste tipo [6]. A construção implícita

do perfil é menos intrusiva, construindo o perfil automaticamente

com base nas características dos documentos consultados, no

histórico de navegação, nas consultas realizadas, para prever as

preferências do usuário, etc.

[7] propõe um modelo a duas fases para prever a próxima

categoria que será acessada pelo usuário em um espaço de

informações categorizadas. A primeira fase gera um instantâneo

das preferências do usuário entre as categorias com base em uma

análise temporal e de freqüência do histórico de acesso do

usuário. A segunda fase usa as preferências computadas para fazer

predições em diferentes granularidades de categoria. Em

particular, dois métodos de predição são apresentados: Intervalo-

Episódio-Adaptativo, que incorpora análise de novidade na

formação do episódio e Tempo-Ponderado, que aplica uma análise

de padrões de re-acesso na análise do episódio. Estes dois

métodos oferecem uma melhor qualidade de predição que outros

métodos de predição analisados pelos autores.

Neste artigo é proposto um RIA baseado em uma técnica mais

simples para determinação da relevância da obras atendendo os

critérios de busca. Esta simplificação foi possível devido a

algumas características comuns a diversas BDs:

(i) Os documentos são descritos por um conjunto de

metadados;

(ii) As BDs geralmente são temáticas, ou seja, suas coleções

de obras disponibilizadas pertencem a um domínio

específico de conhecimento (p.e., biblioteca de trabalhos

científicos, de obras literárias).

(iii) As obras não apresentam hiperlinks para outras obras, o

acesso é unicamente via mecanismos de busca e navegação

na coleção;

(iv) As obras são páginas estáticas e apenas o primeiro acesso

é considerado para determinação do perfil, os demais

acessos são considerados uma revisita a obra (p.e. para

continuar sua leitura após uma interrupção).

166

Nossa técnica explora as características (i) e (ii) de maneira a

modelar o perfil do usuário de tal forma a manter preferências

sobre o tema tratado pela BD. Por exemplo, que tipo de gênero

literário o usuário tem preferência, que ritmo musical ele prefere,

etc. A adoção de metadados (i) facilita a determinação do nível de

relevância dos documentos e na modelagem do perfil do usuário.

Devido à consideração (iii) e (iv), técnicas usadas para otimização

de busca na web, como aquela definida em [8] não são aplicáveis,

pois nestas técnicas a probabilidade de visita de uma página (no

caso da BD-LB, uma visita a uma obra), implica no aumento no

interesse do usuário no tema tratado pela página.

3. BIBLIOTECA DIGITAL DE LITERATURA BRASILEIRA (BD-LB) A BD-LB, em desenvolvimento no contexto do projeto SIDIE [4],

tem como objetivo a disponibilização de uma grande coleção de

obras literárias brasileiras de domínio público, tão bem quanto

informações sobre escritores brasileiros. Atualmente estão

catalogadas 53137 obras (das quais 928 estão digitalizadas) e

14341 autores. Para sua implementação, foi adotada a plataforma

LAMP (Linux, Apache, MySQL, PHP) de código livre.

A BD-LB adota os metadados Dublin Core (DC) [9] e suporta o

protocolo OAI-PMH (Open Archives Initiative Protocol for

Metadata Harvesting) [10]. Além dos elementos DC, outros

metadados foram necessários para registras outros dados, como

gênero literário, críticas literárias, fatos históricos e personagens.

A BD-LB segue um modelo a três camadas (Figura 1): Camada de

Apresentação; Camada Lógica; e Camada de Dados.

Figura 1. Arquitetura da BD-LB

3.1.1 Camada de Apresentação A Camada de Apresentação é uma parte do código da aplicação

que interage com o usuário via um conjunto de interfaces. Ela

oferece três interfaces aos usuários:

• A Interface de Usuário permite aos usuários realizarem a

autenticação, criação/revisão do perfil do usuário, busca de

documentos, apresentação do conjunto de resultados,

apresentação das características dos documentos,

apresentação do documento e a navegação através da

coleção.

• A Interface de Catalogação permite a catalogação de novos

autores e documentos, bem como pela inserção de arquivos

digitais (o conteúdo em si).

• A Interface de Administrador disponibiliza um conjunto de

ferramentas que permitem a adição e remoção de usuários,

adição e remoção de metadados e gerência de conteúdos

submetidos pelos colaboradores da BD.

3.1.2 Camada Lógica A Camada Lógica é responsável pelo acesso à camada de dados

para recuperar, modificar e remover os dados, e enviar os

resultados à camada de apresentação. Esta camada contém os

seguintes módulos:

• Registro de Usuários: permite o registro de novos

usuários, incluindo a definição de login/senha, dados

pessoais e preferências iniciais.

• Catalogação: permite o catálogo de novos documentos e

autores que são armazenados nas bases de dados de

Metadados e de Autores.

• Administração: implementa as funções de administração

da biblioteca.

• Recuperação de Informação Adaptativa (RIA): oferece a

os serviços de recuperação de informações adaptativa.

• Atualização de Perfil: responsável por atualizar o perfil

com base nos documentos acessados.

• Provedor de Dados OAI: é capaz de receber requisições

do protocolo PMH-OAI, para consultar a base de dados

de Metadados, e fornecer a resposta utilizando os

metadados DC.

• Distribuição Seletiva de Informações (DSI): Baseado no

perfil do usuário, o sistema divulga as novas obras

incluídas na biblioteca aos seus usuários. Um usuário

receberá esta informação caso no seu perfil esteja

informado o interesse em receber esta informação, e se a

obra apresenta características que a torna relevante para

este usuário.

3.1.3 Camada de Dados A Camada de Dados corresponde à base de dados, ou seja, a

própria fonte dos dados, sendo composta por:

• Base de Dados de Metadados: Mantém os valores de

metadados utilizados para indexar a coleção. Foram

adotados todos os metadados DMCI [9], acrescido de

outros metadados importantes para caracterizar uma

obra literária.

• Base de Dados de Autores: mantém informações sobre

os autores de documentos (nome completo, filiações,

biografia, etc.).

• Base de Dados de Usuários: mantém o perfil de cada

usuário registrado.

• Repositório de Documentos: mantém os arquivos

digitais que são disponibilizados pela BD-LB.

167

4. TÉCNICA DE RECUPERAÇÃO DE INFORMAÇÃO ADAPTATIVA APLICADA A BDs Como apresentado na seção anterior, sistemas de RIA melhoram a

eficiência da recuperação da informação, pois consideram os

interesses e conhecimentos do usuário no processo de busca. Esta

seção apresenta nossa técnica de RIA aplicada a bibliotecas

digitais que leva em consideração o perfil do usuário na

organização dos documentos resultantes do processo de busca.

Nós utilizamos a BD-LB como caso de uso para ilustrar a técnica

proposta.

4.1 Definição de BD Neste trabalho, uma BD é definida como BD = (D, M, P), onde:

• D={d1, d2, d3, ..., dk} é a coleção de documentos

disponibilizados pela BD.

• M={md1, md2, md3, .., mdl} é o conjunto de metadados

utilizados para descrever os elementos da coleção.

Utiliza-se aqui a notação di.mdj para o valor do

metadado mdj do documento di.

• P={p1, p2, p3, ..., pm} é o conjunto de perfis dos

usuários.

Por exemplo, no caso da BD-LB, o conjunto M é composto pelos

metadados DC e outros metadados necessários para descrever

atributos específicos das obras literárias (p.e. gênero literário,

críticas literárias, fatos históricos e personagens).

4.2 Definição do Perfil de Usuário O perfil de um usuário i é definido como pi=(IUi, PGi, PEi, CARi),

onde:

• Identificação do Usuário (IU): são dados pessoais sobre

o usuário para autenticação (nome, login, identificador

de cookie), contato (telefone, e-mail) e descrição

(homepage). As IUs devem ser informadas pelo usuário.

Note que as informações de identificação do usuário são

necessárias para possibilitar a personalização dos

resultados da busca. Se quiser preservar seu anonimato,

o usuário pode não informar seu nome, informações de

contato e descrição.

• Preferências Gerais (PG): são preferências gerais em

termos de formato de apresentação e conhecimentos

gerais do usuário. Por exemplo, o formato preferido e

disposição da informação, cores, etc., e os idiomas

conhecidos. As PGs também devem ser informadas pelo

usuário.

• Preferências Específicas (PE): são preferências do

usuário no tema da BD. Elas podem ser opcionalmente

iniciadas pelo usuário e são atualizadas

automaticamente com base nas características

(metadados) dos documentos acessados. Além disso, a

qualquer momento o usuário pode corrigir as suas PEs.

• Controle de Apresentação dos Resultados (CAR):

define formão critério de agrupamento e o método de

ordenação dos resultados das buscas. O CAR deve ser

configurado explicitamente pelo usuário.

Note que para este artigo, apenas os dois últimas partes do perfil

são os mais relevantes e serão apresentados em detalhe a seguir.

4.2.1 Preferências Específicas (PE) No sistema de RIA proposto, o administrador da BD pode

selecionar as características (metadados) dos documentos que

serão usados para modelar as preferências do usuário no tema da

BD. Os metadados selecionados para modelar as PEs são

chamados de Metadados Observados (MO). O conjunto de

metadados observados é anotado por MO={mo1, mo2, .. mon}.

Como os MOs serão usados para modelar as preferências

específicas do usuário no tema da BD, o administrador deve

selecionar os metadados que melhor caracterize as preferências

dos usuários e excluir metadados que não são relevantes para a

captura do perfil do usuário. Por exemplo, em uma biblioteca com

o tema música, o metadados observados poderiam ser gênero

musical e cantor. Título da música ou gravadora não são

relevantes para formar o perfil do usuário.

Na BD-LB, os metadados observados selecionados foram: Autor,

Gênero Literário e Assunto. Sendo assim, as PEs mantém o nível

de relevância de um conjunto de autores, de gêneros literários e de

assuntos (palavras-chaves) tratados pela obra. Esta personalização

na modelagem das PEs permite aplicar a técnica proposta em

outras bibliotecas temáticas.

Como será apresentado na seção 4.4, no sistema RIA proposto o

perfil do usuário é constantemente atualizado com base nas

características das obras visitadas. Além disso, o próprio usuário

pode indicar suas preferências manualmente.

As preferências Especificas (PE) são definidas como PE =

(VMOp, VMOv), onde:

• VMOp={LVp1, LVp2, ..., LVpm} é o conjunto de Listas

de Valores dos MO preferidos (LVp) que foram

identificados como de preferência do usuário. Valores

de MOs preferidos são aqueles que o sistema

considerou, ou o usuário informou explicitamente, de

maior relevância para o usuário. Na BD-LB temos que

VMOp = {LVpautores, LVpgênero, LVpassunto}.

• LVpi={(vp1, wp1,), (vp2, wp2), ..., (vpn, wpn)} é uma

lista ponderada de valores de um determinado metadado

moi, e wpj é o peso de relevância do valor do metadado

vpj. Plvpi = {wp1, wp2, ..., wpn} é o vetor de pesos

normalizado, e VPi ={vp1, vp2, ..., vpn} é a lista de

valores preferidos do metadado moi. Por exemplo, para

um dado usuário da BD-LB pode ter a seguinte lista de

valores de MOs: LVpautores = {(“Machado de Assis”,

0,556), (“Manoel Bandeira”, 0,444)}, LVpgênero =

{(Conto, 0,7), (Poesia, 0,3)}, LVpassunto = {(“vida

interior”, 0,6), (“valores morais”, 0,4)}.

• VMOv={LVv1, LVv2, ..., LVvp} é o conjunto de Listas

de Valores dos MO visitados (LVv) que são construídas

automaticamente pelo sistema com base nos valores de

metadados observados das obras visitadas. Valores de

MOs visitados são aqueles valores definidos para as

obras já visitadas, mas que não atingiram o nível de

relevância suficiente para serem preferidos.

168

• LVvi={(vv1, wv1,), (vv2, wv2), ..., (vvq, wvq)} é uma

lista ponderada de valores de um determinado metadado

moi, e wvj é o peso de relevância do valor do metadado

vvj. O vetor Plvvi = (wp1, wp2, ..., wpq) é normalizado

VVi ={vv1, vv2, ..., vvq} é a lista de valores visitados do

metadado moi.

4.2.2 Definição do Peso de Relevância Existem ao menos três formas de análise do comportamento do

usuário com base nos metadados observados dos documentos

acessados por este usuário (baseado em [7]):

• Análise por Existência: é associado um mesmo peso de

relevância para os valores dos metadados dos

documentos acessados, sem observar quando e com que

freqüência eles foram acessados. Esta análise é muito

simplista e não é adequada para estimar o perfil do

usuário.

• Análise por freqüência: o peso de relevância associado

com um valor de metadado observado é definido com

base no número de documentos acessados com este

valor de metadado. Existem alguns métodos para o

cálculo deste peso. No método WH (Whole-History), o

peso de relevância é o número total de acessos. No

método PD (Past-Days), o peso é o número de acessos

nos últimos N dias.

• Análise por idade de acesso: é associado a cada valor de

metadado observado um peso de acordo com a idade do

acesso ao documento com este valor. [7] define uma

equação para determinar o peso baseado na idade de

acesso.

A definição do método mais apropriado para determinar o peso de

relevância para uma BD depende do tipo de coleção. Pois

dependendo do tipo de informação disponibilizada, as

preferências do usuário podem ser mais ou menos estáticas (i.e.

não se alteram com muita freqüência). No caso da BD-LB, nós

consideramos que as preferências do usuário alteram com o

tempo, mas acessos mais antigos são tão relevantes quanto os

acessos mais recentes. Além disso, nós consideramos que as

preferências do usuário são perenes e, portanto elas não deixam de

ser favoritas (alterando apenas seu peso de relevância). Estas

considerações foram feitas de maneira empírica.

Devido às considerações listadas, para a BD-LB foi adotada a

análise por freqüência para determinar os pesos de relevância.

Nesta análise, o peso de relevância de um valor de metadado é

obtido a partir do número de ocorrências deste valor nos

documentos acessados. Note que o acesso múltiplo ao mesmo

documento não altera o peso de relevância dos valores dos

metadados associados a este documento. Isto, pois as obras

literárias são geralmente documentos extensos e sua leitura

completa pode exigir mais de um acesso.

Uma atenção especial deve ser dada quando a BD adota um

espaço de informação categorizado para um metadado observado.

Este é o caso do metadado Assunto da BD-LB, onde foi adotado

um thesaurus temático em literatura. O peso de relevância de um

valor do metadado Assunto é igual à soma do peso de relevância

deste valor e de todos os valores filhos.

4.3 Recuperação de Informação Adaptativa Em RIs tradicionais, o resultado da consulta é apresentado na

forma de uma lista de itens satisfazendo o critério de busca,

geralmente ordenadas com base no peso de relevância calculado

com base no critério de busca, nos metadados do documento e

também no seu conteúdo.

Na técnica de RIA proposta, os documentos resultantes de uma

consulta são ordenados levando em consideração também o perfil

do usuário. A técnica proposta apresenta dois tipos de

adaptabilidade: personalização da apresentação do resultado da

busca via agrupamento dos documentos satisfazendo o critério de

busca em Grupos de Relevância (GR); e a ordenação destes

documentos de acordo com o nível de relevância do documento.

Estas duas personalizações são parametrizadas pelo usuário via o

parâmetro CAR do Perfil do Usuário.

CAR é definido como CAR=(mc, ord), onde mc especifica o

metadado observado usado como critério de agrupamento, e ord

especifica o método de ordenação.

4.3.1 Grupos de Relevância Nesta proposta, os documentos resultante da consulta são

agrupados em três Grupos de Relevância:

• Preferidos: agrupa os documentos cujo valor do

metadado mc está incluído no conjunto de Valores

Preferidos para este metadado. Em uma notação formal,

Preferidos = {di | di.mdmc ∈ VPmc}.

• Visitados: agrupa os documentos cujo valor do

metadado mc está incluído no conjunto de Valores

Visitados (VV) para este metadado. Em uma notação

formal, Visitados = {di | di.mdmc ∈ VVmc}.

• Outros: agrupa os documentos cujo valor do metadado

mc não está incluído em VP e em VV. Em uma notação

formal, Outros = {di | di.mdmc ∉ {VPmc ∪ VVmc }}.

Por exemplo, na BD-LB o metadado de agrupamento (mc) pode

ser Autor, Gênero Literário ou Assunto (que são os três

metadados observados escolhidos). A figura 2 apresenta um

exemplo de apresentação de resultado de uma busca, onde o

metadado de agrupamento utilizado é Autor e o modo de

ordenação foi ordem alfabética do título da obra.

A razão de agrupar os documentos resultantes da consulta em

grupos de relevância é oferecer uma categorização destes

documentos e com isto reduzindo possivelmente o tempo de busca

da informação. No exemplo da figura 2, o usuário pode optar por

analisar obras de autores preferidos, de autores conhecidos ou de

autores que não tiveram nenhum acesso até o momento da

realização da consulta.

4.3.2 Ordenação Além do agrupamento dos resultados, o usuário pode definir em

seu perfil a forma de ordenação dos documentos nos GRs. As

possibilidades de ordenação de resultados são também definidos

por CAR. As formas de ordenação são:

169

• Ordem alfabética: neste caso os documentos são

ordenados em ordem alfabética do valor de um dos

metadados do documento escolhidos pelo usuário. Na

BD-LB é possível ordenar por título, autor e gênero

literário.

• Por relevância: os documentos são ordenados em ordem

decrescente do nível de relevância. No GR Preferido, o

nível de relevância de um documento di é igual a ri =

wpj, sendo wpj o peso de relevância de di.mdmc definido

em VPmc. No GR Visitados, o nível de relevância é

igual a ri = wvj, sendo wvj o peso de relevância de

di.mdmc definido em VVmc.

4.4 Atualização do Perfil do Usuário A técnica proposta permite uma inicialização explícita do perfil

por parte de cada usuário. Em seguida, o sistema realiza uma

atualização automática deste perfil com base nos valores dos

metadados observados dos documentos acessados pelo usuário. A

qualquer momento, o usuário pode também revisar seu perfil.

4.4.1 Inicialização do Perfil do Usuário Um usuário, durante seu cadastramento ou a qualquer momento

seguinte ao cadastramento, pode inicializar explicitamente seu

perfil através de uma interface especifica. Note que esta

inicialização é opcional. Se o usuário não inicializar seu perfil, o

sistema infere o perfil com base nos documentos por ele

acessados.

A figura 3 apresenta a Interface de Registro do Usuário da BD-LB

que é utilizada para iniciar o perfil do usuário e realizar revisões.

Esta interface é constituída de um formulário onde o usuário pode

informar seus dados pessoais e suas preferências. A figura 3

ilustra a revisão de um perfil de usuário previamente registrado.

Esta interface permite a edição dos dados pessoais (e-mail e

homepage), preferências gerais, o controle de apresentação dos

resultados e as preferências específicas.

4.4.2 Atualização das Preferências Específicas As PEs do usuário são atualizadas implicitamente a cada acesso a

uma obra da coleção da BD. Isto é feito com base nos valores dos

metadados observados (MOs) do documento acessado. Para cada

valor de metadado observado do documento acessado di:

• se di.moj ∈ VPi ou di.moj ∈ VVj , então o peso de

relevância associado a este valor em LVpj ou LVvj é

incrementado. Caso o moi assuma valores

categorizados, todos os pesos dos metadados pais são

incrementados também. Por exemplo, se o usuário

acessa na BD-LB um romance de Juvêncio Martins da

Costa com o assunto Prazer, o peso de relevância dos

valores de metadados observados romance, Juvêncio

Martins da Costa, Prazer são incrementados os assuntos

pais de Prazer (Sentimento, Vida Interior) são também

incrementados.

• se di.moj ∉ VPj e di.moj ∉ VVj , este valor é incluído em

LVvi (e VVi).

A promoção de um valor de metadado visitado para preferido é

uma operação crítica na atualização do perfil do usuário. Duas

opções foram investigadas:

• Promoção manual: o usuário pode manualmente editar o

perfil e transformar os valores de metadados visitados

em preferidos.

Figura 2. Apresentação Personalizada dos resultados.

170

• Promoção automática: onde se o peso de relevância de

um valor de metadado observado alcançar um peso W

(possivelmente escolhido pelo usuário), este valor, e seu

peso associado, será retirado da lista de valores

visitados e será inserido na lista de valores preferidos.

Esta opção deve ser melhor investigada, uma vez que o

valor de W e o peso de relevância após a transformação

são questões abertas.

Na BD-LB foi adotada a transformação manual, via interface de

edição do perfil do usuário. Como visto na figura 3, o usuário

pode verificar a lista ponderada de valores de metadados. Ele

pode também apagar um valor na lista de preferidos ou visitados,

além de transformar um valor visitado em preferido.

Note que atualmente a técnica proposta considera que qualquer

documento acessado contribui para a construção do perfil do

usuário. Portanto, consideramos que o acesso ao documento é

uma indicação de que o usuário tem interesse no documento. Um

problema possível aqui é o acesso a um documento de uma forma

“precipitada”, onde o usuário após verificar o documento, pode

considerar que ele não é de seu interesse. Para reduzir este

problema a BD-LB não oferece acesso direto à obra literária

quando da apresentação dos resultados. O usuário acessa

inicialmente uma descrição da obra. Outras soluções são

possíveis, como determinar o tempo de permanência na página

que apresenta o documento.

5. EXEMPLO Esta seção tem por objetivo ilustrar a técnica apresentada neste

trabalho, bem como a sua eficiência no que se refere à

recuperação de informações.

O exemplo aqui apresentado consiste na realização de uma busca

por uma palavra-chave, comparando o resultado da busca sem

adaptabilidade com os resultados de buscas com adaptabilidade.

Para este exemplo foi escolhida a palavra “deuses”. A busca

realizada é booleana sobre todos metadados das obras.

5.1 Busca Sem Adaptabilidade A figura 4 apresenta o resultado da busca sem a utilização dos

recursos de adaptabilidade. Neste caso, o perfil do usuário não é

levado em consideração no ordenamento dos documentos

satisfazendo o critério de busca. O resultado é apresentado

simplesmente na forma de uma lista ordenada por ordem

alfabética de título das obras.

Figura 3. Interface de Atualização do Perfil.

171

Figura 4 – Resultado da busca sem adaptabilidade

5.2 Busca com Adaptabilidade A terceira situação apresentada neste exemplo é uma busca com

adaptabilidade, utilizando-se o CAR com agrupamento por

Autores, e ordenação por relevância de Autores (conforme

configura no perfil do usuário e apresentado na figura 3).

A Figura 2 apresenta o resultado da busca. Pode-se notar que os

resultados foram agrupados em obras de “Autores Preferidos”,

obras de “Autores já Visitados” e obras de “Outros Autores”. Essa

categorização permite que os usuários possam distinguir

facilmente obras de autores que ele tenha indicado como seus

preferidos, obras de autores que ele já tenha lido, e obras de

autores que sejam novos para ele.

Comparando este resultado com o da busca sem adaptação, as

obras de autores preferidos são apresentadas no primeiro

agrupamento, em seguida o segundo agrupamento apresenta as

obras de autores já visitados pelo usuário, e o terceiro

agrupamento apresenta as obras daqueles autores que o usuário

ainda não demonstrou interesse, e que podem vir a ser novas

indicações de leitura.

6. CONCLUSÕES Este artigo propõe uma Recuperação de Informações Adaptativa

(RIA) aplicada a bibliotecas digitais, onde o resultado da busca é

organizado em grupos de relevância e em cada grupo os

documentos são ordenados segundo um critério de ordenação. A

meta desta técnica é reduzir o tempo de busca de documentos nas

bibliotecas digitais, por meio da organização do resultado de tal

forma que os documentos mais relevantes estejam nas primeiras

posições do resultado da busca, reduzindo assim o tempo de

busca.

A proposta considera que os interesses do usuário se alteram com

o tempo e, portanto, o seu perfil deve ser constantemente

atualizado. Isto é feito de maneira automática, via os valores dos

metadados dos documentos acessados pelo usuário e a freqüência

de ocorrência destes valores.

Diferente de outros trabalhos, este sistema considera

exclusivamente os valores dos metadados para capturar o perfil do

usuário e determinar o nível de relevância dos documentos

relevantes da busca. Outro diferencial, é que o modelo do usuário

mantém preferências do usuário acerca do tema tratado pela

biblioteca, sendo que um conjunto de metadados dos documentos

são escolhidos para caracterizar as preferências dos usuários sob

diferentes aspectos (por exemplo, em termos de preferência por

gênero literário, por autor e por assunto).

Como trabalho futuro, pretende-se realizar um teste da RIA

proposta via o monitoramento dos usuários da Biblioteca Digital

de Literatura Brasileira, que implementa atualmente a técnica

proposta. Este monitoramento tem por objetivo medir a eficiência

da técnica proposta.

172

7. REFERÊNCIAS [1] Waters, D.J. What are Digital Libraries?. CLIR Issues, N. 4,

1998. URL: http://www.clir.org/pubs/issues/issues04.html.

[2] Dhyani, D., Ng, W. K., and Bhowmick, S. S. A survey of

web metrics. ACM Computing Surveys (CSUR),

34(4):469.503, 2002. ISSN:0460-0300.

[3] S. Maleki-Dizaji, Z.A. Othman, H.O.Nyongesa, J.Siddiqi.

Evolutionary Reinforcement of User Models in An Adaptive

Search Engine. IEEE/WIC International Conference on Web

Intelligence (WI 2003), pp. 706-709, 2003.

[4] SIDIE Sistema de Disponibilização de Informações para o

Ensino. URL: http://www.sidie.inf.ufsc.br/. Acessado em

Julho de 2006.

[5] Young-Woo Park and Eun-Seok Lee. A New Generation

Method of an User Profile for Information Filtering on the

Internet. 13th International Conference on Information

Networking (ICOIN), 1998.

[6] Carroll, J.M. e Rosson, M.B. The paradox of the active user.

Interfacing Thought: Cognitive Aspects of Human-Computer

Interaction, Bradford Books/MIT Press, p. 80-111, 1987.

[7] Chen, M., LaPaugh, A.S., Singh, J.P. Predicting Category

Accesses for a User in a Structured Information Space.

Proceedings of the 25th annual international ACM SIGIR

conference on Research and development in information

retrieval. Pages: 65 – 72, 2002.

[8] Qiu, F. e Cho, J. Automatic Identification of User Interest for

Personalized Search. International World Wide Web, p. 727-

736, 2006.

[9] Dublin Core Metadata Initiative. URL:

http://www.dublincore.org/. Acessado em Julho de 2006.

[10] Open Archives Initiative. URL:

http://www.openarchives.org/. Acessado em Julho de 2006.

173