Adaptive information retrieval system applied to digital libraries
-
Upload
independent -
Category
Documents
-
view
5 -
download
0
Transcript of Adaptive information retrieval system applied to digital libraries
Sistema de Recuperação de Informações Adaptativo Aplicado a Bibliotecas Digitais*
* O presente trabalho foi realizado com o apoio do CNPq (Proc. No 506789/2004-7).
Roberto Willrich1, Rafael de Moura Speroni
2,
Christopher Viana Lima1, André Luiz de Oliveira Diaz
1,
Sérgio Murilo Penedo1
1Departamento de Informática e Estatística/UFSC
2PPGEGC/UFSC
Florianópolis, Brasil
{willrich, speroni, cviana, aldiaz, penedo}@inf.ufsc.br
ABSTRACT
Digital libraries generally offer an efficient information retrieval
(IR) thanks to the use of the metadata approach to the indexation
of its collection. However, when the amount of the collection is
large, a traditional IR is not efficient. This paper proposes an
adaptive IR system applied to Digital Libraries. In this system, the
user profile is considered during the information retrieaval using
the metadata approach. In our proposal, the user profile is
automatically updated regarding the characteristics of the accessed
documents. Based on this profile, the documents satisfying the
search criterion of a query are organized in relevance groups and
in each group the documents are ordered by a criterion. Both, the
grouping and ordering criteria are chosen by the user.
RESUMO
Bibliotecas digitais geralmente oferecem um modo eficiente de
recuperação de informações (RI) graças à adoção da abordagem
de metadados para a indexação da coleção. Mesmo assim, quando
o volume da coleção é muito grande, uma RI tradicional não é
eficiente. Este artigo propõe um sistema de RI Adaptativa
aplicado a bibliotecas digitais. Neste sistema, o perfil do usuário é
considerado durante a busca de informações usando a abordagem
por metadados. Em nossa proposta, o perfil do usuário é
automaticamente atualizado com base nas características dos
documentos consultados. Baseado neste perfil, os documentos que
satisfazem o critério de busca são organizados em grupos de
relevância e em cada grupo os documentos são ordenados por um
determinado critério. Tanto o critério de agrupamento quanto de
ordenação são escolhidos pelo usuário.
Categories and Subject Descriptors H.3.3 [Information storage and retrieval]: Information Search
and Retrieval – search process; H.3.4 [Systems and Software]:– User profiles and alert services; .3.7 [Digital Libraries]:– User issues.
General Terms Algorithms, Design, Human Factors.
Keywords Recuperação de Informação Adaptativa, Bibliotecas Digitais.
1. INTRODUÇÃO O CLIR (Council On Library And Information Resources) [1]
define Bibliotecas Digitais (BDs) como organizações que
oferecem os recursos, incluindo pessoal especializado, para
selecionar, estruturar,oferecer acesso intelectual, interpretar,
distribuir, preservar a integridade e assegurar a persistência no
tempo de coleções digitais de modo que elas sejam prontamente e
economicamente disponíveis para uso por uma comunidade ou
conjunto de comunidades.
Geralmente, os documentos que compõem os documentos
disponibilizados por uma BD são indexados usando metadados.
Metadados permitem descrever estes documentos. A natureza
estruturada dos metadados permite que as BDs ofereçam aos seus
usuários a possibilidade de construir consultas por valores em
campos específicos das obras como título, autor, resumo e
palavra-chave. A abordagem de RI baseada em metadados em
geral oferece bons resultados, mas o crescimento constante das
coleções das BDs exige o uso de técnicas de RI mais eficientes.
Isto devido a maior probabilidade de uma grande quantidade de
documentos satisfazendo o critério de busca.
A tendência de crescimento exponencial da quantidade de
informações disponíveis na Web motivou diversos pesquisadores
a desenvolverem técnicas mais eficientes de recuperação de
informações. Uma das funções básicas de qualquer sistema RI é a
ordenação dos documentos satisfazendo o critério de busca de
acordo com seus níveis de relevância. Existem diversas técnicas
para determinação do nível de relevância dos resultados que
levam em consideração o critério de busca e o conteúdo da
informação (como, boolean spread activation, most-cited,
TFxIDF e vector spread activation) [2][3]. Visando melhorar o
cálculo da relevância de um documento, alguns trabalhos
consideram as preferências e conhecimentos do usuário na
determinação da relevância [3]. Para isto, os sistemas tentam
estabelecer o perfil do usuário, especificando um conjunto de
preferências e conhecimentos do usuário. As RIs que levam em
conta o perfil do usuário são chamadas de RI Adaptativas (RIA).
As BDs estão também sujeitas ao problema da sobrecarga de
informações na medida em que suas coleções crescem. Desta
forma, as técnicas de RIA são úteis também nas BDs a fim de
reduzir o tempo despendido na busca de informações.
165
Este artigo propõe um sistema de RIA aplicado à BDs, que
permite organizar o resultado da busca levando em conta o perfil
do usuário. Esta organização se dá via o agrupamento dos
documentos satisfazendo os critérios da consulta em grupos de
relevância. Em cada grupo, os documentos são ordenados
segundo um critério de ordenação escolhido pelo usuário. Dentre
estes critérios, existe a opção de ordenar os documentos com base
nos seus níveis de relevância, levando em conta as preferências do
usuário no domínio tratado pela BD.
Nesta proposta, o perfil do usuário mantém as preferências gerais
independentes do domínio da BD (p.e. língua, formato de
apresentação) e preferências específicas associadas ao domínio da
biblioteca (p.e. preferências em termos de ritmos musicais para
bibliotecas de musicas, de gêneros literários para bibliotecas de
literatura). Na nossa proposta, o administrador da BD deve
escolher quais metadados serão observados para modelar as
preferências específicas do usuário. O perfil de cada usuário da
BD, mais especificamente suas preferências específicas, é
constantemente atualizado com base nas características das obras
acessadas (nos valores dos metadados observados) e na freqüência
de acesso.
A fim de ilustrar a aplicação de nosso sistema de RIA, este artigo
também apresenta a Biblioteca Digital de Literatura Brasileira
(BD-LB), desenvolvida no projeto CNPq SIDIE [4] e que
implementa a técnica de RIA proposta.
Este artigo está organizado na forma que segue. A seção 2 revisa
alguns conceitos de RIA e posiciona nosso trabalho em relação
aos existentes. Em seguida, a seção 3 apresenta a BD-LB. Na
seqüência, a seção 4 apresenta a técnica de RIA proposta. Em
seguida, a seção 5 exemplifica o uso da técnica proposta.
Finalmente, a seção 6 apresenta as conclusões e trabalhos futuros.
2. RECUPERAÇÃO DE INFORMAÇÕES ADAPTATIVA Muitas BDs oferecem um RI baseado em metadados que gera
resultados de busca exclusivamente baseado no critério de busca e
nos valores dos metadados. Portanto, quando o mesmo critério de
busca é utilizado por diferentes usuários, é retornado o mesmo
resultado. Neste caso, as preferências e conhecimentos dos
usuários são desconsiderados.
Várias pesquisas apontam para o desenvolvimento de técnicas de
recuperação de informação que oferecem resultados de busca
personalizados aos perfis dos usuários. Isto é possível pela
combinação das técnicas tradicionais de recuperação de
informação com conceitos de hipermídia adaptativa, chamado de
RI Adaptativo (RIA). Estas pesquisas demonstram que a RI pode
tomar vantagem da adaptabilidade para tornar mais eficiente o
processo de busca.
Existem várias abordagens que podem ser usadas no aprendizado
do perfil do usuário. A captura do perfil pode ser feita de maneira
explícita, onde cada usuário manualmente informa seu perfil, ou
implícita, onde o sistema tenta construir o perfil com base nas
interações do usuário com o sistema.
[3] propõe um sistema multi-agente de RIA que realiza a
ordenação de uma coleção de documentos recuperados da Internet
com base no perfil do usuário. Este sistema realiza a indexação
dos documentos recuperados, a ordenação destes documentos com
base no perfil de usuário e a realimentação do nível de relevância
dos documentos recuperados pelos usuários. O algoritmo genético
(AG) é usado para adaptar os vetores de consulta, que são os
modelos das necessidades de informação do usuário. Com o AG,
os modelos do usuário representam conhecimentos hipotéticos
sobre as necessidades do usuário codificados em cromossomos.
Estes cromossomos são expressos em termos e seus pesos. Cada
cromossomo é uma hipótese de como avaliar a relevância de um
documento, e compete contra outros cromossomos para prever a
satisfação do usuário com os documentos recuperados.
[5] propõe um mecanismo de aquisição do perfil do usuário
usando o modelo vetor-espaço. Esta aquisição é feita com base
nas realimentações de relevância por parte do usuário após a
apresentação do resultado da busca, sendo que são selecionados
termos chaves nos documentos para formar o perfil.
Como vários outros trabalhos [3] e [5] se baseiam em
realimentações explícitas (RF – Relevance Feedback) por parte
dos usuários para indicação do nível de relevância das
informações acessadas. Apesar de estas técnicas serem
potencialmente mais eficientes, elas devem ser evitadas, pois
estudos mostram que a grande maioria dos usuários tendem a não
prover nenhuma informação deste tipo [6]. A construção implícita
do perfil é menos intrusiva, construindo o perfil automaticamente
com base nas características dos documentos consultados, no
histórico de navegação, nas consultas realizadas, para prever as
preferências do usuário, etc.
[7] propõe um modelo a duas fases para prever a próxima
categoria que será acessada pelo usuário em um espaço de
informações categorizadas. A primeira fase gera um instantâneo
das preferências do usuário entre as categorias com base em uma
análise temporal e de freqüência do histórico de acesso do
usuário. A segunda fase usa as preferências computadas para fazer
predições em diferentes granularidades de categoria. Em
particular, dois métodos de predição são apresentados: Intervalo-
Episódio-Adaptativo, que incorpora análise de novidade na
formação do episódio e Tempo-Ponderado, que aplica uma análise
de padrões de re-acesso na análise do episódio. Estes dois
métodos oferecem uma melhor qualidade de predição que outros
métodos de predição analisados pelos autores.
Neste artigo é proposto um RIA baseado em uma técnica mais
simples para determinação da relevância da obras atendendo os
critérios de busca. Esta simplificação foi possível devido a
algumas características comuns a diversas BDs:
(i) Os documentos são descritos por um conjunto de
metadados;
(ii) As BDs geralmente são temáticas, ou seja, suas coleções
de obras disponibilizadas pertencem a um domínio
específico de conhecimento (p.e., biblioteca de trabalhos
científicos, de obras literárias).
(iii) As obras não apresentam hiperlinks para outras obras, o
acesso é unicamente via mecanismos de busca e navegação
na coleção;
(iv) As obras são páginas estáticas e apenas o primeiro acesso
é considerado para determinação do perfil, os demais
acessos são considerados uma revisita a obra (p.e. para
continuar sua leitura após uma interrupção).
166
Nossa técnica explora as características (i) e (ii) de maneira a
modelar o perfil do usuário de tal forma a manter preferências
sobre o tema tratado pela BD. Por exemplo, que tipo de gênero
literário o usuário tem preferência, que ritmo musical ele prefere,
etc. A adoção de metadados (i) facilita a determinação do nível de
relevância dos documentos e na modelagem do perfil do usuário.
Devido à consideração (iii) e (iv), técnicas usadas para otimização
de busca na web, como aquela definida em [8] não são aplicáveis,
pois nestas técnicas a probabilidade de visita de uma página (no
caso da BD-LB, uma visita a uma obra), implica no aumento no
interesse do usuário no tema tratado pela página.
3. BIBLIOTECA DIGITAL DE LITERATURA BRASILEIRA (BD-LB) A BD-LB, em desenvolvimento no contexto do projeto SIDIE [4],
tem como objetivo a disponibilização de uma grande coleção de
obras literárias brasileiras de domínio público, tão bem quanto
informações sobre escritores brasileiros. Atualmente estão
catalogadas 53137 obras (das quais 928 estão digitalizadas) e
14341 autores. Para sua implementação, foi adotada a plataforma
LAMP (Linux, Apache, MySQL, PHP) de código livre.
A BD-LB adota os metadados Dublin Core (DC) [9] e suporta o
protocolo OAI-PMH (Open Archives Initiative Protocol for
Metadata Harvesting) [10]. Além dos elementos DC, outros
metadados foram necessários para registras outros dados, como
gênero literário, críticas literárias, fatos históricos e personagens.
A BD-LB segue um modelo a três camadas (Figura 1): Camada de
Apresentação; Camada Lógica; e Camada de Dados.
Figura 1. Arquitetura da BD-LB
3.1.1 Camada de Apresentação A Camada de Apresentação é uma parte do código da aplicação
que interage com o usuário via um conjunto de interfaces. Ela
oferece três interfaces aos usuários:
• A Interface de Usuário permite aos usuários realizarem a
autenticação, criação/revisão do perfil do usuário, busca de
documentos, apresentação do conjunto de resultados,
apresentação das características dos documentos,
apresentação do documento e a navegação através da
coleção.
• A Interface de Catalogação permite a catalogação de novos
autores e documentos, bem como pela inserção de arquivos
digitais (o conteúdo em si).
• A Interface de Administrador disponibiliza um conjunto de
ferramentas que permitem a adição e remoção de usuários,
adição e remoção de metadados e gerência de conteúdos
submetidos pelos colaboradores da BD.
3.1.2 Camada Lógica A Camada Lógica é responsável pelo acesso à camada de dados
para recuperar, modificar e remover os dados, e enviar os
resultados à camada de apresentação. Esta camada contém os
seguintes módulos:
• Registro de Usuários: permite o registro de novos
usuários, incluindo a definição de login/senha, dados
pessoais e preferências iniciais.
• Catalogação: permite o catálogo de novos documentos e
autores que são armazenados nas bases de dados de
Metadados e de Autores.
• Administração: implementa as funções de administração
da biblioteca.
• Recuperação de Informação Adaptativa (RIA): oferece a
os serviços de recuperação de informações adaptativa.
• Atualização de Perfil: responsável por atualizar o perfil
com base nos documentos acessados.
• Provedor de Dados OAI: é capaz de receber requisições
do protocolo PMH-OAI, para consultar a base de dados
de Metadados, e fornecer a resposta utilizando os
metadados DC.
• Distribuição Seletiva de Informações (DSI): Baseado no
perfil do usuário, o sistema divulga as novas obras
incluídas na biblioteca aos seus usuários. Um usuário
receberá esta informação caso no seu perfil esteja
informado o interesse em receber esta informação, e se a
obra apresenta características que a torna relevante para
este usuário.
3.1.3 Camada de Dados A Camada de Dados corresponde à base de dados, ou seja, a
própria fonte dos dados, sendo composta por:
• Base de Dados de Metadados: Mantém os valores de
metadados utilizados para indexar a coleção. Foram
adotados todos os metadados DMCI [9], acrescido de
outros metadados importantes para caracterizar uma
obra literária.
• Base de Dados de Autores: mantém informações sobre
os autores de documentos (nome completo, filiações,
biografia, etc.).
• Base de Dados de Usuários: mantém o perfil de cada
usuário registrado.
• Repositório de Documentos: mantém os arquivos
digitais que são disponibilizados pela BD-LB.
167
4. TÉCNICA DE RECUPERAÇÃO DE INFORMAÇÃO ADAPTATIVA APLICADA A BDs Como apresentado na seção anterior, sistemas de RIA melhoram a
eficiência da recuperação da informação, pois consideram os
interesses e conhecimentos do usuário no processo de busca. Esta
seção apresenta nossa técnica de RIA aplicada a bibliotecas
digitais que leva em consideração o perfil do usuário na
organização dos documentos resultantes do processo de busca.
Nós utilizamos a BD-LB como caso de uso para ilustrar a técnica
proposta.
4.1 Definição de BD Neste trabalho, uma BD é definida como BD = (D, M, P), onde:
• D={d1, d2, d3, ..., dk} é a coleção de documentos
disponibilizados pela BD.
• M={md1, md2, md3, .., mdl} é o conjunto de metadados
utilizados para descrever os elementos da coleção.
Utiliza-se aqui a notação di.mdj para o valor do
metadado mdj do documento di.
• P={p1, p2, p3, ..., pm} é o conjunto de perfis dos
usuários.
Por exemplo, no caso da BD-LB, o conjunto M é composto pelos
metadados DC e outros metadados necessários para descrever
atributos específicos das obras literárias (p.e. gênero literário,
críticas literárias, fatos históricos e personagens).
4.2 Definição do Perfil de Usuário O perfil de um usuário i é definido como pi=(IUi, PGi, PEi, CARi),
onde:
• Identificação do Usuário (IU): são dados pessoais sobre
o usuário para autenticação (nome, login, identificador
de cookie), contato (telefone, e-mail) e descrição
(homepage). As IUs devem ser informadas pelo usuário.
Note que as informações de identificação do usuário são
necessárias para possibilitar a personalização dos
resultados da busca. Se quiser preservar seu anonimato,
o usuário pode não informar seu nome, informações de
contato e descrição.
• Preferências Gerais (PG): são preferências gerais em
termos de formato de apresentação e conhecimentos
gerais do usuário. Por exemplo, o formato preferido e
disposição da informação, cores, etc., e os idiomas
conhecidos. As PGs também devem ser informadas pelo
usuário.
• Preferências Específicas (PE): são preferências do
usuário no tema da BD. Elas podem ser opcionalmente
iniciadas pelo usuário e são atualizadas
automaticamente com base nas características
(metadados) dos documentos acessados. Além disso, a
qualquer momento o usuário pode corrigir as suas PEs.
• Controle de Apresentação dos Resultados (CAR):
define formão critério de agrupamento e o método de
ordenação dos resultados das buscas. O CAR deve ser
configurado explicitamente pelo usuário.
Note que para este artigo, apenas os dois últimas partes do perfil
são os mais relevantes e serão apresentados em detalhe a seguir.
4.2.1 Preferências Específicas (PE) No sistema de RIA proposto, o administrador da BD pode
selecionar as características (metadados) dos documentos que
serão usados para modelar as preferências do usuário no tema da
BD. Os metadados selecionados para modelar as PEs são
chamados de Metadados Observados (MO). O conjunto de
metadados observados é anotado por MO={mo1, mo2, .. mon}.
Como os MOs serão usados para modelar as preferências
específicas do usuário no tema da BD, o administrador deve
selecionar os metadados que melhor caracterize as preferências
dos usuários e excluir metadados que não são relevantes para a
captura do perfil do usuário. Por exemplo, em uma biblioteca com
o tema música, o metadados observados poderiam ser gênero
musical e cantor. Título da música ou gravadora não são
relevantes para formar o perfil do usuário.
Na BD-LB, os metadados observados selecionados foram: Autor,
Gênero Literário e Assunto. Sendo assim, as PEs mantém o nível
de relevância de um conjunto de autores, de gêneros literários e de
assuntos (palavras-chaves) tratados pela obra. Esta personalização
na modelagem das PEs permite aplicar a técnica proposta em
outras bibliotecas temáticas.
Como será apresentado na seção 4.4, no sistema RIA proposto o
perfil do usuário é constantemente atualizado com base nas
características das obras visitadas. Além disso, o próprio usuário
pode indicar suas preferências manualmente.
As preferências Especificas (PE) são definidas como PE =
(VMOp, VMOv), onde:
• VMOp={LVp1, LVp2, ..., LVpm} é o conjunto de Listas
de Valores dos MO preferidos (LVp) que foram
identificados como de preferência do usuário. Valores
de MOs preferidos são aqueles que o sistema
considerou, ou o usuário informou explicitamente, de
maior relevância para o usuário. Na BD-LB temos que
VMOp = {LVpautores, LVpgênero, LVpassunto}.
• LVpi={(vp1, wp1,), (vp2, wp2), ..., (vpn, wpn)} é uma
lista ponderada de valores de um determinado metadado
moi, e wpj é o peso de relevância do valor do metadado
vpj. Plvpi = {wp1, wp2, ..., wpn} é o vetor de pesos
normalizado, e VPi ={vp1, vp2, ..., vpn} é a lista de
valores preferidos do metadado moi. Por exemplo, para
um dado usuário da BD-LB pode ter a seguinte lista de
valores de MOs: LVpautores = {(“Machado de Assis”,
0,556), (“Manoel Bandeira”, 0,444)}, LVpgênero =
{(Conto, 0,7), (Poesia, 0,3)}, LVpassunto = {(“vida
interior”, 0,6), (“valores morais”, 0,4)}.
• VMOv={LVv1, LVv2, ..., LVvp} é o conjunto de Listas
de Valores dos MO visitados (LVv) que são construídas
automaticamente pelo sistema com base nos valores de
metadados observados das obras visitadas. Valores de
MOs visitados são aqueles valores definidos para as
obras já visitadas, mas que não atingiram o nível de
relevância suficiente para serem preferidos.
168
• LVvi={(vv1, wv1,), (vv2, wv2), ..., (vvq, wvq)} é uma
lista ponderada de valores de um determinado metadado
moi, e wvj é o peso de relevância do valor do metadado
vvj. O vetor Plvvi = (wp1, wp2, ..., wpq) é normalizado
VVi ={vv1, vv2, ..., vvq} é a lista de valores visitados do
metadado moi.
4.2.2 Definição do Peso de Relevância Existem ao menos três formas de análise do comportamento do
usuário com base nos metadados observados dos documentos
acessados por este usuário (baseado em [7]):
• Análise por Existência: é associado um mesmo peso de
relevância para os valores dos metadados dos
documentos acessados, sem observar quando e com que
freqüência eles foram acessados. Esta análise é muito
simplista e não é adequada para estimar o perfil do
usuário.
• Análise por freqüência: o peso de relevância associado
com um valor de metadado observado é definido com
base no número de documentos acessados com este
valor de metadado. Existem alguns métodos para o
cálculo deste peso. No método WH (Whole-History), o
peso de relevância é o número total de acessos. No
método PD (Past-Days), o peso é o número de acessos
nos últimos N dias.
• Análise por idade de acesso: é associado a cada valor de
metadado observado um peso de acordo com a idade do
acesso ao documento com este valor. [7] define uma
equação para determinar o peso baseado na idade de
acesso.
A definição do método mais apropriado para determinar o peso de
relevância para uma BD depende do tipo de coleção. Pois
dependendo do tipo de informação disponibilizada, as
preferências do usuário podem ser mais ou menos estáticas (i.e.
não se alteram com muita freqüência). No caso da BD-LB, nós
consideramos que as preferências do usuário alteram com o
tempo, mas acessos mais antigos são tão relevantes quanto os
acessos mais recentes. Além disso, nós consideramos que as
preferências do usuário são perenes e, portanto elas não deixam de
ser favoritas (alterando apenas seu peso de relevância). Estas
considerações foram feitas de maneira empírica.
Devido às considerações listadas, para a BD-LB foi adotada a
análise por freqüência para determinar os pesos de relevância.
Nesta análise, o peso de relevância de um valor de metadado é
obtido a partir do número de ocorrências deste valor nos
documentos acessados. Note que o acesso múltiplo ao mesmo
documento não altera o peso de relevância dos valores dos
metadados associados a este documento. Isto, pois as obras
literárias são geralmente documentos extensos e sua leitura
completa pode exigir mais de um acesso.
Uma atenção especial deve ser dada quando a BD adota um
espaço de informação categorizado para um metadado observado.
Este é o caso do metadado Assunto da BD-LB, onde foi adotado
um thesaurus temático em literatura. O peso de relevância de um
valor do metadado Assunto é igual à soma do peso de relevância
deste valor e de todos os valores filhos.
4.3 Recuperação de Informação Adaptativa Em RIs tradicionais, o resultado da consulta é apresentado na
forma de uma lista de itens satisfazendo o critério de busca,
geralmente ordenadas com base no peso de relevância calculado
com base no critério de busca, nos metadados do documento e
também no seu conteúdo.
Na técnica de RIA proposta, os documentos resultantes de uma
consulta são ordenados levando em consideração também o perfil
do usuário. A técnica proposta apresenta dois tipos de
adaptabilidade: personalização da apresentação do resultado da
busca via agrupamento dos documentos satisfazendo o critério de
busca em Grupos de Relevância (GR); e a ordenação destes
documentos de acordo com o nível de relevância do documento.
Estas duas personalizações são parametrizadas pelo usuário via o
parâmetro CAR do Perfil do Usuário.
CAR é definido como CAR=(mc, ord), onde mc especifica o
metadado observado usado como critério de agrupamento, e ord
especifica o método de ordenação.
4.3.1 Grupos de Relevância Nesta proposta, os documentos resultante da consulta são
agrupados em três Grupos de Relevância:
• Preferidos: agrupa os documentos cujo valor do
metadado mc está incluído no conjunto de Valores
Preferidos para este metadado. Em uma notação formal,
Preferidos = {di | di.mdmc ∈ VPmc}.
• Visitados: agrupa os documentos cujo valor do
metadado mc está incluído no conjunto de Valores
Visitados (VV) para este metadado. Em uma notação
formal, Visitados = {di | di.mdmc ∈ VVmc}.
• Outros: agrupa os documentos cujo valor do metadado
mc não está incluído em VP e em VV. Em uma notação
formal, Outros = {di | di.mdmc ∉ {VPmc ∪ VVmc }}.
Por exemplo, na BD-LB o metadado de agrupamento (mc) pode
ser Autor, Gênero Literário ou Assunto (que são os três
metadados observados escolhidos). A figura 2 apresenta um
exemplo de apresentação de resultado de uma busca, onde o
metadado de agrupamento utilizado é Autor e o modo de
ordenação foi ordem alfabética do título da obra.
A razão de agrupar os documentos resultantes da consulta em
grupos de relevância é oferecer uma categorização destes
documentos e com isto reduzindo possivelmente o tempo de busca
da informação. No exemplo da figura 2, o usuário pode optar por
analisar obras de autores preferidos, de autores conhecidos ou de
autores que não tiveram nenhum acesso até o momento da
realização da consulta.
4.3.2 Ordenação Além do agrupamento dos resultados, o usuário pode definir em
seu perfil a forma de ordenação dos documentos nos GRs. As
possibilidades de ordenação de resultados são também definidos
por CAR. As formas de ordenação são:
169
• Ordem alfabética: neste caso os documentos são
ordenados em ordem alfabética do valor de um dos
metadados do documento escolhidos pelo usuário. Na
BD-LB é possível ordenar por título, autor e gênero
literário.
• Por relevância: os documentos são ordenados em ordem
decrescente do nível de relevância. No GR Preferido, o
nível de relevância de um documento di é igual a ri =
wpj, sendo wpj o peso de relevância de di.mdmc definido
em VPmc. No GR Visitados, o nível de relevância é
igual a ri = wvj, sendo wvj o peso de relevância de
di.mdmc definido em VVmc.
4.4 Atualização do Perfil do Usuário A técnica proposta permite uma inicialização explícita do perfil
por parte de cada usuário. Em seguida, o sistema realiza uma
atualização automática deste perfil com base nos valores dos
metadados observados dos documentos acessados pelo usuário. A
qualquer momento, o usuário pode também revisar seu perfil.
4.4.1 Inicialização do Perfil do Usuário Um usuário, durante seu cadastramento ou a qualquer momento
seguinte ao cadastramento, pode inicializar explicitamente seu
perfil através de uma interface especifica. Note que esta
inicialização é opcional. Se o usuário não inicializar seu perfil, o
sistema infere o perfil com base nos documentos por ele
acessados.
A figura 3 apresenta a Interface de Registro do Usuário da BD-LB
que é utilizada para iniciar o perfil do usuário e realizar revisões.
Esta interface é constituída de um formulário onde o usuário pode
informar seus dados pessoais e suas preferências. A figura 3
ilustra a revisão de um perfil de usuário previamente registrado.
Esta interface permite a edição dos dados pessoais (e-mail e
homepage), preferências gerais, o controle de apresentação dos
resultados e as preferências específicas.
4.4.2 Atualização das Preferências Específicas As PEs do usuário são atualizadas implicitamente a cada acesso a
uma obra da coleção da BD. Isto é feito com base nos valores dos
metadados observados (MOs) do documento acessado. Para cada
valor de metadado observado do documento acessado di:
• se di.moj ∈ VPi ou di.moj ∈ VVj , então o peso de
relevância associado a este valor em LVpj ou LVvj é
incrementado. Caso o moi assuma valores
categorizados, todos os pesos dos metadados pais são
incrementados também. Por exemplo, se o usuário
acessa na BD-LB um romance de Juvêncio Martins da
Costa com o assunto Prazer, o peso de relevância dos
valores de metadados observados romance, Juvêncio
Martins da Costa, Prazer são incrementados os assuntos
pais de Prazer (Sentimento, Vida Interior) são também
incrementados.
• se di.moj ∉ VPj e di.moj ∉ VVj , este valor é incluído em
LVvi (e VVi).
A promoção de um valor de metadado visitado para preferido é
uma operação crítica na atualização do perfil do usuário. Duas
opções foram investigadas:
• Promoção manual: o usuário pode manualmente editar o
perfil e transformar os valores de metadados visitados
em preferidos.
Figura 2. Apresentação Personalizada dos resultados.
170
• Promoção automática: onde se o peso de relevância de
um valor de metadado observado alcançar um peso W
(possivelmente escolhido pelo usuário), este valor, e seu
peso associado, será retirado da lista de valores
visitados e será inserido na lista de valores preferidos.
Esta opção deve ser melhor investigada, uma vez que o
valor de W e o peso de relevância após a transformação
são questões abertas.
Na BD-LB foi adotada a transformação manual, via interface de
edição do perfil do usuário. Como visto na figura 3, o usuário
pode verificar a lista ponderada de valores de metadados. Ele
pode também apagar um valor na lista de preferidos ou visitados,
além de transformar um valor visitado em preferido.
Note que atualmente a técnica proposta considera que qualquer
documento acessado contribui para a construção do perfil do
usuário. Portanto, consideramos que o acesso ao documento é
uma indicação de que o usuário tem interesse no documento. Um
problema possível aqui é o acesso a um documento de uma forma
“precipitada”, onde o usuário após verificar o documento, pode
considerar que ele não é de seu interesse. Para reduzir este
problema a BD-LB não oferece acesso direto à obra literária
quando da apresentação dos resultados. O usuário acessa
inicialmente uma descrição da obra. Outras soluções são
possíveis, como determinar o tempo de permanência na página
que apresenta o documento.
5. EXEMPLO Esta seção tem por objetivo ilustrar a técnica apresentada neste
trabalho, bem como a sua eficiência no que se refere à
recuperação de informações.
O exemplo aqui apresentado consiste na realização de uma busca
por uma palavra-chave, comparando o resultado da busca sem
adaptabilidade com os resultados de buscas com adaptabilidade.
Para este exemplo foi escolhida a palavra “deuses”. A busca
realizada é booleana sobre todos metadados das obras.
5.1 Busca Sem Adaptabilidade A figura 4 apresenta o resultado da busca sem a utilização dos
recursos de adaptabilidade. Neste caso, o perfil do usuário não é
levado em consideração no ordenamento dos documentos
satisfazendo o critério de busca. O resultado é apresentado
simplesmente na forma de uma lista ordenada por ordem
alfabética de título das obras.
Figura 3. Interface de Atualização do Perfil.
171
Figura 4 – Resultado da busca sem adaptabilidade
5.2 Busca com Adaptabilidade A terceira situação apresentada neste exemplo é uma busca com
adaptabilidade, utilizando-se o CAR com agrupamento por
Autores, e ordenação por relevância de Autores (conforme
configura no perfil do usuário e apresentado na figura 3).
A Figura 2 apresenta o resultado da busca. Pode-se notar que os
resultados foram agrupados em obras de “Autores Preferidos”,
obras de “Autores já Visitados” e obras de “Outros Autores”. Essa
categorização permite que os usuários possam distinguir
facilmente obras de autores que ele tenha indicado como seus
preferidos, obras de autores que ele já tenha lido, e obras de
autores que sejam novos para ele.
Comparando este resultado com o da busca sem adaptação, as
obras de autores preferidos são apresentadas no primeiro
agrupamento, em seguida o segundo agrupamento apresenta as
obras de autores já visitados pelo usuário, e o terceiro
agrupamento apresenta as obras daqueles autores que o usuário
ainda não demonstrou interesse, e que podem vir a ser novas
indicações de leitura.
6. CONCLUSÕES Este artigo propõe uma Recuperação de Informações Adaptativa
(RIA) aplicada a bibliotecas digitais, onde o resultado da busca é
organizado em grupos de relevância e em cada grupo os
documentos são ordenados segundo um critério de ordenação. A
meta desta técnica é reduzir o tempo de busca de documentos nas
bibliotecas digitais, por meio da organização do resultado de tal
forma que os documentos mais relevantes estejam nas primeiras
posições do resultado da busca, reduzindo assim o tempo de
busca.
A proposta considera que os interesses do usuário se alteram com
o tempo e, portanto, o seu perfil deve ser constantemente
atualizado. Isto é feito de maneira automática, via os valores dos
metadados dos documentos acessados pelo usuário e a freqüência
de ocorrência destes valores.
Diferente de outros trabalhos, este sistema considera
exclusivamente os valores dos metadados para capturar o perfil do
usuário e determinar o nível de relevância dos documentos
relevantes da busca. Outro diferencial, é que o modelo do usuário
mantém preferências do usuário acerca do tema tratado pela
biblioteca, sendo que um conjunto de metadados dos documentos
são escolhidos para caracterizar as preferências dos usuários sob
diferentes aspectos (por exemplo, em termos de preferência por
gênero literário, por autor e por assunto).
Como trabalho futuro, pretende-se realizar um teste da RIA
proposta via o monitoramento dos usuários da Biblioteca Digital
de Literatura Brasileira, que implementa atualmente a técnica
proposta. Este monitoramento tem por objetivo medir a eficiência
da técnica proposta.
172
7. REFERÊNCIAS [1] Waters, D.J. What are Digital Libraries?. CLIR Issues, N. 4,
1998. URL: http://www.clir.org/pubs/issues/issues04.html.
[2] Dhyani, D., Ng, W. K., and Bhowmick, S. S. A survey of
web metrics. ACM Computing Surveys (CSUR),
34(4):469.503, 2002. ISSN:0460-0300.
[3] S. Maleki-Dizaji, Z.A. Othman, H.O.Nyongesa, J.Siddiqi.
Evolutionary Reinforcement of User Models in An Adaptive
Search Engine. IEEE/WIC International Conference on Web
Intelligence (WI 2003), pp. 706-709, 2003.
[4] SIDIE Sistema de Disponibilização de Informações para o
Ensino. URL: http://www.sidie.inf.ufsc.br/. Acessado em
Julho de 2006.
[5] Young-Woo Park and Eun-Seok Lee. A New Generation
Method of an User Profile for Information Filtering on the
Internet. 13th International Conference on Information
Networking (ICOIN), 1998.
[6] Carroll, J.M. e Rosson, M.B. The paradox of the active user.
Interfacing Thought: Cognitive Aspects of Human-Computer
Interaction, Bradford Books/MIT Press, p. 80-111, 1987.
[7] Chen, M., LaPaugh, A.S., Singh, J.P. Predicting Category
Accesses for a User in a Structured Information Space.
Proceedings of the 25th annual international ACM SIGIR
conference on Research and development in information
retrieval. Pages: 65 – 72, 2002.
[8] Qiu, F. e Cho, J. Automatic Identification of User Interest for
Personalized Search. International World Wide Web, p. 727-
736, 2006.
[9] Dublin Core Metadata Initiative. URL:
http://www.dublincore.org/. Acessado em Julho de 2006.
[10] Open Archives Initiative. URL:
http://www.openarchives.org/. Acessado em Julho de 2006.
173