LOCALIZACIÓN DE INFORMACIÓN EN MOTORES ... - CORE

10
ECONOMÍA INDUSTRIAL N. o 346 • 2002 / IV 173 Localización de información en motores de búsqueda en Internet. Análisis de la efectividad. Con la excepcional expansión que ha sufrido Internet en los últimos años, se ha puesto a disposición de los usuarios un ingente volumen de información. El tamaño de la Web es gigantesco, y continúa cre- ciendo según un modelo exponencial (Kobayashi et al., 2000, p. 148). Por ello, uno de los grandes retos profesionales de la actualidad, dado la inmensidad de la red y su rápido crecimiento, es conocer el método idóneo para localizar la informa- ción que deseamos rápidamente (Lang, 2001, p. 44). Webster y Paul (1996) definen el acto de navegar como buscar sin ayudas. Se trata de una acción reservada a aquellas perso- nas con disponibilidad de tiempo, pero no es adecuada para aquellas que necesi- tan una información específica rápida- JOSÉ LUIS SALMERÓN SILVERA SALVADOR BUENO ÁVILA Departamento de Economía y Empresa Universidad Pablo de Olavide de Sevilla PAULA LUNA HUERTAS Departamento de Economía Financiera y Dirección de Operaciones Universidad de Sevilla mente. Por esta razón, ha surgido un im- portante número de herramientas para buscar y descubrir la información deposi- tada en la red más eficientemente. Por tanto, estos buscadores surgen como herramientas de ayuda para buscar en la Web en respuesta a la dificultad, por par- te del hombre, de mantener un catálogo con toda la información que contiene la red (Dassler, 2001: p. 123), debido funda- mentalmente a la volatilidad de ésta (Ibá- ñez, 1997) por su volumen. De ahí que las herramientas de búsqueda no pueden encontrarlo todo, por el simple hecho de no poder abarcar la web en su totalidad (Fisher et al., 2000, p. 43). Según la herramienta de búsqueda Inkto- mi (http://www.inktomi.com/), en febrero de 2000 se estimaba la presencia de mil millones de páginas web (Dassler, 2001, p. 122). Si, además, Sullivan afirma que las herramientas de búsqueda sólo son capa- ces de abarcar el 35% de toda la WWW (Dassler, 2001, p. 122), podemos hacer una aproximación del tamaño de la red. Uno de los estudios donde se pudo de- mostrar la efectividad de los buscadores es brought to yo w metadata, citation and similar papers at core.ac.uk provided by idUS. Depósito de Investigación Univ

Transcript of LOCALIZACIÓN DE INFORMACIÓN EN MOTORES ... - CORE

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

173

Localización de información en

motores de búsquedaen Internet.

Análisis de la efectividad.

Con la excepcional expansión que ha sufrido Internet en los últimosaños, se ha puesto a disposición de los usuarios un ingente volumende información. El tamaño de la Web es gigantesco, y continúa cre-

ciendo según un modelo exponencial(Kobayashi et al., 2000, p. 148). Por ello,uno de los grandes retos profesionales dela actualidad, dado la inmensidad de lared y su rápido crecimiento, es conocer elmétodo idóneo para localizar la informa-ción que deseamos rápidamente (Lang,2001, p. 44).

Webster y Paul (1996) definen el acto denavegar como buscar sin ayudas. Se tratade una acción reservada a aquellas perso-nas con disponibilidad de tiempo, perono es adecuada para aquellas que necesi-tan una información específica rápida-

JOSÉ LUIS SALMERÓN SILVERASALVADOR BUENO ÁVILA

Departamento de Economía y EmpresaUniversidad Pablo de Olavide de Sevilla

PAULA LUNA HUERTASDepartamento de Economía Financiera y Dirección de Operaciones

Universidad de Sevilla

mente. Por esta razón, ha surgido un im-portante número de herramientas parabuscar y descubrir la información deposi-tada en la red más eficientemente.

Por tanto, estos buscadores surgen comoherramientas de ayuda para buscar en laWeb en respuesta a la dificultad, por par-te del hombre, de mantener un catálogocon toda la información que contiene lared (Dassler, 2001: p. 123), debido funda-mentalmente a la volatilidad de ésta (Ibá-ñez, 1997) por su volumen. De ahí quelas herramientas de búsqueda no puedenencontrarlo todo, por el simple hecho de

no poder abarcar la web en su totalidad(Fisher et al., 2000, p. 43).

Según la herramienta de búsqueda Inkto-mi (http://www.inktomi.com/), en febrerode 2000 se estimaba la presencia de milmillones de páginas web (Dassler, 2001, p. 122). Si, además, Sullivan afirma que lasherramientas de búsqueda sólo son capa-ces de abarcar el 35% de toda la WWW(Dassler, 2001, p. 122), podemos haceruna aproximación del tamaño de la red.

Uno de los estudios donde se pudo de-mostrar la efectividad de los buscadores es

12 LOCALIZACION/346 30/7/03 12:43 Página 173

brought to you by COREView metadata, citation and similar papers at core.ac.uk

provided by idUS. Depósito de Investigación Universidad de Sevilla

el realizado por los investigadores Hölse-her y Strube (2000). Este estudio sobre lasdiferentes conductas ante una determina-da búsqueda de expertos usuarios de In-ternet y principiantes puso de manifiestoque aproximadamente dos tercios de losexpertos inician la búsqueda utilizandouno de estos buscadores y el resto tomócomo primera estrategia hojear páginas.

De aquellos que optaron por la utilizaciónde los buscadores tan sólo un 2% fracasa-ba en la búsqueda y un 41% realizaba denuevo otra búsqueda. El resto (57%) acce-día a los documentos que aparecían en lalista de elementos encontrados.

Una de las claves para una utilizaciónefectiva de estas herramientas de búsque-da es conocer el tipo de información quese está publicando en la web (Webster etal., 1997). Cualquier tema es tratado enInternet, sin embargo también es ciertoque existe mucha información de malacalidad («ruido») que dificulta la búsqueda(Ibáñez, 1997).

A pesar de la presencia entre los resulta-dos de «ruido», el uso de las herramientasde búsqueda está muy generalizado, yaque alrededor del 85% de los usuarios dela web usan motores de búsqueda o algúnotro tipo de herramientas de búsqueda pa-ra encontrar información específica de in-terés (Kobayashi et al., 2000, p. 146). Estasherramientas no son perfectas y la infor-mación es mucha, por lo que el descono-cimiento de su uso puede empeorar lascosas (Ibáñez, 1997).

Con relación a los defectos de las herra-mientas de búsqueda, Kobayashi et al.(2000), basándose en un estudio realiza-do por el Instituto de Tecnología deGeorgia en 1998 a usuarios de estas he-rramientas referente a los problemas delas mismas, recoge que la principal causade descontento es la lentitud de acceso,seguido de la existencia de un elevadonúmero de vínculos rotos. Otro estudiode similares características es el efectua-do por Huberman y Lukose en 1997 (Ko-bayashi et al., 2000, p. 146). En esta oca-sión los dos principales problemas eranla lentitud a la hora de acceder a ellos yla incapacidad para encontrar informa-ción relevante.

Esta incapacidad depende en gran medi-da del buscador que utilicemos, ya queno todos tienen la misma información al-macenada en sus bases de datos. Así, porejemplo, el motor de búsqueda AltaVistatiene catalogadas unos 140 millones depáginas, Excite 55 millones, Hotbot 110millones, Infoseek 30 millones, los mis-mos que Lycos, y Nothern Light 80 millo-nes (Fisher et al., 2000, p. 45).

No obstante, según los resultados de GVUde abril de 1998 sobre usuarios de laWWW (Kobayashi et al., 2000, p. 149), el86% encuentra información útil a través delas herramientas de búsqueda. Tambiéndestacan que los usuarios usan éstos tantopara navegar por la red como para buscarinformación específica.

Buscadores por índices(directorios) y porcontenido (motores)

Los servicios de búsqueda en la WWW gi-ran en torno a dos paradigmas básicos:buscadores por índice temático (o directo-rios) y los motores de búsqueda (Demp-sey et al., 2000, p. 254). La operatividad deestas herramientas de búsqueda dependede la calidad de la indexación de la infor-mación que se encuentre almacenada enlos servidores. En general, a estas herra-

mientas se las denomina buscadores queson servidores Web que tienen acceso auna extensa base de datos sobre recursosdisponibles en la red. Sus servidores sue-len almacenar el contenido íntegro o par-cial de un gran número de páginas Weben sus bases de datos y permiten realizarbúsquedas sobre esta información.

Los buscadores por índice (por ejemplo,Yahoo!) mantienen una estructura arbó-rea o de jerarquía de categorías para bus-car la información (Webster, 1996). Estosbuscadores son generalmente realizadospor la intervención del hombre, ya queson quienes seleccionan y organizan lainformación, para incluirlos posterior-mente en algunas de las categorías esta-blecidas por el buscador (White et al.,2001, p. 722).

Por tanto, los directorios tienen dos com-ponentes básicos. En primer lugar, unabase de datos construida con la informa-ción de las páginas Web y otros recursosde la red, tales como su URL, el título dela página y un breve comentario, y unaserie de palabras clave que describen sucontenido. Y en segundo lugar, una es-tructura jerarquizada de categorías quepermite la consulta de la base de datosnavegando por sus diferentes categoríastemáticas.

En cambio, los motores de búsqueda, co-mo AltaVista, son bases de datos que nor-malmente almacenan versiones reducidasde las páginas Web, pero contienen másinformación que los buscadores por índi-ce (Ibáñez, 1997). Por ello, en muchasocasiones dificultan la búsqueda (Zamiret al., 1999, p. 1361), ya que el usuariodeberá seleccionar la información útil en-tre un elevado número de páginas.

Los motores de búsqueda tienen trescomponentes básicos. Por un lado, una«araña» o robot que es el programa infor-mático que rastrea por la Web leyendo laspáginas. Por el otro, un programa queañade las páginas leídas a una base dedatos o catálogo. Y en tercer lugar, unprograma (motor de búsqueda) que per-mite al usuario, a través de la utilizaciónde palabras clave, realizar la búsqueda(Fisher et al., 2000, p. 43). Este programaefectúa la búsqueda mediante un procesode comparación y aproximación entre las

J. L. SALMERÓN SILVERA / S. BUENO ÁVILA / P. LUNA HUERTAS

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

174

12 LOCALIZACION/346 30/7/03 12:43 Página 174

páginas de sus bases de datos y las pala-bras clave, para posteriormente devolver-le al usuario los resultados (Clarke et al.,2000, pp. 291-293).

Estos buscadores disponen de un peque-ño lenguaje que permite personalizar lasbúsquedas utilizando diversos operado-res booleanos y realizando con ellos,búsquedas avanzadas, pudiendo, asimis-mo, limitar los aciertos por fechas, segúnla localización geográfica de las páginas,amén de otras opciones.

Metodología para utilizarlas herramientas de búsqueda

No existe una metodología de búsquedaideal. Su continuo uso es el mejor apren-dizaje, sin embargo proponemos una me-todología básica y bastante eficaz, des-arrollada a partir de nuestra experienciaprofesional. Ésta se divide en cuatro pa-sos, y son los siguientes:

Definición de la búsqueda

Es fundamental comenzar acotando labúsqueda a realizar tan estrechamentecomo sea posible, identificando los pará-metros siguientes: el tema de búsqueda;los límites geográficos, con objeto de ele-gir el tipo de buscador (internacional, na-cional o regional); el idioma; los límitestemporales; el objetivo de la búsqueda;los conceptos claves que permiten identi-ficar esa información; el tipo de fuentedonde puede encontrarse (página Web,grupos de noticias, bases de datos, etc.),entre otros.

Concretamente, para identificar el área te-mática y los conceptos claves, se deberáutilizar una terminología que no sea am-bigua, revisar los posibles sinónimos bus-cando palabras que realmente definan elconcepto y traducirlos al inglés en el casode usar buscadores internacionales.

Así mismo, debemos identificar todos loselementos antes de realizar la búsqueda,porque a menudo, la parte más difícil deuna búsqueda consiste en saber cómo

otras personas pueden haber denomina-do el objeto buscado.

Definición de una o másestrategias de búsqueda

Una vez definido el objetivo de la bús-queda, se deberán analizar las distintasestrategias de búsqueda y ordenarlas se-gún la esperanza de encontrar objetivos.Estas estrategias dependerán del objeto abuscar, pero a grosso modo apuntamosuna serie de estrategias genéricas en elorden en que deberían analizarse.

Si el área temática a la que pertenece elobjeto de la búsqueda está claramenteidentificada, en primer lugar puede acu-dirse a una o más herramientas de bús-queda por índice temático, del tipo deYahoo!, o de las especializadas en ese te-ma, si es que existen. Ese tipo de herra-mientas permitirá obtener informacióngenérica sobre el objeto, es decir, nosofrecerá una orientación de los posiblesresultados.

Posteriormente puede utilizarse algunaherramienta de búsqueda por contenidoo motores de búsqueda, del tipo de Al-taVista, y más concretamente de su op-ción de búsqueda avanzada, para obte-ner información más específica yactualizada sobre el objeto en cuestión.Como complemento de las dos estrate-

gias anteriores se pueden utilizar uno omás Metabuscadores que realicen labúsqueda simultáneamente con distintasherramientas (motores de búsqueda, di-rectorios y buscadores especializados),teniendo en cuenta que estos buscado-res en paralelo no suelen tener acceso atoda la potencialidad que esas herra-mientas ofrecen individualmente, lo quepuede dar lugar a búsquedas menosprecisas que si se hubiese utilizado encada herramienta por separado (Dassler,2001, p. 128).

Por último, si fuese necesario para com-pletar la información ya obtenida, se po-drían utilizar otros recursos de Internet,tales como los servidores FTP, Archie, Ba-ses de datos, etc.

Una vez que sabemos que los buscado-res proporcionan importantes ventajasante la búsqueda sería interesante anali-zar cuál es la estrategia de búsqueda queprefieren los usuarios. Con respecto aeste tema, White et al. (2000) desarrolla-ron un estudio sobre la estrategia que seadopta al iniciar la búsqueda entre unconjunto de tres posibilidades: directo-rios, motores de búsqueda y buscar di-rectamente en las páginas Web. Se reali-zó el estudio sobre una población de 54miembros familiarizados con estas estra-tegias de búsqueda. El trasfondo eraidentificar la estrategia inicial según lanaturaleza de las preguntas planteadas

LOCALIZACIÓN DE INFORMACIÓN EN MOTORES DE BÚSQUEDA EN INTERNET...

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

175

12 LOCALIZACION/346 30/7/03 12:43 Página 175

(cerrada/predecible, cerrada impredeci-ble, abierta/predecible, cerrada/predeci-ble). La elección de una u otra estrategiaestá influenciada por la cantidad de in-formación o el número de sitios que te-nían que ser buscados, la probabilidadde relevancia y el esfuerzo que se debíarealizar para diseñar la pregunta con laque realizar la búsqueda.

Los resultados fueron los siguientes:

✓ El 80% utilizaba las tres estrategias, un19% dos de ellas y tan sólo un 2% des-arrollaba una. En cómputo general, parabuscar información sobre las preguntas,el 43% optó como primera opción por losmotores de búsqueda, un 30% accedió di-rectamente a las páginas y el resto acudióa los directorios.

✓ Para las cuestiones de origen imprede-cibles se utilizaron los motores de bús-queda entre un 60%-66% de los casos. Eluso de los directorios estaba en segundolugar, pero más pronunciado en el casode las cuestiones abiertas.

✓ Para las cuestiones predecibles, la estra-tegia preferida era buscar directamente enlas direcciones. Si eran abiertas, la siguien-te opción era los motores de búsqueda.Para el caso de preguntas cerradas, la elec-ción como segunda estrategia era igualtanto para los directorios como para losmotores de búsqueda.

Esto nos pone de manifiesto que ante bús-quedas de información predecibles (se sa-ben donde están ubicadas) es mejor acudirdirectamente a las páginas. Por el contrario,para cuestiones impredecibles, es mejoroptar por los motores de búsqueda.

Diseño de la(s) solicitud(es)de búsqueda para cadaestrategia

Para cada estrategia de búsqueda plante-ada en el paso anterior deberá diseñarsela solicitud de búsqueda de acuerdo a lasposibilidades de la herramienta a utilizar.Para ello, se partirá de cada uno de losconceptos que conforman el tema sobreel que se quiere buscar información connuestro lenguaje, que se denominan pala-bras clave.

Aunque se puede utilizar una sola pala-bra para definir una búsqueda, el usuariotiende a incluir al menos dos, con el finde incrementar la relevancia de los sitioslocalizados (Fisher et al., 2000, p. 45). Lostérminos de la búsqueda (palabras clave)pueden ser, fundamentalmente:

■ Una o más palabras sueltas.

■ Una o más frases (grupo de palabrasque deberán aparecer seguidas), quepueden resultar muy útil para localizar undeterminado texto.

■ Cualquier combinación de palabrassueltas y frases.

Como paso siguiente se buscarán los po-sibles sinónimos o términos que se rela-cionen con cada uno de los conceptos opalabras claves.

Existen unos buscadores especializadosen la búsqueda de palabras clave relacio-nadas, como, por ejemplo, el buscadoren inglés que reside en la direcciónhttp://www.jimtools.com/keywords/in-dex.html.

Hay que tener cuidado con el buscadoren cuestión a la hora de escribir las pala-bras clave en mayúsculas o en minúscu-las, ya que en algunos casos resulta indi-ferente pero en otros no. Algo similarocurre con las tildes de los acentos.

En casi todos los buscadores, si las pala-bras sueltas y/o frases se separan por espa-cios en blanco y no se enlazan con ningúnoperador, se estará indicando que se mues-tren aquellos resultados en donde aparececualquiera de esas palabras y/o frases.

En la mayoría de las herramientas de bús-queda por índice y en todas las herra-mientas de búsqueda por contenido po-drán utilizarse para acotar o ampliar labúsqueda ciertos operadores. Con estosoperadores booleanos se procederá de lasiguiente manera: una vez que se tenga lalista con todos los términos o palabrasclave, se establecerán las relaciones lógi-cas que se darán entre ellos. Para ello, seutiliza el operador booleano OR para re-lacionar sinónimos o conceptos relacio-nados, AND para relacionar términos quecorresponden a conceptos distintos, peroque queremos que aparezca en el mismodocumento y AND NOT para eliminar losdocumentos que contengan un términono deseado. Se utilizarán los paréntesispara indicar la operación a efectuar enprimer lugar, normalmente se utilizan pa-ra ejecutar en primer lugar una unión(OR), y su resultado combinarlo con otrotérmino mediante AND. También se de-berá utilizar el carácter * para localizaruna subcadena de caracteres, y para re-cuperar palabras en singular y en pluralademás de adverbios.

Así, por ejemplo, si se desea buscar lassubvenciones que existen para las empre-sas de reducidas dimensiones, la ecua-ción de búsqueda que se puede construires: (ayuda* OR subvención* OR financia-ción*) AND (empresa* OR pyme OR «pe-queña y mediana empresa»).

También en algunas herramientas de bús-queda se puede utilizar determinada sin-taxis para restringir la búsqueda a determi-nados campos de información, por ejemplo:a los títulos de las páginas Web (title:), a losURL (url:), a los dominios (host:), a los hipe-renlaces (link:), a los nombres de imágenes(image:), etc.

Para ello, se deberán registrar los posiblesresultados obtenidos con cada una deellas. Éstos deberán analizarse leyendo elresumen que se ofrece para ver si lo quenos interesa se encuentra en ese lugar; losprimeros siempre suelen ser las coinciden-

J. L. SALMERÓN SILVERA / S. BUENO ÁVILA / P. LUNA HUERTAS

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

176

12 LOCALIZACION/346 30/7/03 12:43 Página 176

cias que muestran un mayor parecido conla búsqueda.

Aplicación de las diferentesestrategias diseñadas

A partir de los primeros resultados obte-nidos en la búsqueda se podrán obtenerotros términos que puedan utilizarse paraacotar o ampliar la lista de coincidenciascon la búsqueda, siendo recomendablevolver a realizar el 3º y el 4º paso.

Los navegadores permiten grabar estosresultados, al igual que cualquier otrapágina Web, en un fichero con formatode texto ASCII, que podrá ser leído concualquier aplicación informática o en suformato original HTML, que tambiénpuede ser leído por las últimas versionesde los procesadores de texto. Tambiénexisten programas, generalmente share-ware, especialmente diseñados para ba-jarse de la red páginas Web con todossus elementos multimedia y las que en-lazan con ella, con objeto de imprimirlasen otro momento, conectar con algunasde sus conexiones sin necesidad de vol-ver a ellas en línea o cualquier otra ope-ración. Algunos de estos software son:WebWhacker, Webstripper, WebVcr, Te-leport Pro y MemoWeb (estos programasshareware se pueden buscar en la red através de buscadores especializados enlocalizar software).

Además, recomendamos utilizar la listade marcadores (Bookmark) del navega-dor Netscape o la agenda de páginas fa-voritas del navegador Explorer o la listainteractiva (Hotlist) de Mosaic para guar-dar aquellas direcciones (URL) que nosinteresen, evitando así tener que memori-zarlas y reescribirlas.

Factores claves en la búsqueda

Uno de los factores fundamentales paraconseguir éxito en la búsqueda, enten-diendo por tal encontrar la informacióndeseada en el menor tiempo posible, esconocer el correcto uso de las herramien-tas de búsqueda. El tiempo empleado encomprender estas herramientas se aseme-ja a aprender el funcionamiento de un

nuevo software. Todo este tiempo de for-mación es extremadamente valioso e im-portante (Ibáñez, 1997).

Antes de nada, tenemos que tener encuenta que cada herramienta de búsque-da, a pesar de que son muy parecidas,tiene su propio funcionamiento. Por ello,es recomendable leer siempre la ayudaque incluye el buscador y probar distin-tos buscadores, utilizando siempre que sepueda la opción de búsqueda avanzada(donde se utilizan los operadores boolea-nos y de posición), que se encuentra enla totalidad de los buscadores por conte-nidos y en algunos de los buscadores poríndice, pues con ella se conseguirá resul-tados más ajustados.

Otra de las cuestiones más importantes esel idioma. Es aconsejable utilizar primerolos buscadores en el idioma deseado, silo que busca puede estar disponible enéste. Si no lo encuentra se deberá acudira buscadores en inglés, que es el idiomapredominante en la red. Si no entiendesuficientemente una página Web en in-glés o en otro idioma recuerde que en lared puede encontrar múltiples serviciosdonde traducen de manera gratuita elcontenido de la página Web que se indi-que. Por ejemplo, algunos de estos sitiosestán en las siguientes direcciones: http://www.freetranslation.com/, http://www.elmundo.es/traductor, http://www.elmun-

do .es/traductor/ y http://www.systran-soft.com/

Con el fin de que tengamos la garantía deque el buscador que hemos elegido con-tenga la información que buscamos espreciso conocer el campo de informaciónque abarca el buscador (páginas Web,mensajes de grupos de noticias, etc.).

Otro de los factores clave para realizaruna correcta búsqueda es cuidar la orto-grafía, ya que, por ejemplo, no es lo mis-mo escribir CDROM o CD-ROM. Los re-sultados que se obtendrán de escribirlode una u otra forma serán distintos. Lomismo ocurre con las mayúsculas y mi-núsculas, pues en algunos casos resultaindiferente pero en otros no.

También es el caso de las tildes de losacentos, ya que algunos buscadores seránsensibles y otros no. Para ello es reco-mendable utilizar OR, o los operadoresde familias de palabras ?, * o $.

En el caso de que se haya obtenido mu-cho ruido (resultados que no buscába-mos) puede ser útil restringir la búsquedaa determinados campos de información:a los títulos de las páginas Web (t:), a losURLs (u:), a los dominios (h:), a los nom-bres de imágenes (i:), etc. Siempre es re-comendable verificar la fiabilidad de lainformación encontrada, comprobando,

LOCALIZACIÓN DE INFORMACIÓN EN MOTORES DE BÚSQUEDA EN INTERNET...

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

177

12 LOCALIZACION/346 30/7/03 12:43 Página 177

por ejemplo, su autoría, actualidad, pro-pósito, etc.

Por último cabe comentar cómo en sitiosWeb del tipo de http://www.learnthe-net.com/spanish/html/19tips.htm y http://coverage.cnet.com/Content/Features/Dli-fe/Search/ss06.html se recogen consejospara agilizar la búsqueda de informaciónen Internet y en http://www.searchengine-watch.com/ se pueden encontrar muchostrucos para perfeccionar las búsquedas enlos principales buscadores internacionales.

Operadores de consulta

Los motores de búsqueda se caracterizanpor la capacidad de realizar consultas mu-cho más específicas gracias a la utilizaciónde los operadores de consulta. Cuando serealizan búsquedas por palabras clave, elbuscador suele permitir relacionar dos omás palabras clave y frases mediante losoperadores, y de esta manera realizar ajus-tes en la búsqueda para ampliarla, reducir-la o dirigirla según nuestras previsiones ini-ciales o los resultados obtenidos en lasbúsquedas efectuadas anteriormente.

Para demostrar la importancia de la utili-zación de estos operadores, y más con-cretamente de los booleanos, Hölscher yStrube (2000) en su estudio sobre el com-portamiento de expertos (bibliotecarios,consultores, autores de libros sobre bús-queda en Internet, etc.) y principiantesante la búsqueda, añadieron una compa-rativa entre los expertos analizados yaquellas personas que utilizaban el bus-cador alemán Fireball. Se obtuvieronunos resultados muy interesantes, al de-mostrarse que la longitud media de labúsqueda por parte de los usuarios de Fi-reball era de 1,66 palabras, mientras quelos expertos utilizaban una media de3,64, es decir, suelen utilizar dos palabrasmás para definir la búsqueda.

Este resultado tiene como explicaciónque los expertos suelen utilizar en la bús-queda operadores de consulta en mayormedida, a excepción del operador +, quees igualmente de popular para ambosgrupos. El hecho de que los expertos uti-licen estos operadores al definir la bús-queda nos debería hacer reflexionar so-bre la importancia de utilizarlos.

En el cuadro 1 encontramos el resumencomparativo de la utilización de estosoperadores.

Cada herramienta de búsqueda utiliza supropio conjunto de operadores con unasintaxis específica. En las direccioneshttp://lisweb.curtin.edu.au/staff/gwperso-nal/compare se recoge una comparativade los interfaces de los mejores buscado-res internacionales (AltaVista, Excite,FAST Search, Google, HotBot, Infose-ek/GO.com, Northern Light y WebCra-wler). Los operadores de consulta +/- sonutilizados en todos los buscadores. El usode los operadores booleanos está exten-dido en el conjunto de estos buscadorespero con ciertas diferencias. Así, por ejem-plo, el buscador FAST Search no incluye eloperador AND y AND NOT, Google exlu-ye AND NOT e Infoseek no utiliza AND yAND NOT. En cuanto al operador de cer-canía (NEAR), tan sólo lo incluyen AltaVis-ta y Google. En todos los casos, para reali-zar una frase de búsqueda, ésta deberácolocarse entre comillas (« »). Excite yWebCrawler no incluyen otros campos debúsqueda como título (title:). Imagen(image:), texto (tex:), dirección (url:), etc.

En la página web de la Universidad deNorthumeria, de Newcastle (http://www.unn.ac.uk/central/isd/features.htm) se lle-ga a las mismas conclusiones, pero aña-diendo en su estudio a Lycos. Las carac-terísticas de este buscador referente aestos operadores de consulta son: admi-te el uso de +/-; AND, OR y NOT; labúsqueda por campos, las « » para el usode frases como palabras claves y NEAR.

En cambio no se puede utilizar el opera-dor de truncamiento *.

También en la página Web http://li-brary.albany.edu/internet/choose.htmlpodemos encontrarnos con una explica-ción bastante acertada de la tipología delos operadores de consulta.

Operadores de exactitud, máscara otruncamiento. En primer lugar nos encon-tramos con las familias de palabras. Aña-diendo al final de la palabra el carácter co-modín *, en algunos casos es $ o ? y enotros la herramienta tiene una opción espe-cífica que se puede activar. Se utiliza paraindicar raíces o partes de palabras y buscarpalabras que comienzan con esa raíz. Seríala manera de proceder si no se sabe cómoescribir la palabra a buscar exactamente.

El otro conjunto de estos operadores sonlas palabras completas. Se utiliza para en-contrar sólo aquellas referencias que ten-gan la palabra exacta y no extensiones.Suele venir por defecto en la mayoría delos buscadores, pero en algunos hay queañadir al final de la palabra el carácter .para darle a entender al buscador que setrata de una palabra completa y no deuna cadena de caracteres, y en algunasherramientas se deberá activar una op-ción específica.

Operadores de existencia. Son dos lostipos de operadores de existencia. Por unlado, los de presencia (añadiendo delantede la palabra el signo +). Exige la presen-cia de alguna(s) palabra(s) clave(s) en lainformación encontrada, lo que permitiráprecisar más la búsqueda. Una búsquedadefinida como la que sigue: +publicidad+internet, mostrará como resultados laspáginas que contengan la palabra publici-dad además de la palabra Internet. Porotro lado, los de ausencia (añadiendo de-lante de la palabra el signo –). Exige laausencia de alguna(s) palabra(s) clave(s)en la información encontrada, lo que per-mitirá precisar más la búsqueda. Porejemplo: +publicidad –banner que es lomismo que publicidad AND NOT bannersólo mostrará como resultados las pági-nas que contengan la palabra publicidady no contengan la palabra banner.

Operadores lógicos o booleanos. Sonlos siguientes:

J. L. SALMERÓN SILVERA / S. BUENO ÁVILA / P. LUNA HUERTAS

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

178

AND 34,57 2,40

OR 8,02 0,09

NOT – 0,06

( ) 7,41 0,10

+ 29,01 24,82

– – 0,48

« « 24,69 8,62

FUENTE: Hölscaer y Stenbe (2000).

CUADRO 1UTILIZACIÓN DE LOS OPERADORES

BOOLEANOS DE LOS EXPERTOS Y USUARIOS DE FIREBALL

Expertos del estudio % Fireball %

12 LOCALIZACION/346 30/7/03 12:43 Página 178

Y lógico (AND) (también se puede poner&). Exige que aparezcan todas las palabrasindicadas independientemente del orden.Es un operador de reducción que permiterealizar consultas más específicas. Se utili-za principalmente para concretar más labúsqueda y reducir así el número de di-recciones que se obtengan como resulta-do. Por ejemplo: publicidad AND internetsólo recogerá como resultados las páginasque contengan ambas palabras.

O lógico (OR) (también se puede poner !).Exige que aparezca al menos una de esaspalabras indicadas. Es un operador de am-pliación que permite, por ejemplo, buscardistintos sinónimos o una o más palabrasclaves acentuadas o no. Cuando no se po-ne operador alguno entre palabras, losbuscadores suelen interpretarlo como sihubiéramos colocado OR.

NO lógico (NOT) (también se puede po-ner ^ y en algunas herramientas deberáutilizarse BUT NOT o AND NOT). Exigela ausencia de una o más palabras indica-das. Es un operador de reducción quepermite eliminar posibles palabras pareci-das pero sin interés para la consulta. Porejemplo: publicidad AND NOT bannersólo recogerá como resultados las pági-nas que contengan la primera palabra yno la segunda.

Para una mayor información sobre el usode las búsquedas booleanas, puede con-sultarse la siguiente dirección en ingléshttp://library.albany.edu/internet/boole-an.html.

Operadores de proximidad o posiciona-les. Permiten especificar la distancia entrelas palabras o términos que se intentan loca-lizar con el buscador. Son los siguientes:

Proximidad (NEAR) (en algunas herra-mientas se deberán utilizar los corchetes [] o el carácter ~). Es muy parecido al Ylógico, pero además exige que entre am-bas palabras no haya más de 10 palabras(esta cantidad puede variar dependiendodel buscador). Algunas herramientas pue-den indicar la cantidad de palabras máxi-mas de separación que debe haber entredos palabras determinadas con el opera-dor NEAR/n, siendo n el número de pala-bras máximas de separación que se de-sea. En esos casos, el operador NEAR

sólo obliga a que las palabras estén se-guidas. Por ejemplo: publicidad NEAR In-ternet sólo recogerá como resultados laspáginas que contengan las palabras pu-blicidad e Internet relativamente juntas.

Frases. Se parece al Y lógico pero, ade-más, exige que la secuencia de palabrassea idéntica. En la mayoría de los busca-dores se suele poner la frase entre comi-llas o unirla mediante guiones sin dejar es-pacio en blanco. Por ejemplo: «publicidaden Internet» o publicidad-en-Internet sólorecogerá como resultados las páginas quecontengan la frase «publicidad en Internet».En algunos pocos buscadores se deberáutilizar el operador FOLLOWED BY o ADJentre las palabras en vez de entrecomillar-las.

Cabe destacar cómo el conjunto de todosestos operadores no es excluyente, pu-diéndose utilizar conjuntamente para en-lazar palabras y frases (aunque en la ex-plicación detallada de cada operador sólohemos utilizado palabras); en tal caso sesuelen aplicar en el orden en que se es-pecifiquen o rompiendo ese orden utili-zando paréntesis. Con los paréntesis selogra agrupar las expresiones de búsque-da para evitar posibles confusiones con lainclusión de operadores y palabras clave.

Siempre nos puede quedar la duda de siestos operadores de consultas dan mejo-res resultados que si utilizamos el lengua-

je natural. Un estudio realizado por Wi-lliam Hersh et al. (2001) para compararlos resultados obtenidos utilizando losoperadores booleanos y el lenguaje natu-ral dio resultados bastante concluyentes.Se realizó el estudio sobre 24 personas(bibliotecarios) altamente experimentadasen las tareas de búsqueda. Los resultadosmostraban que aunque estaban altamentepreparadas en una interfaz con operado-res booleanos, existían pocas diferenciasde éxito entre el lenguaje natural y losoperadores booleanos.

Efectividad de los operadores de con-sulta. Con este apartado pretendemosdemostrar que con el uso de los operado-res de consulta podemos obtener en ma-yor medida información útil (relevante yactualizada). Para ello, hemos efectuadoun conjunto de nueve consultas, cadauna de ellas sobre nueve de los buscado-res más utilizados (ver cuadro 2), selec-cionados a partir de directorios sobrebuscadores de las páginas http:// lis-web.curtin.edu.au/staff/gwpersonal/com-pare y http://www.unn.ac.uk/central/isd/features.htm, para así comprobar si losresultados se asemejan en cada uno deellos. Nos centraremos en los motores debúsqueda y los directorios o buscadorespor índice sonbre la base de Dempsey(2000), ya que según este autor, los servi-cios de búsqueda en la Web giran en tor-no a dos paradigmas básicos: los motoresde búsqueda y los directorios.

LOCALIZACIÓN DE INFORMACIÓN EN MOTORES DE BÚSQUEDA EN INTERNET...

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

179

12 LOCALIZACION/346 30/7/03 12:43 Página 179

De los nueve buscadores, la mayoría deellos son motores de búsquedas, concreta-mente ocho. Esto es así porque los motoresse consideran las herramientas más poten-tes de búsqueda, aunque con algunos in-convenientes, como ya analizamos en la in-troducción de este artículo. El único de losdirectorios es Yahoo!, considerado comouno de los buscadores por índice más im-portantes y utilizados internacionalmente.

Para proceder al análisis hemos desarrolla-do las consultas sobre una materia extensa,los EIS o Executive Information System. Elmotivo por el que elegimos este tema esgarantizar, a priori, un elevado número depáginas de resultado con la utilización debúsquedas simples, y así comprobar si conlas mismas consultas, pero planteadas conlos operadores booleanos, se obtenían me-nores páginas y si éstas son más relevan-tes. Las consultas fueron las siguientes:

1|— En primer lugar, buscaremos informaciónsobre los Executive Information System defi-niendo la consulta con sus siglas. La consultaquedaría del siguiente modo: EIS.

2|— A continuación, plantearemos la mismaconsulta pero formulada como una suce-sión de caracteres única. La consulta que-daría así: «executive information system».

3|— En tercer lugar, realizamos la consultacon operadores de presencia. La consultase formuló como sigue: +executive +in-formation +system.

4|— Seguidamente, se quiso plantear la mis-ma consulta que la (3), pero con los ope-radores booleanos. Así se formuló la con-sulta: executive AND information ANDsystem.

A continuación nos interesamos por laimplantación de los EIS, y planteamos lasconsultas de las siguientes formas:

5|— +implementation +«executive informa-tion system».

6|— implementation AND «executive infor-mation system».

7|— implementation AND executive ANDinformation AND system.

8|— implementation AND EIS.

Por último, quisimos saber la informaciónque trataba sobre la implementación perono sobre el control de los EIS. La consul-ta quedó como sigue:

9|— implementation AND «executive infor-mation system» AND NOT control.

Una vez ejecutadas todas estas consultasen todos los motores de búsqueda, obtu-vimos los resultados, en número de pági-nas, que se resumen en el cuadro 2.

En general se obtienen menores resulta-dos utilizando una sucesión única de ca-racteres (2) que planteándola con las si-glas (1). Esto es debido a que las siglas(EIS) no sólo hacen referencia a los Exe-cutive Information System, sino que pue-den hacer referencia, por ejemplo, a unaempresa, como se nos ha dado el caso.Por tanto, planteando la consulta de laforma (2) se aumentan las posibilidadesde obtener información sobre los Execu-tive Information System.

Es aconsejable utilizar « » cuando la con-sulta se refiera a un concepto que se de-nomine con una cadena de caracteresúnica, es decir, cuando la consulta hagaalusión a un objeto, acción o aconteci-miento con una única forma de identifi-cación, como, por ejemplo, la «Torre Eif-fel» o la «Teoría de la Relatividad». Ennuestro caso es así, por ello se obtienenresultados más relevantes buscando por

la denominación completa de los EIS yno por sus siglas.

El motivo de plantear la consulta (3) co-mo +executive +information +system eracomprobar si entre las 10 primeras pági-nas de los resultados se contenía una in-formación más relevante que en la (2). Alejecutar la consulta (3) obtuvimos mayo-res o iguales resultados que la (2), a ex-cepción de Excite y WebCrawler, cuyosresultados se vieron reducidos drástica-mente (de 4.197.945 a 9.800 páginas).Además, podemos observar que la tónicageneral para aquellos buscadores que ex-perimentaban un considerable aumentode los resultados, la relevancia se veíamermada (Fast y Lycos), a excepción deNorthern Light, que mantiene una rele-vancia alta en ambos resultados. Para Al-taVista, que aumentó sus resultados másmoderadamente, observamos una mayorrelevancia de la información devuelta conla consulta (3). Para aquellos buscadoresque siguieron manteniendo los mismos re-sultados, la relevancia fue la misma. En Ex-cite y WebCrawler, que vieron fuertementereducidos sus resultados, se produjo un au-mento de la relevancia de la información.

Con la pregunta (4) pretendimos observarsi una consulta planteada con operadoresbooleanos se obtenían resultados distin-tos a los obtenidos en la consulta simple(3). Como se puede observar en el cua-dro 2, todos los buscadores devolvieronlos mismos resultados, a excepción deFast, que multiplicó por 10 sus resulta-dos, y de Lycos, con una reducción muyleve. Por tanto, en este caso hubiera sidoindiferente utilizar los operadores de pre-sencia o los lógicos.

A partir de la consulta (5) se hace refe-rencia a la implantación de los EIS, unavez llegada a la conclusión de que parahacer consultas sobre los Executive Infor-mation System es mejor utilizar operado-res posicionales, de ahí que planteemoslas consultas (7) y (8), con el fin de con-firmar esta conclusión.

Las consultas (5) y (6) prácticamente de-vuelven los mismos resultados, menosExcite, que los aumenta (de 2.920 pasa a24.330), y de Northern Light, que los re-duce (de 4.467.125 a 5.651). Por tanto, eneste caso tampoco existen diferencias sig-

J. L. SALMERÓN SILVERA / S. BUENO ÁVILA / P. LUNA HUERTAS

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

180

12 LOCALIZACION/346 30/7/03 12:43 Página 180

nificativas con la utilización de operado-res booleanos.

Comparando las consultas (5) y (7) o (6)y (7) vemos cómo no es adecuado tratarpor separado las palabras que definen alos EIS, ya que se obtienen resultadosmuy exagerados con un alto componentede ruido. Lo mismo ocurre entre las con-sultas (5) y (8) o (6) y (8), donde definir alos Executive Information System por sussiglas proporciona resultados con muchoruido. Excite es el único buscador que re-duce los resultados tanto en la consulta(7) y (8), con una alta relevancia de la in-formación para esta última.

Con la consulta (9) pretendíamos demos-trar que al ser una matización de la (6),se obtenían menores resultados, como asíse puede demostrar en el cuadro 2.

Por último, y con respecto a Yahoo!, ob-tuvimos los resultados que esperábamosde un buscador por índice, ya que conéste se obtuvo menores resultados quecon los motores de búsqueda (ver cuadro2). Sin embargo, es sorprendente la rele-vancia de la información que se devolvióen las nueve consultas planteadas.

Conclusiones

El volumen de información en Internetcrece a pasos agigantados debido a quese incorporan diariamente cientos de pá-ginas y se actualizan otras tantas, entrelas que se incluyen las de carácter cientí-fico. Y es más, las tradicionales fuentesde información, tales como bibliotecas ybases de datos, se han sumado a la redcon la publicación de sus catálogos, pu-diendo ser consultados la mayoría deellos en su totalidad. Así pues, el investi-gador en un mismo lugar puede llegar acontrolar todo el conjunto de fuentes. Porello, cada vez más, se ven obligados aacudir a Internet para consultar y selec-cionar su contenido.

Ahora bien, Internet posee el inconve-niente de la ausencia de un catálogo don-de se recoja la situación exacta de toda lainformación publicada, debido a la impo-sibilidad de abarcar la totalidad de la red,de ahí que buscar directamente en las pá-ginas se convierta en una estrategia pocoadecuada, a menos que se sepa con cer-teza dónde se sitúa la información desea-

da, como hemos visto en el estudio deWhite (2000).

Por tanto, se hace imprescindible el usode las herramientas diseñadas para la bús-queda como estrategia más eficaz por lacapacidad de encontrar información útil(relevante y actualizada) en el menor tiem-po posible. Además, para que la búsquedade información sea lo más precisa posible,es aconsejable la utilización de los opera-dores o términos de consulta. Con ellostendremos la posibilidad de obtener resul-tados los más limpios posible (sin ruidos).

BibliografíaCLARKE CHARLES, L. A.; CORMACK, G. V. y

TUDHOPE, E. A. (2000): «Relevance ran-king for one to three term queries», Infor-mation Processing & Management, vol. 36,pp. 291-311.

DASSLER WUKOVITZ, L. (2001): «Using inter-net search engines and library catalogs tolocate toxicology information», Toxicology,vol. 157, pp. 121-139 .

DEMPSEY, B. J.; VREELAND, R. C.; SUMMERJr., R. G. y YANG, K. (2000): «Desing andempirical evaluation of search software for

LOCALIZACIÓN DE INFORMACIÓN EN MOTORES DE BÚSQUEDA EN INTERNET...

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

181

Altavista

http://www.altavista.com 347.011 8.184 26.681 26.681 2.059 2.059 568.689 17.331 940

Excite

http://www.excite.com 11.460 4.197.945 9.800 9.800 2.920 24.330 180 110 23.390

Fast

http://www.alltheweb.com 485.916 9.305 1.689246 10.683.404 2.872 2.851 447.394 447.394 1.251

Google

http://www.google.com 30.000 12.700 12.700 37.700 5.040 5.060 47.900 25.100 2990

HotBot

http://www.hotbot.com +1.000 +1.000 +1.000 +1.000 935 935 +1.000 +1.000 585

Lycos

http://www.lycos.com 466.836 9.264 1.781.712 1.682.496 2.835 2.815 441.557 25.960 1.235

Northern L.

http://www.northernlight.com 454.864 15.634 2.432.230 2.432.230 4.467.125 5.651 495.948 23.795 2.309

Webcrawler

http://www.webcrawler.com 11.460 4.197.945 9.800 9.800 2.920 179 180 8.046 23.390

Yahoo!

http://www.yahoo.com 44 7.260 63 63 1.370 1.370 1 1 1.170

FUENTE: Elaboración propia.

CUADRO 2PÁGINAS OBTENIDAS DE CADA CONSULTA EN CADA UNO DE LOS MOTORES DE BÚSQUEDA

(1) (2) (3) (4) (5) (6) (7) (8) (9)

12 LOCALIZACION/346 30/7/03 12:43 Página 181

legal professionals on the WWW», Informa-tion Processing & Management, vol. 36, pp.253-273.

FISHER INGID, E. y MURPHY SMITH, L.(2000): «The role for web search engines.The CPA», Journal, enero, pp. 43-75.

HERSH, W.; TURPIN, A.; PRICE, S.; KRAEMER,D.; OLSON, D.; CHAN, B. y SACHEREK, L.(2001): «Challenging conventional assump-tions of automated information retrieval withreal users: Boolean searching and batch re-trieval evaluations», Information Processing &Management, vol. 37, pp. 383-402.

HÖLSCHER, CH. y GERHARD, S. (2000): «Websearch behaviour of Internet experts andnewbies», Computers Networks, vol. 33, pp.337-346.

KHOO, C. S. G.; MYAENG, S. H. y ODDY, R.H. (2001): «Using cause-effect relations intext to improve information retrieval preci-sion», Information Processing and Manage-ment, vol. 37, pp. 119-145.

KOBAYASHI, M. y TAKEDA, K. (2000): «Infor-mation Retrieval on the web», ACM Compu-ting Surveys, vol. 32, nº 2, pp. 144-172.

LANG, R. y STACEY, P. (2001): Speed up yourInternet searches. Occupational Hazards,abril, pp. 44-46.

WEBSTER, K. y PAUL, K. (1996): «Beyond Sur-fing: Tools and Techniques for Searchingthe Web», Information Technology, enero.

WHITE, M. D. y IIVONEN, M. (2000): «Ques-tions as a factor in Web search strategy», In-formation Processing & Management, vol.37, pp. 721-740.

ZAMIR, O. y ETZIONI, O. (1999): «Grouper: adynamic clustering interface to Web searchresults», Computer Networks, vol. 31, pp.1361-1374.

RECURSOS ELECTRÓNICOS:http://www.bib.uc3m.es/~jroble/documen-

tac/buscar.htm#aprender de la UniversidadCarlos III de Madrid.

http://hipatia.uc3m.es/~jroble/documentac/3a.htm, también de la Universidad Carlos III. Artí-culo «Cómo buscar y encontrar informaciónen Internet», de Álvaro Ibáñez y publicado enla revista Iworld, noviembre de 1997.

J. L. SALMERÓN SILVERA / S. BUENO ÁVILA / P. LUNA HUERTAS

ECONOMÍA INDUSTRIAL N.o 346 • 2002 / IV

182

12 LOCALIZACION/346 30/7/03 12:43 Página 182