| Por
Alfredo Morgan
12
de junio de 2003
Estudiosos
de la universidad californiana de Berkeley definen a la "web invisible" como "todo
lo que no se puede ver en las búsquedas de los motores tradicionales",
es decir, contenidos online de la más diversa índole
que seguramente nunca podremos llegar a visualizar en nuestros
navegadores.
Arañas
tontas
Según los expertos, una de las razones que explica la existencia
de la web invisible es bastante "simple": las arañas
son incapaces de pensar, por lo tanto no emiten juicios ni pueden
ver mas allá.
¿
Qué tienen que ver los arácnidos?, vamos por partes.
Cada vez que navegamos en la World Wide Web mediante un "browser" (el
internet explorer, por ejemplo) nos adentramos en una gran "telaraña" de
contenidos, la que a su vez es recorrida por un millar de "arañas" recolectoras
de información, que alimentan con sus hallazgos los motores
de búsqueda como Google o Yahoo.
Para
este caso, las arañas son "programas de computador
que buscan contenidos específicos de acuerdo a la ubicación
de ciertas palabras". El punto es que si la palabra no ha
sido de antemano introducida en el motor de búsqueda, la
araña no reacciona ante contenidos (sitios, páginas)
que tiene más "vocabulario" que ella. Acá,
su falta de discernimiento y su incapacidad para buscar sinónimos
la obligan a hacer la "vista gorda" ante estos sitios.
Sitios
cambiantes
Las
páginas obtenidas de una búsqueda en motores
como Google o Yahoo son vínculos que -en la jerga técnica-
son "dinámicamente generados". En palabras simples,
el motor no tiene ninguna lista específica de los temas,
pero si puede pasar -con su respectiva araña- por cada "casa" (sitio)
preguntando si tiene información. Una vez que preguntó en
toda la cuadra entrega un "listado dinámico" sobre
donde pueden encontrarse las cosas.
Y
aquí está la segunda causa de la
web oculta. ¿Son
todas las "casas" útiles para la investigación?
No, hay algunas a las que la araña no les entiende la respuesta
o simplemente desecha por que no ha sido diseñada
para revisarla.
Estas
casas, que no pudieron o deliberadamente no fueron incluidas,
pueden corresponder a cualquiera
de los
siguientes tipos:
1.-
Bases de datos: Hay miles de páginas que se crean en
forma dinámica cuando son "solicitadas" a través
de un navegador, estas no siempre pueden ser visualizadas y registradas
por las arañas.
2.- Páginas que requieran de registro o contraseña:
Es imposible que las arañas conozcan nuestras "passwords".
Bajo ésta clasificación caen una enorme cantidad
de sitios que por tener una o todas sus partes con accesos restringidos
simplemente no son desplegados en los motores de búsqueda.
3.- Sitios sin HTML: Un sitio que no esté construido con
HTML, el más utilizado de los códigos para la web,
es claro candidato a ser ignorado por los buscadores. En este grupo
se incluyen contenidos en formatos como Flash, Word o Powerpoint.
Google es capaz de "indexar" archivos
PDF, hasta hace poco parte de la web invisible.
4.- Sitios basados en "scripts": Sitios que despliegan
elementos gracias al uso de bases de datos son parte de los firmes
candidatos a las omisiones de los arácnidos recolectores.
Los buscadores están programados por defecto a eliminar
(de sus resultados) todas, o la gran mayoría de las direcciones
que tengan un signo de interrogación, el símbolo
clave en una base de datos. Los motivos entregados por los buscadores
para no incluir estos archivos radican en las numerosos "atrapa
arañas" que algunos se han preocupado por diseñar.
Sumergiéndose
la red
Para
los curiosos, hay una serie de direcciones dedicadas especialmente
a encontrar lo que
los buscadores tradicionales
no muestran.
|