de 2002
 
INTERNETE-CONOMÍAPRODUCTOSTELECOMSOCIEDADSEGURIDAD
suscripción | correo | foros | compras | diccionario | cursos
 
Estás aquí: MOUSE : Reportaje : Los expedientes secretos de la web

Reportaje:
Los expedientes secretos de la web

Más allá de las teorías conspirativas que algún fanático "sci-fi" podría urdir frente al tema, lo concreto es que la web esconde un enorme número de páginas y otros tipos de contenidos que han sido catalogados de "invisibles". A continuación veremos por qué están ocultos y cómo podemos encontrarlos.

Por Alfredo Morgan
12 de junio de 2003

Estudiosos de la universidad californiana de Berkeley definen a la "web invisible" como "todo lo que no se puede ver en las búsquedas de los motores tradicionales", es decir, contenidos online de la más diversa índole que seguramente nunca podremos llegar a visualizar en nuestros navegadores.

Arañas tontas

Según los expertos, una de las razones que explica la existencia de la web invisible es bastante "simple": las arañas son incapaces de pensar, por lo tanto no emiten juicios ni pueden ver mas allá.

¿ Qué tienen que ver los arácnidos?, vamos por partes. Cada vez que navegamos en la World Wide Web mediante un "browser" (el internet explorer, por ejemplo) nos adentramos en una gran "telaraña" de contenidos, la que a su vez es recorrida por un millar de "arañas" recolectoras de información, que alimentan con sus hallazgos los motores de búsqueda como Google o Yahoo.

Para este caso, las arañas son "programas de computador que buscan contenidos específicos de acuerdo a la ubicación de ciertas palabras". El punto es que si la palabra no ha sido de antemano introducida en el motor de búsqueda, la araña no reacciona ante contenidos (sitios, páginas) que tiene más "vocabulario" que ella. Acá, su falta de discernimiento y su incapacidad para buscar sinónimos la obligan a hacer la "vista gorda" ante estos sitios.

Sitios cambiantes

Las páginas obtenidas de una búsqueda en motores como Google o Yahoo son vínculos que -en la jerga técnica- son "dinámicamente generados". En palabras simples, el motor no tiene ninguna lista específica de los temas, pero si puede pasar -con su respectiva araña- por cada "casa" (sitio) preguntando si tiene información. Una vez que preguntó en toda la cuadra entrega un "listado dinámico" sobre donde pueden encontrarse las cosas.

Y aquí está la segunda causa de la web oculta. ¿Son todas las "casas" útiles para la investigación? No, hay algunas a las que la araña no les entiende la respuesta o simplemente desecha por que no ha sido diseñada para revisarla.

Estas casas, que no pudieron o deliberadamente no fueron incluidas, pueden corresponder a cualquiera de los siguientes tipos:
1.- Bases de datos: Hay miles de páginas que se crean en forma dinámica cuando son "solicitadas" a través de un navegador, estas no siempre pueden ser visualizadas y registradas por las arañas.
2.- Páginas que requieran de registro o contraseña: Es imposible que las arañas conozcan nuestras "passwords". Bajo ésta clasificación caen una enorme cantidad de sitios que por tener una o todas sus partes con accesos restringidos simplemente no son desplegados en los motores de búsqueda.
3.- Sitios sin HTML: Un sitio que no esté construido con HTML, el más utilizado de los códigos para la web, es claro candidato a ser ignorado por los buscadores. En este grupo se incluyen contenidos en formatos como Flash, Word o Powerpoint. Google es capaz de "indexar" archivos PDF, hasta hace poco parte de la web invisible.
4.- Sitios basados en "scripts": Sitios que despliegan elementos gracias al uso de bases de datos son parte de los firmes candidatos a las omisiones de los arácnidos recolectores. Los buscadores están programados por defecto a eliminar (de sus resultados) todas, o la gran mayoría de las direcciones que tengan un signo de interrogación, el símbolo clave en una base de datos. Los motivos entregados por los buscadores para no incluir estos archivos radican en las numerosos "atrapa arañas" que algunos se han preocupado por diseñar.

Sumergiéndose la red

Para los curiosos, hay una serie de direcciones dedicadas especialmente a encontrar lo que los buscadores tradicionales no muestran.

 


 portada mouse@latercera.cl
©Copyrigtht Medios Digitales Copesa 2003

volver