"Los tesoros encontrados de Miriam": La web profunda

Bienvenidos de nuevo a mi blog. En esta entrada hablaremos sobre la web profunda o invisible, y la web visible, aquella a la que accedemos normalmente.
Hay que saber que, además de los buscadores habituales, tenemos a nuestra disposición otra serie de herramientas que nos permiten profundizar en la búsqueda, como estamos viendo gracias al curso. Una de estas nuevas cosas que comenzamos a aprender es que existen dos tipos de webs, la superficial y la profunda. Es en la segunda donde queda una amplísima colección de información en catálogos, revistas digitales, blogs, etc., que no aparecen si se inicia una búsqueda "normal".

Web superficial

Aquellos sitios cuya información es indexada y recuperada mediante una sencilla búsqueda.

Su información no está contenida en base de datos.
Es de libre acceso.
Suelen estar formados por webs estáticas, páginas con una URL fija que, además, son accesibles desde otro enlace.

Web profunda

Término utilizado para describir aquella información en Internet que no se recupera con los buscadores habituales.

Parte de esta información es "invisible" a los robots ya que los resultados, al contrario que los tradicionales, se generan mediante páginas dinámicas, por lo que no tienen URL fija (ésta se construye al iniciar la búsqueda y se destruye al finalizarla).

Según Sherman y Price existen cuatro tipos de web profunda:

1. Web opaca

Compuesta por archivos que podrían pertenecer a la visible pero que, por algún motivo, no lo están. Las posibles causas serían:

Economía: No todas las páginas son indizadas.
Frecuencia: La indización no se realiza a un ritmo tan acelerado que permita incluirlas todas.
Número de resultados visibles: Aunque los motores de búsqueda arrojan un gran número de resultados, limitan el número que muestran.
URL desconectadas: Los resultados en ocasiones se muestran por orden de relevancia basada en el número de veces que aparecen citados en otros. Si un documento no tiene un link a él, será imposible que la página sea mostrada, puesto que no se encuentra indizada.

2. Web privada

Contienen documentos excluidos de forma deliberada por su falta de utilidad o debido a que los dueños de la información que contiene deciden que sea ilocalizable. Se debe a:

Las páginas están protegidas mediante contraseñas.
Contienen un archivo "robots.txt" para evitar indizarlo.
Contienen el campo "noindex".

3. Web propietaria

Incluye páginas en las que es necesario registrarse para tener acceso.

4. Web realmente invisible

No pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, que se generan a partir de datos que introduce el usuario; información almacenada en otras bases de datos que no puede ser extraída a menos que se realice expresamente la petición.

Buscadores académicos

Existen a disposición del usuario una serie de buscadores con fines académicos y de investigación para poder bucear en esta web profunda. Algunos de los ejemplos serían:

The Virtual Library