Get Adobe Flash player

Le web invisible ou web profond est la partie du web accessible en ligne, mais non indexée par les moteurs de recherche.

Les moteurs de recherche comme Google, Live Search ou Yahoo ! Search ne permet d'accéder qu’à une petite partie (moins de 10 %) du web, appelé web visible. Les algorithmes des moteurs de recherche étant à peu près similaires, il s’avère que les zones indexées par chacun se recoupent en grande partie. Le nombre de pages web augmentant de jour en jour, les ressources matérielles des crawler ne leur permettent pas d’indexer tout le web. De plus, certains types de pages « échappent » à l’indexation pour différentes raisons citées dans cet article.

Les ressources du web invisible sont réputées comme de meilleures qualités et plus pertinentes que celles du web visible, car elles sont créées par des experts dans le domaine.

Les Moteurs Spécialisés  turbo10 - incywincy - deepdyve - metacrawler

Les raisons de la non-indexation

Les raisons de la non-indexation d'un site ou d'une page sont nombreuses :

Pages dynamiques

Les pages dynamiques générées à la volée selon des données entrées par un utilisateur (typiquement les pages contenant un ? dans leur URL). Ces pages n’ont pas d’URL statiques que les moteurs de recherche pourraient parcourir puisque les crawler ne peuvent pas taper de requête

Pages non lié

Les pages qui ne sont pas liées à d’autres sites ne peuvent pas être découvertes par les crawler.

Pages protégées par l'auteur

L’auteur d’un site peut protéger ses pages en mettant un fichier robot.txt à la racine du site ou en insérant un certain metatag dans le header des pages afin d’empêcher l’indexation de celles-ci.
Exemple : le site du journal "Le monde" empêche les crawlers d'accéder à ses pages payantes.

Pages protégées par identification

De nombreux sites protègent certaines ou toutes leurs pages par mot de passe. Les crawler étant incapables de remplir un formulaire, ils ne peuvent pas accéder à ces pages.

Pages non indexables

Documents dont les formats de données ne sont pas supportés par les crawler.

Pendant longtemps les pages non HTML (Word, Excel, PowerPoint, PDF…) n’étaient pas supportées par les crawler des moteurs de recherche et ne pouvaient pas être indexées, ce qui est de moins en moins vrai aujourd’hui.
Seules les RIA (Rich Internet Applications) Flash ou Silverlight restent assez mal indexées de par leur nature. En conséquence, les pages seulement accessibles par des RIA ne peuvent pas être indexées.

Sites trop volumineux

Une autre raison de la non-indexation est le fait que certains sites ou bases de données sont trop volumineux pour être entièrement indexés.

Une équipe de chercheurs allemands a étudié le comportement des crawler face à des sites contenant énormément de pages. Ils ont créé un site de 2 147 483 647 pages sous forme d’arbre binaire et l’ont laissé pendant 1 an au bout duquel ils ont réalisé que seulement 0,0049 % des pages avaient été indexées (le dossier complet se trouve à cette adresse : http://drunkmenworkhere.org/).

Pour pallier à ce problème de volumétrie de pages à indexer pour un site donné, le moteur Google a introduit en 2005 le protocole Sitemap qui permet, grâce à la mise à disposition du robot d'un fichier Sitemap, de gagner en efficacité pour l'indexation. Ce fichier est mis à la racine du site par l'administrateur du site web.

 
pagerank