Explorer le ‘Web Profond’ que Google ne peut indexer (partie 1)

GooglePublié le 26 mars 2009 à 22 h 09 min Commentaires fermés

Récemment, le moteur de recherche Google a frôlé une étape importante. Il a ajouté la trillionnième adresse à la liste des pages Web qu’il reconnaît. Mais, aussi invraisemblablement grand que ce nombre puisse paraître, il ne représente pourtant qu’une fraction sur tout l’ensemble du Web.

Un jour l’été dernier, le moteur de recherche Google a frôlé une étape importante. Il a ajouté la trillionnième adresse à la liste des pages Web qu’il reconnaît. Mais, aussi invraisemblablement grand que ce nombre puisse paraître, il ne représente pourtant qu’une fraction sur tout l’ensemble du Web.

Au-delà de ces trillions de pages, se trouve aussi un vaste Web des données cachées: les informations financières, les catalogues d’achats, les horaires de vols, la recherche médicale et toutes sortes d’éléments stockés dans des bases de données qui demeurent totalement inaperçues par les moteurs de recherche.

Les défis auxquels les gros moteurs de recherche font face en essayant de pénétrer ce soi-disant Web Profond sont à placer dans le même ordre que le fait d’essayer de comprendre la raison pour laquelle ils ne peuvent toujours pas fournir des réponses adéquates aux questions du genre « Quel est le meilleur tarif New York Londres, le Jeudi prochain » ? Les réponses sont disponibles sans difficulté – si seulement les moteurs de recherche savaient comment les trouver.

Maintenant qu’une nouvelle génération des technologies est en train de prendre forme, cela étendra la portée des moteurs de recherche jusqu’aux coins cachés du Web. Quand ceci sera possible, l’effet que ça produira sera bien au-delà de l’amélioration de la qualité des résultats de recherche – et pourrait aller jusqu’à révolutionner en fin de compte la façon dont plusieurs business s’effectuent en ligne.

Les moteurs de recherche s’appuient sur des programmes tels que les crawlers (ou araignées) qui rassemblent l’information en suivant les parcours des hyperliens qui relient le Web ensemble. Bien que cette approche fonctionne bien pour les pages qui composent la surface du Web, ces programmes rencontrent plus de difficulté à pénétrer les bases de données qui sont mises en place pour répondre aux requêtes saisies.

« Le Web crawlable est la partie visible de l’iceberg « , a déclaré Anand Rajaraman, co-fondateur de Kosmix (www.kosmix.com), un début de recherche dans le Web Profond dont on compte parmi les investisseurs Jeffrey P. Bezos, directeur général de Amazon.com. Kosmix a développé un logiciel à même de faire correspondre les recherches d’avec les bases de données les plus susceptibles à fournir l’information pertinente, puis à retourner un commentaire du sujet tiré de plusieurs sources.

«  La plupart des moteurs de recherche tentent de vous aider à retrouver une aiguille dans une botte de foin », a souligné Mr. Rajaraman, «  mais nous, ce que nous essayons de faire c’est de vous aider à explorer cette botte de foin « .Cette botte de foin est infiniment énorme. Avec des millions de bases de données connectées au Web, et d’innombrables permutations probables des termes de recherche, il n’existe tout simplement aucun moyen pour n’importe quel moteur de recherche – peu importe combien il est puissant de trier chaque possible combinaison des données comme elles se présentent.

No related posts.

La liste des entrées complémentaires est établie par le module d’extension YARPP.

Tags : , ,

Les commentaires sont fermés.