Explorer le Web profond (partie 2)
GooglePublié le 31 mars 2009 à 9 h 41 min Commentaires fermésAfin d’extraire des données significatives du Web Profond, les moteurs de recherche doivent analyser des termes de recherche des utilisateurs et savoir comment faire l’intermédiaire entre ces requêtes et les bases de données spécifiques.
Pour illustrer cela, si par exemple un utilisateur saisi « Rembrandt », le moteur de recherche a besoin de savoir laquelle des bases de données est la plus susceptible de contenir des informations sur l’art (entre les catalogues de musée ou la vente des maisons aux enchères), et aussi les types de requêtes qui seront acceptées par ces bases de données.
Cette approche peut théoriquement avoir l’air bien simple mais dans la pratique, la grande variété des structures de base de données et éventuellement des termes de recherche pose un épineux problème de calcul.
« C’est sans doute le problème d’intégration des données le plus intéressant qu’on puisse imaginer », a déclaré Alon Halevy, un ancien professeur d’informatique à l’Université de Washington, qui est actuellement à la tête d’une équipe chez Google qui essaie de dénicher l’énigme du Web Profond.
La stratégie de recherche du Web Profond chez Google consiste à envoyer un programme qui puisse analyser les contenus de chaque base de données qu’il croise. Par exemple, si le moteur de recherche trouve une page avec un formulaire ayant trait à l’art plastique, il commence à deviner des termes de recherche probables – « Rembrandt », « Picasso », « Vermeer », et ainsi de suite – jusqu’à ce que l’un de ces termes corresponde. Le moteur de recherche va ensuite analyser les résultats et va développer un modèle prédictif de ce que contient la base de données.
Dans le même esprit, Prof. Juliana Freire de l’Université de l’Utah, travaille sur un ambitieux projet baptisé DeepPeep (www.deeppeep.org) qui éventuellement a pour objectif de crawler et d’indexer chaque base de données dans un Web public. Extraire les contenus d’un si grand nombre d’ensembles des données éparpillées exige une sorte de dispositif sophistiqué de jeu de calcul à deviner.
« La façon naïve serait de rechercher tous les mots dans le dictionnaire « , souligne Mme Freire. Au lieu de cela, DeepPeep commence par poser un petit nombre de modèles de requêtes, « de sorte que nous pouvons nous servir de cela pour mieux asseoir notre compréhension à propos des bases de données et choisir quels sont les mots à rechercher « .
No related posts.
La liste des entrées complémentaires est établie par le module d’extension YARPP.

Les commentaires sont fermés.