Un moteur de recherche pour explorer la face cachée du Web

février 12, 2015
admin

Un laboratoire de recherche de l’armée américaine a mis au point un programme capable de mener des recherches thématiques dans des pages Web non indexées par les moteurs habituels.

La plupart des internautes ne connaissent rien, ou presque, du Web. Seule une partie infime de ses ressources nous sont accessibles, généralement via des moteurs de recherche. «Certains estiment que Google, Microsoft et Yahoo ne nous donnent accès qu’à 5% du contenu du Web», explique Chris White, dans une interview accordée à la chaîne américaine CBS. Cette partie inconnue du Web est généralement appelée le «Deep Web», ou le Web profond. Elle est surtout constituée de pages non indexées par les moteurs de recherche classique ou protégées par un logiciel spécifique, comme Tor. Ces pages secrètes sont le terrain de jeu de différents réseaux criminels. Elles sont aussi l’outil de travail de Chris White. Cet ingénieur du DARPA, un laboratoire de recherche de l’armée américaine, a mis au point un programme capable de dévoiler ce Web caché. Il est baptisé Memex, une combination de «mémoire» et «index».
Analyser un très grand nombre de données

Le projet permet d’effectuer des recherches thématiques sur ces pages invisibles. Les moteurs de recherche repèrent et classent généralement les pages Web en fonction de leur popularité, par exemple le nombre de visites ou le nombre de sites qui y font référence au travers de liens. On y accède ensuite par des mots-clés, qui doivent être le plus précis possible afin de trouver la page souhaitée.
C’est cette logique que souhaite renverser Memex. Le programme fonctionne comme une surcouche au-dessus d’un moteur de recherche classique. Lorsqu’un utilisateur effectue une recherche et clique sur un lien, il extrait une multitude d’autres informations en rapport avec son contenu. Memex ne se contente pas de récupérer les informations indexées par Google ou Bing. Il analyse d’autres données du Web non répertoriées, comme les pages du réseau anonyme Tor. Il sait aussi établir des liens entre les pages selon les bandeaux publicitaires qu’elles partagent. Les informations peuvent être présentées sous différents formats, par exemple une carte ou une frise chronologique, plutôt que grâce à une simple liste où les résultats les plus populaires sont présentés en premier. «Nous voulons que les résultats de recherche s’adaptent aux utilisateurs, et non le contraire», résume Chris White.
Un test sur les réseaux de prostitution

Memex est pour le moment développé comme un outil pour le département américain de Défense. Il a déjà été testé lors du Super Bowl, afin de surveiller les réseaux de prostitution. Memex était capable de repérer de nombreuses pages cachées faisant la promotion de services sexuels, puis de récupérer des données permettant d’identifier le lieu de leur publication: géolocalisation d’un appareil, adresse IP, numéro de téléphone ou une adresse mentionnée dans la réclame. Elles étaient ensuite compilées, recoupées puis associées aux photos de femmes figurant sur ces pages. De cette manière, Memex pouvait repérer les mouvements de différentes prostituées sur une carte, et faciliter le travail de la police. Ce travail a été salué par Barack Obama dans le cadre de son rapport sur le Big Data, publié en janvier. «Il s’agit d’un bel exemple de la manière dont le Big Data peut aider à protéger les personnes vulnérables», a expliqué le président des États-Unis.
L’ingénieur cite d’autres exemples où Memex pourrait aider à repérer l’avancée géographique de données, par exemple dans le cas de l’épidémie d’Ebola. La DARPA précise tout de même que Memex n’a pas l’intention de récupérer des informations qui n’ont pas pour but d’être publiques (par exemple une page Facebook privée) ou de désanonymiser des services anonymes. «La plupart des personnes qui utilisent Internet le font pour de bonnes raisons», affirme Dan Kaufman, du DARPA. «Mais il existe aussi des parasites et nous voulons les empêcher d’utiliser Internet contre nous.»
Le développement de Memex aurait coûté entre 10 et 20 millions de dollars. S’il est pour le moment conçu pour aider les enquêtes de police, le programme pourrait aussi à terme aider les recherches des particuliers. Il est néanmoins peu probable que sa logique soit adoptée par Google ou Bing. Ces entreprises privées ont surtout intérêt à répertorier des liens très fréquentés, et donc à fort potentiel de revenus publicitaires.