Un moteur de recherche c’est quoi ?
Un moteur de recherche c’est un crawler qui va récupérer tous le texte et les liens se trouvant sur une page. Il va ensuite extraire les MOTS présent sur la page en supprimant tout ce qui ne l’intéresse pas. Il va extraire tous les liens se trouvant sur la page et les ajouter à sa file d’attente.
Il va indexer tous les mots trouvés par rapport à l’url. Il va ensuite établir un classement par rapport au mot et par rapport à l’url et le mot.
Un moteur de recherche c’est simple ! Jusque la !
En effet un moteur de recherche c’est vraiment un programme simple à mettre en oeuvre et à développer.
La ou ca se complique sérieusement c’est quand il ne s’agit pas de juste indexer une page ou un site … ca se complique lorsque il y a des milliard de pages pour autant de milliard de sites.
La ou ca se complique encore plus c’est dans ces milliard de pages et de sites il y a des millions de concurrents qui veulent tous être en premiere position sur un ou plusieurs mots clés.
La vrai difficulté des moteurs de recherche c’est la pertinence.
Etre pertinent aux yeux du public et rapide.
Pour être pertinent au sens du public, il faut connaitre le public. Il faut connaitre la complexité linguistique, savoir ce que l’internaute cherche dans le moteur de recherche. Pour être sur de cette recherche, il faut vérifier si le site visité depuis le moteur de recherche correspond à la recherche.
En d’autres termes :
- disposer de statistiques de mot clé
- disposer de statistiques de clic
- disposer de statistiques de sites
- disposer de statistiques de liens
- disposer de statistiques de confiance
- disposer de statistiques linguistiques
- disposer de statistiques utilisateur
On comprend rapidement la complexité statistique pour évaluer la pertinence dans un contexte donnée, pour un utilisateur donnée, pour une page parmi des milliards de pages.
C’est complexe d’être pertinent. A cela s’ajoute la pertinence aux yeux du propriétaire de page, du site. Il imagine des mots clés par rapport à ce qu’il souhaite mais l’internaute est aussi variable, en utilisant des synonymes, des tournures de phrases, sans compter les fautes d’orthographe, de grammaire, etc.
On admet facilement qu’un moteur de recherche est pertinent, sans pour autant vérifier, sans certitude. Dans les réglages des moteurs de recherche, il y aussi des fonctions qui permettent de positionner, ou avantager, des sites par rapport à d’autres ou encore de declasser.