Contenu
Aujourd’hui, nous démystifions le processus d’exploration. Dans cet article, il vous sera expliquer comment Google Search trouve et récupère les pages web, un processus communément appelé « crawling ».
Vous découvrirez ce qu’est et ce que fait l’algorithme Googlebot, ensuite pourquoi il est si utile d’ajouter des sitemaps à votre site web.
Si vous avez déjà lu l’article d’introduction, bienvenue ! Pour les nouveaux venus, bienvenue dans la série « Comment google search », qui explore les fonctions techniques de base de la recherche sur Google.
Vous pouvez consulter le premier article d’introduction de « Comment fonctionne la recherche ».
Comment Fonctionne l’Exploration ?
Qu’est-ce que le crawling ?
L’exploration est le processus qui consiste à trouver des pages web nouvelles ou mises à jour à l’aide de programmes automatisés appelés « crawlers » et à les indexer pour les rendre consultables.
Découverte d’URL
La première étape du processus d’exploration s’appelle la découverte d’URL. Avant que Google puisse faire apparaître une page web dans ses résultats de recherche, il doit savoir que cette page existe réellement. Google est constamment à la recherche de pages nouvelles et mises à jour.
Toutefois, compte tenu des milliards d’URL qui existent sur l’internet, certaines ne seront jamais découvertes ni indexées. Les nouvelles pages sont généralement découvertes lorsque Google suit un lien interne ou externe – une URL, plus précisément – d’une page connue vers une nouvelle page, par exemple, d’une page centrale telle que « Catégories » vers une nouvelle page.
La plupart des nouvelles URL découvertes par Google proviennent d’autres pages connues que Google a précédemment explorées, également appelées Backlinks.
Prenons l’exemple d’un site d’actualités comportant différentes pages de catégories qui renvoient à des articles individuels. Google peut découvrir la plupart des articles publiés en analysant et revisitant la page des catégories de temps à autre et en extrayant les URL du site qui mènent aux articles.
Qu’est-ce que Googlebot ?
L’exploration est effectuée par un crawler, un logiciel qui navigue sur l’internet, télécharge des pages web et extrait des liens qu’il peut ensuite télécharger à nouveau. C’est un peu comme si un navigateur était contrôlé par un robot plutôt que par un humain.
Le principal robot d’exploration de Google s’appelle Googlebot. Googlebot utilise des algorithmes pour déterminer les sites à explorer, leur fréquence et le nombre de pages à extraire de chaque site.
Les algorithmes sont des processus ou, si vous préférez, des ensembles de règles, combinés pour réaliser une fonctionnalité spécifique dans les programmes informatiques.
Googlebot est également programmé pour éviter de parcourir le site trop rapidement afin de ne pas le surcharger. La vitesse d’exploration est propre à chaque site et dépend en grande partie de la rapidité avec laquelle le site réagit aux différentes demandes de Googlebot, de la qualité du contenu en général et des éventuelles erreurs de serveur, ainsi que d’autres signaux.
Googlebot n’explore pas toutes les URL qu’il découvre. Certaines pages peuvent se trouver sur des sites qui n’atteignent pas le seuil de qualité requis pour être indexés, ce dont nous parlerons plus loin.
D’autres URL peuvent être interdites à l’exploration, tandis que d’autres peuvent ne pas être accessibles sans se connecter au site. Googlebot n’explore que les URL accessibles au public. Si vous placez quelque chose derrière une page de connexion, Googlebot ne pourra pas l’explorer.
Qu’est-ce que la récupération et le rendu ?
Une fois que Googlebot a trouvé vos URL, l’étape suivante consiste à télécharger, ou à récupérer, si vous préférez, puis à rendre la page hébergée sous cette URL particulière. Le processus de récupération consiste simplement à télécharger les données qui sont servies à partir d’une certaine URL.
Le rendu est plus intéressant ; il s’agit essentiellement de la même chose que ce que fait votre navigateur. Le service de rendu prend la page téléchargée à partir d’une URL, qui est généralement un mélange de fichiers contenant du HTML, du CSS et du JavaScript, et la transforme en une représentation visuelle de cette page.
Ce faisant, il exécute tout JavaScript qu’il trouve à l’aide d’une version récente de Chrome.
Le rendu est important car les sites web s’appuient souvent sur JavaScript pour intégrer du contenu dans la page et la rendre plus vivante. Sans le rendu, Google ne verrait pas ce contenu et, bien sûr, ne verrait pas toute la vivacité, les éléments clignotants et le texte défilant que vous pouvez lire.
Ceci met fin au processus de crawl.
Plans du Site : des outils utiles pour les sites WEB
Avant de poursuivre, parlons des sitemaps. Les sitemaps sont une collection d’URL de pages de votre site, et ils sont très utiles si vous voulez que votre site soit découvert par Google.
Le format le plus courant est un fichier XML, qui vous permet de fournir non seulement les URL de vos pages, mais aussi des métadonnées supplémentaires à leur sujet. Les sitemaps ne sont absolument pas obligatoires, mais ils peuvent certainement aider Google et d’autres moteurs de recherche à trouver votre contenu.
Si cela a attiré votre attention, travaillez avec votre fournisseur ou développeur de site web pour vous assurer que votre site génère automatiquement des fichiers sitemap. Vous pourriez certes vous isoler et ajouter manuellement ces sept millions d’URL à votre sitemap, mais cela représente beaucoup de travail et une source d’erreurs inutile. Demandez au système de gestion de contenu de votre site de créer des fichiers sitemap pour vous.
Synthèse
Maintenant que vous savez comment Google trouve et récupère les pages web, comment Google parvient-il à rendre vos pages disponibles par le biais de la recherche ? C’est ce que j’aborderai dans le prochain article « Indexation ».