Comment Contrôler l’Exploration et l’Indexation d’un Site?

Contrôle de l’exploration et de l’indexation en bref

Prenez le contrôle du processus d’exploration et d’indexation de votre site web en communiquant vos préférences aux moteurs de recherche.

Cela leur permet de savoir sur quelles parties de votre site web ils doivent se concentrer et quelles parties ils doivent ignorer.

Il existe de nombreuses méthodes pour y parvenir, mais quand utiliser la méthode adéquate?

Dans cet article, nous verrons quand utiliser chaque méthode et nous mettrons en évidence les avantages et les inconvénients.

Table des matières

Les moteurs de recherche parcourent des milliards de pages chaque jour. Mais ils indexent moins de pages que cela, et ils affichent encore moins de pages dans leurs résultats.

Vous voulez que vos pages soient parmi elles. Alors, comment prendre le contrôle de tout ce processus et améliorer votre classement ?

Pour répondre à cette question, nous devons d’abord examiner le fonctionnement du processus d’exploration et d’indexation.

Ensuite, nous examinerons toutes les méthodes que vous pouvez mettre en œuvre pour contrôler ce processus.

Comment fonctionne l’exploration?

Les robots des moteurs de recherche sont chargés de trouver et d’explorer autant d’URL que possible.

Ils le font pour voir s’il y a du nouveau contenu. Il peut s’agir de nouvelles URL ou d’URL déjà connues. 

Les nouvelles URL sont trouvées en parcourant les pages qu’ils connaissaient déjà. Après l’exploration, ils transmettent leurs résultats à l’indexeur.

Les pages que les moteurs de recherche sont autorisés à explorer sont souvent appelées « crawlables ».

Astuce Graines de Référenceur 

Les moteurs de recherche ne peuvent pas classer ce qu’ils ne peuvent pas explorer ou ce qu’ils n’ont pas vu. C’est pourquoi l’exploration et l’indexation sont des sujets importants.

Comment fonctionne l’indexation ?

Les indexeurs reçoivent le contenu des URL de la part des robots d’exploration. Les indexeurs tentent ensuite de donner un sens à ce contenu en l’analysant (y compris les liens, le cas échéant).

L’indexeur traite les URL canonisées et détermine l’autorité de chaque URL. L’indexeur détermine également s’il doit indexer une page.

Les pages que les moteurs de recherche sont autorisés à indexer sont souvent appelées « indexables ».

Les indexeurs rendent également les pages web et exécutent le JavaScript. Si des liens sont trouvés, ils sont renvoyés au robot d’exploration.

Astuce Graines de Référenceur 

Assurez-vous que votre site est facilement explorable et que votre budget d’exploration n’est pas gaspillé. Il est connu que Google a une capacité de crawl incroyable, mais en particulier pour les grands sites de commerce électronique, il est vraiment utile de s’assurer que Google explore et indexe les bonnes pages. Cela améliore la pertinence, la conversion et, en fin de compte, le chiffre d’affaires.

Comment prendre le contrôle de l’exploration et de l’indexation ?

Prenez le contrôle du processus d’exploration et d’indexation en indiquant clairement vos préférences aux moteurs de recherche. Vous les aiderez ainsi à comprendre quelles sections de votre site web sont les plus importantes pour vous.

Ce chapitre présente toutes les méthodes et indique lesquelles utiliser et à quel moment. Nous avons également élaboré un tableau pour illustrer ce qu’elles peuvent faire et ce qu’elles ne peuvent pas faire.

Commençons par expliquer quelques concepts :

  • Explorable ou « Crawlable »: les moteurs de recherche sont-ils capables d’explorer  l’URL ?
  • Indexable : les moteurs de recherche sont-ils encouragés à indexer l’URL ?
  • Prévention du contenu dupliqué : cette méthode prévient-elle les problèmes de contenu dupliqué ?
  • Consolidation des signaux : les moteurs de recherche sont-ils encouragés à consolider les signaux de pertinence thématique et d’autorité de l’URL, tels que définis par le contenu et les liens de l’URL ?

En outre, il est important de comprendre ce qu’est le crawl budget.

Le crawl budget est le temps que les robots des moteurs de recherche passent sur votre site web. Vous voulez qu’ils le dépensent judicieusement, et vous pouvez leur donner des instructions à cet effet.

Astuce Graines de Référenceur 

Pour les sites web de grande taille, il peut être délicat de gérer l’effort d’exploration d’un moteur de recherche pour s’assurer que toutes les bonnes pages sont explorées et indexées, tout en ne bloquant pas trop de pages en même temps. Dans l’idéal, une structure de site bien pensée permet d’éviter de nombreux problèmes de crawl à long terme, mais parfois l’approche de masse du blocage robots.txt peut faire l’affaire. J’aime aussi utiliser rel=nofollow sur des liens spécifiques que je ne veux pas que les moteurs de recherche explorent, comme la navigation à facettes.

Astuce Graines de Référenceur 

L’exploration et l’indexation sont au cœur du référencement technique. Il n’est pas nécessaire de s’en préoccuper autant pour les petits sites web de base. Google s’en charge assez bien. Mais pour les sites plus importants et plus complexes, la maîtrise des modèles d’exploration et d’indexation devient un élément essentiel des tâches de référencement et peut faire toute la différence.

Quelles méthodes pour contrôler l’exploration et l’indexation?

Explorable Indéxable Prévention contenu dupliqué Consolidation des signaux
Robots.txt
Directives Robots (Meta et Http)
Canonique (lien et HTTP)
Attribut Hreflang
Attribut Pagination
Attribut Mobile
Authetification HTTP

Astuce Graines de Référenceur 

Les moteurs de recherche sont à peu près capables de déterminer les pages à explorer et à indexer, mais il est souvent recommandé de leur communiquer vos préférences concernant le processus d’exploration et d’indexation. Ils savent alors sur quelles pages se concentrer et quelles pages ignorer pendant l’exploration, ce qui permet de mieux se concentrer sur l’indexation et de réduire le nombre de pages inutiles qui sont indexées.

Robots.txt

Le fichier robots.txt est un emplacement central qui fournit des règles de base aux robots d’exploration. Nous appelons ces règles de base des directives. Si vous souhaitez empêcher les robots d’explorer certaines URL, votre fichier robots.txt est le meilleur moyen d’y parvenir.

Si les robots ne sont pas autorisés à explorer une URL et à demander son contenu, l’indexeur ne pourra jamais analyser son contenu et ses liens. Cela permet d’éviter le contenu dupliqué et signifie également que l’URL en question ne pourra jamais être classée.

En outre, les moteurs de recherche ne pourront pas consolider les signaux de pertinence topique et d’autorité s’ils ne connaissent pas le contenu de la page. Ces signaux seront donc perdus.

Exemple d’utilisation de robots.txt

La section d’administration d’un site est un bon exemple de l’endroit où vous souhaitez appliquer le fichier robots.txt pour empêcher les robots d’y accéder.

Supposons que la section d’administration se trouve à l’adresse suivante : https://exemple.com/admin/.

Empêchez les robots d’accéder à cette section à l’aide de la directive suivante dans votre fichier robots.txt :

Disallow : /admin

Vous ne pouvez pas modifier votre fichier robots.txt ?

Appliquez alors la directive robots noindex à la section /admin.

Remarques importantes

Veuillez noter que les URL dont l’exploration par les moteurs de recherche est interdite peuvent toujours apparaître dans les résultats de recherche.

C’est le cas lorsque les URL sont liées à d’autres pages ou qu’elles étaient déjà connues des moteurs de recherche avant d’être rendues inaccessibles par le fichier robots.txt.

Les moteurs de recherche afficheront alors un extrait comme celui-ci :

Description Google non disponible robots.txt

Robots.txt ne peut pas résoudre les problèmes de contenu dupliqué. Les moteurs de recherche n’oublieront pas une URL simplement parce qu’ils ne peuvent pas y accéder.

L’ajout d’une URL canonique ou d’un attribut meta robots noindex à une URL bloquée par robots.txt n’entraînera pas sa désindexation.

Les moteurs de recherche n’auront jamais connaissance de votre demande de désindexation, car votre fichier robots.txt les en empêche.

Le fichier robots.txt est un outil essentiel pour optimiser le budget de recherche de votre site web.

En utilisant le fichier robots.txt, vous pouvez indiquer aux moteurs de recherche de ne pas explorer les parties de votre site web qui ne sont pas pertinentes pour eux.

Ce que fait le fichier robots.txt :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, ce qui permet de préserver le budget alloué à l’exploration.
  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web – s’il n’y a pas de liens vers ces parties.
  • Prévenir les nouveaux problèmes de contenu dupliqué.

Ce que le fichier robots.txt ne fait pas :

  • Consolider les signaux de pertinence et d’autorité.
  • Supprimer du contenu déjà indexé*.

* Bien que Google prenne en charge la directive noindex et supprime les URL de son index, il n’est pas recommandé d’utiliser cette méthode, car il s’agit d’une norme non officielle. Elle n’est prise en charge que par Google et n’est pas infaillible à 100 %. N’utilisez cette méthode que lorsque vous ne pouvez pas utiliser les directives « robots » et les URL canoniques.

Astuce Graines de Référenceur 

D’après notre expérience, Googlebot peut se montrer très agressif lors de l’exploration des URL si vous le laissez se débrouiller seul. Tout ce qui ressemble de près ou de loin à une URL dans votre code source peut être exploré et nous l’avons vu « essayer » des URL qui ne semblaient pas exister. Pour la plupart des sites, ce n’est probablement pas un gros problème, mais si votre site compte plus de quelques milliers d’URL, vous devez penser à contrôler Googlebot et à vous assurer qu’il passe le plus de temps possible à explorer les URL qui vous intéressent.

Directives Meta Robots

Les directives Meta Robots indiquent aux moteurs de recherche comment indexer les pages, tout en les laissant accessibles aux visiteurs.

Elles sont souvent utilisées pour indiquer aux moteurs de recherche de ne pas indexer certaines pages. En matière d’indexation, c’est un signal plus fort que l’URL canonique.

La mise en œuvre des directives robots se fait généralement en les incluant dans la source à l’aide de la balise meta robots.

Pour d’autres documents tels que les PDF ou les images, cela se fait par le biais de l’en-tête HTTP X-Robots-Tag.

Exemple d’utilisation des directives « robots »

Supposons que vous ayez dix pages d’atterrissage pour le trafic Google Ads.

Vous avez copié le contenu d’autres pages et l’avez légèrement modifié. Vous ne voulez pas que ces pages de destination soient indexées, car cela poserait des problèmes de contenu dupliqué, et vous incluez donc la directive robots avec l’attribut noindex.

<meta name="robots" content="noindex">

Remarques importantes

Les directives « robots » vous aident à éviter le contenu dupliqué, mais elles n’attribuent pas de pertinence topique et d’autorité à une autre URL. C’est tout simplement perdu.

En plus d’indiquer aux moteurs de recherche de ne pas indexer une page, les directives « robots » découragent également les moteurs de recherche d’explorer la page. Une partie du budget d’exploration est ainsi préservée.

Contrairement à son nom, l’attribut nofollow des directives robots n’influence pas l’exploration d’une page dotée de l’attribut nofollow.

Toutefois, lorsque l’attribut nofollow des directives robots est défini, les robots d’exploration des moteurs de recherche n’utiliseront pas les liens de cette page pour explorer d’autres pages et, par conséquent, ne transmettront pas l’autorité à ces autres pages.

Ce que feront les directives robots :

  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.
  • Prévenir les problèmes de contenu dupliqué.

Ce que les directives robots ne font pas :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, en préservant le budget d’exploration.
  • Consolider la plupart des signaux de pertinence et d’autorité.

URL canoniques

Une URL canonique communique la version canonique d’une page aux moteurs de recherche, encourageant ces derniers à indexer la version canonique.

L’URL canonique peut faire référence à elle-même ou à d’autres pages.

S’il est utile pour les visiteurs de pouvoir accéder à plusieurs versions d’une page et que vous souhaitez que les moteurs de recherche les traitent comme une seule version, l’URL canonique est la solution à retenir.

Lorsqu’une page fait référence à une autre page à l’aide de l’URL canonique, la majeure partie de sa pertinence et de son autorité topique est attribuée à l’URL cible.

Exemple d’utilisation d’une URL canonique

Supposons que vous ayez un site web de commerce électronique avec un produit dans trois catégories. Le produit est accessible via trois URL différentes.

C’est bien pour les visiteurs, mais les moteurs de recherche ne devraient se concentrer que sur l’exploration et l’indexation d’une seule URL.

Choisissez l’une des catégories comme étant la principale, et canonisez les deux autres catégories vers elle.

Remarques importantes

Veillez à rediriger 301 les URL qui n’ont plus d’utilité pour les visiteurs vers la version canonique.

Cela vous permet:

    • d’attribuer toute leur pertinence topique et leur autorité à la version canonique;
    • d’inciter d’autres sites web à créer des liens vers la version canonique.

L’URL canonique est une ligne directrice plutôt qu’une directive. Les moteurs de recherche peuvent choisir de l’ignorer.

L’application d’une URL canonique ne préservera pas le budget d’exploration, car elle n’empêche pas les moteurs de recherche d’explorer les pages.

Elle les empêche d’être renvoyées pour des requêtes de recherche car elles sont consolidées vers la version canonique de l’URL.

L’utilité d’une URL canonique :

  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.
  • Prévenir les problèmes de contenu dupliqué.
  • Consolider la plupart des signaux de pertinence et d’autorité.

Ce qu’une URL canonique ne fait pas :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, préservant ainsi le crawl budget.

Attribut hreflang

L’attribut de lien rel="alternate" hreflang="x", ou attribut hreflang en abrégé, est utilisé pour communiquer aux moteurs de recherche la langue dans laquelle votre contenu est rédigé et la région géographique à laquelle il est destiné.

Si vous utilisez le même contenu ou un contenu similaire pour cibler plusieurs régions, l’attribut hreflang est la solution. Il vous permet de classer vos pages dans les marchés que vous visez.

Il permet d’éviter le contenu dupliqué, de sorte que deux pages ayant exactement le même contenu pour la France et la Belgique ne posent pas de problème lorsque vous avez mis en œuvre le hreflang.

Mis à part le contenu dupliqué, le plus important est de s’assurer que votre contenu rime avec le public.

Veillez à ce que votre public se sente à l’aise, c’est pourquoi il est recommandé d’avoir des textes et des visuels (quelque peu) différents pour la France et la Belgique.

Exemple d’utilisation de hreflang

Si vous ciblez plusieurs marchés anglophones en utilisant des sous-domaines pour chaque marché. Chaque sous-domaine contient du contenu anglais, localisé pour son marché :

  • www.exemple.com pour le marché américain
  • ca.exemple.com pour le marché canadien
  • uk.exemple.com pour le marché britannique
  • au.exemple.com pour le marché australien

Au sein de chaque marché, vous voulez vous classer avec la bonne page. C’est là qu’intervient hreflang.

Ce que fait l’attribut hreflang :

  • Aider les moteurs de recherche à classer le bon contenu sur le bon marché.
  • Prévenir les problèmes de contenu dupliqué.

Ce que l’attribut hreflang ne fait pas :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, ce qui permet de préserver le crawl budget.
  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.
  • Consolider les signaux de pertinence et d’autorité

Attributs de pagination

Les attributs de lien rel="prev" et rel="next", ou attributs de pagination en abrégé, sont utilisés pour communiquer aux moteurs de recherche les relations entre une série de pages. 

Pour les séries de pages similaires, telles que les pages d’archives de blogs paginées ou les pages de catégories de produits paginées, il est fortement conseillé d’utiliser les attributs de pagination. 

Les moteurs de recherche comprendront que les pages sont très similaires, ce qui éliminera les problèmes de contenu dupliqué.

Dans la plupart des cas, les moteurs de recherche ne classeront pas d’autres pages que la première de la série paginée.

Ce que font les attributs de pagination :

  • Prévenir les problèmes de contenu dupliqué.
  • Consolider les signaux de pertinence et d’autorité.

Ce que les attributs de pagination ne font pas :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, ce qui permet de préserver le crawl budget.
  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.

Attribut mobile

L’attribut mobile rel="alternate", ou attribut mobile en abrégé, communique aux moteurs de recherche la relation entre les versions desktop et mobile d’un site web. 

Il aide les moteurs de recherche à afficher le bon site web pour le bon appareil et évite ainsi les problèmes de contenu dupliqué.

Quel est l’effet de l’attribut mobile ?

  • Prévenir les problèmes de contenu dupliqué.
  • Consolider les signaux de pertinence et d’autorité.

Ce que l’attribut mobile ne fait pas :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, ce qui permet de préserver le crawl budget.
  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.

Authentification HTTP

L’authentification HTTP exige des utilisateurs ou des machines qu’ils se connectent pour accéder à une (section d’un) site web.

Voici un exemple :

Authentification HTTP

Sans nom d’utilisateur ni mot de passe, vous (ou un robot) ne pourrez pas dépasser l’écran de connexion et vous ne pourrez pas accéder à quoi que ce soit. 

L’authentification HTTP est un excellent moyen d’empêcher les visiteurs indésirables – qu’il s’agisse d’humains ou de robots d’exploration – d’accéder, par exemple, à un environnement de test. 

Google recommande d’utiliser l’authentification HTTP pour empêcher les robots des moteurs de recherche d’accéder aux environnements de test :

Si vous avez un contenu confidentiel ou privé que vous ne souhaitez pas voir apparaître dans les résultats de recherche de Google, le moyen le plus simple et le plus efficace de bloquer l’affichage des URL privées est de les stocker dans un répertoire protégé par un mot de passe sur le serveur de votre site. Googlebot et tous les autres robots d’exploration ne peuvent pas accéder au contenu des répertoires protégés par un mot de passe.

Ce que l’authentification HTTP permet de faire :

  • Empêcher les moteurs de recherche d’explorer certaines parties de votre site web, ce qui permet de préserver le crawl budget.
  • Empêcher les moteurs de recherche d’indexer certaines parties de votre site web.
  • Prévenir les problèmes de contenu dupliqué.

Ce que l’authentification HTTP ne permet pas :

  • Consolider les signaux de pertinence et d’autorité.

Afficher la page explorée et les moteurs de recherche : mettez-vous à leur place

Comment les robots des moteurs de recherche voient-ils vos pages et comment vos pages sont-elles rendues ? Mettez-vous à leur place en utilisant leurs outils “Inspection de l’URL”

L’Inspection de l’URL se trouve dans Google Search Console et vous permet d’indiquer une URL sur votre site.

Vous pouvez trouver la fonctionnalité “Inspection de l’URL” dans le Google Search Console. 

Inspection de l'URL sur Google Search Console

Après avoir envoyé une URL à l’aide de la fonctionnalité « Inspecter n’importe quelle URL de “XXX” », attendez qu’elle soit traitée (cela peut demander un peu de temps pour certaines pages). Une fois le traitement terminé, il suffit de cliquer sur « AFFICHER LA PAGE EXPLOREE ».

Afficher la page explorée sur Google Search Console

Google vous montrera ensuite ce que les robots d’exploration voient sur cette URL et comment ils la restituent.

Page explorée sur Google Search Console

Autres situations dans lesquelles Afficher la page explorée est utile:

Cette fonction n’est pas seulement utile pour « accélérer » le processus d’exploration et d’indexation d’une URL individuelle, elle vous permet également de :

    • Vérifiez si la page est utilisable sur mobile.
    • Vérifiez si les redirections 301 fonctionnent correctement.

Remarques :

    • Il existe un quota limite l’envoi d’URL individuelles ;
    • Les demandes répétées de réexploration pour une même URL n’accélèrent pas l’exploration;
    • Si vous disposez d’un grand nombre d’URL, vous pouvez envoyer un sitemap.

Questions fréquemment posées sur l’exploration et l’indexation

1. Comment ralentir les robots d’exploration lorsqu’ils parcourent un site web ?

En utilisant la directive robots.txt « crawl-delay ». Cependant, Google ne l’écoutera pas. Si vous souhaitez que Googlebot explore votre site plus lentement, vous devez le configurer dans Google Search Console.

Quelle que soit la méthode utilisée, il n’est pas recommandé de ralentir les robots de Google et de Bing. Leurs robots sont suffisamment intelligents pour savoir quand votre site web est en difficulté, et ils reviendront plus tard dans ce cas.

2. Comment empêcher les moteurs de recherche d’explorer un site web ou une page ?

Il existe plusieurs façons d’empêcher les moteurs de recherche d’explorer des parties de votre site web ou des pages spécifiques :

    • Robots.txt : peut être utilisé pour empêcher l’exploration d’un site web entier, de sections et de pages individuelles.
    • Authentification HTTP : peut être utilisée pour empêcher l’exploration d’un site web entier, de sections et de pages individuelles.

3. Que signifie l’indexation d’un site web ?

Cela signifie que des actions sont effectuées par un moteur de recherche pour essayer de comprendre un site web, afin de le rendre trouvable par le biais de son moteur de recherche.

4. À quelle fréquence Google indexe-t-il mon site web ?

Aussi souvent que Google explore votre site web. Ses robots d’exploration transmettent ce qu’ils ont trouvé à l’indexeur, qui se charge de l’indexation des sites web.

5. Combien de temps faudra-t-il à Google pour indexer mon nouveau site web ?

Il n’y a pas de réponse unique à cette question, car cela dépend de la promotion du nouveau site web. La promotion du site accélère le processus d’exploration et d’indexation.

Si vous vous y prenez bien, un petit site web peut être indexé en une heure. En revanche, l’indexation d’un site web entièrement nouveau peut prendre des mois.

Veuillez noter que l’indexation de votre site web par les moteurs de recherche ne signifie pas que vos pages commenceront à être bien classées dès le départ. L’obtention d’un bon classement prend beaucoup plus de temps.

6. Comment empêcher les moteurs de recherche d’indexer un site ou une page ?

Les méthodes suivantes permettent d’empêcher les moteurs de recherche d’indexer un site ou une page :

  • Balise Meta Robots noindex : il s’agit d’un signal très fort envoyé aux moteurs de recherche pour qu’ils n’indexent pas une page. Elle ne transmet pas de signaux de pertinence ou d’autorité à d’autres pages.
  • URL canonique : c’est un signal modérément fort envoyé aux moteurs de recherche pour leur indiquer quelle page indexer, et pour leur attribuer des signaux de pertinence et d’autorité.
  • Authentification HTTP : n’empêchera l’exploration et l’indexation de nouvelles pages que du point de vue du référencement. Mais c’est toujours une bonne pratique d’utiliser l’authentification HTTP dans les environnements de test pour empêcher les moteurs de recherche et les utilisateurs indésirables d’y accéder.
  • Robots.txt : ne peut être utilisé que pour empêcher l’exploration et l’indexation de nouvelles pages.

Qui d'Autres Veux Augmenter Ses Ventes Avec Du Trafic SEO ?