Robots.txt pour le référencement : Le Guide Ultime

Robots.txt en bref

Un fichier robots.txt contient des directives destinées aux moteurs de recherche. Vous pouvez l’utiliser pour empêcher les moteurs de recherche d’explorer des parties spécifiques de votre site Web et pour donner aux moteurs de recherche des conseils utiles sur la meilleure façon d’explorer votre site Web. Le fichier robots.txt joue un rôle important dans le référencement.

Lorsque vous mettez en œuvre le fichier robots.txt, gardez à l’esprit les meilleures pratiques suivantes :

  • Soyez prudent lorsque vous apportez des modifications à votre fichier robots.txt : ce fichier a le potentiel de rendre de grandes parties de votre site Web inaccessibles aux moteurs de recherche.
  • Le fichier robots.txt doit résider à la racine de votre site Web (par exemple, https://exemple.com/robots.txt).
  • Le fichier robots.txt n’est valable que pour le domaine complet sur lequel il réside, y compris le protocole (http ou https).
  • Les différents moteurs de recherche interprètent les directives différemment. Par défaut, la première directive correspondante l’emporte toujours. Mais, avec Google et Bing, la spécificité l’emporte.
  • Évitez autant que possible d’utiliser la directive « crawl-delay » pour les moteurs de recherche.

Qu’est-ce qu’un fichier robots.txt ?

Un fichier robots.txt indique aux moteurs de recherche quelles sont les règles d’engagement de votre site Web. Une grande partie du référencement consiste à envoyer les bons signaux aux moteurs de recherche, et le fichier robots.txt est l’un des moyens de communiquer vos préférences d’exploration aux moteurs de recherche.

En 2019, nous avons vu pas mal de développements autour de la norme robots.txt : Google a proposé une extension du protocole d’exclusion des robots et a mis en libre accès son analyseur robots.txt.

L’interpréteur robots.txt de Google est assez flexible et étonnamment indulgent.

En cas de confusion entre les directives, Google privilégie la sécurité et part du principe que les sections doivent être restreintes plutôt que non restreintes.

Le fichier robots.txt indique aux moteurs de recherche les URL à ne pas consulter.

Le fichier robots.txt indique aux moteurs de recherche les URL auxquelles ils ne doivent pas accéder.

Le fichier robots.txt indique aux moteurs de recherche les URL à ne pas consulter.

Les moteurs de recherche vérifient régulièrement le fichier robots.txt d’un site Web pour voir s’il contient des instructions pour l’exploration du site. Nous appelons ces instructions des directives.

Si aucun fichier robots.txt n’est présent ou s’il n’y a pas de directives applicables, les moteurs de recherche exploreront l’ensemble du site Web.

Bien que tous les principaux moteurs de recherche respectent le fichier robots.txt, les moteurs de recherche peuvent choisir d’ignorer (certaines parties de) votre fichier robots.txt.

Bien que les directives du fichier robots.txt constituent un signal fort pour les moteurs de recherche, il est important de se rappeler que le fichier robots.txt est un ensemble de directives facultatives pour les moteurs de recherche et non un mandat.

Astuce de Graines de référenceur

« Le fichier robots.txt est le fichier le plus sensible de l’univers du référencement. Un seul caractère peut briser un site entier. »

Terminologie autour du fichier robots.txt

Le fichier robots.txt est la mise en œuvre de la norme d’exclusion des robots, ou également appelée protocole d’exclusion des robots.

Pourquoi s’intéresser à robots.txt ?

Le fichier robots.txt joue un rôle essentiel du point de vue du référencement. Il indique aux moteurs de recherche la meilleure façon d’explorer votre site Web.

À l’aide du fichier robots.txt, vous pouvez empêcher les moteurs de recherche d’accéder à certaines parties de votre site Web, empêcher le contenu dupliqué et donner aux moteurs de recherche des conseils utiles sur la façon dont ils peuvent explorer votre site Web plus efficacement.

Soyez toutefois prudent lorsque vous apportez des modifications à votre fichier robots.txt : ce fichier peut rendre de grandes parties de votre site Web inaccessibles aux moteurs de recherche.

Astuce de Graines de référenceur

« Le fichier Robots.txt est souvent surutilisé pour réduire le contenu dupliqué, ce qui tue les liens internes.

Notre conseil est de ne l’utiliser que pour les fichiers ou les pages que les moteurs de recherche ne devraient jamais voir, ou qui peuvent avoir un impact significatif sur le crawling s’ils y sont autorisés.

Exemples courants : les zones de connexion qui génèrent de nombreuses urls différentes, les zones de test ou les zones où une navigation à facettes multiples peut exister.

Et assurez-vous de surveiller votre fichier robots.txt pour détecter tout problème ou modification. »

Astuce de Graines de référenceur

« La grande majorité des problèmes rencontrés avec les fichiers robots.txt se répartissent en trois catégories :

  1. La mauvaise gestion des caractères génériques. Il est assez fréquent de voir des parties du site bloquées alors qu’elles étaient censées l’être. Parfois, si l’on ne fait pas attention, les directives peuvent aussi entrer en conflit les unes avec les autres.
  2. Quelqu’un, par exemple un développeur, a effectué un changement à l’improviste (souvent lors de l’introduction d’un nouveau code) et a modifié par inadvertance le fichier robots.txt à votre insu.
  3. L’inclusion de directives qui n’ont pas leur place dans un fichier robots.txt. Le fichier robots.txt est un standard du web, et il est quelque peu limité. Souvent des développeurs créer des directives qui ne fonctionnent tout simplement pas (du moins pour la grande majorité des robots d’exploration). Parfois c’est inoffensif, parfois moins. »

Exemple 

Prenons un exemple pour illustrer ce point :

Vous gérez un site de commerce électronique et les visiteurs peuvent utiliser un filtre pour effectuer une recherche rapide parmi vos produits. Ce filtre génère des pages qui présentent essentiellement le même contenu que les autres pages. Cela fonctionne bien pour les utilisateurs, mais perturbe les moteurs de recherche car cela crée du contenu dupliqué.

Vous ne voulez pas que les moteurs de recherche indexent ces pages filtrées et perdent leur temps précieux sur ces URL au contenu filtré. C’est pourquoi vous devez définir des règles Disallow afin que les moteurs de recherche n’accèdent pas à ces pages de produits filtrées.

Vous pouvez également empêcher la duplication du contenu en utilisant l’URL canonique ou la balise meta robots, mais cela ne permet pas aux moteurs de recherche d’explorer uniquement les pages importantes.

L’utilisation d’une URL canonique ou d’une balise meta robots n’empêchera pas les moteurs de recherche d’explorer ces pages. Elle empêchera seulement les moteurs de recherche d’afficher ces pages dans les résultats de recherche.

Étant donné que les moteurs de recherche disposent d’un temps limité pour explorer un site Web, ce temps doit être consacré aux pages que vous souhaitez voir apparaître dans les moteurs de recherche.

Astuce de Graines de référenceur

« Il s’agit d’un outil très simple, mais un fichier robots.txt peut causer beaucoup de problèmes s’il n’est pas configuré correctement, en particulier pour les grands sites Web.

Il est très facile de faire des erreurs, comme bloquer un site entier après le déploiement d’un nouveau design ou d’un nouveau CMS, ou ne pas bloquer des sections d’un site qui devraient être privées.

Pour les sites Web de grande taille, il est très important de s’assurer de l’efficacité de l’exploration de Google et un fichier robots.txt bien structuré est un outil essentiel dans ce processus.

Vous devez prendre le temps de comprendre quelles sont les sections de votre site qu’il vaut mieux tenir à l’écart de Google, afin qu’il consacre le maximum de ses ressources à l’exploration des pages qui vous intéressent vraiment. »

À quoi ressemble un fichier robots.txt ?

Un exemple de ce à quoi peut ressembler un simple fichier robots.txt pour un site Web WordPress :

User-agent: *

Disallow : /wp-admin/

Expliquons l’anatomie d’un fichier robots.txt à partir de l’exemple ci-dessus :

User-agent : l’user-agent indique pour quels moteurs de recherche les directives qui suivent sont destinées.

* : ceci indique que les directives sont destinées à tous les moteurs de recherche.

Disallow : il s’agit d’une directive indiquant quel contenu n’est pas accessible à l’agent utilisateur.

/wp-admin/ : c’est le chemin qui est inaccessible pour l’agent utilisateur.

En résumé : ce fichier robots.txt indique à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/.

Analysons plus en détail les différents composants des fichiers robots.txt:

  • User-agent
  • Disallow
  • Allow
  • Sitemap
  • Délai d’exploration (crawl-delay)

User-agent dans le fichier robots.txt

Chaque moteur de recherche doit s’identifier par un user-agent. Les robots de Google s’identifient par exemple sous le nom de Googlebot, ceux de Yahoo sous le nom de Slurp et ceux de Bing sous le nom de BingBot, etc.

L’enregistrement du user-agent définit le début d’un groupe de directives. Toutes les directives situées entre le premier user-agent et l’enregistrement user-agent suivant sont traitées comme des directives pour le premier user-agent.

Les directives peuvent s’appliquer à des user-agents spécifiques, mais elles peuvent aussi s’appliquer à tous les user-agents. Dans ce cas, un joker est utilisé : user-agent : *.

Directive Disallow dans le fichier robots.txt

Vous pouvez indiquer aux moteurs de recherche de ne pas accéder à certains fichiers, pages ou sections de votre site Web. Pour ce faire, utilisez la directive Disallow.

La directive Disallow est suivie du chemin d’accès qui ne doit pas être consulté. Si aucun chemin n’est défini, la directive est ignorée.

Exemple de directive Disallow dans le fichier robots.txt

User-agent : *

Disallow : /wp-admin/

Dans cet exemple, on indique à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/.

Directive Allow dans le fichier robots.txt

La directive Allow est utilisée pour contrecarrer une directive Disallow. La directive Allow est prise en charge par Google et Bing.

En utilisant les directives Allow et Disallow ensemble, vous pouvez indiquer aux moteurs de recherche qu’ils peuvent accéder à un fichier ou à une page spécifique dans un répertoire qui est autrement interdit.

La directive Allow est suivie du chemin d’accès. Si aucun chemin n’est défini, la directive est ignorée.

Exemple de directive Allow dans le fichier robots.txt

User-agent : *

Allow : /media/termes-et-conditions.pdf

Disallow : /media/

Dans l’exemple ci-dessus, tous les moteurs de recherche ne sont pas autorisés à accéder au répertoire /media/, sauf pour le fichier /media/terms-and-conditions.pdf.

Important : lorsque vous utilisez les directives Allow et Disallow ensemble, veillez à ne pas utiliser de caractères génériques, car cela pourrait conduire à des directives contradictoires.

Exemple de directives contradictoires

User-agent: *

Allow: /directory

Disallow : *.html

Les moteurs de recherche ne sauront pas quoi faire avec l’URL https://domain.com/directory.html.

Ils ne savent pas s’ils sont autorisés à y accéder. Lorsque les directives ne sont pas claires pour Google, il utilisera la directive la moins restrictive, ce qui signifie dans ce cas qu’il pourra accéder à https://domain.com/directory.html.

Astuce de Graines de référenceur

« Les règles d’exclusion contenues dans le fichier robots.txt d’un site sont extrêmement puissantes et doivent donc être manipulées avec précaution.

Pour certains sites, il est crucial d’empêcher les moteurs de recherche d’explorer des modèles d’URL spécifiques pour permettre aux bonnes pages d’être explorées et indexées, mais une mauvaise utilisation des règles d’exclusion peut gravement nuire au référencement d’un site. »

Une ligne séparée pour chaque directive

Chaque directive doit figurer sur une ligne distincte, sinon les moteurs de recherche risquent de s’y perdre lors de l’analyse du fichier robots.txt.

Exemple de fichier robots.txt incorrect:

User-agent : * Disallow : /répertoire-1/ Disallow: /répertoire-2/ Disallow: /répertoire-3/

Astuce de Graines de référenceur

« Robots.txt est l’une des fonctionnalités  le plus souvent mise en œuvre de manière incorrecte, de sorte qu’elle ne bloque pas ce qu’ils voulaient bloquer ou qu’elle bloque plus que prévu et a un impact négatif sur leur site Web.

Robots.txt est un outil très puissant, mais il est trop souvent mal configuré. »

Utilisation du caractère de remplacement *

Le caractère générique peut non seulement être utilisé pour définir l’User-agent, mais aussi pour faire correspondre des URL. Le caractère de remplacement est pris en charge par Google, Bing, Yahoo et Ask.

Exemple de carte de remplacement

Agent utilisateur : *

Disallow : * ?

Dans l’exemple ci-dessus, tous les moteurs de recherche ne sont pas autorisés à accéder aux URL comportant un point d’interrogation (?).

Astuce de Graines de référenceur

« Les développeurs ou les propriétaires de sites semblent souvent penser qu’ils peuvent utiliser toutes sortes d’expressions régulières dans un fichier robots.txt, alors que seule une quantité très limitée de correspondance de motifs est en fait valable – par exemple les caractères génériques (*).

Il semble y avoir de temps en temps une confusion entre les fichiers .htaccess et les fichiers robots.txt. »

Utilisation de $ à la fin de l’URL

Pour indiquer la fin d’une URL, vous pouvez utiliser le signe dollar ($) à la fin de l’URL.

Exemple de fin d’url

user-agent : *

Disallow : *.php$

Dans l’exemple ci-dessus, les moteurs de recherche ne sont pas autorisés à accéder à toutes les URL qui se terminent par .php. Les URL contenant des paramètres, par exemple https://example.com/page.php?lang=fr, ne sont pas interdites, car l’URL ne se termine pas par .php.

Ajouter un sitemap au fichier robots.txt

Même si le fichier robots.txt a été inventé pour indiquer aux moteurs de recherche les pages à ne pas explorer, il peut également être utilisé pour diriger les moteurs de recherche vers le sitemap XML. Cette méthode est prise en charge par Google, Bing, Yahoo et Ask. 

Le sitemap XML doit être référencé sous la forme d’une URL absolue. L’URL ne doit pas nécessairement se trouver sur le même hôte que le fichier robots.txt. 

Le référencement du sitemap XML dans le fichier robots.txt est l’une des meilleures pratiques que nous vous conseillons de toujours appliquer, même si vous avez déjà soumis votre sitemap XML dans Google Search Console ou Bing Webmaster Tools. N’oubliez pas qu’il existe d’autres moteurs de recherche. 

Veuillez noter qu’il est possible de référencer plusieurs sitemaps XML dans un fichier robots.txt.

Exemples de sitemap dans un fichier Robots.txt

Plusieurs sitemaps XML définis dans un fichier robots.txt :

User-agent : *

Disallow : /wp-admin/

Sitemap : https://exemple.com/sitemap1.xml

Sitemap : https://exemple.com/sitemap2.xml

L’exemple ci-dessus indique à tous les moteurs de recherche qu’ils ne peuvent pas accéder au répertoire /wp-admin/ et qu’il existe deux sitemaps XML qui se trouvent à https://exemple.com/sitemap1.xml et https://exemple.com/sitemap2.xml.

Un seul sitemap XML défini dans un fichier robots.txt :

User-agent: *

Disallow : /wp-admin/

Sitemap : https://exemple.com/sitemap_index.xml

L’exemple ci-dessus indique à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/ et que le plan du site XML se trouve à l’adresse https://www.exemple.com/sitemap_index.xml.

Questions fréquemment posées

Comment puis-je référencer mon sitemap XML dans mon fichier robots.txt ?

Commentaires

Les commentaires sont précédés d’un # et peuvent être placés en début de ligne ou après une directive sur la même ligne. Tout ce qui suit le # sera ignoré. Ces commentaires sont destinés aux humains uniquement.

Exemple 1

# Ne pas autoriser l'accès au répertoire /wp-admin/ pour tous les robots.

User-agent : *

Disallow : /wp-admin/

 

Exemple 2

User-agent : * #Applique à tous les robots

Disallow : /wp-admin/ # N'autorise pas l'accès au répertoire /wp-admin/.

Les exemples ci-dessus communiquent le même message.

Délai d’exploration dans le fichier robots.txt

La directive Crawl-delay est une directive non officielle utilisée pour éviter de surcharger les serveurs avec trop de demandes. Si les moteurs de recherche parviennent à surcharger un serveur, l’ajout de Crawl-delay à votre fichier robots.txt n’est qu’une solution temporaire.

Le fait est que votre site Web fonctionne dans un environnement d’hébergement médiocre et/ou qu’il est mal configuré, et vous devez y remédier dès que possible.

Exemple de fichier robots.txt avec délai d'exploration spécifié pour Bing

La façon dont les moteurs de recherche gèrent le délai d’exploration diffère. Nous expliquons ci-dessous comment les principaux moteurs de recherche le gèrent.

Questions fréquemment posées

Que signifie crawl-delay : 10 significations dans le fichier robots.txt ?

Délai d’exploration et Google

Le robot d’exploration de Google, Googlebot, ne prend pas en charge la directive Crawl-delay. Il est donc inutile de définir un délai d’exploration pour Google.

Vous ne pouvez pas modifier la fréquence à laquelle Googleboot explore votre site. Par contre, si vous souhaitez que votre site soit exploré pour du nouveau contenu ou une mise à jour, vous pouvez soumettre une demande de réexploration.

Cependant, Google permet de réduire la vitesse d’exploration (ou le nombre de requêtes par seconde) dans Google Search Console.

Réduire la vitesse d’exploration dans la GSC

Connectez-vous à l’ancienne Google Search Console (s’ouvre dans un nouvel onglet) et vérifiez si votre compte est validé.

Validez_Site_Google_Search_Console

Choisissez le site Web pour lequel vous souhaitez réduire la vitesse d’exploration (Attention de ne pas définir une vitesse d’exploration trop faible pour les besoins de votre site):

Si la vitesse d’exploration est jugée optimale, la seule option sera de soumettre une demande spéciale (lien externe). Il ne vous sera pas possible d’augmenter la vitesse d’exploration.

Dans le cas inverse, il n’y a qu’un seul paramètre que vous pouvez modifier : vitesse d’exploration, avec un curseur où vous pouvez définir la vitesse d’exploration préférée. Par défaut, le taux d’exploration est réglé sur « Laisser Google optimiser pour mon site (recommandé) ».

Voici à quoi cela ressemble dans Google Search Console :

Définir la vitesse d'exploration dans Google Search Console

Délai d’exploration et Bing, Yahoo et Yandex

Bing, Yahoo et Yandex prennent tous en charge la directive Crawl-delay pour ralentir l’exploration d’un site Web. Leur interprétation de la directive Crawl-delay est cependant légèrement différente, aussi assurez-vous de consulter leur documentation (en anglais) :

Bing

Yahoo

Yandex

La directive Crawl-delay doit être placée juste après les directives Disallow ou Allow.

Exemple de délai d’exploration:

 

Agent utilisateur : BingBot
Disallow : /private/
Délai d'exploration : 10

 

Crawl-delay et Baidu

Baidu ne prend pas en charge la directive crawl-delay, mais il est possible d’enregistrer un compte Baidu Webmaster Tools.

Quand utiliser un fichier robots.txt ?

Nous recommandons de toujours utiliser un fichier robots.txt. Il n’y a absolument aucun mal à en avoir un, et c’est un endroit idéal pour donner aux moteurs de recherche des directives sur la meilleure façon d’explorer votre site Web.

Astuce de Graines de référenceur

« Le fichier robots.txt peut être utile pour empêcher que certaines zones ou certains documents de votre site soient explorés et indexés. C’est le cas par exemple du site de transit ou des PDF. Planifiez soigneusement ce qui doit être indexé par les moteurs de recherche et n’oubliez pas que le contenu rendu inaccessible par le fichier robots.txt peut toujours être trouvé par les robots des moteurs de recherche s’il est lié à d’autres parties du site Web. »

Emplacement et nom du fichier

Le fichier robots.txt doit toujours être placé à la racine d’un site Web (dans le répertoire de premier niveau de l’hôte) et porter le nom de fichier robots.txt, par exemple : https://www.exemple.com/robots.txt. Notez que l’URL du fichier robots.txt est, comme toute autre URL, sensible à la casse.

Si le fichier robots.txt est introuvable à l’emplacement par défaut, les moteurs de recherche supposeront qu’il n’y a pas de directives et inspecteront votre site Web.

Ordre de préséance

Il est important de noter que les moteurs de recherche traitent les fichiers robots.txt différemment. Par défaut, la première directive correspondante l’emporte toujours.

Cependant, avec Google et Bing, la spécificité l’emporte. Par exemple, une directive Allow l’emporte sur une directive Disallow si sa longueur de caractères est plus longue.

Premier exemple d’ordre de préséance

User-Agent : *

Allow : /apropos/entreprise/

Disallow : /apropos/

Dans l’exemple ci-dessus, tous les moteurs de recherche, y compris Google et Bing, ne sont pas autorisés à accéder au répertoire /apropos/, à l’exception du sous-répertoire /apropos/entreprise/.

Second exemple d’ordre de préséance

User-agent: *

Disallow : /apropos/

Allow : /apropos/entreprise/

Dans l’exemple ci-dessus, tous les moteurs de recherche, à l’exception de Google et Bing, ne sont pas autorisés à accéder au répertoire /apropos/. Cela inclut le répertoire /apropos/entreprise/.

Google et Bing sont autorisés à y accéder, car la directive Allow est plus longue que la directive Disallow.

Un seul groupe de directives par robot

Vous ne pouvez définir qu’un seul groupe de directives par moteur de recherche. Le fait d’avoir plusieurs groupes de directives pour un même moteur de recherche les rend confus.

Soyez aussi précis que possible

La directive Disallow se déclenche également sur les correspondances partielles. Soyez aussi précis que possible lorsque vous définissez la directive Disallow afin d’éviter d’interdire involontairement l’accès à des fichiers.

Exemple d’être aussi précis que possible

 

User-agent : *

Disallow : /directory

L’exemple ci-dessus ne permet pas aux moteurs de recherche d’accéder à :

  • /directory
  • /directory/
  • /directory-name-1
  • /directory-name.html
  • /directory-name.php
  • /directory-name.pdf

Directives pour tous les robots tout en incluant également des directives pour un robot spécifique

Pour un robot, un seul groupe de directives est valable. Si des directives destinées à tous les robots sont suivies de directives pour un robot spécifique, seules ces directives spécifiques seront prises en compte.

Pour que le robot spécifique suive également les directives pour tous les robots, vous devez répéter ces directives pour le robot spécifique.

Prenons un exemple pour illustrer ce point :

Exemple d’user-agent:

User-agent : *

Disallow : /secret/

Disallow : /test/

Disallow : /not-launched-yet/

 

User-agent : googlebot

Disallow : /not-launched-yet/

Dans l’exemple ci-dessus, tous les moteurs de recherche, à l’exception de Google, ne sont pas autorisés à accéder à /secret/, /test/ et /not-launched-yet/ . Seul Google n’est pas autorisé à accéder à /not-launched-yet/ , mais est autorisé à accéder à /secret/ et /test/ .

Si vous voulez que googlebot accède à /test/ mais pas à /secret/ et /not-launched-yet/ , vous devez répéter ces directives pour googlebot spécifiquement :

User-agent : *

Disallow : /secret/

Disallow : /test/

Disallow : /not-launched-yet/

 

User-agent : googlebot

Disallow : /secret/

Disallow : /not-launched-yet/

Veuillez noter que votre fichier robots.txt est accessible au public. Le fait d’y interdire des sections de sites Web peut être utilisé comme vecteur d’attaque par des personnes mal intentionnées.

Astuce de Graines de référenceur

« Robots.txt peut être dangereux. Non seulement vous dites aux moteurs de recherche où vous ne voulez pas qu’ils regardent, mais vous dites aussi aux gens où vous cachez vos secrets. »

Fichier Robots.txt pour chaque (sous-)domaine

Les directives du fichier Robots.txt ne s’appliquent qu’au (sous-)domaine sur lequel le fichier est hébergé.

Exemples de sous-domaines de robots.txt

https://exemple.com/robots.txt est valable pour https://exemple.com, mais pas pour https://www.exemple.com ou http://exemple.com.

La meilleure pratique consiste à n’avoir qu’un seul fichier robots.txt disponible sur votre (sous-)domaine.

Si vous disposez de plusieurs fichiers robots.txt, veillez à ce qu’ils renvoient un statut HTTP 404 ou à les rediriger HTTP 301 vers le fichier robots.txt canonique.

Directives contradictoires : robots.txt vs Google Search Console

Si votre fichier robots.txt est en conflit avec les paramètres définis dans Google Search Console, Google choisit souvent d’utiliser les paramètres définis dans Google Search Console plutôt que les directives définies dans le fichier robots.txt.

Surveillez votre fichier robots.txt

Il est important de surveiller l’évolution de votre fichier robots.txt. Nous voyons beaucoup de problèmes où des directives incorrectes et des changements soudains au fichier robots.txt causent des problèmes de référencement majeurs.

Ceci est particulièrement vrai lors du lancement de nouvelles fonctionnalités ou d’un nouveau site web qui a été préparé sur un environnement de test, car ceux-ci contiennent souvent le fichier robots.txt suivant :

User-agent : *

Disallow : /

N’utilisez pas noindex dans votre fichier robots.txt.

Depuis des années, Google recommandait déjà ouvertement de ne pas utiliser la directive non officielle noindex. Depuis le 1er septembre 2019 cependant, Google a cessé de le soutenir entièrement (s’ouvre dans un nouvel onglet).

La directive noindex non officielle n’a jamais fonctionné dans Bing, comme le confirme Frédéric Dubut dans ce tweet (s’ouvre dans un nouvel onglet) :

Tweet de Frédéric Dubut (@CoperniX) à propos du support de Bing pour la directive unofficial noindex.

La meilleure façon de signaler aux moteurs de recherche que des pages ne doivent pas être indexées est d’utiliser la balise meta robots ou X-Robots-Tag.

Questions fréquemment posées

Google prend-il toujours en charge la directive robots.txt noindex ? (à venir)

Empêcher l’utilisation de la nomenclature UTF-8 dans le fichier robots.txt

BOM signifie byte order mark, un caractère invisible au début d’un fichier utilisé pour indiquer le codage Unicode d’un fichier texte.

Bien que Google indique (s’ouvre dans un nouvel onglet) qu’il ignore la marque d’ordre d’octet Unicode facultative au début du fichier robots.txt, nous recommandons d’éviter le « UTF-8 BOM » car nous avons vu qu’il causait des problèmes d’interprétation du fichier robots.txt par les moteurs de recherche.

Même si Google dit qu’il peut s’en occuper, voici deux raisons d’éviter le BOM UTF-8 :

Vous ne voulez pas qu’il y ait d’ambiguïté sur vos préférences en matière d’exploration par les moteurs de recherche.

Il existe d’autres moteurs de recherche, qui ne sont peut-être pas aussi indulgents que Google le prétend.

Permettre à tous les robots d’accéder à tout

Il y a plusieurs façons d’indiquer aux moteurs de recherche qu’ils peuvent accéder à tous les fichiers :

User-agent : *

Disallow :

Ou avoir un fichier robots.txt vide ou ne pas avoir de fichier robots.txt du tout.

Interdire à tous les robots l’accès à tout

L’exemple de robots.txt ci-dessous indique à tous les moteurs de recherche de ne pas accéder à l’ensemble du site :

User-agent : *

Disallow : /

Veuillez noter qu’UN seul caractère supplémentaire peut faire toute la différence.

Aucun des robots de Google n’a d’accès

User-agent : googlebot

Disallow : /

Veuillez noter que lorsque vous interdisez l’accès à Googlebot, cela s’applique à tous les robots Google. Cela inclut les robots Google qui recherchent par exemple des nouvelles (googlebot-news) et des images (googlebot-images).

Aucun des robots Google, à l’exception de Googlebot-news, n’a d’accès au site.

User-agent : googlebot

Disallow : /

User-agent : googlebot-news

Disallow :

Googlebot et Slurp n’ont pas d’accès

User-agent : Slurp

User-agent : googlebot

Disallow : /

Aucun des robots n’a d’accès à deux répertoires

User-agent : *

Disallow : /admin/

Disallow : /private/

Aucun des robots n’a d’accès à un fichier spécifique.

User-agent : *

Disallow : /directory/some-pdf.pdf

Googlebot n’a pas accès à /admin/ et Slurp n’a pas accès à /private/.

User-agent : googlebot

Disallow : /admin/

 

User-agent: Slurp

Disallow : /private/

Fichier Robots.txt pour WordPress

Le fichier robots.txt ci-dessous est spécifiquement optimisé pour WordPress, en supposant que :

  • Vous ne voulez pas que votre section d’administration soit explorée.
  • Vous ne voulez pas que vos pages de résultats de recherche internes soient explorées.
  • Vous ne voulez pas que vos pages de tags et d’auteurs soient explorées.
  • Vous ne voulez pas que votre page 404 soit explorée.

User-agent : *

Disallow : /wp-admin/ #bloque l’accès à la section admin

Disallow : /wp-login.php #bloque l’accès à la section admin

Disallow : /search/ #bloque l’accès aux pages de résultats de recherche internes

Disallow : *?s=* #bloque l’accès aux pages de résultats de recherche interne

Disallow : *?p=* #bloque l’accès aux pages pour lesquelles les permaliens ne fonctionnent pas

Disallow : *&p=* #bloque l’accès aux pages pour lesquelles les permaliens échouent

Disallow : *&preview=* #blocage de l’accès aux pages de prévisualisation

Disallow : /tag/ #blocage de l’accès aux pages de balises

Disallow : /author/ #blocage de l’accès aux pages d’auteurs

Disallow : /404-error/ #bloque l’accès à la page 404

Sitemap : https://www.example.com/sitemap_index.xml

Veuillez noter que ce fichier robots.txt fonctionnera dans la plupart des cas, mais vous devez toujours l’adapter et le tester pour vous assurer qu’il s’applique à votre situation exacte.

Fichier robots.txt pour Magento

 

Le fichier robots.txt ci-dessous est spécifiquement optimisé pour Magento. Il rendra inaccessibles aux robots les résultats de recherche internes, les pages de connexion, les identifiants de session et les ensembles de résultats filtrés qui contiennent des critères de prix, de couleur, de matériau et de taille.

 

user-agent : *

Disallow : /catalogsearch/

Disallow : /catalogsearch/

Disallow : /customer/account/login/

Disallow : /*?SID=

Disallow : /*?PHPSESSID=

Disallow : /*?prix=

Disallow : /*&prix=

Disallow : /*?couleur=

Disallow : /*&color=

Disallow : /*?matériau=

Disallow : /*&material=

Disallow : /*?taille=

Disallow : /*&taille=

Sitemap : https://www.example.com/sitemap_index.xml

Veuillez noter que ce fichier robots.txt fonctionnera pour la plupart des magasins Magento, mais vous devez toujours l’ajuster et le tester pour vous assurer qu’il s’applique à votre situation exacte.

Astuce de Graines de référenceur

« Je chercherais toujours à bloquer les résultats de recherche interne dans robots.txt sur n’importe quel site car ces types d’URL de recherche sont des espaces infinis et sans fin. Il y a beaucoup de possibilités pour que Googlebot se retrouve dans un piège à robots. »

Quelles sont les limites du fichier robots.txt?

Le fichier robots.txt contient des directives

Même si le fichier robots.txt est bien respecté par les moteurs de recherche, il s’agit toujours d’une directive et non d’un mandat.

Pages apparaissant toujours dans les résultats de recherche

Les pages qui sont inaccessibles aux moteurs de recherche en raison du fichier robots.txt, mais qui ont des liens vers elles, peuvent encore apparaître dans les résultats de recherche si elles sont liées à une page qui a été explorée. Un exemple de ce à quoi cela ressemble :

Description Google non disponible robots.txt

Astuce de Graines de référenceur

« Il est possible de supprimer ces URL de Google à l’aide de l’outil de suppression des URL de la Google Search Console. Veuillez noter que ces URL ne seront que temporairement « cachées ». Pour qu’elles restent en dehors des pages de résultats de Google, vous devez soumettre une demande de masquage des URL tous les 180 jours ».

Astuce de Graines de référenceur

« Utilisez le fichier robots.txt pour bloquer les liens retour d’affiliation indésirables et probablement nuisibles.

N’utilisez pas robots.txt pour tenter d’empêcher le contenu d’être indexé par les moteurs de recherche, car cela échouera inévitablement.

Appliquez plutôt la directive robots noindex si nécessaire. »

Le fichier Robots.txt est mis en cache jusqu’à 24 heures.

Google a indiqué qu’un fichier robots.txt est généralement mis en cache pendant 24 heures au maximum. Il est important d’en tenir compte lorsque vous apportez des modifications à votre fichier robots.txt.

On ignore comment les autres moteurs de recherche gèrent la mise en cache des fichiers robots.txt, mais en général, il est préférable d’éviter de mettre en cache votre fichier robots.txt pour éviter que les moteurs de recherche prennent plus de temps que nécessaire pour détecter les modifications.

Taille du fichier robots.txt

Pour les fichiers robots.txt, Google prend actuellement en charge une taille maximale de 500 kibytes (512 kilobytes). Tout contenu dépassant cette taille maximale de fichier peut être ignoré.

On ignore si d’autres moteurs de recherche imposent une taille maximale pour les fichiers robots.txt.

Questions fréquemment posées sur le fichier robots.txt

À quoi ressemble un exemple de fichier robots.txt?

Voici un exemple du contenu d’un robots.txt :

User-agent : *

Disallow :

Cela indique à tous les moteurs de recherche qu’ils peuvent accéder à tout.

Que fait Disallow all dans le fichier robots.txt ?

Lorsque vous définissez un robots.txt à « Disallow all », vous dites essentiellement à tous les moteurs de rehcreche de rester à l’écart.

Aucun robot d’exploration, y compris Google, n’est autorisé à accéder à votre site.

Cela signifie qu’ils ne seront pas en mesure d’explorer, d’indexer et de classer votre site. Cela entraînera une baisse massive du trafic organique.

Que fait Allow all dans robots.txt ?

Lorsque vous définissez un robots.txt sur « Allow all », vous dites à chaque moteur de recherche qu’il peut accéder à toutes les URL du site. Il n’y a tout simplement pas de règles d’engagement.

Veuillez noter que cela équivaut à avoir un fichier robots.txt vide, ou à ne pas avoir de fichier robots.txt du tout.

Quelle est l’importance du fichier robots.txt pour le référencement ?

En général, le fichier robots.txt est très important pour le référencement. Pour les sites web plus importants, le robots.txt est essentiel pour donner aux moteurs de recherche des instructions très claires sur le contenu auquel ils ne doivent pas accéder.

Qui d'Autres Veux Augmenter Ses Ventes Avec Du Trafic SEO ?