GRAINES DE REFERENCEUR

L’académie des référenceurs

Guide des Balises Meta Robots

Les Balises Meta Robots en bref

Les balises Meta robots sont un outil essentiel pour améliorer le comportement d’exploration et d’indexation des moteurs de recherche, et pour contrôler vos extraits dans les SERP.

Dans cet article, nous expliquerons comment procéder, comment l’interprétation et le support diffèrent selon les moteurs de recherche et comment la balise meta robots se rapporte au X-Robots-Tag et au fichier robots.txt.

Qu’est-ce que la balise meta robots ?

La balise meta robots donne aux propriétaires de sites le pouvoir sur le comportement d’exploration et d’indexation des moteurs de recherche et sur la façon dont leurs extraits sont servis dans les pages de résultats des moteurs de recherche (SERP).

La balise meta robots va dans la section <head> de votre HTML et n’est qu’une des balises meta qui y vivent.

La balise meta robots la plus connue est sans doute celle qui indique aux moteurs de recherche de ne pas indexer une page :

<meta name="robots" content="noindex,follow" />

Vous pouvez fournir les mêmes instructions en les incluant dans l’en-tête HTTP à l’aide du >code>X-Robots-Tag. Le X-Robots-Tag est souvent utilisé pour empêcher l’indexation de contenus non HTML tels que des PDF et des images.

Directives Meta robots

Nous préférons parler de directives meta robots plutôt que de balises meta robots, car les appeler « meta robots tags » est incorrect (voir « anatomie de l’élément meta » ci-dessous).

Attention au jargon de vos robots

Les directives Meta robots ne doivent pas être confondues avec les directives robots.txt. Ce sont deux façons différentes de communiquer avec les moteurs de recherche sur différents aspects de leur comportement d’exploration et d’indexation.

Mais ils s’influencent mutuellement, comme nous le verrons plus loin dans cet article.

Anatomie du méta-élément

Un visuel de l'anatomie de l'élément de balise meta robots

Utilisons l’exemple de directive meta robots mentionné ci-dessus pour expliquer ce qui est quoi:

  • L’extrait de code entier est appelé meta element.
  • La balise <meta est la balise d’ouverture et /> est la balise de fermeture.
  • Il existe un attribut appelé name avec la valeur robots. Robots s’applique à tous les robots d’exploration mais peut être remplacé par un agent utilisateur ou user-agent spécifique.
  • Et puis il y a un attribut appelé content avec la valeur noindex,follow. noindex,follow peut être remplacé par d’autres directives.

Pourquoi les balises méta robots sont importantes?

Tout d’abord, les directives méta-robots vous donnent un contrôle indispensable sur le comportement d’exploration et d’indexation des moteurs de recherche. Sans aucune direction, les moteurs de recherche essaieront d’explorer et d’indexer tout le contenu qu’ils rencontrent. C’est leur comportement par défaut.

Deuxièmement, les moteurs de recherche généreront un extrait pour vos URL lorsqu’ils les classeront. Ils prennent votre méta-description comme entrée, bien qu’ils proposent souvent leur propre extrait – basé sur le contenu de votre page – s’ils pensent que cela fonctionnera mieux.

Maintenant, regardons quelques applications des directives meta robots dans la protection de vos performances SEO:

  • Évitez un problème de contenu dupliqué en appliquant la directive noindex des méta-robots aux pages de capture (landing pages) et aux pages de résultats de recherche sur site. Notez que les directives robots ne transmettront aucune autorité et pertinence comme le ferait l’URL canonique.
  • Empêchez les moteurs de recherche d’indexer du contenu qui ne devrait jamais être indexé parce que vous offrez des réductions ou une autre offre que vous ne voulez pas voir disponible pour le monde entier.
  • Supprimer le contenu sensible qui a été indexé : si les moteurs de recherche ont indexé du contenu qu’ils n’auraient jamais dû indexer en premier lieu, appliquez la directive meta robots noindex pour supprimer le contenu de leurs index. Vous pouvez utiliser la même technique lors de la réparation des pièges à chenilles.

Appliquer sélectivement la directive meta robots noindex aux abandons de paniers pour continuer à offrir aux utilisateurs une bonne expérience utilisateur.

Environnements intermédiaires

Nous n’avons délibérément pas répertorié en veillant à ce que les environnements de mise en scène ne soient pas indexés par les moteurs de recherche en tant que cas d’utilisation.

En effet, l’utilisation de HTTP Auth est une bien meilleure solution, car elle empêche l’accès des utilisateurs et des moteurs de recherche et empêche la directive noindex des méta-robots de se reporter sur le site de production.

La syntaxe des méta-robots expliquée

Avant d’aller plus loin, couvrons quelques-unes des bases:

    • La syntaxe n’est pas sensible à la casse
    • La séparation des directives par des virgules est requise pour Google
    • Les espaces après les virgules ne sont pas requis

La syntaxe n’est pas sensible à la casse

Les directives Meta robots ne sont pas sensibles à la casse, ce qui signifie que les exemples ci-dessous sont tous valides:

<meta name="robots" content="noindex,follow" />

<meta name="ROBOTS" content="noindex,follow" />

<meta name="robots" content="NOINDEX,FOLLOW" />

Séparation des directives par des virgules pour Google

Pour Google, vous devez séparer les directives par une virgule. Un espace ne suffit pas :

<meta name="robots" content="noindex follow" />

Les espaces après les virgules ne sont pas requis

Vous n’êtes pas obligé d’utiliser des espaces après les virgules entre les directives.

Ainsi, les exemples ci-dessous sont tous deux valides:

<meta name="robots" content="noindex,follow" />

<meta name="robots" content="noindex, follow" />

Passons maintenant aux directives elles-mêmes!

Les directives Meta robots en détail

Dans cette section, nous allons couvrir les méta-directives les plus courantes que vous rencontrerez en référencement et ce qu’elles signifient exactement.

Nous nous concentrerons principalement sur le support des directives de Google, car ils sont le moteur de recherche dominant.

Voici les directives que nous couvrirons :

Méta robots « all »

Par défaut, les moteurs de recherche exploreront et indexeront tout contenu qu’ils rencontrent, sauf indication contraire.

Si vous souhaitez définir explicitement que cela est autorisé, vous pouvez le faire avec la directive suivante :

<meta name="robots" content="all" />

Meta robots « index »

Bien que ce ne soit pas nécessaire car il s’agit d’un comportement par défaut, si vous souhaitez expliciter aux moteurs de recherche qu’ils sont autorisés à indexer une page, vous pouvez le faire avec la directive meta robots ci-dessous.

<meta name="robots" content="index" />

Meta robots « index, follow »

Souvent, la directive index est combinée avec la directive follow, ce qui conduit à:

<meta name="robots" content="index,follow" />

Ces directives signifient essentiellement la même chose que celle ci-dessus qui n’indique que index, puisque follow est également le comportement par défaut des moteurs de recherche.

Méta robots « noindex »

La directive noindex des méta-robots  indique aux moteurs de recherche de ne pas indexer une page. Voici à quoi ressemble la directive noindex des méta-robots  :

<meta name="robots" content="noindex" />

L’exemple ci-dessus indique aux moteurs de recherche qu’ils ne devraient pas indexer la page, mais qu’ils devraient se sentir libres de suivre tous ses liens, car il n’est pas explicitement indiqué qu’ils ne devraient pas.

La directive noindex a beaucoup de poids, donc lorsque les moteurs de recherche la trouvent, ils sont prompts à supprimer le contenu de leur index. Le revers de la médaille est qu’il est difficile de réindexer ce contenu lorsque, par exemple, vous avez accidentellement appliqué la  directive noindex.

Ressources utiles

Méta robots « noindex,follow »

Vous trouverez fréquemment des méta-robots noindex combinés avec la  directive follow. Il indique aux moteurs de recherche de ne pas indexer la page, mais qu’il est bon de suivre les liens:

<meta name="robots" content="noindex,follow" />

Au risque de ressembler à un disque rayé, <meta name="robots" content="noindex" />  et <meta name="robots" content="noindex,follow" /> signifient la même chose, puisque follow est le comportement par défaut du robot des moteurs de recherche.

Méta robots « noindex,nofollow »

Vous pouvez également combiner la directive noindex meta robots avec  une meta directive  nofollow  (à ne pas confondre avec l’attribut nofollow link) :

<meta name="robots" content="noindex,nofollow" />

La combinaison noindex/nofollow indique aux moteurs de recherche de ne pas indexer la page et de ne pas suivre les liens sur la page, ce qui signifie qu’aucune autorité de lien ne doit être transmise non plus.

 noindex devient noindex,nofollow au fil du temps

Les moteurs de recherche diminuent considérablement la réexploration d’une page non indexée, ce qui conduit essentiellement à une situation de noindex, nofollow, car les liens sur une page qui n’est pas explorée ne sont pas suivis.

Méta robots « none »

La directive meta robots none est en fait un raccourci pour noindex,nofollow, que nous avons couvert juste au-dessus. Voici à quoi ressemble la directive meta robots none :

<meta name="robots" content="none" />

Il n’est pas très souvent utilisé, et les gens pensent souvent que cela signifie exactement le contraire: index, follow.

Alors soyez prudent avec celui-ci!

Méta robots « noarchive »

La directive meta robots noarchive empêche les moteurs de recherche de présenter une version en cache d’une page dans le SERP. Si vous ne spécifiez pas  la directive noarchive, les moteurs de recherche peuvent simplement aller de l’avant et servir une version en cache de la page. Encore une fois, il s’agit d’une directive d’opt-out.

Voici à quoi ressemble la directive noarchive:

<meta name="robots" content="noarchive" />

Cependant, il est souvent combiné avec d’autres directives. Par exemple, vous le verrez couramment utilisé avec les directives noindex et nofollow :

<meta name="robots" content="noindex,nofollow,noarchive" />

Cela signifie que les moteurs de recherche ne devraient pas indexer la page, ne devraient suivre aucun de ses liens et ne devraient pas non plus mettre la page en cache.

Meta robots « nosnippet »

La directive nosnippet indique aux moteurs de recherche de ne pas afficher d’extrait de texte (généralement tiré de la méta-description) ou d’aperçu vidéo pour la page.

Voici à quoi ressemble la directive nosnippet:

<meta name="robots" content="nosnippet" />

Si nous devions appliquer la directive nosnippetà notre article de redirections, l’extrait ressemblerait alors à ceci:

Capture d'écran d'un extrait de SERP où la directive nosnippet a été utilisée

Les moteurs de recherche peuvent toujours afficher une vignette d’image s’ils pensent que cela se traduit par une meilleure expérience utilisateur.

Pour Google, cela s’applique à la recherche Web régulière, à Google Images et à Google Discover. La directive nosnippet fonctionne également comme une directive noarchive.

Si la directive nosnippetn’est pas incluse, Google générera lui-même un extrait de texte et un aperçu vidéo.

Empêcher l’utilisation de certains contenus pour un extrait.

Sur Google en particulier, vous pouvez empêcher une partie du contenu de votre page d’apparaître dans un extrait de code à l’aide de l’attribut HTML data-nosnippet. Bien qu’il ne s’agisse pas d’une directive sur les méta-robots, elle leur est étroitement liée, nous devons donc en parler ici.

L’attribut HTML data-nosnippet peut être utilisé sur  les éléments span, div et section. Voici un exemple :

<p>Cela peut être affiché dans un extrait, tandis que

<span data-nosnippet>cela ne sera pas affiché dans un snippet</span>.</p>

Pour en savoir plus sur l’attribut data-nosnippet, (ouvre un nouvel onglet).

Méta robots « max-snippet »

La directive max-snippet des méta-robots  indique aux moteurs de recherche de limiter l’extrait de la page (généralement tiré de la méta-description de la page) à un nombre spécifié de caractères.

Voici un exemple où l’extrait aura une longueur maximale de 50 caractères :

<meta name="robots" content="max-snippet:50" />

Méta robots « max-snippet:0 »

Lorsque vous spécifiez max-snippet:0, vous dites aux moteurs de recherche de ne pas afficher d’extrait, essentiellement la même que la  directive nosnippet des méta-robots  que nous venons de décrire ci-dessus :

<meta name="robots" content="max-snippet:0" />

Méta robots « max-snippet:-1 »

Lorsque vous spécifiez max-snippet:-1, vous indiquez explicitement aux moteurs de recherche qu’ils peuvent déterminer eux-mêmes la longueur de l’extrait, ce qui est leur comportement par défaut :

<meta name="robots" content="max-snippet:-1" />

Impact de la directive européenne sur le droit d’auteur

Depuis octobre 2019, les sites classés comme « publications de presse européennes » sont affichés dans Google sans extrait par défaut.

Vous pouvez choisir que vos extraits soient affichés en utilisant les directives max-snippet et max-image-preview ou vous pouvez choisir de supprimer votre site de la liste des publications de presse européennes via Google Search Console (ouvre un nouvel onglet).

Pour en savoir plus à ce sujet, cliquez ici(ouvre un nouvel onglet).

Directives méta-robots moins importantes

Nous sommes maintenant arrivés aux directives méta-robots moins importantes, que nous n’aborderons que brièvement.

Ce qui vaut pour les autres directives méta-robots vaut aussi pour celles-ci : si elles ne sont pas définies, les moteurs de recherche feront ce qu’ils veulent.

Voici ce que les directives signalent aux moteurs de recherche :

    • unavailable_after : « supprimer une page de votre index après une date précise ». La date doit être spécifiée dans un format largement adopté, tel que par exemple ISO 8601(ouvre un nouvel onglet en anglais). La directive est ignorée si aucune date/heure valide n’est spécifiée. Par défaut, il n’y a pas de date d’expiration pour le contenu. C’est en fait une directive noindex temporisée, alors soyez prudent lorsque vous l’utilisez.
    • noimageindex : « Ne pas indexer les images de cette page ».
    • max-image-preview : « Définissez une taille maximale pour l’aperçu de l’image d’une page, avec les valeurs possibles : none, standard et large».
    • max-video-preview : « Définissez un maximum pour la durée de prévisualisation des vidéos sur la page ».
    • notranslate : « Ne proposez pas de version traduite de la page dans vos résultats de recherche ».

Ressources utiles

Comment combiner les directives meta robots ?

En plus de pouvoir combiner des directives, vous pouvez également fournir des directives à différents robots d’exploration. Chaque robot utilisera la somme des directives qui lui sont fournies, c’est-à-dire : ils s’empilent.

Pour illustrer comment, regardons un exemple:

<meta name="robots" content="nofollow" />

<meta name="googlebot" content="noindex" />

Ces directives sont interprétées comme suit :

    • Google: noindex,nofollow
    • Autres moteurs de recherche : nofollow

Comment les moteurs de recherche interprètent-ils les directives contradictoires ?

Comme vous pouvez l’imaginer, lorsque vous commencez à empiler des directives, il est facile de se tromper. Si un scénario se présente où il y a des directives contradictoires, Google utilisera par défaut la plus restrictive.

Prenons par exemple les directives suivantes:

<meta name="robots" content="index" />

<meta name="googlebot" content="noindex" />

Verdict: Google fera preuve d’une grande prudence et n’indexera pas la page.

Mais, la façon dont les directives contradictoires sont interprétées peut différer d’un moteur de recherche à l’autre. Prenons un autre exemple :

<meta name="robots" content="index" />

<meta name="robots" content="noindex" />

Verdict: Google n’indexera pas cette page, mais Yandex fera exactement le contraire et l’indexera.

Gardez donc cela à l’esprit et assurez-vous que vos directives sur les robots fonctionnent correctement pour les moteurs de recherche qui sont importants pour vous.

X-Robots-Tag : l’équivalent de l’en-tête HTTP

Les fichiers non-HTML tels que les images et les fichiers PDF n’ont pas de source HTML dans laquelle vous pouvez inclure une directive meta robots. Si vous souhaitez signaler vos préférences d’exploration et d’indexation aux moteurs de recherche pour ces fichiers, le mieux est d’utiliser l’en-tête HTTP X-Robots-Tag.

Abordons brièvement les en-têtes HTTP.

Lorsqu’un visiteur ou un moteur de recherche demande une page à un serveur Web et que la page existe, le serveur Web répond généralement par trois choses :

    1. Code d’état HTTP : la réponse à trois chiffres à la demande du client (par exemple, 200 OK).
    2. En-têtes HTTP : en-têtes contenant par exemple le type de contenu renvoyé et des instructions sur la durée pendant laquelle le client doit mettre en cache la réponse.
    3. Corps HTTP : le corps (par exemple HTML, CSS, JavaScript, etc.), qui est utilisé pour rendre et afficher la page dans un navigateur.

Le X-Robots-Tag peut être inclus dans les en-têtes HTTP. Voici une capture d’écran des en-têtes de réponse HTTP d’une page tirée de Chrome Web Inspector, pour une page contenant un X-Robots-Tag : noindex :

Réponse HTTP de Google Web Inspector comprenant le X-Robots-Tag noindex

Alors, comment cela fonctionne-t-il dans la pratique?

Configuration de X-Robots-Tag sur Apache

Par exemple, si vous utilisez le serveur Web Apache et que vous souhaitez ajouter un noindex,nofollow X-Robots-Tag à la réponse HTTP pour tous vos fichiers PDF, ajoutez l’extrait suivant à votre fichier .htaccess ou httpd.conf :

<Fichiers ~ "\.pdf$">

Ensemble d’en-têtes X-Robots-Tag "noindex,nofollow"

</Fichiers>

Ou peut-être voulez-vous rendre les images des types de fichiers PNG, JPG, JPEG et GIF non indexables :

<Fichiers ~ "\. (png|jpe?g|gif)$">

Jeu d’en-têtes X-Robots-Tag "noindex"

</Fichiers>

Configuration de X-Robots-Tag sur nginx

Pendant ce temps, sur le serveur Web nginx, vous devez modifier le fichier .conf d’un site .

Pour supprimer tous les fichiers PDF des index des moteurs de recherche sur l’ensemble d’un site, utilisez ceci :

location ~* \.pdf$ {

  add_header X-Robots-Tag "noindex, nofollow";

}

Et pour ne pas indexer les images, utilisez ceci:

location ~*\. (png|jpe?g|gif)$ {

  add_header X-Robots-Tag "noindex";

}

Notez que peaufiner la configuration de votre serveur Web peut avoir un impact négatif sur les performances SEO de l’ensemble de votre site Web. À moins que vous ne soyez à l’aise avec les modifications apportées à la configuration de votre serveur Web, il est préférable de laisser ces modifications à votre administrateur de serveur.

Ressources utiles

Meilleures pratiques SEO pour les directives robots

Tenez-vous-en à ces bonnes pratiques concernant les directives sur les robots :

    • Évitez les directives contradictoires sur les robots : évitez d’utiliser à la fois des méta-robots et des directives X-Robots-Tag pour signaler vos préférences d’exploration et d’indexation pour vos pages, car il est facile de se tromper et d’envoyer des instructions contradictoires. C’est bien d’utiliser les directives meta robots sur les pages et X-Robots-Tag pour vos images et PDF – assurez-vous simplement que vous n’utilisez pas les deux méthodes de livraison d’instructions de directive de robots sur le même fichier.
    • N’interdisez pas le contenu avec des directives importantes sur les robots : si vous interdisez le contenu utilisant vos robots.txt, les moteurs de recherche ne pourront pas détecter les directives de robots préférées de ce contenu. Supposons, par exemple, que vous appliquiez la directive noindex à une page et que vous interdisiez l’accès à cette même page, en utilisant la directive disallow. Les moteurs de recherche ne pourront pas voir le noindex, et ils peuvent encore garder la page dans leur index pendant une longue période.
    • Ne combinez pas la directive noindex avec l’URL canonique : une page qui a à la fois une directive noindex et une directive canonique vers une autre page est source de confusion pour les moteurs de recherche. Dans de rares cas, cela entraîne le report du noindex sur la cible canonique.
    • N’appliquez pas la directive noindex aux pages paginées : parce que les moteurs de recherche (Google en particulier) comprennent bien les pages paginées, ils les traitent différemment et ne les verront pas comme du contenu dupliqué. Et gardez à l’esprit qu’en pratique, au fil du temps, une directive noindex devient un noindex, nofollow, fermant la porte sur un chemin de découverte pour le contenu lié via des pages paginées.
    • Pas de hreflang aux pages sans index : hreflang signale aux moteurs de recherche quelles variantes de contenu sont disponibles pour différents publics, envoyant un signal que ceux-ci doivent être indexés. Par conséquent, évitez de référencer des pages qui ont une directive noindex.
    • N’incluez pas les pages noindex dans le sitemap XML : les pages qui ne doivent pas être indexées ne doivent pas non plus être incluses dans votre sitemap XML, car le sitemap XML est utilisé pour signaler aux moteurs de recherche les pages qu’ils doivent explorer et indexer.

Meta robots vs X-Robots-Tag vs Robots.txt

Les directives Meta robots, X-Robots-Tag et robots.txt ont toutes leurs propres utilisations. Pour résumer ce que nous avons couvert jusqu’à présent, voici à quoi ils peuvent servir:

Les directives Meta robots, X-Robots-Tag et robots.txt ont leurs propres utilisations

* Le contenu qui est interdit dans les robots.txt ne sera généralement pas indexé. Mais dans de rares cas, cela peut encore arriver.

Prise en charge des moteurs de recherche

Ce n’est pas seulement l’interprétation des directives contradictoires sur les robots qui peut différer d’un moteur de recherche à l’autre.

Les directives prises en charge et la prise en charge de leur méthode de livraison (en-tête HTML ou HTTP) peuvent également varier.

Si une cellule du tableau ci-dessous est cochée par un (V), les implémentations d’en-têtes HTML et HTTP sont prises en charge.

S’il existe une croix rouge (X), aucune n’est prise en charge. Si un seul est pris en charge, c’est expliqué.

Variations dans la prise en charge des directives et de leur méthode de livraison_en-tête HTML ou HTTP.

Et maintenant, passons aux moins importants:

Directives moins importantes des moteurs de recherche

Conclure et passer à autre chose

Un référencement technique solide consiste à envoyer les bons signaux aux moteurs de recherche. Et la directive méta-robots n’est qu’un de ces signaux.

Alors continuez à apprendre comment prendre les moteurs de recherche par la main avec notre guide sur le contrôle de l’exploration et de l’indexation! (article à venir)