Guide des Balises Meta Robots
Les Balises Meta Robots en bref
Les balises Meta robots sont un outil essentiel pour améliorer le comportement d’exploration et d’indexation des moteurs de recherche, et pour contrôler vos extraits dans les SERP.
Dans cet article, nous expliquerons comment procéder, comment l’interprétation et le support diffèrent selon les moteurs de recherche et comment la balise meta robots se rapporte au X-Robots-Tag et au fichier robots.txt.
Table des matières
- Qu’est-ce que la balise meta robots ?
- Pourquoi est-ce important?
- La syntaxe des méta-robots expliquée
- Les directives Meta robots en détail
- Comment combiner les directives meta robots ?
- Comment les moteurs de recherche interprètent-ils les directives contradictoires ?
- X-Robots-Tag : l’équivalent de l’en-tête HTTP
- Meilleures pratiques SEO pour les directives robots
- Meta robots vs X-Robots-Tag vs Robots.txt
- Prise en charge des moteurs de recherche
- Conclure et passer à autre chose
Qu’est-ce que la balise meta robots ?
La balise meta robots donne aux propriétaires de sites le pouvoir sur le comportement d’exploration et d’indexation des moteurs de recherche et sur la façon dont leurs extraits sont servis dans les pages de résultats des moteurs de recherche (SERP).
La balise meta robots va dans la section <head> de votre HTML et n’est qu’une des balises meta qui y vivent.
La balise meta robots la plus connue est sans doute celle qui indique aux moteurs de recherche de ne pas indexer une page :
<meta name="robots" content="noindex,follow" />
Vous pouvez fournir les mêmes instructions en les incluant dans l’en-tête HTTP à l’aide du X-Robots-Tag
. Le X-Robots-Tag
est souvent utilisé pour empêcher l’indexation de contenus non HTML tels que des PDF et des images.
Directives Meta robots
Nous préférons parler de directives meta robots plutôt que de balises meta robots, car les appeler « meta robots tags » est incorrect (voir « anatomie de l’élément meta » ci-dessous).
Attention au jargon de vos robots
Les directives Meta robots ne doivent pas être confondues avec les directives robots.txt. Ce sont deux façons différentes de communiquer avec les moteurs de recherche sur différents aspects de leur comportement d’exploration et d’indexation.
Mais ils s’influencent mutuellement, comme nous le verrons plus loin dans cet article.
Anatomie du méta-élément
Utilisons l’exemple de directive meta robots mentionné ci-dessus pour expliquer ce qui est quoi:
- L’extrait de code entier est appelé
meta element
. - La balise
<meta
est la balise d’ouverture et/>
est la balise de fermeture. - Il existe un attribut appelé
name
avec la valeurrobots
.Robots
s’applique à tous les robots d’exploration mais peut être remplacé par un agent utilisateur ou user-agent spécifique. - Et puis il y a un attribut appelé
content
avec la valeurnoindex,follow. noindex,follow
peut être remplacé par d’autres directives.
Pourquoi les balises méta robots sont importantes?
Tout d’abord, les directives méta-robots vous donnent un contrôle indispensable sur le comportement d’exploration et d’indexation des moteurs de recherche. Sans aucune direction, les moteurs de recherche essaieront d’explorer et d’indexer tout le contenu qu’ils rencontrent. C’est leur comportement par défaut.
Deuxièmement, les moteurs de recherche généreront un extrait pour vos URL lorsqu’ils les classeront. Ils prennent votre méta-description comme entrée, bien qu’ils proposent souvent leur propre extrait – basé sur le contenu de votre page – s’ils pensent que cela fonctionnera mieux.
Maintenant, regardons quelques applications des directives meta robots dans la protection de vos performances SEO:
- Évitez un problème de contenu dupliqué en appliquant la directive
noindex
des méta-robots aux pages de capture (landing pages) et aux pages de résultats de recherche sur site. Notez que les directives robots ne transmettront aucune autorité et pertinence comme le ferait l’URL canonique. - Empêchez les moteurs de recherche d’indexer du contenu qui ne devrait jamais être indexé parce que vous offrez des réductions ou une autre offre que vous ne voulez pas voir disponible pour le monde entier.
- Supprimer le contenu sensible qui a été indexé : si les moteurs de recherche ont indexé du contenu qu’ils n’auraient jamais dû indexer en premier lieu, appliquez la directive meta robots
noindex
pour supprimer le contenu de leurs index. Vous pouvez utiliser la même technique lors de la réparation des pièges à chenilles.
Appliquer sélectivement la directive meta robots noindex
aux abandons de paniers pour continuer à offrir aux utilisateurs une bonne expérience utilisateur.
Environnements intermédiaires
Nous n’avons délibérément pas répertorié en veillant à ce que les environnements de test ne soient pas indexés par les moteurs de recherche en tant que cas d’utilisation.
En effet, l’utilisation de HTTP Auth est une bien meilleure solution, car elle empêche l’accès des utilisateurs et des moteurs de recherche et empêche la directive noindex
des méta-robots de se reporter sur le site de production.
La syntaxe des méta-robots expliquée
Avant d’aller plus loin, couvrons quelques-unes des bases:
-
- La syntaxe n’est pas sensible à la casse
- La séparation des directives par des virgules est requise pour Google
- Les espaces après les virgules ne sont pas requis
La syntaxe n’est pas sensible à la casse
Les directives Meta robots ne sont pas sensibles à la casse, ce qui signifie que les exemples ci-dessous sont tous valides:
<meta name="robots" content="noindex,follow" />
<meta name="ROBOTS" content="noindex,follow" />
<meta name="robots" content="NOINDEX,FOLLOW" />
Séparation des directives par des virgules pour Google
Pour Google, vous devez séparer les directives par une virgule. Un espace ne suffit pas :
<meta name="robots" content="noindex follow" />
Les espaces après les virgules ne sont pas requis
Vous n’êtes pas obligé d’utiliser des espaces après les virgules entre les directives.
Ainsi, les exemples ci-dessous sont tous deux valides:
<meta name="robots" content="noindex,follow" />
<meta name="robots" content="noindex, follow" />
Passons maintenant aux directives elles-mêmes!
Les directives Meta robots en détail
Dans cette section, nous allons couvrir les méta-directives les plus courantes que vous rencontrerez en référencement et ce qu’elles signifient exactement.
Nous nous concentrerons principalement sur le support des directives de Google, car ils sont le moteur de recherche dominant.
Voici les directives que nous couvrirons :
Méta robots « all »
Par défaut, les moteurs de recherche exploreront et indexeront tout contenu qu’ils rencontrent, sauf indication contraire.
Si vous souhaitez définir explicitement que cela est autorisé, vous pouvez le faire avec la directive suivante :
<meta name="robots" content="all" />
Meta robots « index »
Bien que ce ne soit pas nécessaire car il s’agit d’un comportement par défaut, si vous souhaitez expliciter aux moteurs de recherche qu’ils sont autorisés à indexer une page, vous pouvez le faire avec la directive meta robots ci-dessous.
<meta name="robots" content="index" />
Meta robots « index, follow »
Souvent, la directive index
est combinée avec la directive follow
, ce qui conduit à:
<meta name="robots" content="index,follow" />
Ces directives signifient essentiellement la même chose que celle ci-dessus qui n’indique que index
, puisque follow
est également le comportement par défaut des moteurs de recherche.
Méta robots « noindex »
La directive noindex des méta-robots indique aux moteurs de recherche de ne pas indexer une page. Voici à quoi ressemble la directive noindex
des méta-robots :
<meta name="robots" content="noindex" />
L’exemple ci-dessus indique aux moteurs de recherche qu’ils ne devraient pas indexer la page, mais qu’ils devraient se sentir libres de suivre tous ses liens, car il n’est pas explicitement indiqué qu’ils ne devraient pas.
La directive noindex
a beaucoup de poids, donc lorsque les moteurs de recherche la trouvent, ils sont prompts à supprimer le contenu de leur index. Le revers de la médaille est qu’il est difficile de réindexer ce contenu lorsque, par exemple, vous avez accidentellement appliqué la directive noindex
.
Ressources utiles
Méta robots « noindex,follow »
Vous trouverez fréquemment des méta-robots noindex
combinés avec la directive follow
. Il indique aux moteurs de recherche de ne pas indexer la page, mais qu’il est bon de suivre les liens:
<meta name="robots" content="noindex,follow" />
Au risque de ressembler à un disque rayé, <meta name="robots" content="noindex" />
et <meta name="robots" content="noindex,follow" />
signifient la même chose, puisque follow
est le comportement par défaut du robot des moteurs de recherche.
Méta robots « noindex,nofollow »
Vous pouvez également combiner la directive noindex
meta robots avec une meta directive nofollow
(à ne pas confondre avec l’attribut de lien nofollow
) :
<meta name="robots" content="noindex,nofollow" />
La combinaison noindex/nofollow
indique aux moteurs de recherche de ne pas indexer la page et de ne pas suivre les liens sur la page, ce qui signifie qu’aucune autorité de lien ne doit être transmise non plus.
noindex
devient noindex,nofollow
au fil du temps
Les moteurs de recherche diminuent considérablement la réexploration d’une page non indexée, ce qui conduit essentiellement à une situation de noindex, nofollow
, car les liens sur une page qui n’est pas explorée ne sont pas suivis.
Méta robots « none »
La directive meta robots none
est en fait un raccourci pour noindex,nofollow
, que nous avons couvert juste au-dessus. Voici à quoi ressemble la directive meta robots none
:
<meta name="robots" content="none" />
Il n’est pas très souvent utilisé, et les gens pensent souvent que cela signifie exactement le contraire: index, follow
.
Alors soyez prudent avec celui-ci!
Méta robots « noarchive »
La directive meta robots noarchive
empêche les moteurs de recherche de présenter une version en cache d’une page dans le SERP. Si vous ne spécifiez pas la directive noarchive
, les moteurs de recherche peuvent simplement aller de l’avant et servir une version en cache de la page. Encore une fois, il s’agit d’une directive d’opt-out.
Voici à quoi ressemble la directive noarchive
:
<meta name="robots" content="noarchive" />
Cependant, il est souvent combiné avec d’autres directives. Par exemple, vous le verrez couramment utilisé avec les directives noindex
et nofollow
:
<meta name="robots" content="noindex,nofollow,noarchive" />
Cela signifie que les moteurs de recherche ne devraient pas indexer la page, ne devraient suivre aucun de ses liens et ne devraient pas non plus mettre la page en cache.
Meta robots « nosnippet »
La directive nosnippet
indique aux moteurs de recherche de ne pas afficher d’extrait de texte (généralement tiré de la méta-description) ou d’aperçu vidéo pour la page.
Voici à quoi ressemble la directive nosnippet
:
<meta name="robots" content="nosnippet" />
Si nous devions appliquer la directive nosnippet
à notre article de redirections, l’extrait ressemblerait alors à ceci:
Les moteurs de recherche peuvent toujours afficher une vignette d’image s’ils pensent que cela se traduit par une meilleure expérience utilisateur.
Pour Google, cela s’applique à la recherche Web régulière, à Google Images et à Google Discover. La directive nosnippet
fonctionne également comme une directive noarchive
.
Si la directive nosnippet
n’est pas incluse, Google générera lui-même un extrait de texte et un aperçu vidéo.
Empêcher l’utilisation de certains contenus pour un extrait.
Sur Google en particulier, vous pouvez empêcher une partie du contenu de votre page d’apparaître dans un extrait de code à l’aide de l’attribut HTML data-nosnippet
. Bien qu’il ne s’agisse pas d’une directive sur les méta-robots, elle leur est étroitement liée, nous devons donc en parler ici.
L’attribut HTML data-nosnippet
peut être utilisé sur les éléments span, div
et section
. Voici un exemple :
<p>Cela peut être affiché dans un extrait, tandis que
<span data-nosnippet>cela ne sera pas affiché dans un snippet</span>.</p>
Pour en savoir plus sur l’attribut data-nosnippet, (ouvre un nouvel onglet).
Méta robots « max-snippet »
La directive max-snippet
des méta-robots indique aux moteurs de recherche de limiter l’extrait de la page (généralement tiré de la méta-description de la page) à un nombre spécifié de caractères.
Voici un exemple où l’extrait aura une longueur maximale de 50 caractères :
<meta name="robots" content="max-snippet:50" />
Méta robots « max-snippet:0 »
Lorsque vous spécifiez max-snippet:0
, vous dites aux moteurs de recherche de ne pas afficher d’extrait, essentiellement la même que la directive nosnippet
des méta-robots que nous venons de décrire ci-dessus :
<meta name="robots" content="max-snippet:0" />
Méta robots « max-snippet:-1 »
Lorsque vous spécifiez max-snippet:-1
, vous indiquez explicitement aux moteurs de recherche qu’ils peuvent déterminer eux-mêmes la longueur de l’extrait, ce qui est leur comportement par défaut :
<meta name="robots" content="max-snippet:-1" />
Impact de la directive européenne sur le droit d’auteur
Depuis octobre 2019, les sites classés comme « publications de presse européennes » sont affichés dans Google sans extrait par défaut.
Vous pouvez choisir que vos extraits soient affichés en utilisant les directives max-snippet
et max-image-preview
ou vous pouvez choisir de supprimer votre site de la liste des publications de presse européennes via Google Search Console (ouvre un nouvel onglet).
Pour en savoir plus à ce sujet, cliquez ici(ouvre un nouvel onglet).
Directives méta-robots moins importantes
Nous sommes maintenant arrivés aux directives méta-robots moins importantes, que nous n’aborderons que brièvement.
Ce qui vaut pour les autres directives méta-robots vaut aussi pour celles-ci : si elles ne sont pas définies, les moteurs de recherche feront ce qu’ils veulent.
Voici ce que les directives signalent aux moteurs de recherche :
-
unavailable_after
: « supprimer une page de votre index après une date précise ». La date doit être spécifiée dans un format largement adopté, tel que par exemple ISO 8601(ouvre un nouvel onglet en anglais). La directive est ignorée si aucune date/heure valide n’est spécifiée. Par défaut, il n’y a pas de date d’expiration pour le contenu. C’est en fait une directivenoindex
temporisée, alors soyez prudent lorsque vous l’utilisez.noimageindex
: « Ne pas indexer les images de cette page ».max-image-preview
: « Définissez une taille maximale pour l’aperçu de l’image d’une page, avec les valeurs possibles : none, standard et large».max-video-preview
: « Définissez un maximum pour la durée de prévisualisation des vidéos sur la page ».notranslate
: « Ne proposez pas de version traduite de la page dans vos résultats de recherche ».
Ressources utiles
Comment combiner les directives meta robots ?
En plus de pouvoir combiner des directives, vous pouvez également fournir des directives à différents robots d’exploration. Chaque robot utilisera la somme des directives qui lui sont fournies, c’est-à-dire : ils s’empilent.
Pour illustrer comment, regardons un exemple:
<meta name="robots" content="nofollow" />
<meta name="googlebot" content="noindex" />
Ces directives sont interprétées comme suit :
-
- Google:
noindex,nofollow
- Autres moteurs de recherche :
nofollow
- Google:
Comment les moteurs de recherche interprètent-ils les directives contradictoires ?
Comme vous pouvez l’imaginer, lorsque vous commencez à empiler des directives, il est facile de se tromper. Si un scénario se présente où il y a des directives contradictoires, Google utilisera par défaut la plus restrictive.
Prenons par exemple les directives suivantes:
<meta name="robots" content="index" />
<meta name="googlebot" content="noindex" />
Verdict: Google fera preuve d’une grande prudence et n’indexera pas la page.
Mais, la façon dont les directives contradictoires sont interprétées peut différer d’un moteur de recherche à l’autre. Prenons un autre exemple :
<meta name="robots" content="index" />
<meta name="robots" content="noindex" />
Verdict: Google n’indexera pas cette page, mais Yandex fera exactement le contraire et l’indexera.
Gardez donc cela à l’esprit et assurez-vous que vos directives sur les robots fonctionnent correctement pour les moteurs de recherche qui sont importants pour vous.
X-Robots-Tag : l’équivalent de l’en-tête HTTP
Les fichiers non-HTML tels que les images et les fichiers PDF n’ont pas de source HTML dans laquelle vous pouvez inclure une directive meta robots. Si vous souhaitez signaler vos préférences d’exploration et d’indexation aux moteurs de recherche pour ces fichiers, le mieux est d’utiliser l’en-tête HTTP X-Robots-Tag
.
Abordons brièvement les en-têtes HTTP.
Lorsqu’un visiteur ou un moteur de recherche demande une page à un serveur Web et que la page existe, le serveur Web répond généralement par trois choses :
-
- Code d’état HTTP : la réponse à trois chiffres à la demande du client (par exemple,
200 OK
). - En-têtes HTTP : en-têtes contenant par exemple le
type de contenu
renvoyé et des instructions sur la durée pendant laquelle le client doit mettre en cache la réponse. - Corps HTTP : le corps (par exemple HTML, CSS, JavaScript, etc.), qui est utilisé pour rendre et afficher la page dans un navigateur.
- Code d’état HTTP : la réponse à trois chiffres à la demande du client (par exemple,
Le X-Robots-Tag
peut être inclus dans les en-têtes HTTP. Voici une capture d’écran des en-têtes de réponse HTTP d’une page tirée de Chrome Web Inspector, pour une page contenant un X-Robots-Tag : noindex
:
Alors, comment cela fonctionne-t-il dans la pratique?
Configuration de X-Robots-Tag sur Apache
Par exemple, si vous utilisez le serveur Web Apache et que vous souhaitez ajouter un noindex,nofollow X-Robots-Tag
à la réponse HTTP pour tous vos fichiers PDF, ajoutez l’extrait suivant à votre fichier .htaccess
ou httpd.conf
:
<Fichiers ~ "\.pdf$">
Ensemble d’en-têtes X-Robots-Tag "noindex,nofollow"
</Fichiers>
Ou peut-être voulez-vous rendre les images des types de fichiers PNG, JPG, JPEG
et GIF
non indexables :
<Fichiers ~ "\. (png|jpe?g|gif)$">
Jeu d’en-têtes X-Robots-Tag "noindex"
</Fichiers>
Configuration de X-Robots-Tag sur nginx
Pendant ce temps, sur le serveur Web nginx, vous devez modifier le fichier .conf
d’un site .
Pour supprimer tous les fichiers PDF des index des moteurs de recherche sur l’ensemble d’un site, utilisez ceci :
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}
Et pour ne pas indexer les images, utilisez ceci:
location ~*\. (png|jpe?g|gif)$ {
add_header X-Robots-Tag "noindex";
}
Notez que peaufiner la configuration de votre serveur Web peut avoir un impact négatif sur les performances SEO de l’ensemble de votre site Web. À moins que vous ne soyez à l’aise avec les modifications apportées à la configuration de votre serveur Web, il est préférable de laisser ces modifications à votre administrateur de serveur.
Ressources utiles
Meilleures pratiques SEO pour les directives robots
Tenez-vous-en à ces bonnes pratiques concernant les directives sur les robots :
-
- Évitez les directives contradictoires sur les robots : évitez d’utiliser à la fois des méta-robots et des directives X-Robots-Tag pour signaler vos préférences d’exploration et d’indexation pour vos pages, car il est facile de se tromper et d’envoyer des instructions contradictoires. C’est bien d’utiliser les directives meta robots sur les pages et X-Robots-Tag pour vos images et PDF – assurez-vous simplement que vous n’utilisez pas les deux méthodes de livraison d’instructions de directive de robots sur le même fichier.
- N’interdisez pas le contenu avec des directives importantes sur les robots : si vous interdisez le contenu utilisant vos
robots.txt
, les moteurs de recherche ne pourront pas détecter les directives de robots préférées de ce contenu. Supposons, par exemple, que vous appliquiez la directivenoindex
à une page et que vous interdisiez l’accès à cette même page, en utilisant la directivedisallow
. Les moteurs de recherche ne pourront pas voir lenoindex
, et ils peuvent encore garder la page dans leur index pendant une longue période. - Ne combinez pas la directive noindex avec l’URL canonique : une page qui a à la fois une directive
noindex
et une directive canonique vers une autre page est source de confusion pour les moteurs de recherche. Dans de rares cas, cela entraîne le report dunoindex
sur la cible canonique. - N’appliquez pas la directive noindex aux pages paginées : parce que les moteurs de recherche (Google en particulier) comprennent bien les pages paginées, ils les traitent différemment et ne les verront pas comme du contenu dupliqué. Et gardez à l’esprit qu’en pratique, au fil du temps, une directive
noindex
devient unnoindex, nofollow
, fermant la porte sur un chemin de découverte pour le contenu lié via des pages paginées. - Pas de hreflang aux pages sans index :
hreflang
signale aux moteurs de recherche quelles variantes de contenu sont disponibles pour différents publics, envoyant un signal que ceux-ci doivent être indexés. Par conséquent, évitez de référencer des pages qui ont une directivenoindex
. - N’incluez pas les pages noindex dans le sitemap XML : les pages qui ne doivent pas être indexées ne doivent pas non plus être incluses dans votre sitemap XML, car le sitemap XML est utilisé pour signaler aux moteurs de recherche les pages qu’ils doivent explorer et indexer.
Meta robots vs X-Robots-Tag vs Robots.txt
Les directives Meta robots, X-Robots-Tag et robots.txt ont toutes leurs propres utilisations. Pour résumer ce que nous avons couvert jusqu’à présent, voici à quoi ils peuvent servir:
* Le contenu qui est interdit dans les robots.txt ne sera généralement pas indexé. Mais dans de rares cas, cela peut encore arriver.
Prise en charge des moteurs de recherche
Ce n’est pas seulement l’interprétation des directives contradictoires sur les robots qui peut différer d’un moteur de recherche à l’autre.
Les directives prises en charge et la prise en charge de leur méthode de livraison (en-tête HTML ou HTTP) peuvent également varier.
Si une cellule du tableau ci-dessous est cochée par un (V), les implémentations d’en-têtes HTML et HTTP sont prises en charge.
S’il existe une croix rouge (X), aucune n’est prise en charge. Si un seul est pris en charge, c’est expliqué.
Et maintenant, passons aux moins importants:
Conclure et passer à autre chose
Un référencement technique solide consiste à envoyer les bons signaux aux moteurs de recherche. Et la directive méta-robots n’est qu’un de ces signaux.
Alors continuez à apprendre comment prendre les moteurs de recherche par la main avec notre guide sur le contrôle de l’exploration et de l’indexation!