Utiliser une URL canonique pour résoudre les problèmes de contenu dupliqué

L’URL canonique en bref

L’élément de lien rel="canonical", souvent appelé URL canonique, est un outil puissant pour lutter contre les problèmes de contenu dupliqué lorsque plusieurs variantes de (plus ou moins) la même page existent.

En substance, il vous permet de spécifier quelle variante de page est canonique: la variante que vous souhaitez voir apparaître dans les moteurs de recherche.

Gardez à l’esprit les meilleures pratiques suivantes lors de l’implémentation d’URL canoniques :

    • Utilisez des URL absolues, y compris le domaine et le protocole.
    • Définissez une seule URL canonique par page.
    • Définissez l’URL canonique dans la section <head> ou l’en-tête HTTP de la page.
    • Pointez sur une page indexable.

Table des matières

Qu’est-ce qu’une URL canonique ?

L’élément de lien rel="canonical", souvent appelé URL canonique, est un élément HTML qui permet d’éviter le contenu dupliqué en informant les moteurs de recherche de préférer un document à d’autres documents identiques ou similaires.

Lorsque la page A a un élément de lien canonique référençant la page B, vous dites que la page A a été canonicalisée.

La canonisation est le processus dans lequel une version préférée d’une page est sélectionnée par rapport à plusieurs autres versions.

Synonymes d’URL canonique

Bien que leur signification ne soit pas la même, les termes suivants sont souvent utilisés pour désigner l’URL canonique:

    • balise canonique,
    • lien canonique,
    • rel canonical ou rel="canonical".

Par souci de facilité, lorsque nous faisons référence à l’élément HTML canonique, nous l’appellerons URL canonique.

Pourquoi avez-vous besoin d’une URL canonique ?

Avec l’URL canonique, vous pouvez empêcher le contenu dupliqué, à la fois en interne et en externe.

Le contenu dupliqué interne se produit au sein de votre site Web.

Le contenu dupliqué externe se produit lorsqu’il existe des pages dupliquées ou très similaires sur différents domaines.

Les URL canoniques évitent les problèmes de contenu dupliqué

L’URL canonique communique à Google, Bing et Yahoo les pages à afficher et les pages à masquer dans les pages de résultats des moteurs de recherche.

Bien que les moteurs de recherche puissent choisir d’ignorer l’URL canonique, cela vous donne, en tant que propriétaire de site Web, plus de contrôle sur la présence en ligne de votre site Web.

À quoi ressemble une URL canonique ?

Vos visiteurs ne verront pas l’URL canonique lorsqu’ils visiteront votre site Web. Une URL canonique peut être définie dans la source de la page ou dans l’en-tête HTTP.

Source de la page

L’URL canonique doit être située dans la section <head> de la source de la page. Pour notre page d’accueil, l’URL canonique se présente comme suit :

<head>

<link rel="canonical" href="https://grainesderefenceur.com"/>

</head>

En-tête HTTP

La définition de l’URL canonique dans l’en-tête HTTP est souvent utilisée lorsque vous devez définir une URL canonique sur un document non HTML, comme un PDF par exemple.

Dans l’en-tête HTTP, cela se présente comme suit :

HTTP/1.1 200 OK

Serveur: nginx

Date : Jeu, 28 Apr 2022 11:54:25 GMT

Contenu-Type: application/pdf

Contenu-Longueur: 23629

Dernière modification : vendredi 29 avril 2022 17:47:17 GMT

Lien : <https://exemple.com/downloads/livreblanc.pdf>; rel="canonique"

Le scénario possible dans lequel vous auriez besoin d’utiliser l’en-tête HTTP pour définir l’URL canonique d’un document non-HTML est lorsque le contenu est proposé à la fois en tant que page normale (document HTML) et en tant que PDF (document non HTML).

Remarque: actuellement, seul Google (ouvre un nouvel onglet) prend en charge la définition de l’URL canonique à l’aide de l’en-tête HTTP. Pour les images, Google ne supporte pas(ouvre un nouvel onglet) un canonique défini via l’en-tête HTTP.

Quand utiliser une URL canonique ?

Il n’y a pas de scénario concevable dans lequel inclure une URL canonique serait une mauvaise idée.

Google, Bing et Yahoo s’appuient fortement sur l’URL canonique pour comprendre quelles pages afficher et masquer dans les pages de résultats des moteurs de recherche.

L’URL canonique peut soit se référencer elle-même, soit référencer une autre page.

URL canonique se référençant elle-même

S’il n’existe qu’une seule version d’une page, assurez-vous que l’URL canonique est auto-référencée.

Cela indique essentiellement aux moteurs de recherche: « Je suis la seule version de cette page, et moi seule devrais être indexée. ».

URL canonique référençant une autre page

S’il existe plusieurs versions d’une page, assurez-vous que l’URL canonique fait référence à la page que vous préférez indexer par les moteurs de recherche.

Les cas courants dans lesquels les URL canoniques corrigent les problèmes de contenu dupliqué sont les suivants :

    • Lorsque des paramètres de requête sont utilisés dans l’URL.
    • Lorsque les pages sont légèrement différentes, on parle communément de quasi-doublons.
    • Lorsque plusieurs versions intentionnelles d’une page ont été créées.

Paramètres de requête dans l’URL

Selon la structure d’URL d’un site Web, les URL contiennent parfois des paramètres de requête. Les paramètres de requête dans les URL sont utilisés pour demander certains contenus.

Prenons par exemple :

www.exemple.com/chaussures/nike?lang=fr&id=101

    • La variable lang=fr indique que la langue de la page demandée est le français (FR)
    • La variable id=101 indique que le numéro de page 101 doit être demandé.
    • Entre les variables, il y a un caractère & qui indique que vous voulez la version française (FR) de la page 101.

Bien que les paramètres de requête soient pratiques, les URL contenant des paramètres de requête sont difficiles à lire et il est facile de créer du contenu en double.

L’URL www.exemple.com/chaussures/nike?id=101&lang=fr demande exactement la même page que www.exemple.com/chaussures/nike?lang=fr&id=101, mais les pages ont une URL différente.

Cette forme de contenu dupliqué peut facilement être corrigée avec une URL canonique.

Pages légèrement différentes (quasi doublons)

Lorsque les pages ne sont que légèrement différentes, nous les appelons souvent « pages presque dupliquées » ou « quasi-doublons ».

Un bon exemple de pages presque dupliquées sont les sites Web de commerce électronique qui vendent des chaussures.

Imaginez que vous avez une chaussure Nike Air Max 43 qui est disponible en rouge, bleu et noir. En sélectionnant une couleur différente, l’URL change, mais 99% du contenu de la page reste le même.

    • Nike Air Max taille 43: exemple.com/chaussures/nike/homme-43/
    • Nike Air Max taille 43 en rouge: exemple.com/chaussures/nike/ homme-43-rouge/
    • Nike Air Max taille 43 en bleu: exemple.com/chaussures/nike/homme-43-bleu/
    • Nike Air Max taille 43 en noir: exemple.com/chaussures/nike/homme-43-noir/

Étant donné que le contenu de ces quatre pages est très similaire, il est logique d’avoir une URL canonique de www.exemple.com/chaussures/nike/homme-43-rouge/, www.exemple.com/chaussures/nike/homme-43-bleu/ et www.exemple.com/chaussures/nike/homme-43-noir/ pointant vers www.exemple.com/chaussures/nike/homme-43/.

Création intentionnelle de plusieurs versions d’une page

Il peut y avoir de nombreuses raisons de créer intentionnellement plusieurs versions d’une page. Pour donner deux exemples:

    1. Pages de destination personnalisées pour les campagnes
    2. Exécution de tests d’optimisation du taux de conversion où vous testez trois versions de la même page, qui ont essentiellement le même contenu.

Lorsqu’il existe plusieurs versions d’une page, assurez-vous de pointer l’URL canonique vers la version préférée que vous souhaitez indexer.

Lorsqu’une URL canonique fait référence à une autre URL, cela indique aux moteurs de recherche :

« Il existe plusieurs versions de ma page qui sont identiques ou très similaires. Pour vous assurer que votre index est beau et propre, assurez-vous d’indexer la page que je référence ».

Séparer les pages de bureau et les pages mobiles

Si vous avez des pages de bureau et mobiles distinctes, vous devez utiliser l’URL canonique et l’URL alternative pour communiquer la relation entre ces pages aux moteurs de recherche.

À l’heure actuelle, Google est le seul moteur de recherche qui prend en charge cette implémentation spécifique.

Parlons de la mise en œuvre:

Utilisez l’attribut mobile pour communiquer une version mobile d’une page.

Bureau

Sur la version de bureau de la page, l’URL canonique et l’URL alternative dans la section <head> se présentent comme suit :

<head>

<link rel="canonical" href="https://exemple.com/ "/>

<link rel="alternate" href="https://m.exemple.com/ " />

</head>

Mobile

Sur la version mobile de la page, l’URL canonique dans la section <head> se présente comme suit :

<head>

<link rel="canonical" href="https://exemple.com/ "/>

</head>

De cette façon, les moteurs de recherche affichent la version mobile de la page pour les appareils mobiles et la version de bureau de la page pour les appareils de bureau.

Canonique inter-domaines

L’URL canonique peut être utilisée pour empêcher le contenu dupliqué dans les cas où les problèmes de contenu dupliqué vont au-delà d’un seul site Web.

Lorsque le contenu est publié sur plusieurs pages, sur plusieurs domaines, l’URL canonique inter-domaines (Cross-domain canonical) peut être utilisée pour indiquer aux moteurs de recherche quelle version de la page doit être indexée.

Consolidation des pages inutiles avec des redirections

Lorsqu’il n’est pas nécessaire que plusieurs versions d’une page existent, il est préférable de rediriger les pages redondantes vers la version préférée.

Exemples dans lesquels une redirection est un bien meilleur moyen de gérer plusieurs versions de pages:

    • Une page est disponible via les protocoles HTTP et HTTPS.
    • Une page est disponible via plusieurs domaines (exemple1.com, www.exemple2.com, www.exemple3.com) ou sous-domaines (www.exemple.com, www2.exemple.com, www3.exemple.com) et cela ne sert à rien.

Veuillez noter que, si vous utilisez des redirections dans les exemples ci-dessus, il est recommandé d’utiliser également l’URL canonique.

Si vos redirections cessent de fonctionner, vous avez toujours votre URL canonique en place pour éviter les problèmes d’indexation.

Quelles sont les meilleures pratiques en matière d’URL canoniques ?

L’URL canonique est un outil très puissant dans la boîte à outils d’un webmaster.

Il est essentiel de s’en tenir aux meilleures pratiques ci-dessous lorsque vous travaillez avec des URL canoniques afin d’éviter les problèmes d’indexation :

    • Utilisez des URL absolues – il ne peut y avoir aucun doute sur la page qu’un moteur de recherche devrait indexer. Utilisez l’URL complète, y compris le protocole (HTTP ou HTTPS), le sous-domaine et le domaine.
    • Une URL canonique par page – il ne devrait toujours y avoir qu’une seule URL canonique par page.
    • Placement dans la section <head> ou HTTP header– l’URL canonique doit toujours être placée dans la section <head> ou dans l’en-tête HTTP
    • Pointez vers une page indexable – l’URL canonique doit pointer vers une page indexable.
    • N’incluez que la version préférée d’une page dans le sitemap XML.

Utiliser des URL absolues

Nous ne devrions utiliser que des URL absolues comme URL canoniques. Prenons par exemple :

<link rel="canonical" href="https://exemple.com/services/reparation/">

Avec cette URL comme URL canonique, il n’y a aucun doute sur l’emplacement exact de l’URL.

Comparez maintenant l’URL canonique ci-dessus à l’URL ambiguë ci-dessous:

<link rel="canonical" href="reparation/">

Certains serveurs Web sont par défaut mal configurés, ce qui rend chaque page de votre site Web accessible via tous les domaines et sous-domaines.

Cela provoque une énorme quantité de contenu dupliqué, que vous devriez éviter à tout moment.

Le fait d’avoir des URL absolues comme URL canoniques empêche ce type de problèmes de contenu dupliqué de se produire.

Une URL canonique par page

Il ne doit toujours y avoir qu’une seule URL canonique par page. Si plus d’une URL canonique est définie, les moteurs de recherche peuvent être confus.

Google a déclaré (ouvre un nouvel onglet) qu’ils choisiront simplement l’une des URL canoniques et ignoreront les autres lorsqu’ils rencontreront plusieurs URL canoniques sur une page.

Bien que nous ne sachions pas comment Bing et Yahoo gèrent plusieurs URL canoniques par page, ils recommandent d’utiliser une seule URL canonique par page.

Placement dans la section <head>

L’URL canonique doit toujours être placée dans la section <head> de votre page.

Si l’URL canonique n’est pas placée dans  la section <head>, les moteurs de recherche ne pourront pas la trouver et la traiter.

À son tour, cela peut entraîner des problèmes de contenu dupliqué.

Référencer une page indexable

L’URL canonique doit toujours référencer une page indexable.

Les moteurs de recherche peuvent être confus lorsque l’URL canonique fait référence à une page qui est redirigée 301, ou qui est canonicalisée elle-même.

Inclure uniquement la version préférée dans le sitemap XML

Toutes les pages incluses dans votre sitemap XML doivent être indexables par les moteurs de recherche.

Par conséquent, il est important que, si vous avez plusieurs versions d’une page, vous n’incluez que la version préférée d’une page dans votre sitemap XML.

Quelles sont les limitations de l’URL canonique ?

Bien que les URL canoniques soient un excellent outil dans la boîte à outils d’un webmaster, elles ont aussi leurs limites.

Consolidation partielle de l’autorité de liaison

Prenons un exemple: la page A a des backlinks vraiment puissants. La page A fait référence à la page B comme canonique.

Les moteurs de recherche indexeront très probablement la page B et laisseront la page A hors de leur index.

Chaque lien transmet une autorité, appelée autorité de lien. L’autorité de lien qui est transmise à la page A par le biais des puissants backlinks, n’est que partiellement transmise à la page B.

Nous ne disons que partiellement parce qu’il s’agit d’une zone grise sur laquelle les moteurs de recherche ne sont pas très clairs.

Aucune recherche ne montre qu’une URL canonique satisfait à toutes les autorités de lien.

En plus de cela, l’URL canonique a été introduite pour communiquer aux moteurs de recherche quelles pages afficher et quelles pages cacher.

Par conséquent, notre position sur ce sujet est la suivante: une URL canonique ne transmet pas entièrement l’autorité du lien.

Matt Cutts de Google a déclaré qu ‘“il n’y a vraiment pas beaucoup de différence entre eux [redirection 301 et URL canonique]”.

Si vous souhaitez transmettre autant d’autorité de lien que possible, nous vous conseillons d’utiliser une redirection 301.

Les URL canoniques n’empêchent pas les problèmes d’optimisation de l’analyse

Les URL canoniques sont destinées à résoudre les problèmes de contenu dupliqué.

Une URL canonique indique aux moteurs de recherche quelles pages indexer, mais n’indique pas aux moteurs de recherche quelles pages explorer. C’est une distinction importante à faire.

Lorsque les moteurs de recherche ne passent pas leur temps à explorer des pages utiles et importantes, nous disons qu’il y a des problèmes d’optimisation de l’exploration.

Il existe de nombreuses raisons pour lesquelles les moteurs de recherche n’explorent pas les pages utiles et importantes.

Les moteurs de recherche peuvent être pris dans des boucles de redirection infinies, passer beaucoup de temps à explorer des pages que vous ne voulez pas indexer en premier lieu ou continuer à se heurter à des impasses dans votre site Web (pages sans liens vers d’autres pages).

C’est du gaspillage, d’autant plus que les moteurs de recherche ont un « budget de crawl » (le temps alloué pour explorer un site Web) pour chaque site Web.

Les robots.txt peuvent être utilisés pour éviter les problèmes d’optimisation de crawl.

1. Les URL canoniques transmettent-elles une autorité de lien ?

Nous soupçonnons qu’une certaine autorité de lien est transmise lors de la canonisation des URL.

Comme écrit dans la section « Consolidation partielle de l’autorité des liens », nous ne pouvons pas dire avec certitude si une URL canonique transmet ou non l’autorité de lien.

Ce que nous savons, c’est qu’une URL canonique n’est pas destinée à transmettre l’autorité du lien, c’est à cela que  servent les redirections 301.

    2. Puis-je forcer les moteurs de recherche à utiliser mon URL canonique ?

    Non, l’URL canonique est un conseil plutôt qu’une directive pour les moteurs de recherche.

    3. Une URL canonique est-elle meilleure qu’une redirection 301 ?

    Une URL canonique et une redirection 301 sont deux moyens totalement différents pour parvenir à une fin.

    Une URL canonique est utilisée lorsque toutes les versions de la page doivent être accessibles aux visiteurs mais qu’une seule d’entre elles doit être indexée par les moteurs de recherche.

    Une redirection 301 redirige les visiteurs et les moteurs de recherche d’une URL à une autre. Une URL redirigée n’est pas accessible aux visiteurs ou aux moteurs de recherche.

    4. Puis-je gâcher mon site Web avec des URL canoniques?

    Lorsqu’elles sont mal utilisées, les URL canoniques peuvent causer des problèmes majeurs pour l’indexation de votre site Web.

    Par exemple, imaginez que, pour une raison quelconque, toutes vos pages ont un canonique à la page d’accueil. Étant donné que l’URL canonique est un signal fort pour les moteurs de recherche, ils la traiteront très probablement et désindexeront les pages canonicalisées.

    Même s’il faut faire attention aux URL canoniques, nous vous conseillons fortement de les utiliser afin de communiquer aux moteurs de recherche quelles pages indexer, et quelles pages cacher.

    5. Tous les moteurs de recherche prennent-ils en charge l’URL canonique ?

    Nous savons que Google, Bing et Yahoo prennent en charge l’URL canonique.

    Yandex et Baidu semblent également prendre en charge l’URL canonique. Pour DuckDuckGo, ce n’est pas clair.

    6. Comment les moteurs de recherche traitent-ils plusieurs URL canoniques sur une même page ?

    Google a déclaré qu’ils ignoreront complètement les éléments d’URL canoniques s’il y a plusieurs URL canoniques sur une page.

    On ne sait pas comment les autres moteurs de recherche traitent cela, bien que nous vous conseillons fortement d’utiliser une seule URL canonique par page.

      7. Une URL canonique empêche-t-elle l’exploration des pages ?

      Non, ce n’est pas le cas.

      Les moteurs de recherche continueront d’explorer vos pages, que vous ayez ou non défini une URL canonique pointant vers une URL différente.

      Une URL canonique est simplement un signal fort pour les moteurs de recherche concernant la page préférée qui devrait apparaître dans les pages de résultats des moteurs de recherche.

      Retenez également que les URL canoniques n’empêchent pas les problèmes d’optimisation de l’analyse.

        8. Dois-je utiliser des URL canoniques pour les pages paginées ?

        En général, il est recommandé de ne pas utiliser l’URL canonique pour les pages paginées, car les pages paginées n’affichent souvent pas le même contenu.

        Au lieu de cela, il est recommandé d’utiliser les éléments de lien rel="next" et rel="prev". C’est une meilleure façon d’expliquer aux moteurs de recherche que les pages paginées sont en fait une série de pages qui suivent une séquence logique.

        Vous pouvez utiliser une URL canonique pour la page paginée, mais seulement si vous avez une page « Afficher tout » qui se charge rapidement. Dans ce cas, vous référencez la page « Afficher tout » sur toutes les pages paginées en tant qu’URL canonique.

        9. Puis-je combiner une URL canonique et une balise noindex ?

        La réponse : cela dépend. Plus précisément, cela dépend de la façon dont vos URL canoniques sont configurées.

        Nous assistons régulièrement à des discussions sur les URL canoniques et les directives “robots” au cours desquelles les gens ne comprennent pas comment ces deux méthodes s’influencent l’une l’autre.

        La raison de cette confusion ?

        Les gens ne font pas la distinction entre :

        • les URL canoniques qui pointent vers d’autres pages, et
        • les canons d’autoréférencement

        Clarifions cette confusion à l’aide de deux exemples clairs comme de l’eau de roche.

        Robots noindex et canonique vers une autre page

        Imaginons que https://www.exemple.com/page-a/ ait les méta robots et l’URL canonique suivants :

        <meta name="robots" content="noindex,follow"/>

        <link rel="canonical" href="https://www.exemple.com/page-b/" />

        Dans cet exemple, il a été dit que le noindex des robots peut être reporté sur la page vers laquelle vous canonisez, dans ce cas https://www.exemple.com/page-b/. C’est un problème, car c’est à cette page que vous vouliez attribuer les signaux de la page A !

        Vous voulez éviter d’avoir une page canonisée vers une autre page et un robot noindex présent, car ce sont des signaux très contradictoires.

        Astuces Graines de référenceur

        Il ne faut pas mélanger noindex et rel="canonical" car ce sont des informations très contradictoires pour Google. Et dans ce cas, le rel="canonical" est généralement choisi et est utilisé plutôt que le noindex.

        Source : https://www.reddit.com/r/TechSEO/comments/8yahdr/comment/e2dey9i/

        Pourquoi ne pas mélanger noindex et rel=canonical?

        Traduction libre GDR

        En règle générale, les signaux sont transférés et combinés avec la canonisation. Lorsque Google voit deux URL de votre site, qu’elles se ressemblent et que vous nous indiquez clairement votre préférence, nous essayons de les combiner et de les traiter comme une seule URL (généralement plus forte) au lieu de les traiter séparément. Les redirections, rel=canonical, les liens internes et externes, les sitemaps, hreflang, etc. nous indiquent vos préférences, et plus vous pouvez les aligner, plus nous les suivrons et les utiliserons pour choisir une URL canonique parmi cet ensemble (et transmettre tous les signaux à l’URL canonique choisie).

        D’autre part, noindex (seul) et robots.txt disallow (en général) ne sont pas des signes clairs de canonicalisation. Le simple fait d’avoir un noindex sur une page ne nous dit pas que vous voulez la combiner avec quelque chose d’autre, et que les signaux doivent être transmis. Un disallow robots.txt est encore plus délicat, nous ne savons même pas si la page correspond à quelque chose d’autre sur votre site, donc nous ne pourrions même pas l’utiliser pour la canonicalisation si nous le voulions.

        C’est aussi de là que vient le guide selon lequel il ne faut pas mélanger noindex et rel=canonical : ce sont des informations très contradictoires pour nous. Nous choisissons généralement le rel=canonical et l’utilisons plutôt que le noindex, mais chaque fois que vous vous fiez à l’interprétation d’un script informatique, vous réduisez le poids de vos données 🙂 (et le référencement consiste en grande partie à indiquer vos préférences à des scripts informatiques).

        Robots noindex et URL canoniques autoréférencées

        Imaginons maintenant que https://www.exemple.com/page-accueil/ ait les méta robots et les URL canoniques suivants :

        <meta name="robots" content="noindex,follow"/>

        <link rel="canonical" href="https://www.exemple.com/page-accueil /" />

        Dans cet exemple, il n’est pas dangereux d’avoir une page qui contient à la fois une URL canonique autoréférencée et une directive robots noindex.

        Bien que certaines personnes pensent que cela pose des problèmes, nous n’avons encore jamais rencontré de situation dans ce sens.

        L’autoréférence canonique indique aux moteurs de recherche qu’il s’agit de la seule version de la page qui existe. Quant à l’option “noindex”, elle indique aux moteurs de recherche qu’ils ne doivent pas l’indexer.

        Est-il conseillé de mettre en place à la fois une URL canonique autoréférencée et un robot noindex sur les pages que l’on ne souhaitez pas voir indexées ?

        Non. Cela n’a pas d’importance pour Google, faites ce qui est le plus facile dans votre situation.

        S’il s’agit d’un doublon, contentez-vous de rel=”canonical” et si vous ne voulez pas qu’elle soit indexée, utilisez noindex.

        En pratique, cela ne pose pas de problème de faire les deux.

        Est-ce nuisible si cette pratique est déjà présente sur mon site ?

        Non, il n’est pas dangereux d’avoir à la fois une page canonique autoréférencée et une page robots noindex sur votre site.

        Faut-il apporter des modifications aux pages ?

        Non, il n’est pas nécessaire de modifier ce point car il n’a pas d’importance. Consacrez vos précieuses ressources aux changements qui ont un impact.

        Qui d'Autres Veux Augmenter Ses Ventes Avec Du Trafic SEO ?