GRAINES DE REFERENCEUR

L’académie des référenceurs

Contenu dupliqué et référencement: le guide ultime

Contenu dupliqué en bref

Le contenu dupliqué fait référence à un contenu très similaire, ou exactement identique, se trouvant sur plusieurs pages. Gardez ceci à l’esprit :

    • Le contenu dupliqué ajoute peu ou pas de valeur pour vos visiteurs et confond les moteurs de recherche.
    • Évitez d’avoir du contenu dupliqué, car cela pourrait nuire à vos performances SEO.
    • Le contenu dupliqué peut être causé par des incidents techniques et du contenu copié manuellement.
    • Il existe des moyens efficaces d’éviter que les deux cas de contenu dupliqué ne deviennent un problème, dont nous discuterons dans cet article.

Qu’est-ce qu’un contenu dupliqué ?

Pris de près, le contenu dupliqué fait référence à un contenu très similaire, ou exactement identique, se trouvant sur plusieurs pages de votre propre site Web ou sur d’autres sites Web.

Au sens large, le contenu dupliqué est un contenu qui ajoute peu ou pas de valeur pour vos visiteurs. Par conséquent, les pages avec peu ou pas de contenu de corps sont également considérées comme du contenu dupliqué.

Les robots des moteurs de recherche sont confus par le contenu dupliqué

Pourquoi le contenu dupliqué est-il mauvais pour le référencement?

Le contenu dupliqué est mauvais pour deux raisons :

    1. Lorsqu’il existe plusieurs versions de contenu disponibles, il est difficile pour les moteurs de recherche de déterminer quelle version indexer, puis d’afficher dans leurs résultats de recherche. Cela réduit les performances de toutes les versions du contenu, car elles sont en concurrence les unes avec les autres.
    2. Les moteurs de recherche auront du mal à consolider les métriques de liens (autorité, pertinence et confiance) pour le contenu, en particulier lorsque d’autres sites Web renvoient à plus d’une version de ce contenu.

Astuces Graines de Référenceur

Le contenu dupliqué peut causer de graves problèmes de référencement et envoyer des signaux contradictoires aux moteurs de recherche. Mettez en place les bonnes mesures pour vous assurer que votre contenu a des URL uniques, afin que chaque page ait les meilleures chances de bien se classer et de générer du trafic vers votre site.

Puis-je obtenir une pénalité pour contenu dupliqué ?

Avoir du contenu dupliqué peut nuire à vos performances SEO, mais cela ne vous vaudra pas de pénalité de Google tant que vous n’avez pas intentionnellement copié le site Web de quelqu’un d’autre.

Si vous êtes un propriétaire de site Web honnête avec des défis techniques de site Web et que vous n’essayez pas de tromper Google, vous n’avez pas à vous soucier d’obtenir une pénalité de Google.

Si vous avez copié de grandes quantités de contenu d’autres personnes, alors vous marchez sur une ligne fine. Voici ce que Google dit à ce sujet(ouvre un nouvel onglet):

«  Le contenu dupliqué sur un site ne constitue pas un motif d’action sur ce site, sauf s’il apparaît que l’intention du contenu dupliqué est d’être trompeur et de manipuler les résultats des moteurs de recherche. Si votre site souffre de problèmes de contenu dupliqué et que vous ne suivez pas les conseils énumérés ci-dessus, nous choisissons une version du contenu à afficher dans nos résultats de recherche ».

Astuces Graines de Référenceur

Les gens ont souvent des idées fausses sur le contenu dupliqué. Si j’avais 1€ à chaque fois que j’entendais un SEO dire que le contenu dupliqué vous rapporterait une pénalité Panda, j’aurais au moins 50€. C’est une blague. 1 PME…

Quoi qu’il en soit, si vous avez une ou deux pages moins importantes avec du contenu dupliqué, il n’y a vraiment rien à craindre. Les vrais problèmes surviennent lorsque votre propre site Web génère des multitudes de contenu dupliqué en raison d’un développement Web médiocre et de problèmes techniques de référencement. Ceux-ci peuvent entraîner des complications d’exploration et des problèmes de circulation du trafic. Le contenu dupliqué peut également être préoccupant si un autre domaine gratte votre contenu et que ces pages surclassent le vôtre, ce qui est rarement le cas, mais cela arrive!

Enfin, le plus gros problème avec le contenu dupliqué concerne probablement la dillution des backlinks qui en résulte. Si j’ai deux versions de la même page et que les utilisateurs ne savent pas laquelle est la version « principale », il se peut qu’elle reçoive des backlinks et que l’autre ne le soit pas. De cette façon, au lieu d’une page avec tous les backlinks, elle est divisée entre deux pages ou plus. Non è buono !

Astuces Graines de Référenceur

Saviez-vous que 25 à 30% du Web est du contenu dupliqué, et ce n’est pas grave! Cela ne vous pénalisera pas et bien que je crois fermement que vous devriez spécifier comment vous gérez les doublons, si vous ne faites rien, Google a de nombreuses façons d’essayer de résoudre les problèmes de duplication pour vous. Je ne stresserais pas trop à moins que vous ne fassiez quelque chose qui pourrait causer des problèmes majeurs comme gratter le contenu d’autres sites Web.

Quel est le correctif le plus courant pour le contenu dupliqué ?

Dans de nombreux cas, la meilleure façon de corriger le contenu dupliqué est d’implémenter des redirections 301 des versions non préférées des URL vers les versions préférées.

Redirection 301 - contenu déplacé de façon permanente

Lorsque les URL doivent rester accessibles aux visiteurs, vous ne pouvez pas utiliser la redirection, mais vous pouvez utiliser une URL canonique ou une balise Meta Bobot noindex. L’URL canonique vous permet de consolider certains signaux, contrairement à la balise meta robots noindex.

Choisissez votre arme pour combattre le contenu dupliqué avec soin, car ils ont tous leurs avantages et leurs inconvénients. Il n’existe pas d’approche unique pour dupliquer le contenu.

Parcourez la section ci-dessous pour en savoir plus sur les différentes causes de contenu dupliqué et voir quelle méthode pour s’y attaquer convient le mieux.

Causes courantes de contenu dupliqué

Le contenu dupliqué est souvent dû à un serveur Web ou à un site Web mal configuré. Ces événements sont de nature technique et n’entraîneront probablement jamais de pénalité Google. Ils peuvent cependant nuire sérieusement à votre classement, il est donc important d’en faire une priorité pour les corriger.

Mais outre les causes techniques, il y a aussi des causes humaines : du contenu qui est délibérément copié et publié ailleurs. Comme nous l’avons dit, ceux-ci peuvent entraîner des pénalités s’ils ont une intention malveillante.

Contenu dupliqué pour des raisons techniques

Non-www vs www et HTTP vs HTTPs

Supposons que vous utilisiez le sous-domaine www et les HTTPs. Ensuite, votre façon préférée de diffuser votre contenu est via https://exemple.com. C’est votre domaine canonique.

Si votre serveur Web est mal configuré, votre contenu peut également être accessible via :

Contenu dupliqué en raison de différents domaines canoniques

Choisissez une méthode préférée pour diffuser votre contenu et implémentez des redirections 301 pour les moyens non préférés qui mènent à la version préférée : https://exemple.com.

Structure de l’URL : casse et barres obliques de fin

Pour Google, les URL sont sensibles à la casse. Cela signifie que https://example.com/url-a/ et https://example.com/url-A/ sont considérées comme des URL différentes.

Lorsque vous créez des liens, il est facile de faire une faute de frappe, ce qui entraîne l’indexation des deux versions de l’URL. Veuillez noter que les URL ne sont pas sensibles à la casse pour Bing.

Une barre oblique (/) à la fin d’une URL est appelée barre oblique de fin. Souvent, les URL sont accessibles via les deux variantes ici: https://example.com/url-a et https://example.com/url-a/.

Contenu dupliqué en raison d’incohérences dans la casse de l’URL et l’utilisation de barres obliques de fin

Choisissez une structure préférée pour vos URL et, pour les versions d’URL non préférées, implémentez une redirection 301 vers la version d’URL préférée.

Astuces Graines de Référenceur

Consolider le contenu dupliqué ne consiste pas à éviter les pénalités de Google. Il s’agit de créer des liens. Les liens sont précieux pour les performances SEO, mais si les liens se retrouvent dans des pages en double, ils ne vous aident pas. Ils sont gaspillés.

Pages d’index (index.html, index.php)

À votre insu, votre page d’accueil peut être accessible via plusieurs URL car votre serveur Web est mal configuré. Outre https://www.exemple.com, votre page d’accueil peut également être accessible via :

  • https://www.exemple.com/index.html
  • https://www.exemple.com/index.asp
  • https://www.exemple.com/index.aspx
  • https://www.exemple.com/index.php

Choisissez une méthode préférée pour servir votre page d’accueil et implémentez des redirections 301 des versions non préférées vers la version préférée.

Dans le cas où votre site Web utilise l’une de ces URL pour diffuser du contenu, assurez-vous de canoniser ces pages, car les rediriger casserait les pages.

Paramètres de filtrage

Les sites Web utilisent souvent des paramètres dans les URL afin de pouvoir offrir une fonctionnalité de filtrage. Prenez cette URL par exemple :

https://www.exemple.com/cycle/velo?colour=black

Cette page montrerait toutes les vélos noirs.

Bien que cela convienne aux visiteurs, cela peut causer des problèmes majeurs aux moteurs de recherche.

Les options de filtre génèrent souvent une quantité pratiquement infinie de combinaisons lorsqu’il y a plus d’une option de filtre disponible. D’autant plus que les paramètres peuvent également être réarrangés.

Ces deux URL afficheraient exactement le même contenu :

Dupliquer le contenu en raison de l’ordre différent des paramètres d’URL

Implémentez des URL canoniques (une pour chaque page principale non filtrée) pour éviter le contenu dupliqué et consolider l’autorité de la page filtrée.

Veuillez noter que cela n’empêche pas les problèmes de budget d’exploration (Crawl Budget).

Vous pouvez également utiliser la fonctionnalité de gestion des paramètres dans Google Search Console et Bing Webmaster Tools pour indiquer à leurs robots d’exploration comment gérer les paramètres.

Astuces Graines de Référenceur

Le contenu dupliqué est le problème SEO le plus répandu et le plus mal compris. Il y a tellement de formes de duplication que vous devez le surveiller, et une petite erreur technique peut conduire à littéralement des milliers de pages en double. Une URL canonique n’est pas toujours la bonne solution, et via cet article nous tentons d’identifier le problème et la solution à des dizaines de problèmes courants avec le contenu dupliqué.

Nous avons vu des sites Web très réussis bloqués par du contenu dupliqué. Dans ces cas, la résolution des problèmes qui conduisent à dupliquer le contenu peut souvent entraîner une augmentation de 20% ou plus du trafic organique. Lorsque vous avez des millions de visiteurs, cela peut représenter des centaines de milliers de revenus supplémentaires.

Taxonomies

Une taxonomie est un mécanisme de regroupement permettant de classer le contenu.

Ils sont souvent utilisés dans les systèmes de gestion de contenu pour prendre en charge les catégories et les balises.

Disons que vous avez un article de blog qui est dans trois catégories. L’article de blog peut être accessible par les trois :

    • https://exemple.com/categorie-a/topic/
    • https://exemple.com/categorie-b/topic/
    • https://exemple.com/categorie-c/topic/
Contenu dupliqué en raison de pages appartenant à plusieurs catégories

Assurez-vous de choisir l’une de ces catégories comme principale et de faire en sorte que les autres soient canonicalisées à celle-ci à l’aide de l’URL canonique.

Astuces Graines de Référenceur

La duplication de contenu est un énorme problème pour de nombreuses plates-formes héritées qui sont configurées pour s’appuyer fortement sur des paramètres pour la structure interne des pages, mais c’est aussi un problème pour les plates-formes plus récentes telles que WordPress avec des pages /tag/ qui sont souvent mieux indexées dès le départ.

Pages dédiées aux images

Certains systèmes de gestion de contenu créent une page distincte pour chaque image. Cette page affiche souvent simplement l’image sur une page autrement vide.

Comme cette page n’a pas d’autre contenu, elle est très similaire à toutes les autres pages d’images et équivaut donc à du contenu dupliqué.

Si possible, désactivez la fonctionnalité pour donner aux images des pages dédiées. Si ce n’est pas possible, la meilleure chose à faire est d’ajouter un attribut meta robots noindex à la page.

Pages de commentaires

Si vous avez activé les commentaires sur votre site Web, vous pouvez les paginer automatiquement après un certain nombre. Les pages de commentaires paginées afficheront le contenu original; Seuls les commentaires en bas seront différents.

Par exemple, l’URL de l’article qui affiche les commentaires 1 à 20 peut être https://exemple.com/categorie/topic/, avec https://example.com/categorie/topic/comments-2/ pour les commentaires 21 à 40 et https://www.exemple.com/categorie/topic/comments-3/ pour les commentaires 41 à 60.

Utilisez les relations de lien de pagination pour signaler qu’il s’agit d’une série de pages paginées.

Localisation et hreflang

En ce qui concerne la localisation, des problèmes de contenu dupliqué peuvent survenir lorsque vous utilisez exactement le même contenu pour cibler des personnes dans différentes régions qui parlent la même langue.

Par exemple, lorsque vous avez un site Web dédié au marché canadien et également un site Web pour le marché français, tous deux en langue française, il y a de fortes chances qu’il y ait beaucoup de duplication dans le contenu.

Google est bon pour détecter cela, et plie généralement ces résultats ensemble. L’attribut hreflang permet d’éviter le contenu dupliqué. Donc, si vous utilisez le même contenu pour différents publics, assurez-vous de mettre en œuvre hreflang dans le cadre d’une solide stratégie de référencement international.

Astuces Graines de Référenceur

Le plus gros problème autour du contenu dupliqué est que Google comprend mal le contexte et que les visiteurs atterrissent sur la mauvaise page. Cela s’est produit dans le passé avec un client où Google ne pouvait pas comprendre la différence entre Londres, Royaume-Uni et Londres, Ontario, Canada parce que le contenu était similaire à 85-90%.

Pages de résultats de recherche indexables

De nombreux sites Web offrent une fonctionnalité de recherche, permettant aux visiteurs de rechercher dans le contenu du site Web.

Les pages sur lesquelles les résultats de recherche sont affichés sont toutes très similaires et, dans la plupart des cas, n’apportent aucune valeur aux moteurs de recherche. C’est pourquoi vous ne voulez pas qu’ils soient indexables pour les moteurs de recherche.

Empêchez les moteurs de recherche d’indexer les pages de résultats de recherche en utilisant l’attribut meta robots noindex. Et aussi en général, c’est une bonne pratique de ne pas créer de lien vers vos pages de résultats de recherche.

Dans le cas d’une grande quantité de pages de résultats de recherche qui sont explorées par les moteurs de recherche, il est recommandé d’empêcher les moteurs de recherche d’y accéder en premier lieu en utilisant le fichier robots.txt.

Environnement de staging/test indexable

Il est également recommandé d’utiliser des environnements intermédiaires pour déployer et tester de nouvelles fonctionnalités sur les sites Web. Mais ceux-ci sont souvent, à tort, laissés accessibles et indexables pour les moteurs de recherche.

Contenu dupliqué en raison de la disponibilité publique de plusieurs environnements

Utilisez l’authentification HTTP pour empêcher l’accès aux environnements intermédiaires/de test (article à venir). Un avantage supplémentaire de le faire est que vous empêchez les mauvaises personnes d’y accéder également.

Si votre environnement de staging/test est indexé à un moment donné, suivez les étapes décrites dans ce guide de suppression d’URL pour les supprimer rapidement.

Évitez de publier du contenu en cours

Lorsque vous créez une nouvelle page qui contient peu de contenu, enregistrez-la sans la publier encore, souvent elle apportera peu ou pas de valeur.

Enregistrez les pages inachevées en tant que brouillons. Si vous avez besoin de publier des pages avec un contenu limité, empêchez  les moteurs de recherche de les indexer : utilisez l’attribut meta robots noindex.

Paramètres utilisés pour le suivi

Les paramètres sont également couramment utilisés à des fins de suivi. Par exemple, lors du partage d’URL sur Twitter, la source est ajoutée à l’URL. Il s’agit d’une autre source de contenu dupliqué. Prenez par exemple cette URL si elle avait été tweetée à l’aide de Buffer™:

https://grainesdereferenceur.com/fondamentaux-seo/structure-url-building/?utm_content=buffer825f4&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

Il est recommandé d’implémenter des URL canoniques auto-référencées sur les pages. Si vous l’avez déjà fait, cela résout le problème. Toutes les URL avec ces paramètres de suivi sont canonicalisées par défaut à la version sans les paramètres.

ID de session

Les sessions peuvent stocker des informations sur les visiteurs à des fins d’analyse Web. Si chaque URL demandée par un visiteur reçoit un ID de session ajouté, cela crée beaucoup de contenu dupliqué, car le contenu de ces URL est exactement le même.

Par exemple, lorsque vous cliquez sur une version localisée de notre site Web, nous ajoutons une variable de session Google Analytics comme par exemple:

https://grainesdereferenceur.com/?_ga=2.41368868.703611965.1506241071-1067501800.1494424269.

Il affiche la page d’accueil avec exactement le même contenu, mais sur une URL différente.

Encore une fois, il est recommandé d’implémenter des URL canoniques auto-référencées sur les pages. Si vous l’avez déjà fait, cela résout le problème.

Toutes les URL avec ces paramètres de suivi sont canonicalisées par défaut à la version sans les paramètres.

Version imprimable

Lorsque les pages ont une version imprimable à une URL distincte, il existe essentiellement deux versions du même contenu.

Imaginez ceci:

https://exemple.com/page/

et

https://exemple.com/print/page/.

Implémentez une URL canonique menant de la version imprimable à la version normale de la page.

Contenu dupliqué causé par du contenu copié

Pages de destination pour la recherche payante

La recherche payante nécessite des pages de destination dédiées qui ciblent des mots-clés spécifiques.

Les pages de destination sont souvent des copies de pages originales, qui sont ensuite ajustées pour cibler ces mots-clés spécifiques. Comme ces pages sont très similaires, elles produisent du contenu dupliqué si elles sont indexées par les moteurs de recherche.

Contenu dupliqué en raison de différences mineures entre les pages de destination

Empêchez les moteurs de recherche d’indexer les pages de destination en implémentant l’attribut meta robots noindex.

En général, il est recommandé de ne pas créer de lien vers vos pages de destination ni de les inclure dans votre sitemap XML.

D’autres parties copient votre contenu

Le contenu dupliqué peut également provenir d’autres personnes qui copient votre contenu et le publient ailleurs. C’est en particulier un problème si votre site Web a une faible autorité de domaine et que celui qui copie votre contenu a une autorité de domaine plus élevée.

Les sites Web dotés d’une autorité de domaine supérieure sont souvent explorés plus fréquemment, ce qui entraîne l’exploration du contenu copié en premier sur le site Web de celui qui a copié le contenu. Ils peuvent maintenant être perçus comme l’auteur original et se classer au-dessus de vous.

Assurez-vous que les autres sites Web vous créditent à la fois en implémentant une URL canonique menant à votre page et en créant un lien vers votre page.

S’ils ne sont pas disposés à le faire, vous pouvez envoyer une demande DMCA à Google(ouvre un nouvel onglet) et / ou intenter une action en justice.

Copie de contenu à partir d’autres sites Web

La copie de contenu à partir d’autres sites Web est également une forme de contenu dupliqué. Google a documenté (ouvre un nouvel onglet) comment gérer au mieux cela d’un point de vue SEO: lien vers la source d’origine, combiné avec  une URL canonique ou une balise meta robots noindex.

Gardez à l’esprit que tous les propriétaires de sites Web ne sont pas satisfaits que vous dupliquez leur contenu, il est donc recommandé de demander la permission d’utiliser leur contenu.

Recherche de contenu dupliqué

Trouver du contenu dupliqué sur votre propre site Web

Vous pouvez facilement trouver du contenu dupliqué en vérifiant si vos pages ont un titre de page,  une méta-description et  un en-tête H1 uniques.

Vous pouvez également le faire via Siteliner.

Le rapport Index Coverage de Google Search Console (article à venir) est également utile lorsque vous trouvez du contenu en double sur votre site.  Soyez à l’affût des éléments suivants :

    • Dupliqué sans url canonique sélectionnée par l’utilisateur : Google a trouvé des URL en double qui ne sont pas canonicalisées vers une version préférée.
    • Dupliqué, Google a choisi une url canonique différente de celle de l’utilisateur: Google a choisi d’ignorer votre url canonique sur les URL qu’il a trouvées par lui-même, et attribue à la place des url canoniques sélectionnées par Google.
    • URL envoyée en double non sélectionnée comme canonique : Google a choisi d’ignorer les URL que vous avez définies pour les URL que vous avez soumises via un XML sitemap .

Trouver du contenu dupliqué en dehors de votre propre site Web

Si vous avez un petit site Web, vous pouvez essayer de rechercher dans Google des phrases entre guillemets.

Par exemple, si je veux voir s’il existe d’autres versions de cet article, je peux rechercher « Contenu dupliqué: Booster votre trafic en améliorant votre référencement, ne vous mettez pas en concurrence avec vous-même ! »

Alternativement, pour un site Web plus grand, vous pouvez utiliser un service tel que Copyscape (ouvre un nouvel onglet). Copyscape explore le Web à la recherche de plusieurs occurrences du même contenu ou presque.

⚠️ Puis-je obtenir une pénalité pour avoir dupliqué du contenu ?

Si vous n’avez pas intentionnellement copié le site Web de quelqu’un, il est très peu probable que vous obteniez une pénalité de contenu dupliqué.

Si vous avez copié de grandes quantités de contenu d’autres personnes, alors vous marchez sur une ligne fine. Voici ce que Google dit à ce sujet(ouvre un nouvel onglet):

Le contenu dupliqué sur un site ne constitue pas un motif d’action sur ce site, sauf s’il apparaît que l’intention du contenu dupliqué est d’être trompeur et de manipuler les résultats des moteurs de recherche. Si votre site souffre de problèmes de contenu dupliqué et que vous ne suivez pas les conseils énumérés ci-dessus, nous choisissons une version du contenu à afficher dans nos résultats de recherche.

🔧 La résolution des problèmes de contenu dupliqué augmentera-t-elle mon classement ?

Oui, car en résolvant les problèmes de contenu dupliqué, vous indiquez aux moteurs de recherche quelles pages ils devraient vraiment explorer, indexer et classer.

Vous empêcherez également les moteurs de recherche de dépenser leur budget d’exploration (Crawl Budget) pour votre site Web sur des pages en double non pertinentes.

Ils peuvent se concentrer sur le contenu unique de votre site Web pour lequel vous souhaitez vous classer.

🧮 Quelle est la quantité de contenu dupliqué acceptable ?

Il n’y a pas debonne réponse à cette question. Toutefois:

Si vous souhaitez vous classer avec une page, elle doit être précieuse pour vos visiteurs et avoir un contenu unique.

Si vous souhaitez continuer à lire sur le contenu dupliqué, nous vous recommandons de consulter ces ressources :

En savoir plus sur le contenu dupliqué

Ne Loupez Plus La Première Page Sur Google!