Comment supprimer des URL du moteur de recherche Google en un clin d’œil ?
Comment supprimer des URL de Google en bref?
Alors que la plupart des spécialistes du référencement se concentrent sur l’obtention des meilleurs classements, il est parfois nécessaire de faire l’inverse : supprimer des URL de Google.
Par exemple, lorsque vous vous battez contre du contenu obsolète ou dupliqué, un environnement d’indexation ou des pages indexées qui contiennent des données personnelles sensibles.
Quelle que soit la situation, grâce à ce guide, vous serez en mesure de supprimer rapidement les URL de Google !
Table des matières
- Comment supprimer les URL dont le contenu est dupliqué ou obsolète ?
- Comment supprimer les URL des environnements de test?
- Comment supprimer les URL de spam?
- Comment supprimer les URL contenant du contenu sensible?
- Comment supprimer le contenu qui ne se trouve pas sur votre site ?
- Comment supprimer les images de la recherche Google?
Introduction
Alors que de nombreux référenceurs s’attachent principalement à faire en sorte que leur contenu soit rapidement indexé par Google, le contraire – le faire disparaître rapidement – est souvent nécessaire.
Peut-être que l’ensemble de votre environnement de développement a été indexé, que du contenu sensible qui n’aurait jamais dû être accessible à Google a été indexé, ou que des pages de spam ajoutées à la suite du piratage de votre site Web apparaissent dans Google.
Quoi qu’il en soit, vous aimeriez que ces URL soient supprimées rapidement, n’est-ce pas ?
Dans ce guide, nous vous expliquons exactement comment y parvenir.
Voici les situations les plus courantes dans lesquelles vous devez supprimer rapidement des URL de Google :
- Vous avez affaire à du contenu dupliqué ou périmé.
- Votre environnement de test a été indexé.
- Votre site a été piraté et contient des pages de spam.
- Du contenu sensible a été accidentellement indexé.
Dans cet article, nous allons examiner en détail toutes ces situations et la manière de supprimer ces URL dès que possible.
Comment supprimer les URL dont le contenu est dupliqué ou obsolète ?
La présence de contenu dupliqué ou obsolète sur votre site Web est sans doute la raison la plus fréquente de la suppression d’URL dans Google.
La plupart des contenus obsolètes n’ont aucune valeur pour vos visiteurs, mais ils peuvent encore avoir de la valeur du point de vue du référencement.
En revanche, le contenu dupliqué peut nuire considérablement à vos performances de référencement, car Google ne sait plus quelle URL indexer et classer.
Les mesures particulières que vous devez prendre pour supprimer ces URL de Google dépendent du contexte des pages à supprimer, comme nous l’expliquons ci-dessous.
Lorsque le contenu doit rester accessible aux visiteurs
Parfois, les URL doivent rester accessibles aux visiteurs, mais vous ne voulez pas que Google les indexe, car elles pourraient nuire à votre référencement. Cela s’applique par exemple au contenu dupliqué.
Prenons un exemple :
Vous gérez une boutique en ligne et vous proposez des t-shirts qui sont exactement les mêmes, à l’exception de leurs couleurs et de leurs tailles différentes. Les pages de produits n’ont pas de description unique ; elles ont simplement un nom et une image différents.
Dans ce cas, Google peut considérer que le contenu de ces pages produit est un quasi-duplicata.
Avec des pages quasi-dupliquées, Google doit à la fois décider quelle URL choisir comme URL canonique à indexer et dépenser votre précieux budget d’exploration sur des pages qui n’apportent aucune valeur ajoutée en termes de référencement.
Dans cette situation, vous devez signaler à Google les URL qui doivent être indexées et celles qui doivent être supprimées de l’index. La meilleure marche à suivre pour une URL donnée dépend de ces facteurs :
-
- L’URL a de la valeur : si l’URL reçoit du trafic organique et/ou des liens entrants d’autres sites, vous devez les canoniser vers cette URL préférée que vous souhaitez voir indexée. Google attribuera alors sa valeur à l’URL préférée, tandis que les autres URL resteront accessibles à vos visiteurs.
2. L’URL n’a aucune valeur : si l’URL ne reçoit pas de trafic organique et n’a pas de liens entrants provenant d’autres sites, il suffit de mettre en place la balise robots noindex. Cette balise envoie un message clair à Google : il n’indexe pas l’URL et ne l’affiche pas dans les pages de résultats des moteurs de recherche (SERP). Il est important de comprendre que dans ce cas, Google ne consolidera aucune valeur.
Astuce de Graines de Référenceur:
« La présence d’un grand nombre de contenus de mauvaise qualité, peu nombreux ou dupliqués peut avoir un impact négatif sur vos efforts de référencement.
Si vous avez des problèmes de contenu dupliqué, vous n’avez pas nécessairement besoin de supprimer les pages incriminées, vous pouvez plutôt les canoniser si elles sont nécessaires pour d’autres raisons.
Vous pouvez également fusionner les pages dupliquées pour créer un contenu plus fort et de meilleure qualité. J’ai récemment supprimé du contenu sur un site Web et j’ai constaté une augmentation de 32 % du trafic organique pour l’ensemble du site».
Astuce de Graines de Référenceur:
« Si vous voulez éviter les problèmes de contenu dupliqué sur les variantes de produits, il est essentiel d’élaborer une stratégie de référencement solide et d’être prêt à s’adapter si vous constatez la nécessité d’un changement.
Supposons que votre catalogue se compose uniquement de produits simples (enfants) où chaque produit représente une variation spécifique.
Dans ce cas, vous voudrez sûrement les indexer tous, même si les différences entre les variations de produits ne sont pas significatives.
Néanmoins, vous devrez surveiller de près leurs performances et, si des problèmes de contenu dupliqué apparaissent, introduire des produits parents dans votre boutique en ligne.
Une fois que vous aurez commencé à afficher les produits parents sur le frontend, vous devrez adapter votre stratégie d’indexation.
Lorsque les produits parents et enfants sont visibles sur le front-end en tant qu’articles distincts, je suggère fortement de mettre en œuvre la même rel canonical sur tous les produits pour éviter les problèmes de contenu dupliqué.
Dans ces circonstances, la version préférée devrait être un produit parent qui sert de collection de toutes les variantes du produit.
Ce changement n’améliorera pas seulement le référencement de votre boutique, mais il donnera également un coup de pouce significatif à ses performances UX puisque vos clients seront en mesure de trouver plus facilement la variante de produit qu’ils souhaitent.
Bien entendu, tout ceci ne concerne que les produits dont le contenu est identique ou très similaire. Si vous avez un contenu unique sur toutes les pages produit, chaque page doit avoir une URL canonique auto-référencée ».
Quand le contenu ne doit pas rester accessible aux visiteurs
Si votre site Web contient du contenu obsolète que personne ne doit voir, il y a deux façons possibles de le gérer, en fonction du contexte des URL :
-
- Si les URL ont du trafic et/ou des liens : mettez en place des redirections 301 vers les URL les plus pertinentes de votre site Web. Évitez de rediriger vers des URL non pertinentes, car Google pourrait considérer qu’il s’agit d’erreurs soft-404. Google n’attribuerait alors aucune valeur à la cible de la redirection.
- Si les URL n’ont pas de trafic et/ou de liens : renvoyez le code d’état HTTP 410, indiquant à Google que les URL ont été définitivement supprimées. Google est généralement très rapide à supprimer les URL de son index lorsque vous utilisez le code d’état 410.
Astuce de Graines de Référenceur:
« Une fois les redirections mises en place, soumettez toujours l’ancien sitemap à Google Search Console ainsi que le nouveau et laissez-les en place pendant 3 à 4 mois.
De cette façon, Google détectera rapidement les redirections et les nouvelles URL commenceront à apparaître dans les SERP. »
Supprimer les URL en cache avec Google Search Console
Google conserve généralement une copie en cache de vos pages, dont la mise à jour ou la suppression peut prendre un certain temps. Si vous voulez empêcher les visiteurs de voir la copie en cache de la page, utilisez la fonction « Effacer l’URL en cache » dans Google Search Console.
Comment effacer les URL en cache à l’aide de Google Search Console?
1. Connectez-vous à votre compte Google Search Console.
2. Sélectionnez la bonne propriété.
3. Cliquez sur le bouton « Suppression » dans le menu de la colonne de gauche.
4. Cliquez sur le bouton NOUVELLE DEMANDE.
5. Passez à l’onglet EFFACER L’URL MISE EN CACHE
6. Choisissez si vous voulez que Google supprime le cache pour une seule URL ou pour toutes les URL commençant par un certain préfixe.
7. Saisissez l’URL, puis cliquez sur Suivant.
Veuillez noter que vous pouvez demander à Google de ne pas conserver les copies en cache de vos pages en utilisant la balise meta robots noarchive.
Comment supprimer les URL des environnements de test?
Les environnements de test et d’acceptation sont utilisés pour tester les versions et les approuver.
Ces environnements ne sont pas censés être accessibles et indexables par les moteurs de recherche, mais ils le sont souvent par erreur – et vous vous retrouvez alors avec des URL d’environnements de test (« staging URLs » à partir de maintenant) qui ont été indexées par Google.
Cela arrive, il faut savoir vivre et apprendre.
Dans cette section, nous allons vous expliquer comment faire disparaître rapidement et efficacement ces satanées URL d’environnement de transit de Google !
Quand les URL de stockage ne surclassent pas les URL de production
Dans la plupart des cas, vos URL de préparation ne surclasseront pas les URL de production. Si c’est le cas pour vous aussi, suivez les étapes pour remédier à ce problème.
Sinon, passez à la section suivante.
1. Connectez-vous à votre compte Google Search Console.
2. Sélectrionnez la bonne propriété (ou vérifiez-la si ce n’est pas déjà fait).
3. Cliquez sur le bouton « Suppressions » dans le menu de la colonne de gauche.
4. Cliquez sur le bouton NOUVELLE DEMANDE.
5. Passez à l’onglet SUPPRIMER TEMPORAIREMENT UNE URL:
6. Choisissez Supprimer toutes les URL avec ce préfixe, saisissez l’URL / et cliquez sur le bouton Suivant. Google gardera les URL masquées pendant 180 jours, mais n’oubliez pas qu’elles resteront dans l’index de Google et que vous devrez prendre d’autres mesures pour les supprimer.
7. Supprimez les copies du contenu mises en cache par Google en suivant les étapes décrites dans la section « Suppression des URL en cache ».
8. Utilisez la directive robots noindex, en l’implémentant dans le code source HTML ou dans l’en-tête HTTP X-Robots-Tag.
9. Créez un sitemap XML avec les URL non indexées afin que Google puisse facilement les découvrir et traiter la directive noindex robots.
10. Une fois que vous êtes sûr que Google a désindexé les URL de transit, vous pouvez supprimer le sitemap XML et ajouter une authentification HTTP pour protéger votre environnement de transit, afin d’éviter que cela ne se reproduise.
Astuce de Graines de Référenceur:
Si vous souhaitez supprimer vos URL de Microsoft Bing, vous pouvez le faire via son outil de suppression de contenu (en anglais).
Quand les URLs d’essai surpassent les URLs de production
Si vos URL de préparation sont plus importantes que vos URL de production, vous devez vous assurer que Google attribue les signaux des URL de préparation aux URL de production, tout en veillant à ce que les visiteurs n’aboutissent pas sur les URL de préparation.
1. Suivez les étapes 1 à 7 comme indiqué dans la section précédente.
2. Ensuite, mettez en place des redirections 301 depuis les URL de préparation vers les URL de production.
3. Configurez un nouvel environnement de préparation sur un (sous-)domaine différent de celui qui a été indexé, et assurez-vous de lui appliquer l’authentification HTTP pour éviter qu’il ne soit à nouveau indexé.
Ce qu’il faut éviter lorsqu’on traite des URL d’environnement de test indexées
Si vous souhaitez supprimer de Google les URL des environnements de test, n’essayez jamais de le faire en utilisant un Disallow: /
dans votre fichier robots.txt.
Cela empêcherait Google d’accéder aux URL de l’environnement de test, ce qui l’empêcherait de découvrir la balise robot noindex !
Google continuera d’afficher les URL de préparation, mais avec un extrait de texte de très mauvaise qualité, comme dans cet exemple :
Continuez à apprendre
Un fichier robots.txt interdit-il aux moteurs de recherche de désindexer les pages ?
Astuce de Graines de Référenceur:
« Lorsque vous déployez des modifications de site Web en direct, demandez à vos développeurs de s’assurer que le processus est à toute épreuve.
Certains éléments de référencement peuvent facilement nuire à la progression de votre site Web s’ils ne sont pas gérés correctement.
Il s’agit notamment des éléments suivants
- Le fichier Robots.txt.
- Les fichiers de configuration du serveur Web comme
.htaccess
,nginx.conf
ouweb.config.
- Les fichiers que vous utilisez pour le processus de déploiement des balises méta (afin de protéger votre environnement d’essai contre l’indexation et le site Web actif contre la désindexation).
- Les fichiers JS qui sont impliqués dans le contenu et le rendu DOM.
Nous avons vu des sites web sains chuter dans les SERPs de Google simplement parce que, pendant le processus de déploiement vers le site réel, le fichier robots.txt a été écrasé par la version de préparation avec la directive Disallow: /
ou l’inverse : les vannes de l’indexation ont été ouvertes parce que des directives importantes ont été supprimées. »
Comment supprimer les URL de spam?
Si votre site Web a été piraté et qu’il contient une tonne d’URL de spam, vous devez vous en débarrasser le plus rapidement possible afin qu’elles ne nuisent pas (davantage) à vos performances de référencement et à votre crédibilité aux yeux de vos visiteurs.
Suivez les étapes ci-dessous pour réparer rapidement les dégâts.
Étape 1 : Utilisez l’outil de suppression de la Google Search Console.
L’outil de suppression de Google vous permet de retirer rapidement les pages spammy des SERPs de Google. N’oubliez pas que cet outil ne désindexe pas les pages, il ne fait que les masquer temporairement.
Comment suppimer les URL à l’aide de l’outils de suppression de Google Search Console?
1. Connectez-vous à votre compte Google Search Console.
2. Sélectionnez la bonne propriété.
3. Cliquez sur le bouton « Suppression » dans le menu de la colonne de gauche.
4. Cliquez sur le bouton NOUVELLE DEMANDE.
5. Passez à l’onglet SUPPRIMER TEMPORAIREMENT UNE URL:
6. Choisissez Supprimer uniquement cette URL, saisissez l’URL que vous souhaitez supprimer et cliquez sur le bouton « Suivant ». Google gardera l’URL masquée pendant 180 jours, mais n’oubliez pas que les URL resteront dans l’index de Google et que vous devrez prendre des mesures supplémentaires pour les masquer.
7. Répétez l’opération autant de fois que nécessaire. Si vous avez affaire à un grand nombre de pages de spam, nous vous recommandons de vous concentrer sur le masquage de celles qui apparaissent le plus souvent dans Google. Utilisez l’option « Supprimer toutes les URL avec ce préfixe » avec précaution, car elle peut masquer toutes les URL (potentiellement des milliers) qui correspondent au préfixe que vous avez saisi dans le champ « Saisissez une URL ».
8. Supprimez également les copies des URL de spam mises en cache par Google en suivant les étapes décrites dans la section Supprimer les URL en cache.
Étape 2 : Supprimer les URLs de spam et servir un 410
Restaurez l’état antérieur de votre site Web en restaurant une sauvegarde.
Exécutez les mises à jour, puis ajoutez des mesures de sécurité supplémentaires pour vous assurer que votre site n’est plus vulnérable.
Vérifiez ensuite si toutes les URL de spam ont disparu de votre site Web.
Il est préférable de renvoyer un code d’état HTTP 410 lorsqu’elles sont demandées, afin qu’il soit parfaitement clair que ces URL ont disparu et ne reviendront jamais.
Étape 3 : Créez un sitemap XML supplémentaire
Incluez les URL de spam dans un sitemap XML distinct et soumettez-le à Google Search Console.
De cette façon, Google peut rapidement « manger » les URL de spam et vous pouvez facilement surveiller le processus de suppression via Google Search Console.
Ce qu’il faut éviter lorsqu’on traite des URL de spam
De la même manière que pour un environnement de test, évitez d’ajouter une balise Disallow: /
à votre fichier robots.txt, car cela empêcherait Google de recrawler les URL.
Google doit pouvoir constater que les URL de spam ont été supprimées.
Comment cacher les URL au contenu sensible?
Si vous recueillez des données sensibles sur votre site Web, comme des informations sur vos clients ou des CV de candidats, il est essentiel de les sécuriser.
Ces données ne doivent en aucun cas être indexées par Google, ni par aucun autre moteur de recherche d’ailleurs.
Cependant, des erreurs sont commises et des contenus sensibles peuvent se retrouver dans les résultats de recherche de Google.
Pas de panique : nous vous expliquons comment faire disparaître rapidement ce contenu de Google.
Étape 1 : Utilisez l’outil de suppression de l’URL de Google Search Console.
Le masquage des URL au contenu sensible à l’aide de l’outil de suppression de la console de recherche Google est le moyen le plus rapide pour que Google cesse de les afficher dans ses SERPs.
Toutefois, n’oubliez pas que l’outil ne fait que masquer les pages soumises pendant 180 jours ; il ne les supprime pas de l’index de Google.
Comment cacher les URL à l’aide de l’outils de suppression de Google Search Console?
1. Connectez-vous à votre compte Google Search Console.
2. Sélectionnez la bonne propriété.
3. Cliquez sur le bouton « Suppression » dans le menu de la colonne de gauche.
4. Cliquez sur le bouton NOUVELLE DEMANDE.
5. Passez à l’onglet SUPPRIMER TEMPORAIREMENT UNE URL:
6. Choisissez Supprimer uniquement cette URL, saisissez l’URL que vous souhaitez supprimer et cliquez sur le bouton « Suivant ». Google gardera l’URL masquée pendant 180 jours, mais n’oubliez pas que les URL resteront dans l’index de Google. Vous devrez donc prendre des mesures supplémentaires pour les masquer, comme indiqué dans les étapes suivantes.
7. Répétez l’opération autant de fois que nécessaire. Si le contenu sensible se trouve dans un répertoire spécifique, nous vous recommandons d’utiliser l’option « Supprimer toutes les URL avec ce préfixe », car elle vous permettra de masquer toutes les URL de ce répertoire en une seule fois. Si vous avez affaire à un grand nombre d’URL contenant du contenu sensible, sans préfixe d’URL partagé, nous vous recommandons de vous concentrer sur le masquage de celles qui apparaissent le plus souvent dans Google.
8. Supprimez également les copies du contenu sensible mises en cache par Google en suivant les étapes décrites dans la section « Suppression des URL en cache« .
Étape 2 : Supprimer les URLs de spam et servir un 410
Si vous n’avez plus besoin d’avoir le contenu sensible sur votre site Web, vous pouvez supprimer les URL et renvoyer le code d’état HTTP 410.
Cela indique à Google que les URL ont été définitivement supprimées.
Étape 3 : utilisez un sitemap XML supplémentaire
Pour contrôler et surveiller le processus de suppression des URL à contenu sensible, ajoutez-les à un sitemap XML distinct et soumettez-le dans Google Search Console.
Étape 4 : Évitez les fuites de données sensibles
Pour éviter que le contenu sensible ne soit indexé et ne fasse l’objet d’une nouvelle fuite, prenez les mesures de sécurité appropriées pour empêcher que cela ne se produise.
Astuce de Graines de Référenceur:
Si vous appliquez une balise noindex à vos pages, Google peut parfois trouver des ressources et des pièces jointes qui ne doivent pas être accessibles, comme les PDF et les images.
Pour vous assurer qu’elles ne seront pas trouvées, vous devez utiliser la balise x-robots noindex.
Cependant, l’utilisation des en-têtes robots présente un défi, celui de les tester et de les surveiller.
Comment supprimer le contenu qui ne se trouve pas sur votre site ?
Si vous constatez que d’autres sites Web utilisent votre contenu, il existe plusieurs moyens de le supprimer de Google.
Contactez le propriétaire du site Web
La première chose à faire est d’entrer en contact avec les responsables du site Web. Dans de nombreux cas, « le stagiaire » a copié votre contenu par erreur et il prendra rapidement des mesures.
Vous pouvez leur proposer de créer un lien canonique inter-domaines vers votre contenu, leur demander de le rediriger vers votre propre URL ou de le supprimer purement et simplement.
Que faire si les propriétaires du site ne répondent pas ou refusent de prendre des mesures ?
Si les propriétaires du site Web ne sont pas coopératifs, vous disposez de plusieurs moyens pour demander à Google de le supprimer :
- Pour supprimer des informations personnelles, vous pouvez utiliser ce formulaire.
- En cas de violation de la loi, vous pouvez demander à Google d’évaluer une demande de suppression déposée conformément à la législation en vigueur.
- Si vous avez trouvé un contenu qui viole vos droits d’auteur, vous pouvez soumettre une demande de suppression DMCA.
Astuce de Graines de Référenceur:
Si des pages ont été supprimées sur un autre site et que Google ne s’en est pas encore aperçu, vous pouvez accélérer le processus de suppression en utilisant l’outil Supprimer le contenu obsolète.
Vous pouvez également l’utiliser lorsque le contenu a déjà été mis à jour, mais que Google affiche toujours l’ancien extrait et le cache. Cela les obligera à le mettre à jour.
Comment supprimer les images de la recherche Google
Bien qu’il ne soit pas recommandé d’utiliser le fichier robots.txt pour supprimer les pages indexées de Google Search, Google recommande de l’utiliser pour supprimer les images indexées.
Nous savons que cela peut prêter à confusion…
La documentation de Google n’est pas très claire à ce sujet, car si vous consultez la documentation de l’outil de suppression, vous trouverez dans la section où ils parlent également des fichiers HTML et non-HTML la ligne
N’utilisez pas le fichier robots.txt comme mécanisme de blocage
En même temps, leur article « Empêcher les images de votre page d’apparaître dans les résultats de recherche » indique :
Alors, comment faire pour supprimer ces images ?
Disons que certaines images du dossier /images/secret/
ont été accidentellement indexées. Voici comment les supprimer :
Comment supprimer les images de la recherche Google
Suivez les étapes 1 à 6 de la section ci-dessus pour masquer rapidement les URL dans la recherche Google.
Ensuite, ajoutez ces lignes à votre fichier robots.txt :
User-agent: Googlebot-Image
Disalow: /images/secret/
La prochaine fois que Googlebot téléchargera votre fichier robots.txt, il verra la directive Disallow pour les images et supprimera les images de son index.
Astuce de Graines de Référenceur:
« Il n’est pas possible d’avoir une métabalise noindex sur une image. Nous pourrions utiliser l’en-tête de réponse X-Robots pour spécifier noindex, mais Google recommande plutôt d’utiliser l’outil de suppression ou de bloquer l’URL de l’image problématique avec robots.txt.
Heureusement, c’est la seule fois où un disallow dans robots.txt fonctionnera pour supprimer des URL de l’index – et il est recommandé par Google pour la suppression non urgente d’images.
Nous pouvons exclure les images de Google Image Search uniquement en spécifiant l’agent utilisateur Googlebot-Image, ou de toutes les recherches Google en spécifiant Googlebot ».
Conclusion
Il existe de nombreuses situations dans lesquelles vous souhaitez supprimer rapidement des URL de Google.
Gardez à l’esprit qu’il n’existe pas d’approche unique en la matière, car chaque situation requiert une approche différente. Et si vous lisez entre les lignes, vous aurez remarqué que la plupart des situations dans lesquelles vous devez supprimer des URL peuvent en fait être évitées.
Un homme averti en vaut deux!