Analyse des fichiers journaux (Log File) pour le référencement : Une introduction

L’analyse des fichiers journaux en bref

L’analyse des fichiers journaux joue un rôle important dans le référencement car elle montre le comportement réel des robots d’indexation des moteurs de recherche sur votre site.

Dans cet article, nous décrirons ce qu’est l’analyse des fichiers journaux, pourquoi elle est importante, comment lire les fichiers journaux, où les trouver, comment les préparer pour l’analyse et nous passerons en revue les cas d’utilisation les plus courants !

Table des matières

Qu’est-ce que l’analyse des fichiers journaux en référencement ?
Pourquoi l’analyse des fichiers journaux est-elle importante pour le référencement ?
Qu’est-ce qu’un fichier journal ?
Idées reçues sur l’analyse des fichiers journaux
Où trouver vos fichiers journaux ?
Filtrer les enregistrements des robots d’indexation qui ne proviennent pas de moteurs de recherche
Cas d’utilisation de l’analyse des fichiers journaux
L’importance d’un suivi continu

Qu’est-ce que l’analyse des fichiers journaux en référencement ?

Grâce à l’analyse des fichiers journaux, les référenceurs cherchent à mieux comprendre ce que les moteurs de recherche font réellement sur leurs sites web, afin d’améliorer leurs performances en matière de référencement.

L’analyse de vos fichiers journaux est comparable à l’analyse des données de Google Analytics – si vous ne savez pas ce que vous regardez et ce que vous cherchez, vous allez perdre beaucoup de temps sans rien apprendre. Vous devez avoir un objectif en tête.

Avant de plonger dans vos fichiers journaux, dressez une liste de questions et d’hypothèses auxquelles vous souhaitez répondre ou que vous souhaitez valider.

Par exemple :

Les moteurs de recherche consacrent-ils leurs ressources à l’exploration de vos pages les plus importantes, ou gaspillent-ils votre précieux crawl budget pour des URL inutiles ?
Combien de temps faut-il à Google pour explorer votre nouvelle catégorie de produits contenant 1.000 nouveaux produits ?
Les moteurs de recherche explorent-ils des URL qui ne font pas partie de la structure de votre site (« pages orphelines« ) ?

Pourquoi l’analyse des fichiers journaux est-elle importante pour le référencement ?

Étant donné que seuls les fichiers journaux montrent le véritable comportement des robots d’exploration, ces fichiers sont essentiels pour comprendre comment ils explorent votre site.

Les explorateurs traditionnels, et toute plateforme de surveillance en général, ne font que simuler ce que les moteurs de recherche voient ; ils ne donnent pas une image fidèle de la façon dont les moteurs de recherche explorent les sites.

Et pour être clair, la Search Console de Google ne vous dit pas non plus comment ils explorent.

L’analyse des fichiers journaux permet, par exemple, de mettre à jour des problèmes importants tels que:

Priorités d’exploration malheureuses des moteurs de recherche : vos journaux vous indiqueront quelles pages (et sections) sont explorées le plus fréquemment. Vous constaterez souvent que les moteurs de recherche passent beaucoup de temps à explorer des pages qui n’ont que peu ou pas de valeur, surtout s’il s’agit d’un site de grande taille. Vous pouvez alors prendre des mesures et ajuster des éléments tels que votre fichier robots.txt, votre structure de liens internes et votre navigation à facettes.
Erreurs 5xx : vos fichiers journaux permettent d’identifier les codes de réponse d’erreur 5xx, que vous pouvez ensuite utiliser comme point de départ pour des enquêtes de suivi.
Pages orphelines : les pages orphelines sont des pages qui vivent en dehors de la structure de votre site – elles n’ont pas de liens internes avec d’autres pages. Pour cette raison, la plupart des simulations d‘exploration ne seront pas en mesure de découvrir ces pages, et il est donc facile de les oublier. Si elles sont explorées par les moteurs de recherche, vos fichiers journaux en témoigneront. Et les moteurs de recherche ont une bonne mémoire : ils « oublient » rarement les URL. Vous pouvez alors prendre des mesures : par exemple, inclure les pages orphelines dans la structure du site, les rediriger ou les supprimer complètement.

Au cas où vous vous demanderiez si c’est tout ? Non, plus loin dans cet article, nous décrirons en détail les cas d’utilisation les plus courants de l’analyse des fichiers journaux.

Pas de panique donc, continuons !

Journaux d’accès

Lorsque la journalisation est active sur un serveur web, toutes les requêtes qu’il reçoit sont enregistrées dans un fichier dit « journal d’accès » ou « Access Logs ».

Ces enregistrements contiennent généralement des informations sur chaque requête reçue, telles que le code d’état HTTP renvoyé par le serveur et la taille du fichier demandé.

Ces fichiers journaux d’accès sont généralement enregistrés dans des formats de fichier texte normalisés, tels que Common Log Format ou Combined Log Format.

Ces journaux d’accès proviennent directement de la source – le serveur web qui a reçu la demande.

La collecte des journaux devient plus délicate si vous gérez un site web de grande taille avec une configuration complexe qui utilise par exemple :

Load balancers ou Répartition de charge
des serveurs distincts pour servir les ressources (par exemple, assets.exemple.com)
un réseau de diffusion de contenu (CDN).

Dans la pratique, vous constaterez que vous devez extraire des journaux de différents endroits et les combiner pour obtenir une image complète de toutes les requêtes qui ont été faites.

Il se peut également que vous deviez reformater certains fichiers journaux pour vous assurer qu’ils sont au même format.

Journaux CDN

En raison de leur nature décentralisée et de leur échelle massive, ce n’est pas une mince affaire pour les CDN de fournir un accès aux journaux d’accès de toutes leurs machines.

Toutefois, certains des plus grands fournisseurs de CDN proposent des solutions :

Cloudflare propose Cloudflare Logs, dans le cadre de son plan d’entreprise
Akamai propose Log Delivery Service, dans le cadre de son produit DataStream.
AWS Cloudfront propose une journalisation standard, dans le cadre de sa plateforme standard.

Si vous n’êtes pas abonné au plan d’entreprise de Cloudflare, mais que vous souhaitez avoir accès aux fichiers journaux, vous pouvez les générer à la volée à l’aide de Cloudflare Workers.

Les Cloudflare Workers sont des scripts qui s’exécutent sur le serveur périphérique du CDN (un serveur situé à la « périphérie du CDN » : le centre de données où le CDN se connecte à l’internet, généralement le plus proche du visiteur), ce qui vous permet d’intercepter les requêtes destinées à votre serveur.

Vous pouvez modifier ces requêtes, les rediriger ou même y répondre directement.

Image (CDN avec des périphéries à travers le monde)

Par la suite, nous ferons référence au concept général d’exécution de scripts à la périphérie d’un CDN en tant que « travailleurs de périphérie » ou edge workers

Les possibilités offertes par les « edge workers » sont infinies. Outre la génération de fichiers journaux à la volée, voici quelques capacités qui permettront d’illustrer leur puissance :

Ajuster votre fichier robots.txt
Mettre en place des redirections
Mettre en place des en-têtes X-Robots-Tag
Modifier les titres et les méta-descriptions
Mettre en œuvre le balisage Schema

Et la liste est encore longue. Il est important de noter que l’utilisation de travailleurs CDN ajoute beaucoup de complexité, car il s’agit d’un autre endroit où ca peut rapidement mal tourner.

Si vous utilisez le CDN de Cloudflare, vous pouvez utiliser les Cloudflare Workers pour envoyer vos logs à une plateforme de surveillance.

Vous pouvez analyser vos fichiers log en temps réel directement dans cette plateforme de surveillance, afin de voir quand votre site est visité par les moteurs de recherche et à quelle fréquence.

Qu’est-ce qu’un fichier journal ?

Un fichier journal est un fichier texte contenant les enregistrements de toutes les requêtes qu’un serveur a reçues, à la fois de la part d’humains et de robots d’indexation, et les réponses qu’il a apportées aux demandeurs.

Dans cet article, lorsque nous parlons de « requête », nous faisons référence à la demande qu’un client adresse à un serveur. La réponse que le serveur renvoie est ce que nous appellerons la « réponse ».

Types de requêtes enregistrées

Un fichier journal répertorie les pages demandées (y compris celles qui comportent des paramètres), mais aussi les ressources telles que les polices personnalisées, les images, les fichiers JavaScript, les fichiers CSS et les PDF.

Vous trouverez également des demandes pour des pages qui ont disparu depuis longtemps ou qui n’ont jamais existé.

Chaque requête est littéralement enregistrée.

Comment fonctionne les requêtes ?

Avant de poursuivre, nous devons expliquer comment fonctionnent les demandes.

Lorsque votre navigateur veut accéder à une page web sur un serveur, il envoie une requête. Cette requête se compose, entre autres, des éléments suivants :

- Méthode HTTP : par exemple GET.
- URL Path : le chemin vers la ressource demandée, par exemple /<code> pour la page d’accueil.
- Version du protocole HTTP : par exemple HTTP/1.1 ou HTTP/2.
- En-têtes HTTP : par exemple la chaîne de l’agent utilisateur (user-agent), les langues préférées et l’URL de référence.

Ensuite, le serveur renvoie une réponse. Cette réponse se compose de trois éléments :

Code d’état HTTP : la réponse à trois chiffres à la demande du client.
En-têtes HTTP : en-têtes contenant par exemple le type de contenu (content-type) renvoyé et des instructions sur la durée de mise en cache de la réponse par le client.
Corps HTTP : le corps (par exemple HTML, CSS, etc.) est utilisé pour rendre et afficher la page dans votre navigateur. Le corps de la page n’est pas toujours inclus, par exemple lorsqu’un serveur renvoie un code d’état 301.

Astuce Graines de Référenceur

Petite note sur la terminologie

À l’avenir, lorsque nous utiliserons le terme « journaux », ou « logs » nous pourrons faire référence à l’un ou l’autre des éléments suivants :

Journaux d’accès traditionnels sur Apache/nginx
Journaux d’accès au CDN
Il est important de noter que les logs construits à l’aide de travailleurs en périphérie (edge workers) sont un flux de logs, plutôt que les traditionnels fichiers de logs d’accès.

L’anatomie d’un enregistrement de fichier journal

Maintenant que nous avons fait le tour de la question, mettons les mains dans le cambouis et visualisons un exemple d’enregistrement d’un journal d’accès nginx.

Pour vous donner un peu de contexte, cet enregistrement décrit une requête parmi les dizaines de milliers que mon site web personnel a reçues au cours du mois dernier.

66.249.78.28 - - [25/May/2023:07:50:39 +0200] "GET / HTTP/1.1" 200 12179 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Décortiquons ce dossier et voyons ce qu’il en est :

- 66.249.78.28 – l’adresse IP du demandeur.
- - – Le premier tiret est codé en dur par défaut sur nginx (d’où provient l’enregistrement ci-dessus), mais à l’époque, il était utilisé pour identifier le client qui effectuait la requête HTTP. Cependant, de nos jours, il n’est plus utilisé.
- – - Le deuxième tiret est un champ facultatif pour l’identification de l’utilisateur. Par exemple, lorsque des demandes d’accès à des URL protégées par HTTPAuth sont faites, vous verrez le nom d’utilisateur ici. Si aucune identification d’utilisateur n’est envoyée, l’enregistrement contiendra –
- [25/May/2023:07:50:39 +0200] – la date et l’heure de la demande.
- "GET / HTTP/1.1" – la demande, composée de la méthode HTTP (« GET »), de la ressource demandée (« / » – la page d’accueil) et de la version HTTP utilisée (« HTTP/1.1 »).
- 200 – le code de réponse HTTP.
- 12179 – la taille en octets de la ressource demandée. Lorsque des ressources redirigées sont demandées, vous verrez soit zéro, soit une valeur très faible, car il n’y a pas de corps de données à renvoyer. « – » – s’il y avait eu un référent, il aurait été affiché ici à la place de -.
- "Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)" – la chaîne du user-agent du demandeur, qui peut être utilisée pour identifier le demandeur.

Les configurations de journalisation peuvent varier considérablement. Vous pouvez également rencontrer le temps de la requête (le temps que le serveur a passé à traiter la requête) – et certains vont même jusqu’à enregistrer le corps complet de la réponse.

Chaînes d’agent utilisateur

Un enregistrement contient la chaîne user-agent du demandeur, qui peut être utilisée pour aider à identifier le demandeur. Dans l’exemple ci-dessus, nous voyons que la demande a été faite par le principal robot d’exploration de Google, appelé Googlebot.

Google dispose de différents robots d’exploration pour différents objectifs, et il en va de même pour d’autres moteurs de recherche tels que Bing, DuckDuckGo et Yandex.

Astuce Graines de Référenceur

Les chaînes de l’agent utilisateur que vous trouvez dans vos fichiers journaux n’ont rien à voir avec l’agent utilisateur robots.txt ou l’agent utilisateur utilisé dans les directives robots pour influencer le comportement de l’exploration, de l’indexation et de la diffusion.

Cependant, les robots d’exploration qui se comportent bien auront leur identifiant unique (par exemple Googlebot) présent dans les trois afin de permettre une identification facile.

Idées reçues sur l’analyse des fichiers journaux

L’analyse des fichiers journaux n’est pas importante pour les petits sites web

Ceux d’entre vous qui ont un petit site web se demandent peut-être maintenant si l’analyse des fichiers journaux est utile.

C’est certainement le cas, car il est important de comprendre comment les moteurs de recherche explorent votre site.

Et comment cela se traduit en pages indexées? Sans les fichiers journaux, vous ne feriez que deviner. Et si votre site web est important pour votre entreprise, c’est trop risqué.

À quelle fréquence devriez-vous procéder à l’analyse des fichiers journaux ?

L’analyse des fichiers journaux est une opération ponctuelle.

Comme beaucoup de choses dans le domaine du référencement, l’analyse des fichiers journaux n’est pas une tâche ponctuelle. Il s’agit d’un processus continu.

Votre site web est en constante évolution et les robots des moteurs de recherche s’adaptent à ces changements.

En tant que référenceur, il vous incombe de surveiller leur comportement afin de vous assurer que le processus d’exploration et d’indexation se déroule sans heurts.

Le rapport Crawl Stats de Google Search Console remplace-t-il les fichiers journaux?

En novembre 2020, Google a remanié son rapport « Crawl Stats » dans Google Search Console. Mais il ne remplace toujours pas les fichiers journaux !

Bien qu’il s’agisse d’une grande amélioration par rapport au rapport Crawl Stats précédent, le nouveau rapport Crawl Stats ne contient que des informations sur les robots d’exploration de Google – il ne fournit qu’un résumé de haut niveau du comportement d’exploration de Google.

Il est possible d’approfondir l’ensemble des données, mais vous vous rendrez vite compte que vous avez affaire à des données échantillonnées.

Si vous ne pouvez pas mettre la main sur des fichiers journaux, le rapport Crawl Stats est bien sûr utile, mais il n’est pas censé remplacer les fichiers journaux.

Google Analytics vous montre le comportement des robots des moteurs de recherche

Si vous vous demandez pourquoi nous n’avons pas encore parlé de Google Analytics, c’est parce que Google Analytics ne suit pas le comportement des robots d’indexation des moteurs de recherche sur votre site.

Google Analytics vise à suivre ce que font vos visiteurs sur votre site. Le suivi du comportement des moteurs de recherche, quant à lui, est une toute autre affaire.

En outre, les robots des moteurs de recherche n’exécutent pas le code de suivi de Google Analytics (ou le code de suivi d’autres plateformes d’analyse).

Où trouver vos fichiers journaux?

Nous savons maintenant ce que sont les fichiers journaux, quels en sont les différents types et pourquoi ils sont importants. Passons donc à l’étape suivante et décrivons où les trouver !

Comme nous l’avons mentionné dans la section « Journaux d’accès« , si vous avez une configuration d’hébergement complexe, vous devrez prendre des mesures pour rassembler les fichiers journaux.

Donc, avant de chercher vos fichiers journaux, assurez-vous d’avoir une bonne compréhension de votre configuration d’hébergement.

Serveurs web

Les serveurs web les plus courants sont Apache, nginx et IIS. Vous trouverez souvent les journaux d’accès à leur emplacement par défaut, mais n’oubliez pas que le serveur web peut être configuré pour les enregistrer à un autre endroit. Il est également possible de désactiver complètement l’enregistrement des accès.

Vous trouverez ci-dessous des liens vers des documents expliquant la configuration des journaux d’accès au serveur web et l’endroit où ils se trouvent :

logs:

Load balancers

CDNs

Historique des fichiers journaux

Gardez à l’esprit que les fichiers journaux peuvent être conservés que pendant une courte période, de 7 à 30 jours par exemple.

Si vous analysez les fichiers journaux pour vous faire une idée de l’évolution du comportement des moteurs de recherche au fil du temps, vous aurez besoin d’un grand nombre de données. Peut-être même 12 à 18 mois de fichiers journaux.

Pour la plupart des cas d’utilisation de l’analyse des fichiers journaux, nous recommandons d’analyser au moins 3 mois de fichiers journaux.

Filtrer les enregistrements ne provenant pas des robots d’indexation des moteurs de recherche.

Lors de l’analyse des fichiers journaux pour le référencement, vous ne souhaitez voir que ce que font les robots des moteurs de recherche, alors filtrez tous les autres enregistrements.

Pour ce faire, vous pouvez supprimer tous les enregistrements effectués par des clients qui ne s’identifient pas comme des moteurs de recherche dans leur chaîne user-agent.

Pour commencer, voici une liste des chaînes de caractères des user-agents qui vous intéressent : celles de Google et celles de Bing.

Vérifiez également que vous avez bien affaire à des robots d’indexation de moteurs de recherche et non à d’autres robots qui se font passer pour des robots d’indexation de moteurs de recherche.

Nous vous recommandons de consulter la documentation de Google à ce sujet, mais vous pouvez également appliquer cette méthode à d’autres moteurs de recherche.

Ce processus doit également permettre de filtrer tous les enregistrements contenant des informations personnelles identifiables (IPI) susceptibles d’identifier des personnes spécifiques, comme par exemple les adresses IP, les noms d’utilisateur, les numéros de téléphone et les adresses électroniques.

Cas d’utilisation de l’analyse des fichiers journaux

Il est maintenant temps de passer en revue les cas d’utilisation les plus courants de l’analyse des fichiers journaux afin de mieux comprendre comment les moteurs de recherche se comportent sur votre site et ce que vous pouvez faire pour améliorer vos performances en matière de référencement.

Bien que nous parlions principalement de Google, tous les cas d’utilisation peuvent être appliqués à d’autres moteurs de recherche.

Voici tous les cas d’utilisation que nous couvrirons :

1. Comprendre le comportement d’exploration

Le meilleur point de départ consiste à comprendre comment Google explore actuellement votre site. Entrez dans le monde merveilleux des fichiers journaux.

Les objectifs sont les suivants :

1. Acquérir les connaissances de base nécessaires pour tirer le meilleur parti des cas d’utilisation que nous allons couvrir ci-dessous.
2. Améliorer les prévisions de référencement en prédisant mieux le temps qu’il faudra pour que le contenu nouveau et mis à jour commence à se classer.

1a. Construire les connaissances de base

Si vous parcourez les journaux de la semaine dernière. Vous y verrez probablement :

1. Requêtes adressées à votre fichier robots.txt – Google actualise les règles d’engagement de votre site.
2. Les requêtes adressées à des URL existantes qui renvoient le code d’état 200 OK – c’est Google qui recrée des pages. Il s’agit d’un comportement tout à fait normal et souhaitable.
3. Les requêtes portant sur des ressources telles que des polices personnalisées, des fichiers CSS et JS qui renvoient le code d’état 200 OK. Google a besoin de tous ces éléments pour afficher vos pages. Là encore, il s’agit d’un comportement normal et souhaitable.
4. Les demandes d’URL qui ont disparu depuis longtemps et qui renvoient le code d’état 404 Not Found. Google a la mémoire longue, et il réessayera de temps en temps d’utiliser d’anciennes URL. Il peut s’écouler des années avant qu’il ne cesse de le faire. Il n’y a pas lieu de s’inquiéter ici non plus tant que vous ne créez pas de liens vers ces URL.
5. Vous trouverez également des codes d’état HTTP 301 Moved permanently pour les variantes d’URL qui redirigent vers des URL préférées. Il se peut que votre site web contienne des liens vers des URL de redirection ou que vous en ayez eu par le passé. Il est très probable que d’autres personnes créent des liens vers des URL incorrectes sur votre site. Souvent, cela est indépendant de votre volonté.

Prochaines étapes

Il n’y a pas d’étapes suivantes. Ce cas d’utilisation permet d’obtenir une idée approximative de la manière dont Google explore actuellement votre site.

1b. Améliorer les prévisions en matière de référencement

Maintenant, concentrez-vous sur le contenu récemment publié : combien de temps après la publication, Google a-t-il fini par explorer le contenu ?

La combinaison de ces informations avec le moment où le contenu a commencé à générer du trafic organique et le moment où il fonctionne à plein régime peut vous aider considérablement à établir des prévisions en matière de référencement.

Par exemple, vous pouvez trouver quelque chose comme :

- Publié : 1 juin 2023 9:00 AM
- Première visite sur le site : 2 juin 2023 02:30 AM
- Premier trafic organique : 8 juin 2023 3:30
- Trafic organique significatif : 22 juin 2023 3:30

Faites-le pour chaque nouveau contenu et classez les résultats par type de contenu.

Par exemple :

- Les pages de catégories de produits et les articles de blog prennent en moyenne une semaine pour commencer à générer du trafic organique, et six semaines pour atteindre leur plein potentiel.
- Les pages détaillées sur les produits prennent en moyenne deux semaines pour commencer à générer du trafic organique, et quatre semaines pour atteindre leur plein potentiel.

En faisant cela à grande échelle, vous trouverez des modèles – des données extrêmement utiles pour les prévisions en matière de référencement !

Prochaines étapes

Si vous estimez que Google est trop lent à explorer les nouveaux contenus, vous pouvez essayer les solutions suivantes :

1. Analysez la fréquence d’exploration de votre sitemap XML. Si c’est tous les jours ou quelques fois par semaine, tout va bien. En revanche, quelques fois par mois, c’est assez peu. Il est recommandé aux sites de plus de 10.000 pages de diviser leur sitemap XML en plusieurs sitemap plus petits et d’avoir un sitemap XML dédié au nouveau contenu afin d’améliorer la découverte du nouveau contenu, de sorte qu’il soit indexé plus rapidement. Veillez également à vérifier que votre sitemap XML est valide afin d’exclure tout problème à cet égard.
2. Ajoutez des liens internes à votre nouveau contenu – essayez d’ajouter des liens à la navigation principale, à la navigation latérale, à la navigation de bas de page, et de créer des liens vers le contenu à partir de pages connexes et de pages mères.
3. Créez des liens externes vers votre nouveau contenu. Cela accélérera l’ensemble du processus et le nouveau contenu générera du trafic plus rapidement. Une mise en garde s’impose : c’est plus facile à dire qu’à faire, nous le savons.
4. Toujours pas de chance ? Vous publiez peut-être plus de contenu que ce que Google peut explorer dans le cadre du budget d’exploration attribué à votre site, ou votre budget d’exploration n’est pas utilisé de manière efficace.

Astuce Graines de Référenceur

Comment améliorer la découverte de nouveaux contenus?

Ajoutez des liens vers le contenu nouvellement publié sur vos pages les plus fréquemment explorées afin d’améliorer le processus de découverte de Google.

2. Vérifier l’alignement sur ce qui est important pour votre entreprise

Il se peut que Google consacre une grande partie de son budget de crawl à des URL qui ne vous concernent pas, négligeant ainsi des pages qui devraient être le fer de lance de votre stratégie de référencement.

L’objectif est de déterminer si c’est le cas et, si c’est le cas, d’y remédier.

Vérifier que :

1. Les 50 pages les plus demandées comprennent vos pages les plus importantes.
2. Les 10 annuaires ayant le plus de requêtes sont les plus importants.

Prochaines étapes

Voici ce que vous pouvez faire pour aligner Google sur ce qui est important pour votre entreprise :

1. Ajustez votre structure de liens internes pour mettre l’accent sur les pages et les sections les plus importantes de votre site. Refaites votre navigation principale, votre navigation latérale, votre navigation de bas de page, vos liens dans les pages – tout le tralala. Les possibilités de liens internes étant limitées, vous devez choisir les pages à privilégier. Rappelez-vous que si vous créez des liens vers toutes les pages de votre site, elles deviennent toutes importantes, ce qui fait qu’aucune page n’est importante.
2. Créez des liens externes vers les pages qui comptent le plus pour vous. Le fait d’avoir des liens externes pointant vers ces pages permet d’avoir plus de points d’entrée, et c’est un signal pour Google d’augmenter la fréquence d’exploration.

Le changement de fréquence du plan du site XML n’est d’aucune utilité

Vous pourriez penser à utiliser le champ changefreq dans votre sitemap XML pour réaligner leur attention, mais ce champ est (en grande partie) ignoré. Votre meilleure chance de résoudre le problème d’alignement est de suivre les étapes que nous venons d’aborder ci-dessus.

3. Comment découvrir le gaspillage du crawl budget?

Vous souhaitez que Google utilise le budget d’exploration de votre site pour explorer vos pages les plus importantes.

Bien que les problèmes de crawl budget concernent principalement les grands sites, l’analyse des pertes de budget d’exploration vous aidera à améliorer la structure de vos liens internes et à remédier aux inefficacités de l’exploration.

Et c’est là une valeur ajoutée considérable.

Voyons si Google gaspille son budget de crawl sur des URL qui ne sont pas du tout pertinentes, et corrigeons le problème !

Suivez les étapes suivantes pour découvrir les gaspillages du crawl budget :

1. Analysez le rapport entre les URL des pages demandées qui contiennent des paramètres et celles qui n’en contiennent pas. Souvent, les paramètres sont simplement utilisés pour modifier légèrement le contenu de la page, et ces pages ne sont pas censées être indexées. Si vous ne souhaitez pas que ces pages soient indexées, Google ne devrait pas s’en préoccuper. Vous voulez voir que la grande majorité (par exemple 95 %) des requêtes sont effectuées vers des URL de page sans paramètres.
2. Analysez la fréquence à laquelle Google explore les ressources qui ne changent pas souvent. Par exemple, si vous utilisez des polices de caractères personnalisées, il n’est pas nécessaire de les explorer plusieurs fois par jour.
3. Voyez-vous beaucoup de redirections 301, 302, 307 et 308 ?
4. Google respecte-t-il vos directives robots.txt ? Si vous avez interdit certaines sections parce que vous savez qu’elles représentent un gaspillage de crawl budget, vous devez vous assurer qu’elles ne s’y trouvent pas.

Prochaines étapes

Voici ce que vous pouvez faire pour réduire le gaspillage du budget du crawl :

1. Si vous constatez qu’un nombre important de requêtes sont adressées à des URL de pages contenant des paramètres, déterminez où Google a appris l’existence de ces URL et découragez l’exploration en supprimant les liens et en ajoutant l’attribut nofollow aux liens. Si cela ne suffit pas, empêchez Google de demander ces URL avec des paramètres en les interdisant dans votre fichier robots.txt.
2. Si Google explore trop souvent vos ressources, vérifiez si vos en-têtes HTTP Cache-Control sont correctement configurés. Par exemple, il se peut que vous demandiez à Google de ne mettre en cache les ressources que pendant une heure, alors qu’elles ne changent que quelques fois par an. Dans ce cas, augmentez considérablement les durées de mise en cache. (En savoir plus sur Cache-Control.)
3. Si vous voyez beaucoup de redirections 301, 302, 307 et 308, il se peut que votre site contienne un grand nombre de liens de redirection, ce qui entraîne des inefficacités au niveau du crawl. Mettez à jour les liens pour qu’ils pointent directement vers l’URL de destination finale de la redirection afin de résoudre ce problème. Nous constatons souvent que cela se produit avec les liens de la navigation principale, et il est généralement facile et rapide d’y remédier. Gardez à l’esprit que, bien qu’elle fasse partie de la gamme 3xx, une redirection 304 n’est pas une redirection classique. Elle indique que l’URL demandée n’a pas changé depuis la dernière fois qu’elle a été demandée et qu’il convient d’utiliser celle qui figure déjà dans le fichier.
4. Si Google ne respecte pas vos directives robots.txt, il se peut que vos directives soient incorrectes (le scénario le plus probable) ou que Google ignore vos directives. C’est rare, mais cela arrive. La meilleure chose à faire dans ce cas est de poster un message sur le forum d’aide à la recherche de Google et/ou de contacter John Mueller. Ne lui faites pas perdre son temps, mais faites vos devoirs pour vous assurer que Google ignore effectivement vos directives robots.txt.

4. Découvrir les sections présentant le plus grand nombre d’erreurs d’exploration

Lorsque Google rencontre un grand nombre d’erreurs d’exploration (codes d’état HTTP 4xx et 5xx), l’expérience d’exploration est médiocre.

Non seulement c’est un gaspillage de budget d’exploration, mais Google peut également décider d’interrompre l’exploration. Et il est probable que les visiteurs auront une expérience tout aussi médiocre.

Essayons de déterminer où se produisent la plupart des erreurs d’exploration sur votre site, et corrigeons-les.

Pour savoir quelles sont les sections qui contiennent le plus d’erreurs d’indexation, affichez un aperçu des quantités de réponses 2xx, 4xx et 5xx par section et triez-les sur la base des 4xx et des 5xx.

Comparez ensuite le rapport entre les 2xx d’une part et les erreurs 4xx et 5xx d’autre part – quelles sont les sections qui ont le plus besoin de soins ? Vous avez peut-être affaire à un ancien forum, à une section communautaire ou à un blog.

Quoi qu’il en soit, en analysant les erreurs de crawl de cette manière, vous apprendrez où se trouvent la plupart des erreurs d’exploration.

Veuillez noter que vous ne pouvez pas résoudre tous les problèmes 4xx. Par exemple, si vous avez supprimé une page dont vous n’aviez plus besoin, que vous avez supprimé tous les liens internes vers cette page et qu’il n’était pas judicieux de la rediriger, elle sera 4xx.

Google la demandera de moins en moins, mais il faudra peut-être des années avant qu’il ne cesse de l’explorer.

Prochaines étapes

Pour résoudre les problèmes 4xx, vous pouvez procéder de différentes manières :

- Reconstruire la page si elle a de la valeur pour les visiteurs, ce qui vous permet de résoudre le problème 4xx et de récupérer la valeur accumulée par la page précédente.
- Rediriger l’URL vers une page alternative pertinente, en transmettant l’autorité et la pertinence.
- Supprimez les liens vers l’URL qui renvoie des problèmes 4xx pour cesser d’y envoyer des robots d’indexation et des visiteurs.

Étant donné que la plupart des problèmes 5xx sont des erreurs d’application, vous devrez collaborer avec votre équipe de développement et/ou DevOps pour les résoudre.

5. Découvrez les pages indexables qui ne sont pas explorées par Google

Dans l’idéal, toutes vos pages indexables sont fréquemment explorées par Google. Il est généralement admis que les pages qui sont fréquemment explorées ont plus de chances d’obtenir de bons résultats que celles qui le sont rarement.

Il convient donc de déterminer lesquelles de vos pages indexables ne sont pas fréquemment explorées et d’y remédier.

Premièrement, vous devez avoir une vue d’ensemble de toutes vos pages indexables.

Ensuite, vous devez enrichir cet ensemble de données avec des informations provenant de vos fichiers journaux. Vous obtiendrez ainsi une liste de pages que vous pourrez ensuite segmenter.

Par exemple, les pages indexables qui ont été explorées :

1. Il y a plus de huit semaines
2. Plus de quatre semaines
3. Plus de deux semaines
4. Plus d’une semaine

Vous souhaiterez augmenter la fréquence d’exploration de certaines de ces pages, tandis que pour d’autres, vous vous rendrez compte que Google les traite correctement.

Il se peut que vous finissiez par rendre ces pages non indexables, voire par les supprimer parce qu’elles n’ont aucune valeur.

Prochaines étapes

Voici ce que vous pouvez faire pour augmenter la fréquence d’exploration des pages indexables qui vous intéressent :

1. Vérifiez qu’elles figurent dans votre sitemap XML. Si ce n’est pas le cas, ajoutez-les.
2. Créez davantage de liens internes.
3. Mettez à jour leur contenu et continuez à le faire régulièrement.
4. Créez davantage de liens externes vers ces sites.

6. Comment découvrir les pages orphelines?

Les pages orphelines sont des pages qui n’ont pas de liens internes et qui vivent donc en dehors de la structure de votre site.

Votre plateforme de suivi SEO ne les trouve pas car elle ne s’appuie probablement que sur la recherche de liens et votre sitemap XML.

Intégrer (à nouveau) ces pages dans la structure de votre site peut vraiment vous aider à améliorer les performances SEO de votre site.

Trouver des pages orphelines faisant autorité, c’est comme retrouver la clé perdue de votre portefeuille contenant dix bitcoins que vous avez achetés en 2013.

Voyons si votre site web contient des pages orphelines et intégrez-les dans la structure de votre site.

Voici comment trouver les pages orphelines :

1. Dressez une liste de toutes les URL du site
2. Filtrez les URL qui ne sont pas des pages et les pages non indexables.
3. Supprimez les URL contenant des liens internes

Prochaines étapes

Maintenant, parcourez la liste des pages orphelines et analysez si elles ont de la valeur :

1. Obtiennent-elles du trafic (organique) ?
2. Des liens externes pointent-ils vers elles ?
3. Contiennent-elles un contenu utile pour vos visiteurs ?

Décidez ensuite de leur sort :

1. Si vous souhaitez conserver ces pages, intégrez-les à la structure de votre site, mettez leur contenu à jour et ajoutez des liens internes vers des pages connexes.
2. Si vous ne souhaitez pas conserver ces pages et qu’elles n’ont aucune valeur, supprimez-les.

7. Suivre l’évolution de la situation lors d’un projet de migration

Pendant les migrations, il est important de surveiller le comportement de Google en matière d’exploration, et ce pour deux raisons :

1. Pour préparer la migration, vous devez créer un plan de redirection qui inclut vos URL les plus importantes et l’endroit vers lequel elles doivent être redirigées.
2. Une fois les modifications apportées, vous devez savoir si Google explore vos nouvelles URL et comment elles progressent. Si quelque chose les retient, vous devez le savoir immédiatement.

7a. Plan de redirection complet

Pour vérifier si votre plan de redirection est complet, relevez les URL les plus fréquemment explorées et comparez-les à votre plan de redirection.

Prochaines étapes

Si vous avez constaté que certaines URL ne figurent pas dans votre plan de redirection, ajoutez-les.

7b. Surveiller le comportement de Google en matière d’exploration

Pour vérifier que Google explore vos nouvelles URL, suivez les étapes du cas d’utilisation 5. Découvrez les pages indexables que Google n’explore pas.

Prochaines étapes

Les migrations bouleversent toujours les choses : Google doit se familiariser avec la structure de votre nouveau site, les modifications apportées à votre contenu, etc.

Il lui faut toujours un certain temps pour s’adapter, mais si vous trouvez qu’il prend trop de temps, voici ce que vous pouvez faire pour accélérer le processus d’exploration des nouvelles URL qui n’ont pas encore été explorées :

1. Modifiez la structure de vos liens internes afin que Google ait plus de chances d’explorer ces nouvelles URL.
2. Ajoutez un sitemap XML distinct contenant toutes les nouvelles URL.
3. Créer des liens externes vers les nouvelles URL (oui, c’est plus facile à dire qu’à faire – nous le savons).

L’importance d’un suivi permanent

Votre site web n’est jamais terminé, et le référencement non plus. Si vous voulez gagner en SEO, vous devrez toujours modifier votre site web.

Avec tous les changements que vous apportez continuellement, il est important de s’assurer que l’analyse des fichiers journaux fasse partie de vos efforts de surveillance continue du référencement.

Passez en revue les cas d’utilisation que nous avons couverts ci-dessus et mettez en place des alertes si vos fichiers journaux révèlent un comportement anormal de la part de Google.

Vos fichiers journaux sont le seul moyen de connaître le véritable comportement de Google sur votre site. Ne laissez pas d’argent sur la table, tirez parti des informations fournies par l’analyse des fichiers journaux.

Qui d'Autres Veux Augmenter Ses Ventes Avec Du Trafic SEO ?

Accès Gratuit Immédiat