GRAINES DE REFERENCEUR

L’académie des référenceurs

Le Crawl budget expliqué

Le crawl budget en bref

Le crawl budget ou le budget de crawl est le nombre de pages que les moteurs de recherche vont explorer sur un site web dans un certain délai.

Les moteurs de recherche calculent le crawl budget en fonction de la limite de l’exploration d’un site (le nombre de fois qu’ils peuvent explorer un site sans causer de problèmes) et de la demande d’exploration d’un site (le nombre de fois qu’ils aimeraient explorer un site).

Si vous gaspillez le budget de crawl, les moteurs de recherche ne pourront pas explorer votre site web efficacement, ce qui finira par nuire à vos performances en matière de référencement.

Table des matières

Qu’est-ce que le crawl budget ?

Le crawl budget également appelé le budget d’exploration est le nombre de pages que les moteurs de recherche vont explorer sur un site web dans un certain délai.

Pourquoi les moteurs de recherche attribuent-ils un budget d’exploration aux sites web ?

Parce qu’ils ne disposent pas de ressources illimitées et qu’ils divisent leur attention entre des millions de sites web.

Ils ont donc besoin d’un moyen de hiérarchiser leurs efforts d’exploration.

L’attribution d’un crawl budget à chaque site web les aide à y parvenir.

Comment attribuent-ils un crawl budget aux sites web ?

Il est basé sur deux facteurs : la limite et la demande d’exploration :

  1. Limite d’exploration / host load (charge de l’hôte) : quelle quantité d’exploration un site web peut-il supporter, et quelles sont les préférences de son propriétaire ?
  2. Demande et  planification d’exploration : quelles sont les URL qui valent la peine d’être (re)explorées le plus souvent, en fonction de leur popularité et de la fréquence des mises à jour.

Le budget de crawl est un terme courant dans le domaine du référencement. Le budget de crawl est parfois également appelé espace de crawl ou temps de crawl.

Le crawl budget concerne-t-il uniquement les pages ?

Non, pour des raisons de facilité, nous parlons de pages, mais en réalité, il s’agit de tout document que les moteurs de recherche explorent.

Voici quelques exemples d’autres documents : les fichiers JavaScript et CSS, les variantes de pages mobiles, les variantes hreflang et les fichiers PDF.

Comment fonctionne le crawl limit / host load dans la pratique ?

La limite d’exploration, ou charge d’hôte, est un élément important du budget d’exploration.

Les robots d’indexation des moteurs de recherche sont conçus pour éviter de surcharger un serveur web avec des requêtes, ils sont donc très prudents à ce sujet.

Il existe une variété de facteurs qui influencent la limite d’exploration. 

En voici quelques-uns :

  • Signes d’une plate-forme en mauvais état : fréquence à laquelle les URL demandées expirent ou renvoient des erreurs de serveur.
  • Le nombre de sites web fonctionnant sur l’hôte : si votre site web fonctionne sur une plateforme d’hébergement partagée avec des centaines d’autres sites web, et que vous avez un site web assez important, la limite de crawl pour votre site web est très limitée, car la limite de crawl est déterminée au niveau de l’hôte. Vous devez partager la limite d’exploration de l’hébergeur avec tous les autres sites qui y sont hébergés. Dans ce cas, il est préférable d’utiliser un serveur dédié, ce qui réduira très probablement les temps de chargement pour vos visiteurs.

Une autre chose à considérer est d’avoir des sites mobiles et de bureau séparés fonctionnant sur le même hébergeur. Ils ont également une limite de crawl partagée. Gardez donc cela à l’esprit.

Comment fonctionne la demande et la programmation de crawl dans la pratique ?

La demande de crawl, ou la planification du crawl, consiste à déterminer l’intérêt de re-crawler les URL.

Là encore, de nombreux facteurs influencent la demande d’exploration, parmi lesquels:

  • La popularité : le nombre de liens internes et externes entrants d’une URL, mais aussi le nombre de requêtes pour lesquelles elle est classée.
  • Fraîcheur : fréquence de mise à jour de l’URL.
  • Type de page : le type de page est-il susceptible de changer ? Prenons l’exemple d’une page de catégorie de produits et d’une page de conditions générales. Selon vous, quelle est celle qui change le plus souvent et qui mérite d’être explorée plus fréquemment ?

Astuce Graines de Référenceur 

Forcer les robots de Google à revenir sur votre site lorsqu’il n’y a rien de plus important à trouver (c’est-à-dire un changement significatif) n’est pas une bonne stratégie et ils sont assez intelligents pour déterminer si la fréquence de changement de ces pages ajoute réellement de la valeur. Le meilleur conseil que je puisse donner est de s’efforcer de rendre les pages plus importantes, en ajoutant des informations plus utiles, en enrichissant le contenu des pages (elles déclencheront naturellement plus de requêtes par défaut tant que l’accent sera mis sur un sujet donné). En déclenchant naturellement plus de requêtes dans le cadre de la « mémorisation » (impressions), vous rendez vos pages plus importantes et voilà : vous serez probablement exploré plus souvent.

N’oubliez pas : la capacité d’exploration du système lui-même.

Bien que les systèmes d’exploration des moteurs de recherche disposent d’une capacité d’exploration massive, celle-ci est en fin de compte limitée. Ainsi, dans un scénario où 80 % des centres de données de Google sont mis hors ligne en même temps, leur capacité d’exploration diminue massivement et, par voie de conséquence, le budget d’exploration de tous les sites web.

Pourquoi se préoccuper du crawl budget?

Vous voulez que les moteurs de recherche trouvent et comprennent le plus grand nombre possible de vos pages indexables, et vous voulez qu’ils le fassent le plus rapidement possible.

Lorsque vous ajoutez de nouvelles pages ou que vous mettez à jour des pages existantes, vous voulez que les moteurs de recherche les trouvent le plus rapidement possible.

Plus vite ils auront indexé les pages, plus vite vous pourrez en tirer profit.

Si vous gaspillez votre crawl budget, les moteurs de recherche ne pourront pas explorer votre site web de manière efficace.

Ils passeront du temps sur des parties de votre site qui n’ont pas d’importance, ce qui peut avoir pour conséquence que des parties importantes de votre site ne seront pas découvertes.

S’ils ne connaissent pas ces pages, ils ne les exploreront pas et ne les indexeront pas, et vous ne pourrez pas y attirer des visiteurs par l’intermédiaire des moteurs de recherche.

Vous voyez où cela mène : le gaspillage du crawl budget nuit à vos performances en matière de référencement.

Notez que le crawl budget n’est généralement un sujet de préoccupation que si vous avez un site web de grande taille, disons 10.000 pages et plus.

Astuce Graines de Référenceur 

La vitesse de chargement est l’un des aspects les plus sous-estimé du budget d’exploration. Un site web qui se charge plus rapidement signifie que Google peut explorer plus d’URL dans le même laps de temps. Récemment, j’ai participé à la mise à jour d’un site où la vitesse de chargement était un élément essentiel. Le nouveau site se chargeait deux fois plus vite que l’ancien. Lorsqu’il a été mis en ligne, le nombre d’URL explorées par Google chaque jour est passé de 150.000 à 600.000 – et est resté stable. Pour un site de cette taille et de cette envergure, l’amélioration de la vitesse d’exploration signifie que les contenus nouveaux et modifiés sont explorés beaucoup plus rapidement, et nous constatons un impact beaucoup plus rapide de nos efforts de référencement dans les SERP.

Astuce graines de Référenceur 

Un SEO très sage (d’accord, c’était AJ Kohn) a dit un jour : « Votre site est ce que Googlebot mange ». Votre classement et votre visibilité dans les moteurs de recherche sont directement liés non seulement à ce que Google explore sur votre site, mais aussi à la fréquence à laquelle il le fait. Si Google ne voit pas le contenu de votre site ou ne parcourt pas les URL importantes assez fréquemment en raison d’un budget d’exploration limité/non optimisé, vous aurez beaucoup de mal à vous classer. Pour les grands sites, l’optimisation du budget de crawl peut considérablement améliorer le profil de pages auparavant invisibles. Les sites plus petits doivent moins se préoccuper du budget de crawl, mais les mêmes principes d’optimisation (vitesse, hiérarchisation, structure des liens, déduplication, etc.) peuvent toujours vous aider à vous classer.  

Quel est le budget d’exploration pour mon site web ?

Ce rapport est destiné aux utilisateurs expérimentés.

Si le nombre de pages sur votre site est inférieur à 1.000, il est peu probable qu’il vous soit utile. Vous n’avez donc pas besoin de vous préoccuper de ce niveau d’exploration.

De tous les moteurs de recherche, Google est le plus transparent en ce qui concerne le budget d’exploration de votre site web.

Budget d’exploration dans Google Search Console

Si votre site Web est vérifié dans Google Search Console, vous pouvez obtenir un aperçu du budget de crawl de votre site Web pour Google.

Pour ce faire, procédez comme suit :

1. Connectez-vous à Google Search Console et sélectionnez un site web.

2. Allez dans  Paramètres> Statistiques sur l’exploration > cliquez sur “OUVRIR LE RAPPORT”.

statistique sur l'exploration

Vous pouvez y voir le nombre de pages que Google explore par jour.

Voici un exemple de budget d’exploration:

rapport - crawl budget

Nous voyons ici que pour le 8 août 2023:

1. Le total des demandes d’exploration est de 52

Cela signifie que le nombre total de demandes d’exploration qui ont été initiées pour les URL du site est de 52.

Cela inclut également les demandes de ressources liées aux pages du site, sauf si ces ressources sont hébergées en dehors du site.

Les demandes en double pour la même URL sont comptées individuellement.

Même les demandes qui n’ont pas abouti en raison de problèmes tels qu’un fichier robots.txt non disponible, des problèmes de résolution DNS, des problèmes de connectivité du serveur ou des boucles de redirection sont incluses dans ce total de 52 demandes.

2. La taille de téléchargelment totale est de 894K octets

La taille totale des informations téléchargées lors de cette exploration est de 894 209 octets.

Cette quantité comprend les fichiers et ressources téléchargés depuis votre site pendant une période spécifique.

Ces octets englobent divers types de données tels que le code HTML, les images liées, les fichiers de script et le fichier CSS.

Cette quantité peut être influencée par la mise en cache de ressources de page utilisées sur plusieurs pages. 

Si Google a déjà mis en cache une ressource de page utilisée sur diverses pages de votre site, cette ressource ne sera téléchargée qu’une seule fois, lors de sa mise en cache initiale.

En d’autres termes, seules les nouvelles ressources téléchargées au cours de cette exploration sont prises en compte pour déterminer la taille totale du téléchargement.

3. Temps de réponse moyen (ms) est de 424

Cela indique que le temps moyen nécessaire pour obtenir une réponse à une demande d’exploration visant à afficher le contenu d’une page est de 424 millisecondes (ms).

Cette mesure se concentre spécifiquement sur le délai de réponse de la page elle-même lorsqu’une requête d’exploration est effectuée pendant la période indiquée.

Il est important de noter que ce temps moyen de réponse ne prend pas en considération le temps nécessaire pour extraire des ressources supplémentaires comme les scripts, les images ou d’autres contenus liés ou intégrés, ni le temps d’affichage de la page.

Chaque ressource liée à une page est considérée comme une réponse distincte dans ce calcul.

Remonter à la source : journaux du serveur (server logs)

Il est très intéressant de consulter les journaux de votre serveur pour voir à quelle fréquence les robots d’exploration de Google accèdent à votre site web.

Il est également intéressant de comparer ces statistiques à celles qui sont rapportées dans Google Search Console.

Il est toujours préférable de s’appuyer sur plusieurs sources.

Comment optimiser le crawl budget ?

L’optimisation du crawl budget consiste à s’assurer qu’il ne soit pas gaspillé. Il s’agit essentiellement d’éliminer les causes de gaspillage.

Nous surveillons des milliers de sites web ; si vous deviez vérifier chacun d’entre eux pour des problèmes de budget de crawl, vous verriez rapidement un schéma : la plupart des sites web souffrent du même type de problèmes.

Les raisons les plus courantes que nous rencontrons pour justifier le gaspillage du crawl budget sont:

    1. URL accessibles avec des paramètres : un exemple d’URL avec un paramètre serait https://.example.com/jouet/voiture?color=black. Dans ce cas, le paramètre est utilisé pour enregistrer la sélection d’un visiteur dans un filtre de produit.
    2. Contenu dupliqué : nous appelons « contenu dupliqué » les pages qui sont très similaires ou exactement les mêmes. Exemples : pages copiées, pages de résultats de recherche interne et pages de tags.
    3. Contenu de faible qualité : pages dont le contenu est très limité ou qui n’apportent aucune valeur ajoutée.
    4. Liens brisés et liens de redirection : les liens brisés sont des liens faisant référence à des pages qui n’existent plus, et les liens de redirection sont des liens sous forme d’URL qui redirigent vers d’autres URL.
    5. Inclusion d’URL incorrectes dans les sitemaps XML : les pages non indexables et les non-pages telles que les URL 3xx, 4xx et 5xx ne doivent pas être incluses dans votre sitemap XML.
    6. Pages avec un temps de chargement élevé : les pages qui prennent beaucoup de temps à charger, ou qui ne se chargent pas du tout, ont un impact négatif sur votre crawl budget, car c’est un signe pour les moteurs de recherche que votre site web ne peut pas gérer la requête, et ils peuvent donc ajuster votre limite de crawl.
    7. Nombre élevé de pages non indexables : le site web contient un grand nombre de pages non indexables.
    8. Mauvaise structure de liens internes : si votre structure de liens internes n’est pas correcte, les moteurs de recherche risquent de ne pas accorder suffisamment d’attention à certaines de vos pages.

Astuce Graines de Référenceur 

Google est en quelque sorte comme votre patron ou un client. Vous n’iriez pas à une de ces réunions si vous ne saviez pas de quoi vous allez parler, les points forts de votre travail, les objectifs de votre réunion. En bref, vous aurez un ordre du jour. Lorsque vous entrez dans le « bureau » de Google, vous avez besoin de la même chose. Une hiérarchie de site claire et sans fioritures, un plan du site XML utile et des temps de réponse rapides sont autant d’éléments qui aideront Google à aller à l’essentiel. Ne négligez pas cet élément souvent mal compris du référencement.

Astuce Graines de Référenceur 

Le concept de crawl budget est l’un des points clés du référencement technique. Lorsque vous optimisez le crawl budget, tout le reste se met en place : les liens internes, la correction des erreurs, la vitesse des pages, l’optimisation des URL, le contenu de faible qualité, et bien d’autres choses encore. Les propriétaires de site devraient consulter plus souvent leurs fichiers journaux (log files) afin de contrôler le budget de crawl pour des URL spécifiques, des sous-domaines, des répertoires, etc. Le contrôle de la fréquence de crawl est très lié au budget de crawl et très puissant.

URL accessibles avec des paramètres

Dans la plupart des cas, les URL avec paramètres ne devraient pas être accessibles aux moteurs de recherche, car ils peuvent générer une quantité pratiquement infinie d’URL.

Les URL avec paramètres sont couramment utilisées lors de la mise en place de filtres de produits sur les sites de commerce électronique. Il n’y a pas de problème à les utiliser, mais il faut s’assurer qu’elles ne sont pas accessibles aux moteurs de recherche.

Comment les rendre inaccessibles aux moteurs de recherche ?

    1. Utilisez votre fichier robots.txt pour indiquer aux moteurs de recherche de ne pas accéder à ces URL. 
    2. Ajoutez la valeur de l’attribut nofollow aux liens sur les liens de filtrage. Veuillez noter que depuis mars 2020, Google peut décider d’ignorer l’attribut nofollow. L’étape 1 est donc encore plus importante.

Contenu dupliqué

Vous ne voulez pas que les moteurs de recherche passent leur temps sur des pages au contenu dupliqué. Il est donc important d’empêcher, ou au moins de minimiser, le contenu dupliqué sur votre site.

Comment y parvenir ?

    1. En mettant en place des redirections de sites web pour toutes les variantes de domaines (HTTP, HTTPS, non-WWW et WWW).
    2. En rendant les pages de résultats de recherche interne inaccessibles aux moteurs de recherche à l’aide de votre fichier robots.txt. Voici un exemple de fichier robots.txt pour un site web WordPress.
    3. Désactiver les pages dédiées aux images (par exemple : les pages de pièces jointes dans WordPress).
    4. Faire preuve de prudence dans l’utilisation de taxonomies telles que les catégories et les balises.

Découvrez d’autres raisons techniques du contenu dupliqué et comment y remédier.

Contenu de faible qualité

Les pages à faible contenu ne sont pas intéressantes pour les moteurs de recherche.

Réduisez-les au minimum, voire évitez-les complètement si possible.

Un exemple de contenu de faible qualité est une section FAQ avec des liens pour afficher les questions et les réponses, où chaque question et chaque réponse sont servies par une URL distincte.

Liens brisés et redirections

Les liens brisés et les longues chaînes de redirections sont des impasses pour les moteurs de recherche.

À l’instar des navigateurs, Google semble suivre un maximum de cinq chaînes de redirections au cours d’une exploration (il pourrait reprendre l’exploration plus tard).

On ne sait pas exactement comment les autres moteurs de recherche traitent les redirections ultérieures, mais nous vous conseillons vivement d’éviter complètement les redirections en chaîne et de limiter au maximum l’utilisation des redirections.

Il est clair qu’en réparant les liens brisés et en redirigeant les liens, vous pouvez rapidement récupérer le budget d’exploration gaspillé.

En plus de récupérer du budget d’exploration, vous améliorez également de manière significative l’expérience utilisateur des visiteurs.

Les redirections, et les chaînes de redirections en particulier, allongent le temps de chargement des pages et nuisent ainsi à l’expérience de l’utilisateur.

URLs incorrectes dans les sitemaps XML

Toutes les URL incluses dans les sitemaps XML doivent correspondre à des pages indexables.

Les moteurs de recherche s’appuient fortement sur les sitemaps XML pour trouver toutes vos pages, en particulier dans le cas de sites web de grande taille.

Si vos sitemaps XML sont encombrés de pages qui, par exemple, n’existent plus ou sont redirigées, vous gaspillez du budget pour le crawl.

Vérifiez régulièrement votre sitemap XML à la recherche d’URL non indexables qui n’ont rien à y faire. Vérifiez également l’inverse : recherchez les pages qui sont exclues à tort du sitemap XML.

Le sitemap XML est un excellent moyen d’aider les moteurs de recherche à dépenser judicieusement leur budget d’exploration.

Google Search Console

Comment trouver des rapports sur les problèmes de sitemap XML dans GSC :

    1. Connectez-vous à Google Search Console
    2. Cliquez sur Indexation > Sitemaps
    3. Cliquez sur le sitemap XML
    4. Cliquez sur « VOIR L’INDEXATION DES PAGES »

Astuce Graines de Référenceur 

L’une des meilleures pratiques pour l’optimisation du budget d’exploration consiste à diviser vos sitemaps XML en sitemaps plus petits. Vous pouvez par exemple créer des sitemaps XML pour chacune des sections de votre site web. Ainsi, vous pourrez rapidement déterminer si certaines sections de votre site Web présentent des problèmes.

Supposons que votre sitemap XML pour la section A contienne 500 liens et que 480 d’entre eux soient indexés : vous vous en sortez plutôt bien. Mais si votre sitemap XML pour la section B contient 500 liens et que seuls 120 sont indexés, vous devez vous pencher sur la question. Il se peut que vous ayez inclus un grand nombre d’URL non indexables dans le sitemap XML de la section B.

Pages avec des temps de chargement et des délais d’attente élevés

Les pages avec des temps de chargement élevés / timeouts nuisent au processus de crawl

Lorsque les pages ont des temps de chargement élevés ou qu’elles sont interrompues, les moteurs de recherche peuvent visiter moins de pages dans le cadre du crawl budget qui leur est alloué pour votre site web.

En plus de cet inconvénient, des temps de chargement et des délais d’attente élevés nuisent considérablement à l’expérience utilisateur de vos visiteurs, ce qui se traduit par un taux de conversion plus faible.

Les temps de chargement des pages supérieurs à deux secondes posent problème. Idéalement, votre page devrait se charger en moins d’une seconde.

Vérifiez régulièrement le temps de chargement de vos pages à l’aide d’outils tels que Pingdom, WebPagetest ou GTmetrix.

Vérifiez régulièrement si vos pages se chargent assez rapidement et prenez immédiatement des mesures si ce n’est pas le cas.

Des pages qui se chargent rapidement sont essentielles à votre succès en ligne.

Nombre élevé de pages non indexables

Si votre site web contient un grand nombre de pages non indexables qui sont accessibles aux moteurs de recherche, vous occupez ces derniers à passer au crible des pages non pertinentes.

Nous considérons les types de pages suivants comme non indexables :

  • les redirections (3xx)
  • Pages introuvables (4xx)
  • Pages contenant des erreurs de serveur (5xx)
  • Pages non indexables (pages contenant la directive robots noindex ou une URL canonique)

Pour savoir si vous avez un nombre élevé de pages non indexables, regardez le nombre total de pages que les robots d’indexation ont trouvées sur votre site web et leur répartition. 

Vous pouvez facilement le faire en utilisant Google search console via Pages > Indexartion de pages.

Mauvaise structure de liens internes

La manière dont les pages de votre site web sont reliées entre elles joue un rôle important dans l’optimisation du budget d’exploration.

C’est ce que nous appelons la structure des liens internes de votre site web.

En dehors des backlinks, les pages qui ont peu de liens internes reçoivent beaucoup moins d’attention de la part des moteurs de recherche que les pages qui sont reliées à un grand nombre de pages.

Évitez une structure de liens très hiérarchique, avec des pages au milieu ayant peu de liens.

Dans de nombreux cas, ces pages ne seront pas fréquemment explorées. La situation est encore pire pour les pages situées au bas de la hiérarchie : en raison de leur nombre limité de liens, elles risquent fort d’être négligées par les moteurs de recherche.

Veillez à ce que vos pages les plus importantes comportent de nombreux liens internes. Les pages qui ont été récemment explorées sont généralement mieux classées par les moteurs de recherche. Gardez cela à l’esprit et adaptez votre structure de liens internes en conséquence.

Par exemple, si vous avez un article de blog datant de 2018 qui génère beaucoup de trafic organique, veillez à créer des liens vers cet article à partir d’autres contenus.

Comme vous avez produit de nombreux autres articles de blog au fil des ans, l’article de 2018 est automatiquement relégué au second plan dans la structure des liens internes de votre site web.

Astuce Graines de Référenceur 

En général, vous n’avez pas à vous préoccuper du taux de crawl de vos pages importantes. Ce sont généralement les pages qui sont nouvelles, vers lesquelles vous n’avez pas créé de lien et que les gens ne visitent pas qui ne sont pas souvent explorées.

Comment augmenter le budget de crawl de votre site web ?

Lors d’une interview entre Eric Enge et l’ancien chef de l’équipe webspam de Google, Matt Cutts, la relation entre l’autorité et le budget de crawl a été évoquée :

« La meilleure façon de l’envisager est que le nombre de pages que nous explorons est à peu près proportionnel à votre PageRank. Ainsi, si vous avez beaucoup de liens entrants sur votre page racine, nous allons certainement l’explorer. Ensuite, votre page racine peut contenir des liens vers d’autres pages, qui obtiendront un PageRank et que nous explorerons également. Cependant, au fur et à mesure que vous vous enfoncez dans votre site, le PageRank a tendance à diminuer.

Matt Cutts »

Même si Google a abandonné la mise à jour publique des valeurs de PageRank des pages, nous pensons qu’une forme de PageRank est toujours utilisée dans ses algorithmes.

Comme le PageRank est un terme mal compris et déroutant, nous l’appellerons l’autorité de la page.

Ce qu’il faut retenir ici, c’est que Matt Cutts dit en substance qu’il existe une relation assez forte entre l’autorité de la page et le crawl budget.

Ainsi, pour augmenter le crawl budget de votre site web, vous devez augmenter l’autorité de votre site web. Pour ce faire, il faut en grande partie gagner plus de liens à partir de sites web externes.

Astuce Graines de Référenceur 

Lorsque j’entends l’industrie parler de crawl budget, il s’agit généralement des modifications techniques et sur la page que nous pouvons apporter afin d’augmenter le crawl budget au fil du temps. Cependant, venant d’un contexte de création de liens, les plus grands pics de pages explorées que nous voyons dans Google Search Console sont directement liés au moment où nous gagnons de gros liens pour nos clients.

Questions fréquemment posées sur le crawl budget.

  1. Qu’est-ce que le budget d’exploration ?

Le budget d’exploration est le nombre de pages que les moteurs de recherche vont explorer sur un site web dans un certain délai.

  1. Comment puis-je augmenter mon budget d’exploration ?

Google a indiqué qu’il existe une relation étroite entre l’autorité d’une page et le budget d’exploration.

Plus l’autorité d’une page est grande, plus le budget d’exploration est élevé.

En d’autres termes, pour augmenter votre crawl budget, renforcez l’autorité de votre page.

  1. Qu’est-ce qui peut limiter mon budget de crawl ?

La limite de crawl, également connue sous le nom de charge d’hôte de crawl, est basée sur de nombreux facteurs, tels que l’état du site web et les capacités d’hébergement.

Les robots d’exploration des moteurs de recherche sont réglés de manière à ne pas surcharger un serveur web.

Si votre site web renvoie des erreurs de serveur, ou si les URL demandées expirent souvent, le budget d’exploration sera plus limité.

De même, si votre site web fonctionne sur une plateforme d’hébergement partagée mutualisé, la limite de crawl sera plus élevée car vous devrez partager votre budget de crawl avec d’autres sites web fonctionnant sur l’hébergement.

  1. Dois-je utiliser des URL canoniques et des méta-robots ?

Oui, et il est important de comprendre les différences entre les problèmes d’indexation et les problèmes de crawl.

Les balises URL canoniques et méta robots indiquent clairement aux moteurs de recherche la page qu’ils doivent afficher dans leur index, mais elles ne les empêchent pas d’explorer les autres pages.

Vous pouvez utiliser le fichier robots.txt et la relation de lien nofollow pour traiter les problèmes d’indexation.

Qui d'Autres Veut Recevoir Gratuitement "Mes 7 Premiers Jours vers la Position Zéro Sur Google!"?