Qu’est-ce qu’un XML Sitemap et pourquoi en avoir un?

Un XML sitemap ou plan du site XML en français. Pour cet article, le terme XML Sitemap sera utilisé.

XML Sitemap en bref

Le XML Sitemap est un document spécial qui répertorie toutes les pages d’un site Web pour fournir aux moteurs de recherche un aperçu de tout le contenu disponible.

Il est fortement recommandé d’implémenter un XML sitemap, en particulier sur les grands sites Web (500+ pages).

Tenez-vous-en aux meilleures pratiques suivantes lors de l’implémentation d’un XML sitemap:

    • Gardez le XML sitemap à jour avec le contenu de votre site Web.
    • Assurez-vous qu’il est propre : seules les pages indexables doivent être incluses.
    • Référencez le XML sitemap à partir de votre fichier robots.txt.
    • Ne répertoriez pas plus de 50.000 URL dans un seul XML sitemap.
    • Assurez-vous que la taille du fichier (non compressé) ne dépasse pas 50 Mo.
    • Ne soyez pas obsédé par les propriétés « lastmod », « priority » et « changefreq ».

Table des matières

Qu’est-ce qu’un XML sitemap ?

Un XML sitemap est un document spécial qui répertorie toutes les pages d’un site Web et est destiné aux moteurs de recherche.

Comparez-le à un annuaire téléphonique : il indique au moteur de recherche quel contenu est disponible et comment l’atteindre.

En outre, des informations supplémentaires peuvent être fournies, telles que la date de la dernière mise à jour du contenu et l’importance relative du contenu.

Les XML sitemaps sont très utiles pour les moteurs de recherche, car ils leur fournissent un aperçu unique de tout le contenu disponible à la fois.

Cela leur sert à la fois de point de départ pour la première fois qu’ils parcourent votre site Web afin de découvrir rapidement le contenu nouvellement ajouté.

Ce qu’il est important de noter, c’est la distinction entre les XML sitemaps et les sitemaps « normaux » (également appelés « HTML sitemaps»). Ces sitemaps sont destinés à vos visiteurs pour trouver du contenu sur votre site Web, tandis que les XML sitemaps sont destinés aux moteurs de recherche.

Pourquoi devriez-vous vous intéresser à XML Sitemap?

Les XML sitemaps aident les moteurs de recherche à évaluer le contenu de votre site Web et constituent un mécanisme pour les informer du contenu nouveau ou mis à jour.

Par conséquent, il est recommandé de les mettre en œuvre chaque fois que cela est possible. Et surtout pour les grands sites web (500+ pages), ils deviennent un véritable « must-have ».

À quoi ressemble un XML sitemap ?

Un XML sitemap est destiné aux moteurs de recherche, et ils sont donc formatés dans un langage facile à comprendre pour les ordinateurs: XML.

 Heureusement, XML est également très lisible pour les humains, alors jetons un coup d’œil à un exemple:


<?xml version="1.0 » encoding="UTF-8 »?>

<urlset xmlns="https://sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://exemple.com/</loc>
<lastmod>2022-12-07T19:55:25+02:00</lastmod>
</url>
<url>
<loc>https://exemple.com/blog/</loc>
<lastmod>2022-12-06T10:23:20+02:00</lastmod>
</url>

</urlset>

Maintenant, pour comprendre ce qui se passe, disséquons les différentes parties!

En-tête XML

<?xml version="1.0 » encoding="UTF-8 »?>

Cet en-tête indique que le contenu est structuré selon la version 1.0 de la norme XML et décrit l’encodage des caractères. Il informe essentiellement les moteurs de recherche de ce qu’ils peuvent attendre du fichier.

Définition de l’ensemble d’URL

<urlset xmlns="http://sitemaps.org/schemas/sitemap/0.9">

Cette  définition d’ensemble d’URL encapsule toutes les URL contenues dans le sitemap et décrit la version de la norme XML Sitemap utilisée.

Notez que l’urlset est fermé au bas du document :

</urlset>

Définition des URL individuelles

<url>

  <loc>https://exemple.com/</loc>

  <lastmod>2022-12-07T19:55:25+02:00</lastmod>

</url>

Enfin, nous arrivons à la partie la plus importante: la définition des URL individuelles à travers  la balise url.

Chaque définition d’URL doit contenir au moins la balise loc-tag (abréviation de location). La valeur de cette balise doit être l’URL complète de la page, y compris le protocole (par exemple, « https:// »).

En outre, chaque définition d’URL peut contenir les propriétés facultatives suivantes :

    • lastmod : date à laquelle le contenu de cette URL a été modifié pour la dernière fois. La date est au format « W3C datetime (s’ouvre dans un nouvel onglet)».
    • priorité : la priorité de l’URL, par rapport à votre propre site web sur une échelle comprise entre 0,0 et 1,0.
    • changefreq : fréquence à laquelle le contenu de l’URL est censé changer. Les valeurs possibles sont toujours, horaire, quotidienne, hebdomadaire, mensuelle, annuelle et jamais.

Où dois-je placer mon XML sitemap ?

Tout comme les pages de votre site Web, le XML sitemap réside sur sa propre URL. Habituellement, l’URL d’un XML sitemap est nomdedomaine.com/sitemap.xml, et il est recommandé de suivre cette convention pour faciliter sa découverte par les moteurs de recherche.

Cependant, si pour une raison quelconque cela n’est pas possible, vous pouvez choisir un emplacement ou un nom de fichier différent, tant que vous le référencez dans le fichier robots.txt  via la directive Sitemap:

Sitemap: https://exemple.com/alternativelocation/alternativefilename.xml

Existe-t-il des limitations pour les XML sitemaps?

Les XML sitemaps ont quelques limitations à garder à l’esprit :

    • Ils ne doivent pas contenir plus de 50.000 URL maximum.
    • Leur taille de fichier est limitée à 50 Mo lorsqu’ils sont décompressés.

Si votre XML sitemap dépasse ces limites, vous devez les répartir sur plusieurs XML sitemaps et utiliser un index de XML sitemap.

Qu’est-ce qu’un index XML sitemap ?

Chaque fois que vous franchissez les limitations d’un seul XML sitemap, vous devez les diviser en XML sitemaps distincts et les regrouper avec un index de XML sitemap. Cet index est un fichier XML séparé qui référence les différents XML sitemaps.

Jetons un coup d’œil à un exemple:

<?xml version="1.0 » encoding="UTF-8 »?>
<sitemapindex xmlns="https://sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://exemple.com/sitemap1.xml.gz</loc>
<lastmod>2022-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap >
<loc>http://exemple.com/sitemap2.xml.gz</loc>
<lastmod>2022-01-01</lastmod>
</sitemap>
</sitemapindex>

Cet index de XML sitemap référence deux XML sitemaps: sitemap1.xml.gz et sitemap2.xml.gz. Disséquons également ce fichier!

En-tête XML

<?xml version=”1.0 » encoding=”UTF-8 »?>

Rien de nouveau ici, tout comme avec le fichier XML Sitemap, nous définissons d’abord que le fichier est au format XML et quel codage de caractères est utilisé.

Définition de l’index sitemap

<sitemapindex xmlns=”https://sitemaps.org/schemas/sitemap/0.9″>

Maintenant, au lieu d’une définition d’urlset,  nous voyons une définition sitemapindex. Cette définition encapsule tous les sitemaps contenus dans l’index sitemap et à nouveau la version de la norme XML Sitemap utilisée.

Tout comme la définition d’urlset, la définition sitemapindex est fermée au bas du document :

</sitemapindex>

Définition des sitemaps individuels

<sitemap>              <loc>http://exemple.com/sitemap1.xml.gz</loc>

 <lastmod>2022-10-01T18:23:17+00:00</lastmod>

</ sitemap >

Et maintenant, passons à l’essentiel: la définition réelle des sitemaps individuels. Tout comme pour les URL, chaque définition de sitemap doit contenir au moins la balise loc, contenant l’URL complète du XML sitemap individuel.

En plus de cela, la définition du sitemap peut éventuellement contenir une définition lastmod. Date à laquelle le XML sitemap référencé a été mis à jour pour la dernière fois. Encore une fois au format « W3C datetime(ouvre dans un nouvel onglet) ».

Où dois-je placer mon index XML sitemap ?

Comme pour les XML sitemaps, il existe une convention pour l’emplacement et le nom de fichier de l’index XML Sitemap : /sitemap_index.xml.

Mais encore une fois, vous êtes libre de vous en écarter, tant que vous le référencez dans le fichier robots.txt:

sitemap: https://exemple.com/alternativelocation/alternativefilename.xml

Meilleures pratiques pour XML Sitemap

Lors de la mise en œuvre de XML sitemaps, il est essentiel de suivre ces meilleures pratiques.

Maintenez votre XML sitemap à jour

Assurez-vous que votre XML sitemap fournit une image à jour de votre site Web. Chaque fois qu’une page est supprimée, elle doit également être retirée de votre XML sitemap. Si vous utilisez la balise optionnelle lastmod-tag, assurez-vous de mettre à jour l’horodatage chaque fois que la page change.

N’incluez que des pages indexables dans votre XML sitemap

Votre XML sitemap ne doit décrire que les pages indexables. Cela signifie que vous devez laisser de côté toutes les URL pointant vers des redirections (par exemple, le code d’état  301) et les pages manquantes (par exemple, le code d’état 404).

De plus, ces pages doivent être indexables, ce qui signifie qu’elles sont accessibles aux moteurs de recherche (pas d’exclusion dans les robots.txt) et qu’il n’y a pas de directives disant aux moteurs de recherche de ne pas indexer la page (comme les balises méta-robots, les liens canoniques ou x-robots-tag).

Astuce de Graines de Référenceur

Le problème: “Indexé, non soumis” dans le sitemap du rapport de couverture d’index de Google Search Console est très utile pour vérifier si votre XML sitemap inclut toutes vos pages indexables.

S’en tenir à l’emplacement et au nom de fichier par défaut

Dans la mesure du possible, respectez l’emplacement et le nom de fichier par défaut de votre XML sitemap /sitemap.xml et de votre index de XML sitemap /sitemap_index.xml.

Cela le rend plus facile pour les moteurs de recherche de les trouver.

Référencez le XML sitemap dans votre fichier robots.txt

Lorsque vous vous écartez de la convention pour l’URL de votre XML sitemap ou index de XML sitemap, vous devez le référencer dans votre fichier robots.txt.

Cependant, même si vous vous en tenez à l’URL standard, il est recommandé d’inclure une référence à celle-ci dans vos robots.txt afin d’assurer la visibilité par les moteurs de recherche.

Ne soyez pas obsédé par lastmod, priority et changefreq

Bien que pour chaque URL, vous puissiez définir les propriétés lastmod, priority et changefreq, cela est entièrement facultatif.

Les définir ne fera pas de mal, et il peut y avoir une légère chance que les moteurs de recherche utilisent cette information, mais il est généralement entendu que les moteurs de recherche n’y prêtent pas (beaucoup) attention (ouvre un nouvel onglet – en anglais).

Respectez les limites des XML sitemaps

Assurez-vous que vos XML sitemaps ne contiennent pas plus de 50.000 URL et que la taille du fichier non compressé est limitée à 50 Mo.

Chaque fois que vous dépassez l’une ou l’autre limite, vous devez diviser le XML sitemap et utiliser un index de XML sitemap.

Foire aux questions sur XML Sitemap

Que signifie l’extension .gz?

L’extension .gz est ajoutée au nom de fichier lorsque le XML sitemap est compressé (via la compression gzip).

Les sitemaps XML contenant de nombreuses URL atteignent généralement des tailles de fichiers importantes et, grâce à l’utilisation de la compression, l’impact de celle-ci sur le stockage sur disque et le temps de transfert réseau peut être réduit.

Qui d'Autres Veux Augmenter Ses Ventes Avec Du Trafic SEO ?