Sitemap XML moderne: priorite, lastmod et ce qu'il faut ignorer
Les sitemaps ont change. Google ignore priority et changefreq, mais traite lastmod comme un signal de crawl. Voici ce qui pese en 2026.
En fevrier 2026 nous avons audite 41 sitemaps de clients enterprise et trouve le meme schema: priority bloquee a 0.8 partout, changefreq qui annonce 'daily' sur des pages statiques, et lastmod qui colle a la date du deploy alors que le contenu n'a pas bouge. Googlebot previent depuis des annees que priority et changefreq sont ignores, mais lastmod est devenu un signal de planification de crawl. Mentir une fois sur lastmod et vous perdez votre credit pour plusieurs cycles. Ce post montre ce qui compte vraiment, avec des donnees de log et Search Console venant de quatre tenants entre 12k et 4,2M URL indexables.
Commencez par l'essentiel: le sitemap doit lister uniquement des URL canoniques, 200 OK, indexables et que vous voulez dans l'index. Ca parait evident, et pourtant 73% des audits realises en 2026 contenaient encore des URL 301, des pages en noindex ou des variantes avec UTM. Le crawler lit ca comme du bruit et abaisse la priorite du domaine. Utilisez Lighthouse plus Screaming Frog pour croiser le sitemap avec les status codes reels. Si vous n'avez pas encore ce process, lisez Comment auditer le SEO on-page sans tomber dans les conjectures avant de continuer a peaufiner le XML.
Sur lastmod: il doit refleter un changement reel de contenu, pas un timestamp pousse par le CMS. Modifier l'alt d'une image ne change pas lastmod. Reecrire 40% du corps, mettre a jour les tableaux, changer le H1, oui. Une declaration de Gary Illyes reconfirmee en janvier 2026 indique que Google utilise lastmod comme indice et ajuste la frequence si vous restez coherent pendant 4 a 6 semaines. Mentir une seule fois vous sort du planning pour des mois. Pour decider de ce qui merite d'etre reecrit, voyez Reecrire ou refaire : trancher avec les donnees de la SERP et Content decay : reperer les articles qui perdent du trafic.
Segmentez vos sitemaps par type et par vitesse de changement. Un sitemap de PDP change tous les jours en e-commerce; les PLP bougent quand le merchandising tourne; le blog bouge quand vous publiez. Tout fourrer dans un sitemap.xml monolithique de 50Mo est l'erreur classique. Le plafond du protocole tient toujours: 50 000 URL ou 50Mo decompresses par fichier. Pour les gros sites utilisez un sitemap index, separez par langue et par type, et croisez avec hreflang sans douleur: implementation pour sites multilingues. En e-commerce, separez PLP et PDP et appliquez la strategie de On-page e-commerce: PLP vs PDP sans cannibalisation.
Ce que vous pouvez ignorer sans regret: priority, changefreq, image:image si vos images sont deja bien marquees pour le lazy load, et video:video si vous deja servez du Schema VideoObject. Google a deprecie les balises news dans le sitemap general en 2023; news exige son propre fichier. N'incluez pas les URL paginees (?page=2) si vous avez deja rel=prev/next ou un canonical view-all. Ne listez pas les tag pages sans trafic organique sur les 90 derniers jours, elles bouffent le crawl budget. Si vous ne l'avez pas mesure, Crawl budget : quand s'inquieter et comment le mesurer detaille le process en BigQuery.
Generez le sitemap depuis la base de donnees, pas depuis un crawler. Les sitemaps issus du crawl sont lents, heritent des bugs de routing et produisent un lastmod incorrect. En PostgreSQL, une vue materialisee sur content.updated_at (pas row.updated_at) resout le probleme. Pingez Google via la Search Console API a la place de l'ancien endpoint de ping, retire en juin 2023. Verifiez via log file analysis que Googlebot lit bien le sitemap chaque jour; sinon vous avez un probleme de crawl plus profond decrit dans Log file analysis : ce que Googlebot fait vraiment.
Takeaway pratique: ce soir, telechargez votre sitemap.xml, comptez les URL avec status != 200 et celles dont le lastmod est identique a 100 autres pages. Si l'un des deux depasse 5%, vous brulez du crawl. Coupez tout ce qui n'est pas canonical 200 indexable, segmentez par type, et laissez lastmod dire la verite. En quatre semaines vous verrez bouger 'Pages explorees par jour' dans GSC. C'est ennuyeux, et ca marche.