robots.txt: les pieges qui bloquent l'indexation en silence
Un Disallow mal place peut effacer 40% du trafic organique sans alerte. Les erreurs courantes du robots.txt et comment auditer avant la casse.
En fevrier dernier j'ai repris un e-commerce mode qui avait perdu 38% de trafic organique en six semaines. Pas d'action manuelle, pas de core update, pas de refonte editoriale. Le coupable tenait en une ligne dans robots.txt: Disallow: /produit- ajoutee par un dev qui voulait bloquer une page de test appelee /produit-test. Le wildcard implicite a sorti 12 000 URLs de PDP de l'index en 19 jours. La Search Console n'a pas crie, elle a juste affiche un declin progressif dans 'Detectee - actuellement non indexee'. Ce cas resume tout: robots.txt est le fichier le plus sous-estime et le plus dangereux d'un site. Indexation partielle: pourquoi des pages disparaissent de Google
Le piege numero un est de confondre blocage de crawl et blocage d'indexation. Robots.txt ne retire pas les pages de l'index, il empeche seulement Googlebot de lire le contenu. Si l'URL avait deja des backlinks ou figurait dans le sitemap, elle reste dans la SERP, maintenant avec le vilain snippet: 'Aucune information n'est disponible pour cette page'. J'ai vu de grandes marques payer une agence pour 'desindexer' des filtres a facettes avec Disallow, resultat inverse: les URLs sont restees coincees, sans titre correct, cannibalisant les pages principales. Canonical tags : les erreurs frequentes qui saignent le trafic organique explique pourquoi la canonical fait mieux ce travail.
Autre erreur recurrente: bloquer /wp-content/ ou /assets/ en entier sur WordPress et Next.js. Google a besoin de rendre le CSS et le JS pour comprendre la mise en page, la compatibilite mobile et les Core Web Vitals. Si vous bloquez ces dossiers, Googlebot voit une page sans style, la marque non mobile-friendly, et le LCP mesure par CrUX s'eloigne de votre PageSpeed. Sur un audit par log file, 23% des requetes Googlebot recevaient 200 sur le HTML et 403 sur les bundles, plombant la qualite percue. JavaScript SEO: rendu, hydration et indexation Core Web Vitals: au-dela du LCP, ce qui fait bouger l'aiguille
Le troisieme piege vit dans la syntaxe. Robots.txt n'est pas du regex, mais il accepte deux jokers: l'asterisque pour toute sequence et le dollar pour la fin d'URL. Presque personne n'utilise le dollar, et c'est pour cela que Disallow: /*.pdf attrape /rapport.pdf et /rapport.pdf?utm=email, comportement voulu. Mais Disallow: /search bloque /search, /search-results, /searchengineland-comparaison et tout ce qui commence par /search. Tester dans le robots tester de la Search Console avec 20 URLs reelles collees n'est pas optionnel. Lancez Screaming Frog en 'Respect robots.txt' puis en 'Ignore robots.txt' pour voir l'ecart. Log file analysis : ce que Googlebot fait vraiment
Il y a aussi le bug d'ordre et de specificite. Googlebot suit la regle la plus specifique pour l'user-agent le plus specifique, pas la premiere du fichier. Si vous avez User-agent: * avec Disallow: /admin et dessous un bloc User-agent: Googlebot vide, Googlebot ignore completement les regles precedentes, il suppose Allow: /. Cela a deja fait fuiter des panneaux d'admin dans l'index plus d'une fois. Detail: le fichier doit etre servi en UTF-8 et peser au maximum 500 Kio. Au-dela, Google tronque en silence. Le sitemap declare dans robots.txt doit etre une URL absolue avec le meme protocole. Sitemap XML moderne: priorite, lastmod et ce qu'il faut ignorer Crawl budget : quand s'inquieter et comment le mesurer
Comment auditer sans deviner: recuperez le robots.txt courant, passez-le contre la liste d'URLs de votre sitemap.xml avec le package Python 'reppy' ou lancez le validateur Google en batch via l'API URL Inspection. Croisez avec le rapport Couverture de la Search Console filtre sur 'Bloquee par le fichier robots.txt'. Si des URLs commerciales y figurent, vous avez un incendie. Search Console : 7 rapports sous-exploites et ce qu il faut en tirer detaille cette alerte. Pour les gros sites, le log file analysis reste la seule voie honnete: vous voyez exactement ce que Googlebot a tente et s'il a recolte un 403 ou un 200. Comment auditer le SEO on-page sans tomber dans les conjectures
A retenir, cote pratique: traitez robots.txt comme de l'infrastructure critique, pas comme un fichier texte. Mettez-le sous Git, imposez une revue de code avant tout nouveau Disallow, branchez un test automatise qui tourne sur vos 50 URLs cles a chaque deploy et previent Slack si l'une bascule en Disallow. En 2026, avec un Googlebot qui crawle moins sous la pression budgetaire IA, chaque URL bloquee par erreur met plus de temps a revenir dans l'index une fois corrigee, parfois 30 a 60 jours. Le cout d'un Disallow rate n'a jamais ete aussi eleve.