Indexation partielle: pourquoi des pages disparaissent de Google
Diagnostic pratique des problemes de couverture dans Search Console: identifier, prioriser et resoudre les pages que Google decide de ne pas indexer.
Vous avez publie 800 articles, Search Console en signale 312 indexes, et le client veut savoir ou sont passes les 488 autres. La reponse honnete se trouve rarement dans le XML du sitemap. L'indexation partielle est un symptome compose: en partie technique, en partie qualite, en partie architecture. Avant d'accuser Googlebot, il faut distinguer les pages qu'il ne peut pas explorer, celles qu'il explore mais rejette, et celles qu'il indexe avec une faible confiance. Chaque categorie exige une intervention differente, et les traiter comme un meme probleme reste l'erreur la plus frequente en audit de couverture.
Le point de depart, c'est le rapport Pages de GSC, en particulier Explorees, actuellement non indexees et Detectees, actuellement non indexees. La premiere indique que Google a vu le contenu et l'a mis de cote; la seconde, qu'il n'a meme pas priorise le fetch. Chez un client e-commerce de 14k SKUs, nous avons trouve 6 200 URL bloquees en Detectees, prises dans une pagination PLP profonde, cas d'ecole d'un Crawl budget : quand s'inquieter et comment le mesurer mal alloue. La correction n'a pas ete de forcer la reindexation, mais de supprimer 40% des URL paginees par consolidation de filtres, ce qui debloque souvent les On-page e-commerce: PLP vs PDP sans cannibalisation coinces dans une cannibalisation silencieuse.
Quand la page est exploree mais rejetee, le probleme glisse vers la qualite percue. Google calcule un score interne melant signaux de duplication, profondeur semantique et demande SERP; les pages sous le seuil deviennent des fantomes. C'est la que le Log file analysis : ce que Googlebot fait vraiment revele des patterns que GSC cache: une frequence de visite du bot qui baisse semaine apres semaine est un signal de desinteret bien plus precoce que la sortie de l'index. En croisant les logs avec le rapport de couverture, nous avons anticipe le decay jusqu'a 3 semaines a l'avance, ce qui transforme la fenetre d'intervention editoriale.
Viennent ensuite les suspects techniques. Un robots.txt mal ecrit, une directive noindex oubliee dans un template, un canonical pointant vers la mauvaise page. Chacun cree un trou silencieux, et des outils comme Screaming Frog, Sitebulb et l'API URL Inspection resolvent en quelques heures ce qu'un auditeur manuel mettrait des semaines a trouver. Je recommande de derouler en parallele les checklists robots.txt: les pieges qui bloquent l'indexation en silence et Canonical tags : les erreurs frequentes qui saignent le trafic organique avant toute hypothese de contenu, car 30% des cas meurent ici et evitent des reecritures inutiles. Ajoutez la validation hreflang si le site est multilingue, selon hreflang sans douleur: implementation pour sites multilingues.
La dimension contenu entre en scene une fois le technique propre. Les pages minces, les contenus partiellement dupliques ou ceux qui ratent l'intention dominante tombent en premier. Utilisez le rapport Performance filtre par faibles impressions et CTR nul pour reperer les candidats, puis croisez avec la SERP actuelle: si la premiere page affiche un format comparatif et que votre article est une listicle generique, Google a deja tranche. Le cadre de Intention de recherche : 4 types et comment les mapper sur la SERP aide a reclassifier avant de passer a Reecrire ou refaire : trancher avec les donnees de la SERP, une decision qui doit s'appuyer sur des donnees et non sur le ressenti.
L'architecture interne ferme le diagnostic. Les pages orphelines, avec moins de 2 liens internes entrants, ont 4 fois plus de chances de sortir de l'index sur 90 jours, selon les donnees recueillies sur 12 audits le trimestre dernier. Une carte d'Interlinking intelligent: la carte d'autorite interne bien construite redistribue l'equity sans besoin de nouveaux backlinks, et ramene souvent les URL en 2 a 6 semaines. Combinez avec un sitemap XML propre, sans 404 ni redirections, conformement a Sitemap XML moderne: priorite, lastmod et ce qu'il faut ignorer, et vous retirez les derniers pretextes a Google pour ignorer votre inventaire.
A retenir: montez un pipeline hebdomadaire avec trois requetes BigQuery sur GSC brut, un crawl Screaming Frog et les logs serveur des 4 dernieres semaines. Classez chaque URL non indexee en technique, qualite ou architecture, et priorisez selon le potentiel historique d'impressions. L'indexation partielle ne se regle pas avec le bouton Demander l'indexation, mais en eliminant les raisons pour lesquelles Google a prefere ne pas depenser de budget sur votre page.