Log file analysis : ce que Googlebot fait vraiment
Search Console montre ce que Google veut bien dire. Les logs serveur montrent ce qu'il fait reellement. C'est cet ecart qui paie le salaire d'un SEO senior.
Search Console annonce 18 000 pages crawlees par jour. Votre log Nginx affiche 47 000 hits Googlebot, dont 31 000 sur des URLs que vous pensiez avoir retirees en 2023. Bienvenue dans la partie du SEO que personne ne met dans le pitch deck. L'analyse de logs est la seule source qui montre ce que le crawler a vraiment fait, dans quel ordre, a quelle frequence et avec quel code statut. Le reste est du recit. Avant toute audit serieuse, je ferme les jolis dashboards et j'ouvre un .gz de 8 Go dans le terminal.
Le point de depart est simple : 30 jours de logs bruts, filtre par user-agent Googlebot valide via reverse DNS (host 66.249.x.x doit resoudre vers googlebot.com), puis agregation par URL, code statut et timestamp. Des outils comme Screaming Frog Log File Analyser tiennent jusqu'a 5M de lignes ; au-dela, BigQuery ou un pipeline DuckDB coute moins cher. Si vous ne croisez pas deja avec BigQuery + GSC: les requetes que votre agence ne lance pas, vous laissez la moitie du signal sur la table. Les deux se completent : GSC dit quelle requete, le log dit quelle URL le bot a priorisee.
La premiere decouverte est souvent inconfortable. Sur un e-commerce audite le mois dernier, 62% du crawl partait sur des URLs avec parametres de filtre (?couleur=bleu&taille=M) qui n'avaient rien a faire dans l'index. C'est du Crawl budget : quand s'inquieter et comment le mesurer brule sur des pages sans valeur de recherche. La correction a ete chirurgicale : canonical vers la categorie propre, parametres dans le robots.txt, revision du sitemap. En 21 jours, le crawl sur les vraies PDP a grimpe de 34%. Rien de tout cela n'apparait dans le rapport de couverture avant que les degats soient faits.
Les codes statut racontent l'histoire que personne ne veut lire. Si 12% des requetes Googlebot renvoient 304, tout va bien - votre Last-Modified fait son travail. Si 8% renvoient 301, acceptable. Au-dela de 15% de redirections en chaine, vous saignez du jus, comme je l'explique dans Redirections 301 vs 302 : l'impact reel sur le ranking. Quand des 5xx sporadiques correlent avec les heures de pointe, ce n'est pas du SEO, c'est de l'infra - mais l'impact sur le ranking arrive deux semaines plus tard. Tracez le code statut par heure et les patterns sautent aux yeux.
La frequence de crawl par type de page est le signal le plus sous-exploite. Categories crawlees toutes les 6 heures, PDP tous les 3 jours, posts de blog tous les 11 jours - ce delta compte. Si un cluster que vous jugez strategique est visite une fois par mois, vous avez un probleme de Interlinking intelligent: la carte d'autorite interne et probablement de Topical authority: comment construire des clusters qui rankent. Croisez avec Content decay : reperer les articles qui perdent du trafic et vous voyez quelles URLs ont perdu l'attention du bot avant de perdre du trafic - ce qui donne une fenetre de 30 a 60 jours pour agir.
Trois requetes que je lance sur chaque nouveau projet. Premiere : top 100 des URLs par hits Googlebot qui renvoient 404 - ca seul amortit la mission. Deuxieme : URLs dans le sitemap n'ayant recu aucun crawl en 60 jours - candidates a l'elagage ou a la reecriture selon Reecrire ou refaire : trancher avec les donnees de la SERP. Troisieme : URLs a fort crawl mais zero impression dans GSC - presque toujours des pages techniques qui fuient l'autorite. Documentez, priorisez par impact estime, et livrez en sprints de deux semaines. Pas de tableur de 400 lignes que personne n'executera.
A retenir : planifiez une extraction mensuelle des logs, gardez un historique de 13 mois (pour comparer year-over-year sans bruit saisonnier), et posez des alertes sur trois metriques - taux de 5xx Googlebot au-dessus de 2%, chute de 20% sur les hits des URLs strategiques, apparition de nouveaux clusters d'URLs indesirables dans le top 50 du crawl. L'analyse de logs n'est pas un projet ponctuel, c'est de l'instrumentation continue. Ceux qui la traitent comme un audit annuel decouvrent le probleme six mois apres la chute du trafic.