Crawl Budget: wann es kritisch wird und wie man es misst
Crawl Budget wird zum Problem, bevor es zur Metrik wird. Echte Signale und Diagnose mit Logs, GSC und BigQuery ohne Bauchgefuhl.
Crawl Budget ist das Thema, das erst dann ins Gesprach kommt, wenn es bereits zum Problem geworden ist. Google veroffentlichte 2017, dass Sites mit weniger als ein paar tausend URLs sich keine Sorgen machen mussten, und dieser Satz wurde zur Ausrede, das Thema selbst bei E-Commerce-Shops mit 800.000 PDPs zu ignorieren. Der Kipppunkt ist selten die Anzahl der URLs im Sitemap, sondern das Verhaltnis zwischen nutzlichen Seiten und Seiten, die der Googlebot tatsachlich findet. Sinkt dieses Verhaltnis unter 30%, blutet der Crawl bereits, auch wenn der organische Traffic es noch nicht zeigt.
Das erste praktische Signal taucht in der Search Console unter Einstellungen > Crawling-Statistiken auf. Wenn die taglichen Anfragen in zwei Wochen um 40% fallen ohne Serveranderung, oder wenn die durchschnittliche Antwortzeit von 300ms auf 1.2s springt, hast du ein Budget-Problem. Anderes klassisches Symptom: neue Seiten brauchen mehr als 10 Tage zur Indexierung auf einer Site, die Googlebot fruher am selben Tag bekam. Bevor du irgendetwas anfasst, lohnt sich ein ehrliches On-Page-SEO ohne Vermutungen pruefen: ein datenbasiertes Audit, um auszuschliessen, dass das Problem im Content selbst sitzt.
Die echte Diagnose lebt in den Server-Logs. Filtert man 30 Tage Nginx- oder Cloudflare-Logs nach Googlebot-User-Agent, sieht man Dinge, die GSC nie zeigen wird: wie oft der Bot URLs mit ?sort=-Parameter getroffen hat, wie viele 404 zuruckkamen, wie viele Hits auf endlose Paginierungen von Facetten-Filtern gingen. Bei einem unserer Kunden gingen 62% des Crawls an URLs mit drei oder mehr Parametern, alle canonical auf die saubere Version gesetzt. Die Losung war nicht noindex, sondern interne Links zu korrigieren und Canonical Tags: haeufige Fehler, die organischen Traffic ausbluten zu uberprufen, um die Blutung an der Quelle zu stoppen.
Drei technische Fallen sammeln die meisten Falle. Die erste ist eine falsch konfigurierte robots.txt, die Ressourcen blockiert, die der Renderer braucht, weshalb robots.txt: Fallen, die die Indexierung lautlos blockieren Pflichtlekture ist. Die zweite ist ein aufgeblahter Sitemap voll mit 404-, umgeleiteten oder noindex-URLs, abgedeckt in Modernes XML-Sitemap: Prioritaet, lastmod und was du ignorieren kannst. Die dritte, subtilere, ist JavaScript, das Inhalt erst nach Interaktion rendert und Googlebot leere Seiten sehen lasst, wahrend er Quota verbrennt. Der Guide JavaScript-SEO: Rendering, Hydration und Indexierung behandelt die Muster, die 2026 mit Next.js und Astro funktionieren.
Zum prazisen Messen bau eine BigQuery-Abfrage, die den GSC-Export mit den CDN-Logs verknupft. Zahle distinct gecrawlte URLs pro Tag, gruppiere nach Path-Muster (/p/, /c/, /blog/, /tag/), und berechne das Verhaltnis zwischen gecrawlt und indexiert. Macht /tag/ 35% des Crawls aber 2% der Impressionen aus, hast du ein klares Leck. Diese Art von Analyse ist in BigQuery + GSC: Abfragen, die deine Agentur nicht laufen laesst detailliert beschrieben und in Log file analysis: Was Googlebot wirklich tut, das zeigt, wie man echten Googlebot von Bots trennt, die den User-Agent falschen (rund 18% des Traffics, der sich als Googlebot ausgibt, laut Cloudflare-Daten von 2024).
Es gibt einen Moment, in dem das Problem aufhort, technisch zu sein, und architektonisch wird. Sites mit mehr als 100.000 aktiven URLs brauchen Priorisierungslogik direkt im HTML: verlasslicher lastmod, internes Linking, das die kommerzielle Wichtigkeit der Seiten widerspiegelt, und aggressive Entfernung von Varianten, die keine Nachfrage erzeugen. Bekommt deine Hauptkategorie weniger Googlebot-Hits als eine veraltete Tag-Seite, ist nicht das Budget das Problem, sondern das Design. Praktisches Takeaway: fahre eine 30-Tage-Loganalyse vor dem nachsten Quartal, sortiere URLs in drei Eimer (aktiv, schlafend, Mull), und greif zuerst den dritten an. Crawl Budget erholt sich in 6 bis 8 Wochen, sobald du aufhorst zu futtern, was nicht existieren sollte.