Log file analysis: Was Googlebot wirklich tut
Search Console zeigt, was Google dir sagen will. Server-Logs zeigen, was er tatsachlich macht. Diese Differenz finanziert das Gehalt eines Senior-SEO.
Search Console meldet 18.000 gecrawlte Seiten pro Tag. Dein Nginx-Log zeigt 47.000 Googlebot-Hits, davon 31.000 auf URLs, die du seit 2023 fur abgeschaltet gehalten hast. Willkommen im Teil des SEO, den niemand ins Pitch Deck schreibt. Log file analysis ist die einzige Quelle, die zeigt, was der Crawler wirklich getan hat, in welcher Reihenfolge, mit welcher Frequenz und mit welchem Statuscode. Der Rest ist Erzahlung. Vor jeder ernsthaften Auditierung schliesse ich die huebschen Dashboards und oeffne eine 8-GB-.gz-Datei im Terminal.
Der Startpunkt ist simpel: 30 Tage Rohlogs, Filter nach Googlebot-User-Agent, validiert per Reverse DNS (host 66.249.x.x muss auf googlebot.com aufloesen), dann Aggregation nach URL, Statuscode und Timestamp. Tools wie Screaming Frog Log File Analyser packen bis zu 5 Mio. Zeilen; darueber wird BigQuery oder eine DuckDB-Pipeline billiger. Wer nicht parallel BigQuery + GSC: Abfragen, die deine Agentur nicht laufen laesst fahrt, laesst die Halfte des Signals auf dem Tisch. Beide erganzen sich: GSC sagt dir die Query, das Log sagt dir, welche URL der Bot priorisiert hat.
Die erste Entdeckung ist meistens unangenehm. In einem E-Commerce-Audit letzten Monat gingen 62% des Crawls auf URLs mit Filterparametern (?farbe=blau&groesse=M), die im Index nichts zu suchen hatten. Das ist Crawl Budget: wann es kritisch wird und wie man es misst verbrannt auf Seiten ohne Suchwert. Die Korrektur war chirurgisch: Canonical auf die saubere Kategorie, Parameter in der robots.txt, Sitemap-Revision. In 21 Tagen stieg der Crawl auf echte PDPs um 34%. Nichts davon taucht im Coverage-Bericht auf, bevor der Schaden angerichtet ist.
Statuscodes erzaehlen die Geschichte, die niemand lesen will. Wenn 12% der Googlebot-Requests 304 zurueckgeben, ist alles okay - dein Last-Modified macht seinen Job. 8% mit 301 ist akzeptabel. Ueber 15% Redirect-Ketten blutest du Equity, wie ich in 301 vs 302 Redirects: der echte Ranking-Impact zeige. Wenn sporadische 5xx mit Peak-Stunden korrelieren, ist es kein SEO-Problem, sondern Infra - aber der Ranking-Impact schlaegt zwei Wochen spaeter ein. Trag Statuscode pro Stunde in eine einfache Grafik ein und Muster springen ins Auge.
Crawl-Frequenz pro Seitentyp ist das am meisten unterschaetzte Signal. Kategorien alle 6 Stunden, PDPs alle 3 Tage, Blogposts alle 11 Tage - dieses Delta zaehlt. Wenn ein als strategisch markiertes Cluster nur einmal pro Monat besucht wird, hast du ein Intelligentes Interlinking: die Karte interner Autoritaet-Problem und wahrscheinlich auch ein Topical Authority: Cluster bauen, die wirklich ranken-Problem. Im Abgleich mit Content Decay: Posts erkennen, die heimlich Traffic verlieren siehst du, welche URLs die Aufmerksamkeit des Bots verloren, bevor sie Traffic verloren - das gibt dir ein Fenster von 30 bis 60 Tagen zum Handeln.
Drei Queries, die ich in jedem neuen Projekt fahre. Erstens: Top 100 URLs nach Googlebot-Hits, die 404 zurueckgeben - das allein refinanziert das Engagement. Zweitens: URLs in der Sitemap, die in 60 Tagen keinen Crawl bekommen haben - Kandidaten fuer Pruning oder Rewrite gemaess Neuschreiben oder neubauen: Entscheidung anhand von SERP-Daten. Drittens: URLs mit hohem Crawl, aber null Impressionen in GSC - fast immer technische Seiten, die Autoritat verlieren. Dokumentieren, nach geschaetztem Impact priorisieren, in Zwei-Wochen-Sprints abarbeiten. Keine 400-Zeilen-Tabelle, die niemand umsetzt.
Praktisches Takeaway: monatliche Log-Extraktion einplanen, 13-Monats-Historie halten (damit Year-over-Year-Vergleiche frei von saisonalem Rauschen sind) und Alerts auf drei Metriken setzen - Googlebot-5xx-Rate ueber 2%, 20% Rueckgang bei Hits auf strategische URLs und neue Cluster unerwuenschter URLs im Top 50 nach Crawl. Log file analysis ist kein Einzelprojekt, sondern kontinuierliche Instrumentierung. Wer das als jaehrliches Audit behandelt, erfaehrt sechs Monate nach dem Traffic-Einbruch davon.