Technisches SEO

robots.txt: Fallen, die die Indexierung lautlos blockieren

Por Lucas ·

Ein falsch gesetztes Disallow kann 40% des organischen Traffics ausloschen, ohne Warnung. Die haufigsten robots.txt-Fehler und wie man rechtzeitig pruft.

Im Februar ubernahm ich einen Mode-Onlineshop, der in sechs Wochen 38% organischen Traffic verloren hatte. Keine manuelle Massnahme, kein Core Update, kein Content-Umbau. Der Schuldige war eine Zeile in der robots.txt: Disallow: /produkt-, hinzugefugt von einem Entwickler, der eine Testseite namens /produkt-test sperren wollte. Der implizite Wildcard kickte 12.000 PDP-URLs in 19 Tagen aus dem Index. Die Search Console schrie nicht, sie zeigte nur einen langsamen Ruckgang in 'Gefunden - zurzeit nicht indexiert'. Dieser Fall bringt das Problem auf den Punkt: robots.txt ist die unterschatzteste und gefahrlichste Datei einer Site. Teilweise Indexierung: warum Seiten bei Google verschwinden

Falle Nummer eins: Crawl-Blockade und Index-Blockade zu verwechseln. Robots.txt entfernt keine Seiten aus dem Index, es verhindert nur, dass der Googlebot den Inhalt liest. Hatte die URL bereits Backlinks oder stand sie in der Sitemap, taucht sie weiter in der SERP auf, jetzt mit dem hasslichen Snippet: 'Fur diese Seite sind keine Informationen verfugbar'. Ich habe grosse Marken erlebt, die eine Agentur dafur bezahlten, Facettenfilter per Disallow zu 'deindexieren', mit gegenteiligem Effekt: Die URLs steckten im Index fest, ohne anstandigen Title, und kannibalisierten die Hauptseiten. Canonical Tags: haeufige Fehler, die organischen Traffic ausbluten zeigt, warum Canonicals diesen Job besser erledigen.

Zweiter Dauerbrenner: das komplette Sperren von /wp-content/ oder /assets/ in WordPress- und Next.js-Setups. Google muss CSS und JS rendern, um Layout, Mobile-Friendliness und Core Web Vitals zu verstehen. Sperrt man diese Verzeichnisse, sieht Googlebot eine ungestylete Seite, markiert sie als nicht mobilfreundlich, und der per CrUX gemessene LCP driftet von Ihrem PageSpeed-Wert ab. In einem Log-File-Audit bekamen 23% der Googlebot-Requests 200 fur HTML und 403 fur die Bundles, was die wahrgenommene Qualitat sinken liess. JavaScript-SEO: Rendering, Hydration und Indexierung Core Web Vitals: jenseits des LCP, was wirklich den Hebel bewegt

Die dritte Falle steckt in der Syntax. Robots.txt ist kein Regex, akzeptiert aber zwei Wildcards: Stern fur beliebige Sequenz und Dollar fur URL-Ende. Den Dollar nutzt fast niemand, weshalb Disallow: /*.pdf sowohl /report.pdf als auch /report.pdf?utm=email blockiert, gewollt. Aber Disallow: /search blockiert /search, /search-results, /searchengineland-vergleich und alles, was mit /search beginnt. Im robots-Tester der Search Console mit 20 echten URLs zu prufen ist nicht optional. Lassen Sie Screaming Frog mit 'Respect robots.txt' und dann mit 'Ignore robots.txt' laufen, um die Differenz zu sehen. Log file analysis: Was Googlebot wirklich tut

Dazu kommt der Reihenfolge- und Spezifitatsbug. Googlebot folgt der spezifischsten Regel fur den spezifischsten User-Agent, nicht der ersten im File. Wenn Sie User-agent: * mit Disallow: /admin haben und darunter einen leeren User-agent: Googlebot-Block, ignoriert Googlebot die vorherigen Regeln komplett und nimmt Allow: / an. Das hat schon mehrfach Admin-Panels in den Index gespult. Ein weiteres Detail: Die Datei muss in UTF-8 ausgeliefert werden und darf maximal 500 KiB wiegen. Daruber kurzt Google stillschweigend. Die in robots.txt deklarierte Sitemap muss eine absolute URL mit demselben Protokoll sein. Modernes XML-Sitemap: Prioritaet, lastmod und was du ignorieren kannst Crawl Budget: wann es kritisch wird und wie man es misst

Wie man ohne Raten pruft: aktuelle robots.txt ziehen und gegen die URLs Ihrer sitemap.xml laufen lassen, mit dem Python-Paket 'reppy' oder per Batch uber die URL Inspection API von Google. Mit dem Search-Console-Abdeckungsbericht abgleichen, gefiltert nach 'Durch robots.txt-Datei blockiert'. Tauchen dort kommerzielle URLs auf, brennt es. Search Console: 7 ungenutzte Berichte und was sie wirklich verraten beschreibt diesen Alert. Fur grosse Sites bleibt die Log-File-Analyse der einzige ehrliche Weg: Sie sehen genau, was der Googlebot versucht hat und ob er 403 oder 200 bekommen hat. On-Page-SEO ohne Vermutungen pruefen: ein datenbasiertes Audit

Praktisches Fazit: Behandeln Sie robots.txt wie kritische Infrastruktur, nicht wie eine Textdatei. Unter Git versionieren, Code Review vor jedem neuen Disallow erzwingen, einen automatisierten Test gegen Ihre 50 wichtigsten URLs bei jedem Deploy laufen lassen und Slack benachrichtigen, sobald eine auf Disallow kippt. 2026, wenn Googlebot wegen KI-Budgetdruck weniger crawlt, braucht jede falschlich gesperrte URL nach dem Fix langer, um wieder in den Index zu kommen, manchmal 30 bis 60 Tage. Die Kosten eines falschen Disallow waren noch nie so hoch.

Nenhum comentário ainda

Seja o primeiro a comentar.

Deixe seu comentário

Entre com sua conta Canverly para comentar. Você pode usar a mesma conta em qualquer site da rede.

Entrar com Canverly