A/B-Testing im SEO: Methodik, die dem Rauschen standhalt
Wie man SEO-Tests mit echter statistischer Signifikanz fahrt und Signal von saisonalem, algorithmischem und reinem Zufallsrauschen trennt.
Die meisten SEO-Tests, die ich sehe, testen nichts. Jemand tauscht am Dienstag einen Title-Tag, sieht den Traffic am Donnerstag um 12% steigen und ruft im Slack den Sieg aus. In derselben Woche hat Google ein Core Update ausgerollt, der Hauptwettbewerber dreissig Positionen verloren und in den USA war Feiertag. Du hast nicht den Title-Effekt gemessen, du hast Chaos gemessen. Ernsthaftes A/B-Testing im SEO beginnt mit dem Eingestandnis, dass der Kanal von Natur aus verrauscht ist und du ohne Methodik Rauschen wie Signal liest. Dieser Beitrag ist ein Feldhandbuch fur Tests, die einem skeptischen CFO standhalten.
Erstens: SEO erlaubt keinen klassischen User-Split-Test. Du kannst nicht URL A der Halfte des Googlebot zeigen und URL B der anderen. Was du fahrst, ist ein Seiten-Split-Test: ein homogenes Set von URLs wird in Kontroll- und Treatment-Gruppe geteilt, die Anderung auf der Halfte angewandt und das Click-Delta gegen ein Vorhersagemodell verglichen. Tools wie SearchPilot und GrowthBook mit SEO-Plugin tun das, die Logik lasst sich aber mit BigQuery und GSC reproduzieren. Bevor du irgendetwas testest, arbeite On-Page-SEO ohne Vermutungen pruefen: ein datenbasiertes Audit durch, damit deine Baseline sauber ist - Tests auf Mull produzieren statistisch signifikanten Mull.
Die Wahl des Sets ist der Punkt, an dem 80% der Tests sterben. Du brauchst Seiten mit genug Volumen, ahnlichem Verhalten und ohne Kannibalisierung. Bei einem grossen E-Commerce sind das typischerweise PLPs derselben Kategorie mit mindestens 500 organischen Klicks pro Monat. Hast du nur 50 relevante Seiten, vergiss statistische Tests und fahre ein sauberes Before/After mit Kausalanalyse. Bei kleinen Sets konnen Anderungen aus Title-Tags, die konvertieren: 7 in echten SERPs getestete Muster und Ist die Meta Description noch wichtig? Was die CTR-Daten zeigen wirken, aber per p-Wert beweisen wirst du nichts. Ehrlichkeit hier spart spater Glaubwurdigkeit.
Googles CausalImpact-Modell, ursprunglich BSTS, wurde Standard, weil es ein Kontrafaktum aus korrelierten Zeitreihen baut. Du futterst den Traffic der Kontroll-URLs als Kovariablen, das Modell lernt die Vor-Test-Beziehung und projiziert, was ohne Anderung mit den behandelten URLs passiert ware. Der Effekt ist die Differenz zwischen Beobachtung und Projektion, mit Konfidenzintervall. Lass mindestens 21 Tage vor und 21 Tage nach laufen, idealerweise sechs Wochen je Seite. Strukturelle Anderungen wie Headings H1-H6: die Struktur, die Google wirklich liest und Canonical Tags: haeufige Fehler, die organischen Traffic ausbluten brauchen noch langer, weil Google Zeit zum Reprocessieren braucht und der Effekt nicht linear ist.
Vorsicht vor drei Fallen, die alles entwerten. Erstens: Kontroll-Kontamination, wenn du Interlinking oder ein globales Template anfasst und der Effekt in die Kontrollgruppe leckt. Zweitens: Window-Cherry-Picking, wenn der Test 90 Tage lauft und du die besten 45 auswahlst. Drittens: multiple Hypothesen ohne Bonferroni-Korrektur - du testest 20 Variablen und feierst die eine mit p<0,05 (statistisch wird 1 von 20 zufallig signifikant). Hypothese und Fenster vor dem Start schriftlich festzuhalten ist die einzige Verteidigung. Bei Tests zu Bildoptimierung: Alt-Text, Gewicht und LCP in der Praxis und Core Web Vitals: jenseits des LCP, was wirklich den Hebel bewegt ist das Leck schlimmer, weil das CDN die ganze Site trifft.
Zur Stichprobengrosse: nutze den SearchPilot-Kalkulator oder fahre eine Power-Simulation in R mit pwr. Um einen 5%-Lift bei Klicks mit 80% Power und alpha 0,05 zu erkennen, brauchst du typischerweise 100+ Seiten pro Arm in Kategorien mit ublicher E-Commerce-Varianz. Lifts unter 3% sind auf Sites mit weniger als 500 relevanten Seiten kaum zu beweisen, und das ist okay - es heisst, du solltest grossere Anderungen testen. Kleine Optimierungen aus CTR-Benchmark nach Position: aktualisierte Daten 2026 und Search Console: 7 ungenutzte Berichte und was sie wirklich verraten gehoren eher in einen iterativen Rollout als in einen formellen Test.
Praktisches Takeaway: bevor du den nachsten Test startest, schreib eine A4-Seite mit Hypothese, kausalem Mechanismus, Primarmetrik, Vor- und Nach-Fenster, Abbruchkriterium und was du machst, wenn das Ergebnis nicht signifikant ist. Wenn du das nicht aufschreiben kannst, hast du keinen Test, du hast ein Bauchgefuhl. Ehrliches SEO akzeptiert, dass die Halfte der Ideen die Nadel nicht messbar bewegt - und das ist wertvolle Information. Hor auf, nach Siegen zu jagen, und jag der Wahrheit nach, das Ranking folgt als Konsequenz.