A/B testing em SEO: metodologia que resiste a ruido
Como rodar testes SEO com significancia estatistica de verdade, separando sinal de ruido sazonal, algoritmo e sorte.
A maioria dos testes de SEO que vejo nao testa nada. Trocam uma title tag na terca, veem o trafego subir 12% na quinta e gritam vitoria no Slack. So que naquela semana o Google rodou um core update, a concorrente caiu 30 posicoes e era feriado no hemisferio norte. Voce nao mediu o efeito da title, mediu o caos. A/B testing serio em SEO comeca admitindo que o canal e barulhento por natureza e que sem metodologia voce esta lendo ruido como se fosse sinal. Esse post e um manual de campo para rodar testes que sobrevivem a um questionamento de CFO cetico.
Primeiro, entenda que SEO nao permite split test classico de usuario. Voce nao pode mostrar a URL A para metade do Googlebot e a URL B para a outra metade. O que voce roda e um split test de paginas: divide um conjunto homogeneo de URLs em controle e tratamento, aplica a mudanca em metade, e compara o delta de cliques contra um modelo de previsao. Ferramentas como SearchPilot e o GrowthBook com plugin de SEO fazem isso, mas a logica voce pode replicar com BigQuery e GSC. Antes de testar qualquer coisa, leia Como auditar SEO on-page sem cair em achismos para garantir que sua baseline esta limpa, porque testar sobre lixo so produz lixo estatisticamente significante.
A escolha do conjunto e onde 80% dos testes morrem. Voce precisa de paginas com volume suficiente, comportamento similar e que nao se canibalizem. Para um e-commerce grande, isso costuma ser PLPs de uma mesma categoria com pelo menos 500 cliques organicos por mes cada. Se voce so tem 50 paginas relevantes, esquece teste estatistico e va de before/after com analise de causa. Quando o conjunto e pequeno, mudancas de Title tags que convertem: 7 padroes testados em SERPs reais e Meta description ainda importa? O que os dados de CTR mostram podem ate funcionar, mas voce nao tem como provar com p-valor. Honestidade aqui evita gastar credibilidade depois.
O modelo CausalImpact do Google, originalmente do BSTS, virou padrao porque constroi um contrafactual usando series correlacionadas. Voce alimenta o modelo com o trafego das URLs de controle como covariaveis, ele aprende a relacao no periodo pre-teste e projeta o que teria acontecido com as URLs tratadas se nada mudasse. O efeito e a diferenca entre observado e projetado, com intervalo de confianca. Rode no minimo 21 dias pre e 21 dias pos, idealmente 6 semanas de cada lado. Mudancas estruturais como Headings H1-H6: a estrutura que o Google realmente le e Canonical tags: erros comuns que sangram trafego organico precisam ate de mais tempo, porque o Google demora para reprocessar e o efeito nao aparece linear.
Cuidado com tres armadilhas que invalidam tudo. Primeira: contaminacao de controle, quando voce mexe em interlinking ou template global e o efeito vaza para o grupo de controle. Segunda: cherry-picking de janela, quando voce roda o teste por 90 dias e seleciona os 45 com melhor resultado. Terceira: multiplas hipoteses sem correcao Bonferroni, voce testa 20 variaveis e celebra a unica com p<0.05 (estatisticamente, 1 em 20 da significativa por acaso). Documentar a hipotese e a janela antes de comecar e a unica defesa. Para testes de Otimizacao de imagens: alt text, peso e LCP na pratica e Core Web Vitals: alem do LCP, o que move o ponteiro o vazamento e ainda pior porque CDN afeta o site todo.
Sobre tamanho de amostra: use o calculador do SearchPilot ou rode uma simulacao de poder no R com pwr. Para detectar um lift de 5% em cliques com 80% de poder e alpha 0.05, voce normalmente precisa de 100+ paginas por braco em categorias com variancia tipica de e-commerce. Lift menor que 3% e quase impossivel de provar em sites com menos de 500 paginas relevantes, e isso e ok, significa que voce deveria estar testando mudancas maiores. Pequenas otimizacoes de Benchmark de CTR por posicao: dados atualizados de 2026 e Search Console: 7 relatorios subutilizados e o que extrair valem mais como rollout iterativo do que como teste formal.
Takeaway pratico: antes do proximo teste, escreva uma pagina A4 com hipotese, mecanismo causal, metrica primaria, janela pre e pos, criterio de parada e o que voce vai fazer se der nao-significativo. Se voce nao consegue escrever isso, nao tem teste, tem palpite. SEO honesto aceita que metade das ideias nao vai mover o ponteiro de forma mensuravel, e isso e informacao valiosa. Pare de procurar vitorias e comece a procurar verdade, o ranking vem como consequencia.