SEO Tecnico

robots.txt: armadilhas que bloqueiam indexacao silenciosamente

Por Lucas ·

Um Disallow mal colocado pode apagar 40% do trafego organico sem alerta. Veja os erros mais comuns no robots.txt e como auditar antes que doa.

Em fevereiro deste ano, atendi um e-commerce de moda que tinha perdido 38% do trafego organico em seis semanas. Nenhuma penalidade manual, nenhum core update, nenhuma mudanca de conteudo. O culpado? Uma linha no robots.txt: Disallow: /produto- adicionada por um dev que queria bloquear uma pagina de teste chamada /produto-teste. O wildcard implicito derrubou 12 mil URLs de PDP do indice em 19 dias. O Search Console nao gritou, apenas mostrou um declinio gradual em 'Descoberta - atualmente nao indexada'. Esse caso resume o problema: o robots.txt e o arquivo mais subestimado e mais perigoso de um site. Indexacao parcial: por que paginas somem do Google

A armadilha numero um e confundir bloqueio de crawl com bloqueio de indexacao. Robots.txt nao remove paginas do indice, apenas impede que o Googlebot leia o conteudo. Se a URL ja tinha backlinks ou estava no sitemap, ela continua aparecendo na SERP, agora como aquele snippet feio: 'Nenhuma informacao disponivel para esta pagina'. Vi marcas grandes pagarem agencia para 'desindexar' filtros facetados com Disallow e o resultado foi o oposto: as URLs ficaram presas no indice, sem titulo decente, canibalizando as paginas principais. Canonical tags: erros comuns que sangram trafego organico explica por que canonical resolve isso melhor.

Outro erro recorrente: bloquear /wp-content/ ou /assets/ inteiros em sites WordPress e Next.js. O Google precisa renderizar CSS e JS para entender layout, mobile-friendliness e Core Web Vitals. Quando voce bloqueia esses diretorios, o Googlebot ve uma pagina sem estilo, marca como nao mobile-friendly e o LCP medido pelo CrUX diverge do seu PageSpeed. Em um caso que auditei via log file, 23% das requisicoes do Googlebot retornavam 200 para HTML e 403 para os bundles, derrubando a percepcao de qualidade. JavaScript SEO: renderizacao, hydration e indexacao Core Web Vitals: alem do LCP, o que move o ponteiro

A terceira armadilha mora na sintaxe. O robots.txt nao e regex, mas aceita dois coringas: asterisco para qualquer sequencia e cifrao para fim de URL. Quase ninguem usa cifrao, e por isso Disallow: /*.pdf bloqueia tanto /relatorio.pdf quanto /relatorio.pdf?utm=email - desejado. Mas Disallow: /search bloqueia /search, /search-results, /searchengineland-comparacao e qualquer coisa que comece com /search. Testar no proprio tester do Search Console, com 20 URLs reais coladas, e nao opcional. Use Screaming Frog em modo 'Respect robots.txt' e compare com 'Ignore robots.txt' para ver a diferenca de paginas crawladas. Log file analysis: o que o Googlebot esta realmente fazendo

Tem ainda o erro de ordem e especificidade. O Googlebot segue a regra mais especifica para o user-agent mais especifico, nao a primeira que aparece. Se voce tem User-agent: * com Disallow: /admin e abaixo um User-agent: Googlebot vazio, o Googlebot ignora completamente o bloco anterior - ele assume Allow: /. Isso ja vazou paineis administrativos para o indice mais de uma vez. Outro detalhe: o arquivo precisa ser servido em UTF-8, com no maximo 500 KiB. Acima disso, o Google trunca silenciosamente. Sitemap declarado no robots.txt deve ser URL absoluta com mesmo protocolo. Sitemap XML moderno: prioridade, lastmod e o que ignorar Crawl budget: quando se preocupar e como medir

Como auditar sem achismo: baixe o robots.txt atual, rode contra a lista de URLs do seu sitemap.xml usando o pacote python 'reppy' ou o validador da Google em batch via API URL Inspection. Cruze com o relatorio de Cobertura do Search Console filtrando por 'Bloqueada pelo robots.txt'. Se aparecerem URLs comerciais ai, voce tem um incendio. Search Console: 7 relatorios subutilizados e o que extrair mostra como configurar esse alerta. Para sites grandes, log file analysis e o unico jeito honesto: voce ve exatamente o que o Googlebot tentou e levou 403 ou 200. Como auditar SEO on-page sem cair em achismos

Takeaway pratico: trate robots.txt como infraestrutura critica, nao como arquivo de texto. Coloque-o sob versionamento Git, exija code review antes de qualquer Disallow novo, monte um teste automatizado que rode contra suas 50 URLs mais importantes a cada deploy e alerte no Slack se alguma virar Disallow. Em 2026, com Googlebot crawlando menos por causa de orcamento de IA, cada URL bloqueada por engano demora mais para voltar ao indice quando voce corrige - as vezes 30 a 60 dias. O custo de um Disallow errado nunca foi tao alto.

Nenhum comentário ainda

Seja o primeiro a comentar.

Deixe seu comentário

Entre com sua conta Canverly para comentar. Você pode usar a mesma conta em qualquer site da rede.

Entrar com Canverly