Indexacao parcial: por que paginas somem do Google
Diagnostico pratico de problemas de cobertura no Search Console: como identificar, priorizar e resolver paginas que o Google decide nao indexar.
Voce publicou 800 artigos, o Search Console reporta 312 indexados, e o cliente quer saber onde estao os outros 488. A resposta mais honesta raramente esta no XML do sitemap. Indexacao parcial e um sintoma composto: parte tecnico, parte qualidade, parte arquitetura. Antes de culpar o Googlebot, e preciso separar paginas que ele nao consegue rastrear, paginas que ele rastreia mas rejeita, e paginas que ele indexa mas com baixa confianca. Cada bucket pede uma intervencao diferente, e tratar todos como o mesmo problema e o erro mais comum em auditorias de cobertura.
O ponto de partida e o relatorio Paginas no GSC, especificamente as categorias Rastreada, atualmente nao indexada e Descoberta, atualmente nao indexada. A primeira sinaliza que o Google viu o conteudo e decidiu engavetar; a segunda indica que ele nem priorizou o fetch. Em um cliente de e-commerce com 14k SKUs, encontramos 6.200 URLs em Descoberta presa em paginacao profunda de PLP, um caso classico de Crawl budget: quando se preocupar e como medir mal distribuido. A correcao nao foi forcar reindexacao, foi cortar 40% das URLs paginadas via consolidacao de filtros, o que costuma desbloquear On-page para e-commerce: PLP vs PDP sem canibalizar travados em canibalizacao silenciosa.
Quando a pagina e rastreada mas rejeitada, o problema migra para qualidade percebida. O Google calcula um score interno que combina sinais de duplicacao, profundidade semantica e demanda de SERP, e paginas que ficam abaixo do limiar viram fantasmas. Aqui o Log file analysis: o que o Googlebot esta realmente fazendo revela padroes que o GSC esconde: frequencia de visita do bot caindo semana a semana e um sinal de desinteresse muito mais cedo que a remocao do indice. Cruzando logs com o relatorio de cobertura, conseguimos antecipar decay em ate 3 semanas, e isso muda completamente a janela de intervencao do time editorial.
Os suspeitos tecnicos vem em seguida. Um robots.txt mal escrito, uma diretiva noindex esquecida em template, um canonical apontando para outra pagina por engano. Cada um desses cria um buraco silencioso, e ferramentas como Screaming Frog, Sitebulb e a propria URL Inspection API resolvem em horas o que um auditor manual levaria semanas. Recomendo rodar em paralelo o checklist de robots.txt: armadilhas que bloqueiam indexacao silenciosamente e Canonical tags: erros comuns que sangram trafego organico antes de qualquer hipotese de conteudo, porque 30% dos casos morrem aqui e poupam reescrita desnecessaria. Adicione validacao de hreflang se o site for multilingue, conforme hreflang sem dor: implementacao para sites multilingues.
A dimensao de conteudo entra depois que o tecnico esta limpo. Paginas finas, conteudo duplicado parcial, ou material que nao responde a intencao de busca dominante tendem a cair primeiro. Use o relatorio de Performance filtrado por impressoes baixas e CTR zerado para encontrar candidatos, e cruze com dados de SERP atual: se a primeira pagina hoje exibe formato comparativo e seu artigo e uma listicle generica, o Google ja decidiu. A trilha de Intencao de busca: 4 tipos e como mapear no SERP ajuda a reclassificar antes de partir para Reescrever ou refazer: a decisao por dados de SERP, decisao que precisa ser feita por dados, nao por sentimento.
Arquitetura interna fecha o diagnostico. Paginas orfas, com menos de 2 links internos apontando, sao 4x mais propensas a sair do indice em janelas de 90 dias, segundo dados que coletamos em 12 auditorias no ultimo trimestre. Um mapa de Interlinking inteligente: o mapa de autoridade interna bem feito redistribui equity sem precisar de backlinks novos, e costuma trazer URLs de volta em 2 a 6 semanas. Combine isso com sitemap XML limpo, sem URLs 404 ou redirecionadas, conforme Sitemap XML moderno: prioridade, lastmod e o que ignorar, e voce remove os ultimos pretextos para o Google ignorar seu inventario.
Takeaway pratico: monte um pipeline semanal com tres queries no BigQuery puxando GSC bruto, um crawl do Screaming Frog e logs do servidor das ultimas 4 semanas. Classifique cada URL nao indexada em tecnica, qualidade ou arquitetura, e priorize pelas que tem maior potencial de impressao historica. Indexacao parcial nao se resolve com botao de Solicitar Indexacao, se resolve eliminando os motivos pelos quais o Google preferiu nao gastar recurso na sua pagina.