Rastreamento de sites 101: o guia para iniciantes em rastreadores da Web

O rastreio de sítios Web é o processo em que os bots dos motores de busca "rastreiam" a Internet para encontrar e indexar páginas para os motores de busca.
Última atualização 3 de novembro de 2023

O rastreamento de sites permite que os mecanismos de pesquisa encontrem e forneçam conteúdo relevante aos pesquisadores. Este guia de rastreio de sítios Web 101 abrange tudo o que precisa de saber sobre rastreio de sítios e rastreadores Web, por isso, vamos começar!

Visão geral do guia 101 sobre rastreamento de sites

O que é o rastreio de sítios Web?

O rastreio de sítios Web é o processo em que os bots dos motores de busca rastreiam a Internet para encontrar e indexar páginas para os motores de busca. Os motores de busca dependem de bots, ou rastreadores da Web, para indexar páginas e apresentar aos utilizadores sítios Web relevantes nos resultados da pesquisa.

Porque é que o rastreio de sítios Web é importante?

Sem o rastreio de sítios Web, os motores de busca como o Google não saberiam que o seu sítio Web existe e, por conseguinte, as suas páginas não seriam classificadas nas páginas de resultados dos motores de busca (SERPs). Obviamente, certificar-se de que o seu conteúdo é rastreável é extremamente importante se quiser que ele seja bem classificado.

Como funciona o rastreio de sítios Web?

Podemos dividir o processo de rastreio de sítios Web nas seguintes etapas:

  1. Os batedores dos motores de pesquisa percorrem as páginas Web na Internet: Os bots dos motores de pesquisa percorrem os sítios Web passando entre as ligações nas páginas para identificar e recolher dados nas páginas Web.
  2. Os rastreadores dos motores de busca recolhem dados sobre as páginas Web: À medida que os rastreadores dos motores de busca encontram diferentes páginas Web na Internet, recolhem informações sobre essas páginas, tais como os seus títulos, meta descrições, cópia, etc.
  3. Os rastreadores de motores de pesquisa enviam dados para os motores de pesquisa: Depois de um motor de busca recolher informações sobre uma página Web, envia esses dados para os motores de busca.
  4. Os motores de pesquisa indexam a página Web: Quando um motor de pesquisa recebe dados sobre uma página Web de um rastreador, armazena e categoriza os dados na sua base de dados, também conhecida como indexação.
  5. Os motores de pesquisa classificam a página Web: Quando um utilizador procura algo através de um motor de pesquisa, esse motor de pesquisa procura nas páginas Web da sua base de dados os melhores sítios Web para a consulta nos resultados da pesquisa.

O rastreio de sítios Web é extremamente importante para os motores de pesquisa, os utilizadores e as empresas. Para os motores de busca, sem o rastreio, não seria possível fornecer as informações e respostas de que os utilizadores necessitam.

E para as empresas, se o seu sítio Web não for rastreado e os motores de busca não indexarem as suas páginas, o seu sítio não será classificado nos resultados de pesquisa e os utilizadores não poderão descobrir a sua empresa.

É simples.

Se o Google não conseguir encontrar o seu conteúdo, como é que o Google saberá classificar o seu sítio Web?

Agora que já sabe o que é um Web crawler e como funciona o rastreio de Web sites, vamos mergulhar no próximo capítulo do nosso guia 101 sobre rastreio de Web sites - como otimizar para o rastreio de Web sites.

Como otimizar o rastreio de sítios Web

Deve certificar-se de que o seu sítio pode ser rastreado e indexado pelos motores de busca, a fim de ser classificado nos resultados da pesquisa para que os utilizadores possam descobrir a sua empresa.

Mas como é que pode garantir que os motores de busca rastejam o seu sítio?

Eis como otimizar o rastreio de sítios Web para garantir que os motores de pesquisa podem indexar e classificar as suas páginas:

  1. Certifique-se de que a resposta do seu servidor é tão rápida quanto possível
  2. Melhorar a velocidade de carregamento da página
  3. Adicionar mais ligações internas ao seu sítio Web
  4. Envie o seu mapa do sítio para o Google
  5. Remover conteúdo de baixa qualidade e duplicado
  6. Encontrar e corrigir ligações danificadas
  7. Informar os motores de busca sobre a forma como devem localizar o seu sítio com os ficheiros robots.txt
  8. Verifique os seus redireccionamentos

1. Certifique-se de que a resposta do seu servidor é rápida

O rastreio pode afetar o seu sítio Web. É por isso que é importante ter um servidor de alto desempenho. O seu servidor deve ser capaz de lidar com uma grande quantidade de rastreio dos motores de busca sem causar estragos no seu servidor, como baixar o seu tempo de resposta.

Utilize a Consola de Pesquisa do Google para verificar facilmente o tempo de resposta do servidor com o relatório de estado do Anfitrião do site. O objetivo é obter um tempo de resposta inferior a 300 milissegundos.

Relatório de estado do anfitrião que não revelou problemas

2. Melhorar a velocidade de carregamento da página

A velocidade de carregamento da sua página não só afecta os utilizadores, como também pode afetar os rastreadores de sítios Web. Os rastreadores da Web limitam-se normalmente ao que é conhecido como orçamento de rastreio - o número de páginas que os motores de busca rastreiam num sítio Web num determinado período de tempo.

Página inicial do Google PageSpeed Insights

Os Web crawlers não podem esperar o dia todo que as suas páginas carreguem para as poderem rastrear. Melhore a velocidade de carregamento da sua página para que tudo seja carregado o mais rápido possível, de modo a garantir que todas as suas páginas possam ser rastreadas com êxito. Pode verificar a velocidade do seu sítio utilizando a ferramenta PageSpeed Insights do Google.

Dicas profissionais
  1. O nosso verificador de SEO gratuito pode analisar a velocidade da sua página, listar formas de a melhorar, se necessário, e até destacar ficheiros específicos que pode comprimir para acelerar o seu site. Introduza o seu Web site para obter o seu relatório personalizado.
  2. Também pode utilizar a ferramenta Page Speed Insights do Google para ver o tempo de carregamento atual do seu site. Abra o seu relatório Core Web Vitals na Consola de Pesquisa do Google para ver exatamente o que está a diminuir a sua velocidade de carregamento e tome medidas para o corrigir.

3. Acrescentar mais ligações internas no seu sítio Web

Mencionámos anteriormente que os rastreadores da Web rastreiam o seu Web site passando entre as ligações nas suas páginas. A falta de ligações internas e uma estrutura desorganizada dificultam o rastreio e a indexação exactos das suas páginas por parte dos rastreadores.

Melhorar a sua estratégia de ligação interna é uma das melhores formas de otimizar o rastreio do Web site. Adicione ligações internas em todo o seu conteúdo e sítio Web a outras páginas do seu sítio para reforçar a sua estratégia de ligação interna.

Dicas profissionais
  1. Certifique-se de que a sua página inicial liga a outras páginas importantes do seu sítio e que essas páginas também ligam a outras páginas do seu sítio Web. Quanto mais cedo o rastreador conseguir encontrar o seu conteúdo mais importante, melhor.
  2. Adicione ligações no texto do seu conteúdo a páginas relevantes do seu sítio. Tente também ramificar-se para outras áreas do seu sítio para que o rastreador possa encontrar essas páginas mais profundas.
  3. Considere a possibilidade de adicionar ligações de navegação na parte inferior das publicações e artigos do seu blogue para recomendar leituras adicionais aos utilizadores e ajudar os motores de busca a rastrear mais páginas do seu sítio.

4. Enviar o mapa do sítio ao Google

Outra dica importante sobre como otimizar o rastreio de sítios Web é tomar a iniciativa de submeter o seu mapa do sítio ao Google.

Não vale a pena ficar sentado à espera que os bots do motor de busca do Google rastreiem o seu sítio quando lhes apetecer, quando já está pronto.

Captura de ecrã "Adicionar um novo mapa do site" na Consola de Pesquisa do Google

Em vez disso, dê ao Google o mapa para encontrar tudo o que pretende que ele rastreie na Consola de Pesquisa do Google.

Envie o seu mapa do site ao Google para lhe fornecer um roteiro completo de todas as páginas do seu site, para que o Google as possa indexar de imediato.

Dica profissional

Pode enviar o seu mapa do site para o Google através da Consola de Pesquisa do Google. Basta clicar em "Sitemaps" no menu em "Indexação". Depois, pode carregar o seu mapa do site e selecionar enviar!

5. Remover conteúdos de baixa qualidade e duplicados

O principal objetivo de um motor de pesquisa é proporcionar aos utilizadores uma excelente experiência quando pesquisam em linha, o que implica mostrar-lhes conteúdos valiosos que respondam às suas perguntas e lhes forneçam informações úteis.

Cada página que um crawler encontra é outra página que não chega a ver num determinado período de tempo. Por isso, se tiver muitas páginas de baixo valor no seu site a desperdiçar o tempo do crawler, mais tempo demorará a encontrar as páginas boas.

Se os motores de busca como o Google não considerarem que o seu conteúdo é útil ou valioso, podem não indexar as suas páginas. O conteúdo duplicado também pode confundir os rastreadores dos motores de busca e deixá-los inseguros quanto à página a indexar.

É uma boa prática encontrar estas páginas de baixa qualidade e duplicadas e removê-las para otimizar o seu site para o rastreio de sites.

Dica profissional

Reveja as dicas de conteúdo úteis do Google para garantir que produz conteúdo valioso para os utilizadores. Também pode identificar conteúdo duplicado através do seu relatório de Estatísticas de rastreio na Consola de pesquisa do Google, procurando etiquetas duplicadas.

6. Encontrar e corrigir eventuais ligações quebradas

As ligações quebradas não são boas para os motores de busca nem para os visitantes do seu sítio Web, pelo que é sempre boa ideia encontrá-las e corrigi-las o mais rapidamente possível.

Deve também considerar a possibilidade de verificar regularmente se existem ligações quebradas no seu sítio Web, para garantir que pode removê-las quando surgirem.

Se tiver uma quantidade substancial de ligações internas quebradas ou redireccionamentos, isso cria obstáculos adicionais para o rastreador ultrapassar. Isto gera um grande desperdício de orçamento de rastreio.

Dica profissional

Utilize ferramentas como a Consola de Pesquisa do Google ou o Screaming Frog para encontrar facilmente erros 404 e redirecionar esses links, actualizá-los ou removê-los completamente.

7. Indicar aos motores de busca como devem rastrear o seu sítio através dos ficheiros robots.txt

Um ficheiro Robots.txt é um ficheiro de texto simples diretamente na raiz do seu site e é responsável por gerir o tráfego de bots e impedir que o seu site seja invadido por pedidos. Normalmente, o Google obedece ao ficheiro robots.txt e rastreia ou não o seu site com base nas regras aí definidas.

Os ficheiros Robots.txt ajudam-no a dizer aos rastreadores dos motores de busca como pretende que eles rastreiem o seu sítio Web. Por exemplo, pode dizer ao Google para não rastrear páginas como carrinhos de compras ou directórios.

Dica profissional

Os ficheiros Robots.txt podem ser complicados e, se não tiver cuidado, pode fazer com que os rastreadores dos motores de busca não rastreiem páginas importantes do seu site. Já vimos empresas bloquearem acidentalmente o Google por completo, por isso tenha cuidado e verifique novamente o seu ficheiro robots.txt!

8. Verifique os seus redireccionamentos

Os redireccionamentos direccionam os utilizadores de uma página do seu sítio para outra mais recente ou mais relevante e são bastante comuns na maioria dos sítios Web.

No entanto, se não tiver cuidado, pode cometer alguns erros que fazem com que os rastreadores dos motores de busca fiquem confusos e não consigam rastrear as suas páginas com êxito, prejudicando a sua classificação nos resultados de pesquisa.

Por exemplo, é importante certificar-se de que os redireccionamentos direccionam os utilizadores (e os crawlers) para uma página relevante e ter cuidado para não criar um ciclo de redireccionamento - em que direcciona os utilizadores para uma página, que os redirecciona para outra, e assim por diante.

Dica profissional

Utilize uma ferramenta como o Screaming Frog para verificar os redireccionamentos do seu site, garantir que estão em perfeitas condições e identificar e remover quaisquer loops de redireccionamento.

3 razões pelas quais o seu site não está a ser rastreado (e como corrigi-lo!)

O seu sítio Web não está a ser rastreado ou indexado pelos motores de busca? Resolva alguns dos motivos mais comuns pelos quais o seu sítio não é rastreado e saiba como resolver o problema abaixo!

  1. A sua página não é detetável
  2. O seu servidor encontrou um erro
  3. O seu orçamento de rastreio é baixo

1. A sua página não é detetável

Por vezes, os motores de busca não conseguem rastrear a sua página ou sítio porque simplesmente não o conseguem encontrar! Os motores de busca podem não conseguir descobrir o seu sítio Web se tiver um ou mais dos seguintes problemas:

  • A sua página não tem quaisquer ligações internas noutras páginas do seu sítio
  • A sua página não foi incluída no mapa do sítio que submeteu ao Google
  • O seu sítio Web é demasiado lento a carregar
  • A página foi desindexada através de meta tags ou do ficheiro robots.txt

Como resolver o problema

  • Adicionar ligações internas à sua página a partir de outras páginas do seu sítio Web
  • Adicione a sua página ao mapa do sítio e volte a enviá-la ao Google
  • Optimize a velocidade de carregamento da sua página utilizando o relatório Core Web Vitals da Consola de Pesquisa do Google

2. O seu servidor encontrou um erro

A seguir na nossa lista de razões pelas quais o seu Web site não está a ser rastreado é o facto de o seu servidor ter encontrado um erro.

É essencial que o seu servidor consiga lidar com o stress dos robots dos motores de busca que rastreiam o seu sítio. Se o tempo de resposta do seu servidor for demasiado lento ou estiver sujeito a erros constantes, poderá impedir que os motores de busca rastreiem e indexem as suas páginas.

Como resolver o problema

Veja os erros do servidor e os erros 5xx no relatório de indexação da Consola de Pesquisa do Google ou utilize uma ferramenta como o Screaming Frog para identificar rapidamente os erros.

Pode também tentar os seguintes métodos:

  • Desativar os plugins WordPress com defeito
  • Anular actualizações recentes do servidor
  • Contactar o seu fornecedor de alojamento

4. O seu orçamento de rastreio é baixo

Mencionámos anteriormente que um orçamento de rastreio se refere ao número de páginas que os bots dos motores de busca irão rastrear num determinado período de tempo.

Se o seu sítio Web for grande, com muitos URLs, o seu orçamento de rastreio pode ser demasiado baixo, o que significa que os rastreadores demoram mais tempo a rastrear todas as páginas do seu sítio Web.

Como resolver o problema

Embora o motor de pesquisa defina normalmente os orçamentos de rastreio, há algumas coisas que pode fazer para ter impacto, de modo a que os motores de pesquisa possam rastrear e indexar todas as suas páginas, tais como:

  • Correção de 404s e remoção de redireccionamentos excessivos ou cadeias de redireccionamentos
  • Melhorar o tempo de resposta do seu servidor e a velocidade de carregamento da página
  • Remoção de URLs não canónicos

Saiba mais sobre o rastreio de sítios Web em SEO.com

Quer saber mais sobre rastreio de sítios Web e SEO? Basta consultar o conteúdo do nosso blogue para obter mais dicas úteis diretamente dos profissionais de SEO!

Vamos gerar resultados Juntos Arqueiro Verde