Robots.txt Ícone de marcador simples

Um arquivo robots.txt é um arquivo de texto que informa aos mecanismos de pesquisa as páginas que você deseja e não deseja que sejam rastreadas.

Última atualização 13 de novembro de 2023
Design de cabeçalho de rodapé em gradiente de roxo para branco

Para que seu website seja classificado nos resultados de pesquisa, o Google precisa rastreá-lo e indexá-lo. Esse processo permite que o Google descubra o conteúdo do seu site, entenda o que está na página e mostre suas páginas nos resultados de pesquisa apropriados.

Para ajudar o Google a rastrear suas páginas, você deve usar um arquivo robots.txt. Nesta página, responderemos a todas as suas perguntas urgentes sobre arquivos robots.txt, inclusive:

  • O que é um arquivo robots.txt?
  • Por que o robots.txt é importante?
  • Como faço para implementar o robots.txt?

Continue lendo para saber mais sobre o robots.txt!

O que é o robots.txt?

Robots.txt é um arquivo que informa aos mecanismos de pesquisa quais páginas devem ser rastreadas e quais devem ser evitadas. Ele usa instruções de "permitir" e "não permitir" para orientar os rastreadores para as páginas que você deseja indexar.

Exemplo de Robots.txt

Então, qual é a aparência de um arquivo robots.txt? Cada arquivo robots.txt tem uma aparência diferente, dependendo do que você permite ou não que o Google rastreie.

Exemplo de Robots.txt

Se houver páginas que você permite que os bots rastreiem, o código terá a seguinte aparência:

User-agent: Googlebot

Allow: / 

O user-agent é o bot que você permite (ou não permite) que rastreie o seu site. Neste exemplo do robots.txt, você está permitindo que o Googlebot rastreie as páginas do seu site.

Agora, se você não quiser que um bot rastreie as páginas do seu site, o código terá a seguinte aparência:

User-agent: Bingbot

Disallow: / 

Para este exemplo de robots.txt, esse código indica que o Bingbot não pode rastrear páginas em um site.

Por que o robots.txt é importante?

Então, por que o robots.txt é importante? Por que você precisa se preocupar em integrar esse arquivo ao seu site?

Aqui estão alguns motivos pelos quais o robots.txt é crucial para sua estratégia de otimização de mecanismos de busca (SEO):

1. Evita que seu site fique sobrecarregado

Um dos principais motivos para implementar um arquivo robots.txt é evitar que seu site seja sobrecarregado com solicitações de rastreamento.

Com o arquivo robots.txt em vigor, você ajuda a gerenciar o tráfego de rastreamento em seu site para que ele não o sobrecarregue e o torne lento.

O Google enviará solicitações de rastreamento para rastrear e indexar as páginas do seu site, podendo enviar dezenas de solicitações ao mesmo tempo. Com o arquivo robots.txt em vigor, você ajuda a gerenciar o tráfego de rastreamento em seu site para que ele não o sobrecarregue e o torne lento.

Um site lento tem consequências negativas para o SEO, uma vez que o Google deseja fornecer sites de carregamento rápido nos resultados de pesquisa. Portanto, ao implementar o arquivo robots.txt, você garante que o Google não sobrecarregue e torne seu site lento ao rastreá-lo.

Lembre-se de que seu arquivo robots.txt não é exclusivo para rastreadores de mecanismos de pesquisa como o Google ou o Bing. Você também pode usar o arquivo robots.txt para direcionar os rastreadores de outros sites. Como exemplo, veja o arquivo robots.txt da Starbucks, que atrasa um determinado bot:

Exemplo de agente de usuário Robots.txt

2. Ele o ajuda a otimizar seu orçamento de rastreamento

Todo site tem um crawl budget, que é o número de páginas que o Google rastreia em um período de tempo específico. Se você tiver mais páginas em seu site do que o permitido dentro do seu crawl budget, isso fará com que as páginas não sejam indexadas, o que significa que elas não podem ser classificadas.

Embora seu arquivo robots.txt não possa impedir que as páginas sejam indexadas, ele pode orientar os rastreadores sobre onde gastar seu tempo.

O uso do robots.txt ajuda a otimizar seu orçamento de rastreamento. Ele ajuda a orientar os bots do Google para as páginas que você deseja indexar. Embora seu arquivo robots.txt não possa impedir que as páginas sejam indexadas, ele pode manter os bots de rastreamento concentrados nas páginas que mais precisam ser indexadas.

3. Ele ajuda a impedir que os rastreadores rastreiem páginas não públicas

Toda empresa tem páginas em seu site que não deseja que apareçam nos resultados de pesquisa, como páginas de login e duplicadas. O Robots.txt pode ajudar a impedir que essas páginas sejam classificadas nos resultados de pesquisa e bloqueia as páginas dos rastreadores.

Problemas comuns com arquivos robots.txt

Às vezes, os sites enfrentam problemas ao usar o robots.txt. Um possível problema é que o arquivo impede que o Google (ou outros mecanismos de pesquisa) rastreie seu site. Se você descobrir que algo assim está acontecendo, atualize o arquivo robots.txt para corrigir o problema.

Outro problema em potencial é que há dados confidenciais ou privados em algum lugar do seu site (privados para a sua empresa ou para os seus clientes) e o arquivo robots.txt não os bloqueia, permitindo que o Google rastreie livremente esses dados. Isso é uma grande violação, portanto, você precisa se certificar de que bloqueou esses dados dos rastreadores.

Quando você deve atualizar um arquivo robots.txt?

Mesmo depois de criar um arquivo robots.txt, você provavelmente precisará atualizá-lo em algum momento. Mas quando você precisará fazer isso, exatamente?

Aqui estão algumas ocasiões em que você pode atualizar seu arquivo robots.txt:

Todas essas alterações exigem que você acesse e edite o arquivo robots.txt para refletir o que está acontecendo no seu site.

6 dicas para fazer o robots.txt para SEO com sucesso

Pronto para implementar um arquivo robots.txt em seu site? Aqui estão 6 dicas para ajudá-lo a fazer isso com sucesso:

1. Certifique-se de que todas as suas páginas importantes possam ser rastreadas

Antes de criar o arquivo robots.txt, é importante identificar as páginas mais importantes do seu site. Você quer garantir que essas páginas sejam rastreadas, para que possam ser classificadas nos resultados de pesquisa.

Antes de criar o arquivo robots.txt, documente as páginas importantes que você deseja permitir que os bots de busca rastreiem. Elas podem incluir páginas como a sua:

  • Páginas de produtos
  • Página sobre nós
  • Páginas informativas
  • Publicações no blog
  • Página de contato

2. Use cada agente de usuário apenas uma vez

Ao criar o arquivo robots.txt, é importante que cada agente de usuário seja usado apenas uma vez. Fazer isso dessa forma ajuda a manter seu código limpo e organizado, especialmente se houver muitas páginas que você deseja proibir.

Aqui está um exemplo de robots.txt que mostra a diferença:

User-agent: Googlebot

Disallow: /pageurl

User-agent: Googlebot

Disallow: /loginpage

Agora, imagine que você precisasse fazer isso para vários URLs. Isso se tornaria repetitivo e dificultaria o acompanhamento do seu arquivo robots.txt. Em vez disso, é melhor organizá-lo da seguinte forma:

User-agent: Googlebot

Disallow: /pageurl/

Disallow: /loginpage/

Com essa configuração, todos os links não permitidos são organizados sob o agente de usuário específico. Essa abordagem organizada facilita a localização das linhas que você precisa ajustar, adicionar ou remover para bots específicos.

3. Use novas linhas para cada diretriz

Ao criar o arquivo robots.txt, é fundamental que você coloque cada diretiva em sua própria linha. Novamente, essa dica facilitará o gerenciamento do arquivo.

Portanto, sempre que você adicionar um agente de usuário, ele deverá estar em sua própria linha com o nome do bot. A próxima linha deve conter as informações de não permissão ou permissão. Cada linha subsequente de não permissão deve estar em sua própria linha.

Aqui está um exemplo de robots.txt do que não deve ser feito:

User-agent: Googlebot Disallow: /pageurl/ Disallow: /loginpage/

Como você pode ver, isso torna mais difícil ler o seu robots.txt e saber o que ele diz.

Se você cometer um erro, por exemplo, será difícil encontrar a linha certa para corrigir.

Colocar cada diretriz em sua própria linha facilitará a realização de alterações posteriormente.

4. Certifique-se de usar casos de uso adequados

Se há algo a saber sobre o robots.txt para SEO, é que esse arquivo diferencia maiúsculas de minúsculas. É preciso garantir que você use os casos de uso adequados para que ele funcione corretamente em seu site.

Primeiro, seu arquivo precisa ser rotulado como "robots.txt" nesse caso de uso.

Em segundo lugar, você deve levar em conta todas as variações de capitalização dos URLs. Se você tiver um URL que use todas as letras maiúsculas, deverá inseri-lo no arquivo robots.txt como tal.

5. Use o símbolo "*" para indicar a direção

Se você tiver vários URLs sob o mesmo endereço que deseja impedir que os bots rastreiem, poderá usar o símbolo "*", chamado de curinga, para bloquear todos esses URLs de uma só vez.

Por exemplo, digamos que você queira proibir todas as páginas relacionadas a pesquisas internas. Em vez de bloquear cada página individualmente, você pode simplificar seu arquivo.

Em vez de ficar assim:

User-agent: *

Disallow: /search/hoodies/

Disallow: /search/red-hoodies/

Disallow: /search/sweaters

Você pode usar o símbolo "*" para simplificá-lo:

User-agent: *

Disallow: /search/*

Ao implementar essa etapa, os bots dos mecanismos de pesquisa são impedidos de rastrear qualquer URL na subpasta "search". O uso do símbolo curinga é uma maneira fácil de desautorizar páginas em lotes.

6. Use o "$" para simplificar a codificação

Há vários truques de codificação que podem ser usados para facilitar a criação do arquivo robots.txt. Um truque é usar o símbolo "$" para indicar o final de um URL.

Se você tiver páginas semelhantes que deseja proibir, poderá economizar tempo usando o "$" para aplicá-lo a todos os URLs semelhantes.

Por exemplo, digamos que você queira impedir que o Google rastreie seus vídeos. Veja como esse código pode ficar se você fizer cada um deles:

User-agent: Googlebot

Disallow: /products.3gp

Disallow: /sweaters.3gp

Disallow: /hoodies.3gp

Em vez de ter todos eles em linhas separadas, você pode usar o "$" para não permitir todos eles. A aparência é a seguinte:

User-agent: GooglebotDisallow: /*.3gp$

O uso desse símbolo indica aos rastreadores que as páginas que terminam com ".3gp" não podem ser rastreadas.

Amplie seu conhecimento de SEO

Adicionar o robots.txt ao seu site é fundamental para ajudar o Google a rastrear suas páginas sem sobrecarregá-lo. Esse é um dos aspectos que o ajudarão a fazer SEO de forma eficaz.

Deseja aprimorar o SEO do seu site? Nossa equipe de especialistas pode ajudá-lo a implementar estratégias eficazes de robots.txt e otimizar seu site para uma melhor indexação. Entre em contato conosco on-line hoje mesmo para saber como podemos apoiar suas iniciativas de SEO!

Vamos gerar resultados Juntos Seta roxa