O que é um arquivo Robots.txt e por que ele é importante?

Saiba como os arquivos robots.txt desempenham uma função crucial no direcionamento de bots rastreadores para as páginas da Web corretas, otimizando as classificações dos mecanismos de pesquisa, e descubra os tipos de arquivos robots.txt, problemas comuns e muito mais.
Última atualização 1º de novembro de 2023
O que é Robots.txt?

O Robots.txt é um arquivo de texto e um trecho de código que informa aos rastreadores como se movimentar em um site. É uma diretiva, o que significa que orienta os robôs rastreadores para as páginas da Web corretas. Essencialmente, ele informa aos mecanismos de pesquisa quais páginas devem ser rastreadas.

Se você já dirigiu por uma nova rota sem um GPS, sabe da importância das placas de sinalização. Enquanto dirige, essas placas informam onde você precisa virar, quais saídas precisa pegar e em quais faixas precisa estar para chegar onde está tentando ir. Sem essas placas, você teria uma grande chance de seguir o caminho errado.

Bem, adivinhe só? O Google também precisa de sinais de trânsito. Mas não para dirigir pela estrada, e sim para rastrear seu site. É claro que ele poderia fazer um rastreamento descontrolado, mas isso não seria bom para a otimização do seu mecanismo de busca (SEO). Não, você quer que o Google rastreie páginas específicas de maneiras específicas. Para isso, você precisa dar instruções a esses rastreadores.

Os arquivos robots.txt são a forma de fazer isso. Mas o que são arquivos robots.txt e como eles afetam seu SEO? Nesta página, abordaremos:

Continue lendo para saber mais sobre o uso do robots.txt para SEO!

O que é um robots.txt?

O Robots.txt é um arquivo de texto e um trecho de código que informa aos rastreadores como se movimentar em um site. É uma diretiva, o que significa que orienta os robôs rastreadores para as páginas da Web corretas. Essencialmente, ele informa aos mecanismos de pesquisa quais páginas devem ser rastreadas.

Como o robots.txt afeta o SEO

A principal função dos arquivos robots.txt é informar ao Google quais páginas devem ser rastreadas e quais não devem ser rastreadas, embora não controlem totalmente o que o Google faz. Essas diretrizes são sugestões, não comandos. Para impedir forçosamente que o Google rastreie uma página, você precisaria de meta diretivas noindex, e não apenas de arquivos robots.txt.

À primeira vista, pode parecer que você deseja que todas as páginas do seu site sejam classificadas nos resultados de pesquisa. Isso é o máximo em SEO, certo?

Bem, não exatamente. Para muitas páginas de seu site, isso é verdade. Mas provavelmente há algumas páginas que você também não quer classificar. Por exemplo, digamos que alguém faça uma compra em sua loja on-line e seja recebido por uma página que diz: "Obrigado por sua compra".

Insights de especialistas Logotipo do Google

"O Google só indexa imagens e vídeos que o Googlebot tem permissão para rastrear."

Central de pesquisa do Google Fonte

Agora imagine que alguém esteja procurando sua empresa nos resultados de pesquisa e encontre essa página. Não faria sentido que uma página "Obrigado por sua compra" aparecesse nos resultados de pesquisa para pessoas que não fizeram essa compra. Essa é uma página que você não quer que seja classificada.

É provável que você tenha algumas páginas em seu site para as quais esse é o caso. O mesmo vale para páginas de login e páginas duplicadas. O Robots.txt impede que o Google classifique essas páginas e se concentra no rastreamento das páginas que você deseja que apareçam na pesquisa, como posts de blogs e páginas de serviços.

Quando você deve atualizar um arquivo robots.txt?

Mesmo depois de criar um arquivo robots.txt, você provavelmente precisará atualizá-lo em algum momento. Mas quando você precisará fazer isso, exatamente?

Aqui estão algumas ocasiões em que você pode atualizar seu arquivo robots.txt:

Todas essas alterações exigem que você acesse e edite o arquivo robots.txt para refletir o que está acontecendo no seu site.

Problemas comuns com arquivos robots.txt

Às vezes, os sites enfrentam problemas ao usar o robots.txt. Um possível problema é que o arquivo impede que o Google (ou outros mecanismos de pesquisa) rastreie seu site. Se você descobrir que algo assim está acontecendo, atualize o arquivo robots.txt para corrigir o problema.

Outro problema em potencial é que há dados confidenciais ou privados em algum lugar do seu site (privados para a sua empresa ou para os seus clientes) e o arquivo robots.txt não os bloqueia, permitindo que o Google rastreie livremente esses dados. Isso é uma grande violação, portanto, você precisa se certificar de que bloqueou esses dados dos rastreadores.

5 exemplos de arquivos robots.txt

Há alguns tipos diferentes de arquivos robots.txt que você pode usar. Vamos examinar alguns desses tipos abaixo:

Permitir que todos

Um exemplo de arquivo robots.txt é um diretório "Allow all" (Permitir tudo). Esse tipo de arquivo indica que todo e qualquer bot tem permissão para rastrear seu site. O comando "Allow all" tem a seguinte aparência:

Agente de usuário: *

Não permitir:

Não permitir todos

O comando "Disallow all" é exatamente o oposto do comando "Allow all". Basicamente, ele diz que nenhum bot de qualquer tipo tem permissão para rastrear seu site, bloqueando-o completamente. Esse comando é quase idêntico ao comando "Allow all", com a única diferença sendo a adição de uma barra:

Agente de usuário: *

Não permitir: /

Não permitir um bot

Às vezes, você não quer impedir que todos os bots rastreiem seu site, apenas alguns deles. Nesse caso, você pode usar o comando para não permitir um bot específico. Esse comando tem a seguinte aparência:

Agente de usuário: Twitterbot

Não permitir: /

 

Agente de usuário: *

Não permitir:

No exemplo acima, bloqueamos o Twitterbot de rastrear o site. No entanto, você pode fazer isso para qualquer bot que desejar.

Bloquear uma pasta

Nem sempre é uma questão de bloquear bots. Às vezes, não há problema em qualquer bot rastrear seu site, você só não quer que eles possam acessar determinadas pastas. Nesse caso, você pode usar esse comando para bloquear o acesso a uma determinada pasta:

Agente de usuário: *

Não permitir: /admin/

Neste exemplo, bloqueamos a parte administrativa do site. Essa é uma das áreas mais comuns que os proprietários de sites bloqueiam dos rastreadores. No entanto, você pode substituir a palavra "admin" por uma parte diferente do site se houver outra pasta que queira bloquear.

Bloquear um arquivo

Por fim, talvez você queira bloquear um arquivo específico em vez de uma pasta inteira. Nesse caso, você usaria o seguinte formato de comando:

Agente de usuário: *

Não permitir: /demo23.html

Neste exemplo, o comando está bloqueando um arquivo chamado "demo23.html". Mas você substituiria isso por qualquer arquivo específico que estivesse tentando bloquear.

Saiba mais dicas e truques de SEO em SEO.com

Se quiser saber mais sobre o uso do robots.txt para SEO, além de várias outras táticas úteis de SEO, você já está no lugar certo. Experimente o SEO.com gratuitamente hoje mesmo para descobrir mais oportunidades de SEO. Registre-se e analise seu site em minutos!

Descubra seu potencial de SEO

Identifique oportunidades em seu site mais rapidamente e aumente sua visibilidade on-line com o SEO.com!