O que é um ficheiro Robots.txt e porque é que é importante?

Saiba como os ficheiros robots.txt desempenham um papel crucial na orientação dos bots de rastreio para as páginas Web correctas, optimizando as classificações dos motores de busca, e descubra os tipos de ficheiros robots.txt, problemas comuns e muito mais.
Última atualização 1 de novembro de 2023
O que é Robots.txt?

O Robots.txt é um ficheiro de texto e um pedaço de código que indica aos robôs de rastreio como se devem movimentar através de um Web site. É uma diretiva, o que significa que orienta os robots de rastre io para as páginas Web correctas. Essencialmente, diz aos motores de busca que páginas devem ser rastreadas.

Se alguma vez conduziu ao longo de um novo percurso sem um GPS, sabe a importância dos sinais de trânsito. Enquanto conduz, estes sinais indicam-lhe onde tem de virar, que saídas tem de tomar e em que faixas tem de estar para chegar onde pretende. Sem estes sinais, teria uma grande probabilidade de seguir o caminho errado.

Bem, adivinha? O Google também precisa de sinais de trânsito. Mas não para conduzir na estrada - para rastrear o seu site. É claro que o Google poderia fazer um rastreio desenfreado, mas isso não seria bom para a otimização do seu motor de busca (SEO). Não - o objetivo é que o Google rastreie páginas específicas de formas específicas. Para isso, precisa de dar instruções a esses rastreadores.

Os ficheiros robots.txt são a forma de o fazer. Mas o que são os ficheiros robots.txt e qual o seu impacto no SEO? Nesta página, abordaremos:

Continue a ler para saber mais sobre a utilização do robots.txt para SEO!

O que é um robots.txt?

O Robots.txt é um ficheiro de texto e um pedaço de código que indica aos robôs de rastreio como se devem movimentar através de um Web site. É uma diretiva, o que significa que orienta os robots de rastre io para as páginas Web correctas. Essencialmente, diz aos motores de busca que páginas devem ser rastreadas.

Como é que o robots.txt afecta a SEO

A principal coisa que os ficheiros robots.txt fazem é dizer ao Google quais as páginas a rastrear e quais as que não devem ser rastreadas, embora não controlem totalmente o que o Google faz. Estas directivas são sugestões, não comandos. Para impedir forçosamente que o Google rastreie uma página, são necessárias meta directivas noindex e não apenas ficheiros robots.txt.

À primeira vista, pode parecer que quer que todas as páginas do seu sítio Web sejam classificadas nos resultados de pesquisa. Isso é o máximo de SEO, certo?

Bem, não exatamente. Para muitas páginas do seu site, isso é verdade. Mas há provavelmente algumas páginas que também não quer classificar. Por exemplo, digamos que alguém faz uma compra na sua loja online e é recebido por uma página que diz: "Obrigado pela sua compra".

Percepções de especialistas de Logótipo Google

"O Google só indexa imagens e vídeos que o Googlebot tem permissão para rastrear."

Central de pesquisa do Google Fonte

Agora imagine que alguém procura a sua empresa nos resultados de pesquisa e encontra essa página. Não faz sentido que uma página "Obrigado pela sua compra" apareça nos resultados de pesquisa para pessoas que não efectuaram essa compra. Essa é uma página que não quer ver classificada.

É provável que tenha algumas páginas no seu site para as quais esse é o caso. O mesmo se aplica às páginas de login e às páginas duplicadas. O Robots.txt impede que o Google classifique essas páginas e concentra-se em rastrear as páginas que você deseja que apareçam na pesquisa, como postagens de blog e páginas de serviço.

Quando é que se deve atualizar um ficheiro robots.txt?

Mesmo depois de criar um ficheiro robots.txt, é provável que tenha de o atualizar em algum momento. Mas quando é que precisa de fazer isso, exatamente?

Eis algumas ocasiões em que pode atualizar o seu ficheiro robots.txt:

Todas estas alterações exigem que edite o seu ficheiro robots.txt para refletir o que está a acontecer no seu site.

Problemas comuns com ficheiros robots.txt

Por vezes, os sítios Web têm problemas quando utilizam o ficheiro robots.txt. Um problema potencial é o facto de o ficheiro impedir o Google (ou outros motores de busca) de rastrear o seu Web site. Se isso estiver a acontecer, deve atualizar o seu ficheiro robots.txt para corrigir o problema.

Outro problema potencial é que existem dados confidenciais ou privados algures no seu site (privados para a sua empresa ou para os seus clientes) e o ficheiro robots.txt não os bloqueia, permitindo que o Google rastreie livremente esses dados. Isso é uma grande violação, por isso é necessário certificar-se de que bloqueia esses dados dos rastreadores.

5 exemplos de ficheiros robots.txt

Existem alguns tipos diferentes de ficheiros robots.txt que pode utilizar. Vamos analisar alguns desses tipos abaixo:

Permitir todos

Um exemplo de um ficheiro robots.txt é um diretório "Permitir tudo". Este tipo de ficheiro indica que todos os bots estão autorizados a rastrear o seu sítio Web. O comando "Allow all" tem o seguinte aspeto:

Agente do utilizador: *

Não permitir:

Não permitir tudo

O comando "Disallow all" é exatamente o oposto do comando "Allow all". Basicamente, diz que não é permitido a qualquer tipo de bots rastrear o seu site, bloqueando-o completamente. Este comando parece quase idêntico ao comando "Allow all", com a única diferença sendo a adição de uma barra:

Agente do utilizador: *

Não permitir: /

Não permitir um bot

Por vezes, não quer impedir que todos os bots rastreiem o seu sítio, mas apenas alguns. Nesse caso, pode utilizar o comando para não permitir um bot específico. Este comando tem o seguinte aspeto:

Agente do utilizador: Twitterbot

Não permitir: /

 

Agente do utilizador: *

Não permitir:

No exemplo acima, bloqueámos o Twitterbot de rastrear o sítio Web. No entanto, pode fazer isto para qualquer bot que queira.

Bloquear uma pasta

Nem sempre é uma questão de bloquear os bots. Por vezes, não há problema em qualquer bot rastrear o seu site, apenas não quer que eles possam aceder a determinadas pastas. Nesse caso, pode usar este comando para bloquear o acesso a uma determinada pasta:

Agente do utilizador: *

Não permitir: /admin/

Neste exemplo, bloqueámos a parte administrativa do site. Esta é uma das áreas mais comuns que os proprietários de sítios bloqueiam aos crawlers. No entanto, pode substituir a palavra "admin" por uma parte diferente do seu sítio, se houver outra pasta que queira bloquear.

Bloquear um ficheiro

Finalmente, pode querer bloquear um ficheiro específico em vez de uma pasta inteira. Nesse caso, deve utilizar o seguinte formato de comando:

Agente do utilizador: *

Não permitir: /demo23.html

Neste exemplo, o comando está a bloquear um ficheiro chamado "demo23.html". Mas deve substituí-lo por qualquer ficheiro específico que esteja a tentar bloquear.

Saiba mais dicas e truques de SEO em SEO.com

Se quiser saber mais sobre a utilização do ficheiro robots.txt para SEO - juntamente com muitas outras tácticas de SEO úteis - já está no sítio certo. Não deixe de consultar outros artigos úteis aqui mesmo no SEO.com ou contacte um dos nossos estrategas sobre os nossos serviços técnicos de SEO que o podem ajudar a otimizar o seu ficheiro robots.txt para obter o máximo desempenho de SEO.

Vamos gerar resultados Juntos Arqueiro Verde