Robots.txt Ícone de marcador simples

Um ficheiro robots.txt é um ficheiro de texto que indica aos motores de busca as páginas que quer e não quer que sejam rastreadas.

Última atualização 13 de novembro de 2023
Design de cabeçalho de rodapé com gradiente de roxo para branco

Para que o seu Web site seja classificado nos resultados de pesquisa, o Google precisa de o rastrear e indexar. Este processo permite ao Google descobrir o conteúdo do seu sítio Web, compreender o que está na página e mostrar as suas páginas nos resultados de pesquisa adequados.

Para ajudar o Google a rastrear as suas páginas, é necessário utilizar um ficheiro robots.txt. Nesta página, responderemos a todas as suas perguntas sobre os ficheiros robots.txt, incluindo:

  • O que é um ficheiro robots.txt?
  • Porque é que o robots.txt é importante?
  • Como é que implemento o robots.txt?

Continue a ler para saber mais sobre o robots.txt!

O que é o robots.txt?

Robots.txt é um ficheiro que indica aos motores de busca quais as páginas que devem ser rastreadas e quais as que devem ser evitadas. Utiliza instruções de "permitir" e "não permitir" para orientar os rastreadores para as páginas que pretende indexar.

Exemplo de Robots.txt

Então, qual é o aspeto de um ficheiro robots.txt? Cada ficheiro robots.txt tem um aspeto diferente, dependendo do que permite ou não que o Google rastreie.

Exemplo de Robots.txt

Se houver páginas que permite que os bots rastreiem, o código terá o seguinte aspeto:

User-agent: Googlebot

Allow: / 

O user-agent é o bot que permite (ou não permite) que o seu sítio Web seja rastreado. Neste exemplo de robots.txt, está a permitir que o Googlebot rastreie as páginas do seu sítio Web.

Agora, se não quiser que um bot rastreie as páginas do seu sítio Web, o código tem o seguinte aspeto:

User-agent: Bingbot

Disallow: / 

Para este exemplo de robots.txt, este código indica que o Bingbot não pode rastrear páginas num sítio Web.

Porque é que o robots.txt é importante?

Então, porque é que o robots.txt é importante? Porque é que tem de se preocupar com a integração deste ficheiro no seu Web site?

Eis algumas razões pelas quais o robots.txt é crucial para a sua estratégia de otimização dos motores de busca (SEO):

1. Evita que o seu sítio Web fique sobrecarregado

Uma das principais razões para implementar um ficheiro robots.txt é evitar que o seu Web site fique sobrecarregado com pedidos de rastreio.

Com o ficheiro robots.txt implementado, ajuda a gerir o tráfego de rastreio no seu sítio Web, de modo a não sobrecarregar e tornar o seu sítio Web mais lento.

O Google enviará pedidos de rastreio para rastrear e indexar páginas no seu Web site - pode enviar dezenas de pedidos de uma só vez. Com o ficheiro robots.txt implementado, ajuda a gerir o tráfego de rastreio no seu sítio Web, para que não o sobrecarregue e torne o seu sítio Web mais lento.

Um sítio Web lento tem consequências negativas para a SEO, uma vez que o Google pretende apresentar sítios Web de carregamento rápido nos resultados de pesquisa. Assim, ao implementar o ficheiro robots.txt, garante que o Google não sobrecarrega nem torna o seu sítio Web mais lento enquanto o rastreia.

Tenha em atenção que o seu ficheiro robots.txt não é exclusivo dos rastreadores dos motores de busca, como o Google ou o Bing. Também pode utilizar o seu ficheiro robots.txt para direcionar os crawlers de outros sítios Web. Por exemplo, veja o ficheiro robots.txt do Starbucks, que atrasa um determinado bot:

Exemplo de agente de utilizador Robots.txt

2. Ajuda-o a otimizar o seu orçamento de rastreio

Todos os sítios Web têm um "crawl budget", que é o número de páginas que o Google rastreia num determinado período de tempo. Se o seu sítio Web tiver mais páginas do que as permitidas no seu crawl budget, as páginas não serão indexadas, o que significa que não podem ser classificadas.

Embora o ficheiro robots.txt não possa impedir que as páginas sejam indexadas, pode orientar os rastreadores sobre onde gastar o seu tempo.

A utilização do robots.txt ajuda-o a otimizar o seu orçamento de rastreio. Ajuda a orientar os bots do Google para as páginas que pretende indexar. Embora o seu ficheiro robots.txt não possa impedir que as páginas sejam indexadas, pode manter os bots de rastreio concentrados nas páginas que mais precisam de ser indexadas.

3. Ajuda a impedir que os crawlers rastreiem páginas não públicas

Todas as empresas têm páginas no seu sítio Web que não querem que apareçam nos resultados de pesquisa, como páginas de início de sessão e páginas duplicadas. O ficheiro Robots.txt pode ajudar a impedir que estas páginas sejam classificadas nos resultados de pesquisa e bloqueia as páginas dos crawlers.

6 dicas para fazer robots.txt para SEO com sucesso

Pronto para implementar um ficheiro robots.txt no seu sítio Web? Aqui estão 6 dicas para o ajudar a fazê-lo com sucesso:

1. Certifique-se de que todas as suas páginas importantes são rastreáveis

Antes de criar o ficheiro robots.txt, é importante identificar as páginas mais importantes do seu Web site. Pretende garantir que essas páginas são rastreadas, para que possam ser classificadas nos resultados de pesquisa.

Antes de criar o ficheiro robots.txt, documente as páginas importantes que pretende permitir que os robots de pesquisa rastreiem. Estas podem incluir páginas como a sua:

  • Páginas de produtos
  • Página sobre nós
  • Páginas informativas
  • Publicações no blogue
  • Página de contacto

2. Utilizar cada agente de utilizador apenas uma vez

Quando cria o seu ficheiro robots.txt, é importante que cada agente de utilizador seja utilizado apenas uma vez. Fazê-lo desta forma ajuda a manter o seu código limpo e organizado, especialmente se existirem muitas páginas que pretende proibir.

Aqui está um exemplo de robots.txt que mostra a diferença:

User-agent: Googlebot

Disallow: /pageurl

User-agent: Googlebot

Disallow: /loginpage

Agora, imagine que precisava de fazer isto para vários URLs. Ficaria repetitivo e tornaria o seu ficheiro robots.txt difícil de seguir. Em vez disso, é melhor organizá-lo da seguinte forma:

User-agent: Googlebot

Disallow: /pageurl/

Disallow: /loginpage/

Com esta configuração, todos os links não permitidos são organizados sob o user-agent específico. Esta abordagem organizada facilita a procura de linhas que precisa de ajustar, adicionar ou remover para bots específicos.

3. Utilizar novas linhas para cada diretiva

Quando criar o seu ficheiro robots.txt, é crucial que coloque cada diretiva na sua própria linha. Mais uma vez, esta dica facilitará a gestão do seu ficheiro.

Assim, sempre que adicionar um agente de utilizador, este deve estar na sua própria linha com o nome do bot. A linha seguinte deve conter as informações de permissão ou não permissão. Cada linha subsequente de não permissão deve estar sozinha.

Aqui está um exemplo de robots.txt do que não se deve fazer:

User-agent: Googlebot Disallow: /pageurl/ Disallow: /loginpage/

Como pode ver, torna-se mais difícil ler o seu robots.txt e saber o que diz.

Se cometer um erro, por exemplo, será difícil encontrar a linha correcta para corrigir.

Colocar cada diretiva na sua própria linha facilitará a realização de alterações mais tarde.

4. Certifique-se de que utiliza casos de utilização correctos

Se há uma coisa a saber sobre o robots.txt para SEO, é que este ficheiro é sensível a maiúsculas e minúsculas. É necessário garantir que utiliza os casos de utilização adequados, para que funcione corretamente no seu website.

Em primeiro lugar, o seu ficheiro tem de ser rotulado como "robots.txt" nesse caso de utilização.

Em segundo lugar, deve ter em conta quaisquer variações de capitalização dos URLs. Se tem um URL que usa todas as letras maiúsculas, deve introduzi-lo no seu ficheiro robots.txt como tal.

5. Utilizar o símbolo "*" para indicar uma direção

Se tiver vários URLs sob o mesmo endereço que pretende impedir que os bots rastreiem, pode utilizar o símbolo "*", designado por wildcard, para bloquear todos esses URLs de uma só vez.

Por exemplo, digamos que pretende proibir todas as páginas que dizem respeito a pesquisas internas. Em vez de bloquear cada página individualmente, pode simplificar o seu ficheiro.

Em vez de ter este aspeto:

User-agent: *

Disallow: /search/hoodies/

Disallow: /search/red-hoodies/

Disallow: /search/sweaters

Pode utilizar o símbolo "*" para o simplificar:

User-agent: *

Disallow: /search/*

Ao implementar este passo, os bots dos motores de busca são impedidos de rastrear quaisquer URLs na subpasta "search". A utilização do símbolo wildcard é uma forma fácil de não permitir páginas em lotes.

6. Utilizar o "$" para simplificar a codificação

Existem vários truques de codificação que pode utilizar para facilitar a criação do seu ficheiro robots.txt. Um truque é utilizar o símbolo "$" para indicar o fim de um URL.

Se tiver páginas semelhantes que pretenda proibir, pode poupar tempo utilizando o "$" para o aplicar a todos os URLs semelhantes.

Por exemplo, digamos que quer impedir que o Google rastreie os seus vídeos. Veja como esse código pode ficar se você fizer cada um deles:

User-agent: Googlebot

Disallow: /products.3gp

Disallow: /sweaters.3gp

Disallow: /hoodies.3gp

Em vez de os ter todos em linhas separadas, pode utilizar o "$" para não os permitir a todos. Tem o seguinte aspeto:

User-agent: GooglebotDisallow: /*.3gp$

A utilização deste símbolo indica aos rastreadores que as páginas que terminam com ".3gp" não podem ser rastreadas.

Alargar os seus conhecimentos de SEO

Adicionar o robots.txt ao seu sítio Web é crucial para ajudar o Google a rastrear as suas páginas sem o sobrecarregar. É um dos aspectos que o ajudará a fazer SEO de forma eficaz.

Procura mais informações sobre SEO dadas por especialistas? Consulte o nosso blogue para saber mais sobre o que precisa de fazer para ter uma estratégia de SEO bem sucedida!

Não falhe o teste mais importante do seu sítio Web

Obtenha gratuitamente um quadro de resultados de SEO do seu sítio Web em menos de 30 segundos.