Qu'est-ce qu'un fichier Robots.txt et pourquoi est-il important ?

Apprenez comment les fichiers robots.txt jouent un rôle crucial en dirigeant les robots d'indexation vers les bonnes pages web, en optimisant le classement dans les moteurs de recherche, et découvrez les types de fichiers robots.txt, les problèmes courants, et bien plus encore.
Dernière mise à jour 1er novembre 2023
Qu'est-ce que Robots.txt ?

Robots.txt est un fichier texte et un morceau de code qui indique aux robots d'exploration comment se déplacer sur un site web. Il s'agit d'une directive, ce qui signifie qu'elle guide les robots d'exploration vers les bonnes pages web. Il indique essentiellement aux moteurs de recherche les pages à explorer.

Si vous avez déjà emprunté un nouvel itinéraire sans GPS, vous connaissez l'importance des panneaux de signalisation. Pendant que vous conduisez, ces panneaux vous indiquent où vous devez tourner, quelles sorties vous devez emprunter et quelles voies vous devez emprunter pour arriver à votre destination. Sans ces panneaux, vous risqueriez fort de prendre la mauvaise direction.

Et bien, devinez quoi ? Google a lui aussi besoin de panneaux de signalisation. Pas pour conduire sur la route, cependant, mais pour explorer votre site. Bien sûr, il pourrait se lancer à corps perdu dans l'exploration de votre site, mais ce ne serait pas très bon pour votre optimisation pour les moteurs de recherche (SEO). Non, vous voulez que Google explore des pages spécifiques de manière spécifique. Pour cela, vous devez donner des instructions aux robots d'exploration.

Les fichiers Robots.txt permettent d'y parvenir. Mais qu'est-ce qu'un fichier robots.txt et quel est son impact sur votre référencement ? Sur cette page, nous aborderons les points suivants :

Continuez à lire pour en savoir plus sur l'utilisation de robots.txt pour le référencement !

Qu'est-ce qu'un fichier robots.txt ?

Robots.txt est un fichier texte et un morceau de code qui indique aux robots d'exploration comment se déplacer sur un site web. Il s'agit d'une directive, ce qui signifie qu'elle guide les robots d'exploration vers les bonnes pages web. Il indique essentiellement aux moteurs de recherche les pages à explorer.

L'impact de robots.txt sur le référencement

La principale fonction des fichiers robots.txt est d'indiquer à Google les pages à explorer et celles à ne pas explorer, sans toutefois contrôler totalement ce que fait Google. Ces directives sont des suggestions, pas des ordres. Pour empêcher Google d'explorer une page, il faut utiliser des métadirectives noindex, et pas seulement des fichiers robots.txt.

À première vue, il peut sembler que vous souhaitiez que toutes les pages de votre site web soient classées dans les résultats de recherche. C'est le meilleur référencement possible, n'est-ce pas ?

Ce n'est pas tout à fait vrai. C'est vrai pour un grand nombre de pages de votre site. Mais il y a probablement aussi des pages que vous ne voulez pas voir classées. Par exemple, imaginons que quelqu'un effectue un achat dans votre boutique en ligne et qu'il soit accueilli par une page qui dit "Merci pour votre achat".

Points de vue d'experts Logo Google

"Google n'indexe que les images et les vidéos que Googlebot est autorisé à explorer.

Centre de recherche Google Source d'information

Imaginez maintenant que quelqu'un cherche votre entreprise dans les résultats de recherche et trouve cette page. Il serait absurde qu'une page "Merci pour votre achat" apparaisse dans les résultats de recherche pour des personnes qui n'ont pas effectué d'achat. C'est une page que vous ne voulez pas voir apparaître dans les résultats de recherche.

Il y a de fortes chances que vous ayez quelques pages sur votre site pour lesquelles c'est le cas. Il en va de même pour les pages de connexion et les pages dupliquées. Robots.txt empêche Google de classer ces pages et se concentre sur l'exploration des pages que vous souhaitez voir apparaître dans les moteurs de recherche, comme les articles de blog et les pages de service.

Quand faut-il mettre à jour un fichier robots.txt ?

Même après avoir créé un fichier robots.txt, vous devrez probablement le mettre à jour à un moment ou à un autre. Mais à quel moment exactement ?

Voici quelques cas où vous pouvez mettre à jour votre fichier robots.txt :

  • Lorsque vous migrez vers un nouveau système de gestion de contenu (CMS)
  • Lorsque vous souhaitez améliorer la façon dont Google explore votre site
  • Lorsque vous ajoutez une nouvelle section ou un nouveau sous-domaine à votre site
  • Lorsque vous changez complètement de site web

Tous ces changements nécessitent que vous modifiiez votre fichier robots.txt pour refléter ce qui se passe sur votre site.

Problèmes courants avec les fichiers robots.txt

Les sites web rencontrent parfois des problèmes lorsqu'ils utilisent le fichier robots.txt. L'un des problèmes potentiels est que le fichier empêche Google (ou d'autres moteurs de recherche) d'explorer votre site web. Si vous constatez ce genre de problème, vous devez mettre à jour votre fichier robots.txt pour y remédier.

Un autre problème potentiel est qu'il y a des données sensibles ou privées quelque part sur votre site (privées pour votre entreprise ou pour vos clients), et que le fichier robots.txt ne les bloque pas, ce qui permet à Google de les explorer librement. Il s'agit là d'une faille importante, et vous devez donc vous assurer que ces données ne sont pas accessibles aux robots d'indexation.

5 exemples de fichiers robots.txt

Il existe différents types de fichiers robots.txt que vous pouvez utiliser. Nous allons en examiner quelques-uns ci-dessous :

Autoriser tous les

Un exemple de fichier robots.txt est un répertoire "Autoriser tout". Ce type de fichier indique que tous les robots sont autorisés à explorer votre site web. La commande "Allow all" se présente comme suit :

User-agent : *

Refuser :

Interdire tout

La commande "Disallow all" est l'exact opposé de la commande "Allow all". Elle indique essentiellement qu'aucun robot, quel qu'il soit, n'est autorisé à explorer votre site, le bloquant ainsi complètement. Cette commande est presque identique à la commande "Autoriser tout", la seule différence étant l'ajout d'une barre oblique :

User-agent : *

Ne pas autoriser : /

Interdire un robot

Parfois, vous ne souhaitez pas empêcher tous les robots d'explorer votre site, mais seulement certains d'entre eux. Dans ce cas, vous pouvez utiliser la commande pour interdire l'accès à un robot spécifique. Cette commande se présente comme suit :

User-agent : Twitterbot

Ne pas autoriser : /

 

User-agent : *

Refuser :

Dans l'exemple ci-dessus, nous avons empêché Twitterbot d'explorer le site web. Cependant, vous pouvez le faire pour n'importe quel robot.

Bloquer un dossier

Il ne s'agit pas toujours de bloquer les robots. Parfois, vous pouvez laisser n'importe quel robot explorer votre site, mais vous ne voulez pas qu'il puisse accéder à certains dossiers. Dans ce cas, vous pouvez utiliser cette commande pour bloquer l'accès à un dossier particulier :

User-agent : *

Disallow : /admin/

Dans cet exemple, nous avons bloqué la partie administrative du site. C'est l'une des zones les plus courantes que les propriétaires de sites bloquent aux robots d'indexation. Toutefois, vous pouvez remplacer le mot "admin" par une autre partie de votre site si vous souhaitez bloquer un autre dossier.

Bloquer un fichier

Enfin, il se peut que vous souhaitiez bloquer un fichier spécifique plutôt qu'un dossier entier. Dans ce cas, vous utiliserez le format de commande suivant :

User-agent : *

Ne pas autoriser : /demo23.html

Dans cet exemple, la commande bloque un fichier appelé "demo23.html". Mais vous devez remplacer ce nom par le fichier spécifique que vous essayez de bloquer.

Apprenez d'autres conseils et astuces de référencement sur SEO.com

Si vous souhaitez en savoir plus sur l'utilisation de robots.txt pour le référencement - ainsi que sur des tonnes d'autres tactiques de référencement utiles - vous êtes déjà au bon endroit. N'oubliez pas de consulter d'autres articles utiles ici sur SEO.com ou de contacter l'un de nos stratèges au sujet de nos services techniques de référencement qui peuvent vous aider à optimiser votre fichier robots.txt pour des performances de référencement optimales.

Obtenons des résultats Ensemble Flèche verte