Was ist eine Robots.txt-Datei und warum ist sie wichtig?

Erfahren Sie, wie robots.txt-Dateien eine entscheidende Rolle dabei spielen, Crawler-Bots auf die richtigen Webseiten zu leiten und die Platzierung in Suchmaschinen zu optimieren, und entdecken Sie die Arten von robots.txt-Dateien, häufige Probleme und mehr.
Zuletzt aktualisiert 1. November 2023
Was ist Robots.txt?

Robots.txt ist eine Textdatei und ein Stück Code, das den Crawlern sagt, wie sie sich auf einer Website bewegen sollen. Es handelt sich um eine Richtlinie, d. h. sie leitet Crawler-Bots zu den richtigen Webseiten. Im Wesentlichen sagt sie den Suchmaschinen, welche Seiten sie crawlen sollen.

Wenn Sie schon einmal eine neue Strecke ohne GPS befahren haben, wissen Sie, wie wichtig Straßenschilder sind. Während der Fahrt sagen Ihnen diese Schilder, wo Sie abbiegen müssen, welche Ausfahrten Sie nehmen müssen und auf welchen Fahrspuren Sie sich befinden müssen, um Ihr Ziel zu erreichen. Ohne diese Schilder wäre die Wahrscheinlichkeit groß, dass Sie in die falsche Richtung fahren.

Nun, raten Sie mal? Google braucht auch Straßenschilder. Allerdings nicht, um auf der Straße zu fahren, sondern um Ihre Website zu crawlen. Natürlich könnte es einfach wild drauflos crawlen, aber das wäre nicht gut für Ihre Suchmaschinenoptimierung (SEO). Nein - Sie wollen, dass Google bestimmte Seiten auf bestimmte Weise crawlt. Dazu müssen Sie den Crawlern Anweisungen geben.

Mit robots.txt-Dateien können Sie das tun. Aber was in aller Welt sind robots.txt-Dateien, und wie wirken sie sich auf Ihre SEO aus? Auf dieser Seite gehen wir darauf ein:

Lesen Sie weiter, um mehr über die Verwendung von robots.txt für SEO zu erfahren!

Was ist eine robots.txt?

Robots.txt ist eine Textdatei und ein Stück Code, das den Crawlern sagt, wie sie sich auf einer Website bewegen sollen. Es handelt sich um eine Richtlinie, d. h. sie leitet Crawler-Bots zu den richtigen Webseiten. Im Wesentlichen sagt sie den Suchmaschinen, welche Seiten sie crawlen sollen.

Wie sich robots.txt auf SEO auswirkt

Die robots.txt-Dateien teilen Google in erster Linie mit, welche Seiten gecrawlt werden sollen und welche nicht - obwohl sie nicht vollständig kontrollieren, was Google tut. Diese Richtlinien sind Vorschläge, keine Befehle. Um zu verhindern, dass Google eine Seite crawlt, benötigen Sie noindex-Meta-Richtlinien, nicht nur robots.txt-Dateien.

Auf den ersten Blick mag es so aussehen, als wollten Sie, dass alle Seiten Ihrer Website in den Suchergebnissen auftauchen. Das ist doch maximale SEO, oder?

Nun, nicht ganz. Für viele Seiten Ihrer Website trifft das zu. Aber es gibt wahrscheinlich auch einige Seiten, die Sie nicht ranken lassen wollen. Nehmen wir zum Beispiel an, jemand kauft in Ihrem Online-Shop ein und wird dann von einer Seite begrüßt, auf der steht: "Vielen Dank für Ihren Einkauf".

Experteneinblicke von Google-Logo

"Google indexiert nur Bilder und Videos, die der Googlebot crawlen darf.

Google Search Central Quelle

Stellen Sie sich nun vor, jemand sucht in den Suchergebnissen nach Ihrem Unternehmen und findet diese Seite. Es würde keinen Sinn machen, wenn eine "Danke für Ihren Kauf"-Seite in den Suchergebnissen von Personen angezeigt würde, die keinen solchen Kauf getätigt haben. Das ist eine Seite, die Sie nicht im Ranking haben wollen.

Die Chancen stehen gut, dass Sie einige Seiten auf Ihrer Website haben, bei denen das der Fall ist. Das Gleiche gilt für Anmeldeseiten und doppelte Seiten. Robots.txt verhindert, dass Google diese Seiten bewertet und konzentriert sich auf das Crawlen von Seiten, die in der Suche erscheinen sollen, wie Blogbeiträge und Serviceseiten.

Wann sollten Sie eine robots.txt-Datei aktualisieren?

Auch nachdem Sie eine robots.txt-Datei erstellt haben, müssen Sie sie wahrscheinlich irgendwann aktualisieren. Aber wann genau müssen Sie das tun?

Im Folgenden finden Sie einige Zeitpunkte, zu denen Sie Ihre robots.txt-Datei aktualisieren sollten:

  • Wenn Sie auf ein neues Content-Management-System (CMS) umsteigen
  • Wenn Sie das Crawling Ihrer Website durch Google verbessern wollen
  • Wenn Sie einen neuen Bereich oder eine neue Subdomain zu Ihrer Website hinzufügen
  • Wenn Sie auf eine völlig neue Website wechseln

Für alle diese Änderungen müssen Sie Ihre robots.txt-Datei bearbeiten, damit sie die Vorgänge auf Ihrer Website widerspiegelt.

Häufige Probleme mit robots.txt-Dateien

Manchmal treten bei der Verwendung von robots.txt auf Websites Probleme auf. Ein mögliches Problem ist, dass die Datei Google (oder andere Suchmaschinen) daran hindert, Ihre Website überhaupt zu crawlen. Wenn Sie feststellen, dass dies der Fall ist, sollten Sie Ihre robots.txt-Datei aktualisieren, um das Problem zu beheben.

Ein weiteres mögliches Problem besteht darin, dass sich irgendwo auf Ihrer Website sensible oder private Daten befinden (die entweder für Ihr Unternehmen oder für Ihre Kunden privat sind), die von der robots.txt-Datei nicht gesperrt werden, so dass Google diese Daten ungehindert crawlen kann. Das ist ein schwerwiegender Verstoß, also müssen Sie sicherstellen, dass Sie diese Daten vor Crawlern sperren.

5 Beispiele für robots.txt-Dateien

Es gibt einige verschiedene Arten von robots.txt-Dateien, die Sie verwenden können. Im Folgenden gehen wir einige dieser Typen durch:

Erlaubt alle

Ein Beispiel für eine robots.txt-Datei ist ein "Allow all"-Verzeichnis. Diese Art von Datei gibt an, dass alle Bots Ihre Website crawlen dürfen. Der Befehl "Allow all" sieht wie folgt aus:

Benutzer-Agent: *

Nicht zulassen:

Alle verbieten

Der Befehl "Disallow all" ist das genaue Gegenteil des Befehls "Allow all". Er besagt im Grunde, dass keine Bots jeglicher Art Ihre Website crawlen dürfen und sperrt sie somit komplett aus. Dieser Befehl sieht fast genauso aus wie der Befehl "Allow all", mit dem einzigen Unterschied, dass ein Schrägstrich hinzugefügt wird:

Benutzer-Agent: *

Nicht zulassen: /

Einen Bot verbieten

Manchmal möchten Sie nicht alle Bots am Crawlen Ihrer Website hindern, sondern nur bestimmte. In diesem Fall können Sie den Befehl verwenden, um einen bestimmten Bot zu sperren. Dieser Befehl sieht wie folgt aus:

Benutzer-Agent: Twitterbot

Nicht zulassen: /

 

Benutzer-Agent: *

Nicht zulassen:

Im obigen Beispiel haben wir Twitterbot daran gehindert, die Website zu crawlen. Sie können dies jedoch für jeden Bot tun, den Sie möchten.

Einen Ordner sperren

Es geht nicht immer darum, Bots zu blockieren. Manchmal haben Sie kein Problem damit, dass ein Bot Ihre Website crawlt, Sie wollen nur nicht, dass er auf bestimmte Ordner zugreifen kann. In diesem Fall können Sie diesen Befehl verwenden, um den Zugriff auf einen bestimmten Ordner zu blockieren:

Benutzer-Agent: *

Nicht zulassen: /admin/

In diesem Beispiel haben wir den Verwaltungsbereich der Website blockiert. Dies ist einer der häufigsten Bereiche, die von Website-Besitzern für Crawler gesperrt werden. Sie könnten jedoch das Wort "admin" durch einen anderen Teil Ihrer Website ersetzen, wenn es einen anderen Ordner gibt, den Sie blockieren möchten.

Blockieren einer Datei

Schließlich kann es sein, dass Sie eine bestimmte Datei statt eines ganzen Ordners sperren möchten. In diesem Fall würden Sie das folgende Befehlsformat verwenden:

Benutzer-Agent: *

Nicht zulassen: /demo23.html

In diesem Beispiel blockiert der Befehl eine Datei namens "demo23.html". Sie würden dies jedoch durch die Datei ersetzen, die Sie blockieren möchten.

Weitere SEO-Tipps und -Tricks finden Sie auf SEO.com

Wenn Sie mehr über die Verwendung von robots.txt für SEO erfahren möchten - zusammen mit vielen anderen nützlichen SEO-Taktiken - sind Sie bereits am richtigen Ort. Testen Sie SEO.com noch heute kostenlos, um mehr SEO-Möglichkeiten zu entdecken. Melden Sie sich an und analysieren Sie Ihre Website in wenigen Minuten!

Entdecken Sie Ihr SEO-Potenzial

Ermitteln Sie die Möglichkeiten Ihrer Website schneller und erhöhen Sie Ihre Sichtbarkeit im Internet mit SEO.com!