Robots.txt
Die robots.txt steuert das Crawling von Webseiten durch Suchmaschinen - aber nicht die Indexierung. So nutzen Sie sie richtig.
Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei, die im Hauptverzeichnis einer Webseite liegt und unter einer festen Adresse erreichbar ist, nämlich unter https://www.beispiel.de/robots.txt. Sie dient dazu, Suchmaschinen-Crawlern (auch Bots oder Robots genannt) Anweisungen zu geben, welche Bereiche einer Webseite sie crawlen dürfen und welche nicht. Sie ist damit eines der grundlegendsten Werkzeuge der technischen Suchmaschinenoptimierung.
Wichtig ist das richtige Verständnis ihrer Funktion: Die robots.txt steuert das Crawling, also das Abrufen und Durchsuchen von Seiten, nicht aber zwingend die Indexierung, also die Aufnahme in den Suchindex. Genau dieser Unterschied ist die häufigste Quelle für Missverständnisse, dazu unten mehr.
Wie ist eine robots.txt aufgebaut?
Die Datei besteht aus einfachen Regeln. Die wichtigsten Bestandteile sind:
- User-agent: Legt fest, für welchen Crawler die folgende Regel gilt. Ein Sternchen (
*) bedeutet "für alle Bots". - Disallow: Verbietet das Crawlen eines bestimmten Verzeichnisses oder einer Seite.
- Allow: Erlaubt ausdrücklich das Crawlen, etwa um innerhalb eines gesperrten Verzeichnisses eine Ausnahme zu machen.
- Sitemap: Verweist auf den Speicherort der XML-Sitemap.
Ein typisches Beispiel:
User-agent: *
Disallow: /intern/
Allow: /intern/oeffentlich/
Sitemap: https://www.beispiel.de/sitemap.xml
Diese Datei weist alle Bots an, das Verzeichnis "/intern/" nicht zu crawlen, mit Ausnahme des Unterordners "/intern/oeffentlich/", und nennt zusätzlich den Ort der Sitemap.
Der wichtigste Irrtum: Crawling-Verbot bedeutet nicht Ausschluss aus dem Index
Dies ist der entscheidende Punkt, der oft falsch verstanden wird: Wenn man eine Seite per Disallow in der robots.txt vom Crawling ausschließt, bedeutet das nicht, dass diese Seite garantiert nicht im Google-Index erscheint.
Der Grund: Die robots.txt verhindert lediglich, dass Google den Inhalt der Seite abruft. Kennt Google die URL aber aus anderen Quellen, etwa weil andere Webseiten darauf verlinken, kann die Adresse trotzdem indexiert werden. In den Suchergebnissen erscheint dann oft ein Eintrag mit dem Hinweis "Für diese Seite sind keine Informationen verfügbar", da Google die URL kennt, den Inhalt aber nicht lesen durfte.
Die Folge ist paradox: Eine per robots.txt gesperrte Seite kann im Index landen, aber ohne aussagekräftige Beschreibung. Wer eine Seite zuverlässig aus dem Index halten will, darf sie also gerade nicht per robots.txt sperren.
Crawling verhindern oder Indexierung verhindern? Das richtige Werkzeug wählen
Aus dem oben Gesagten ergibt sich eine wichtige Faustregel:
- Soll eine Seite nicht gecrawlt werden (etwa um Crawling-Budget zu sparen oder unwichtige Bereiche auszuschließen): robots.txt mit
Disallowverwenden. - Soll eine Seite zuverlässig nicht im Index erscheinen: Die Seite muss crawlbar bleiben und ein
noindex-Meta-Tag im<head>erhalten. Nur so kann Google die Anweisung "nicht indexieren" überhaupt lesen.
Der häufigste Fehler ist die Kombination von beidem: Wer eine Seite per robots.txt sperrt und ein noindex setzt, erreicht das Gegenteil. Google kann das noindex gar nicht lesen, weil das Crawling ja blockiert ist, und die Seite bleibt möglicherweise im Index.
Typisches Fehlerpotenzial
- Versehentliche Komplettsperre: Eine Zeile wie
Disallow: /sperrt die gesamte Webseite für alle Bots. Dieser Fehler passiert häufig nach einem Relaunch, wenn eine Test-Einstellung versehentlich live geht, und kann verheerende Folgen für die Sichtbarkeit haben. - CSS- und JavaScript-Dateien blockieren: Werden diese Ressourcen gesperrt, kann Google die Seite nicht korrekt rendern und bewerten. Sie sollten crawlbar bleiben.
- Sensible Daten "verstecken" wollen: Die robots.txt ist öffentlich einsehbar. Wer dort geheime Verzeichnisse einträgt, weist sogar darauf hin. Vertrauliche Bereiche gehören durch Passwortschutz gesichert, nicht in die robots.txt.
- Tippfehler und falsche Pfade: Schon ein kleiner Fehler in der Schreibweise kann eine Regel wirkungslos machen oder ungewollt zu viel sperren.
- Groß- und Kleinschreibung: Pfade in der robots.txt sind case-sensitive.
/Intern/und/intern/sind nicht dasselbe.
Gute Tipps für die Praxis
- Sitemap eintragen: Der Verweis auf die XML-Sitemap hilft Suchmaschinen, alle wichtigen Seiten zu finden.
- Vor dem Livegang prüfen: Besonders nach einem Relaunch unbedingt kontrollieren, ob keine versehentliche Sperre aktiv ist.
- Mit Werkzeugen testen: Die Google Search Console bietet Möglichkeiten, die robots.txt zu prüfen und einzelne URLs zu testen.
- Sparsam einsetzen: Die robots.txt ist kein Allzweckwerkzeug. Im Zweifel ist es besser, nur das Nötigste zu sperren.
- Als Hinweis verstehen: Seriöse Suchmaschinen halten sich an die robots.txt, sie ist aber technisch nicht erzwingbar. Bösartige Bots ignorieren sie. Sie ist daher kein Sicherheitswerkzeug.
Fazit
Die robots.txt ist ein einfaches, aber mächtiges Werkzeug, um Suchmaschinen-Crawlern Anweisungen zum Crawling einer Webseite zu geben. Der entscheidende Punkt, den viele übersehen: Ein Crawling-Verbot per robots.txt verhindert nicht zuverlässig, dass eine Seite im Google-Index landet. Wer eine Seite sicher aus dem Index halten möchte, muss sie crawlbar lassen und stattdessen mit einem noindex-Meta-Tag arbeiten. Da kleine Fehler in der robots.txt große Auswirkungen auf die Sichtbarkeit haben können, lohnt sich hier besondere Sorgfalt, ein gründlicher Test und ein bewusster, sparsamer Einsatz.