Was ist ein Webcrawler?

Ein Webcrawler (auch Spider, Bot, Searchbot oder schlicht Crawler genannt) ist ein automatisiertes Programm, das das Internet systematisch durchsucht, indem es von Seite zu Seite den Links folgt und dabei die Inhalte ausliest. Suchmaschinen wie Google setzen Webcrawler ein, um neue und aktualisierte Webseiten zu entdecken, ihren Inhalt zu erfassen und für die spätere Aufnahme in den Suchindex vorzubereiten. Der Crawler ist damit gewissermaßen der Kundschafter einer Suchmaschine, der das Web fortlaufend erkundet.

Die Bezeichnungen "Crawler" (Kriechender) und "Spider" (Spinne) rühren daher, dass sich das Programm entlang der Verlinkungen durch das Netz bewegt, ähnlich wie sich eine Spinne durch ihr Netz bewegt. Ohne Webcrawler wüssten Suchmaschinen nicht, welche Seiten es im Internet überhaupt gibt.

Wie funktioniert ein Webcrawler?

Das Vorgehen eines Crawlers folgt einem einfachen, sich wiederholenden Prinzip:

Start mit bekannten Adressen: Der Crawler beginnt mit einer Liste bereits bekannter URLs.
Seite auslesen: Er ruft eine Seite auf und erfasst deren Inhalt.
Links verfolgen: Er sammelt die auf der Seite enthaltenen Links und stellt sie in eine Warteschlange, um auch diese Seiten zu besuchen.
Wiederholung: Dieser Vorgang wiederholt sich fortlaufend, sodass der Crawler sich Schritt für Schritt durch das Web arbeitet und immer mehr Seiten entdeckt.

Die so gesammelten Inhalte werden anschließend zur weiteren Verarbeitung an die Suchmaschine übergeben. Genau hier ist eine wichtige Unterscheidung nötig, die häufig durcheinandergerät.

Crawling, Indexierung und Ranking: drei verschiedene Schritte

Das Crawling ist nur der erste von drei Schritten, die eine Suchmaschine durchläuft:

Crawling: Der Crawler entdeckt und liest eine Seite. Das bedeutet aber noch nicht, dass sie auch in den Suchergebnissen erscheint.
Indexierung: Die erfassten Inhalte werden analysiert, eingeordnet und in den riesigen Suchindex aufgenommen.
Ranking: Bei einer Suchanfrage werden die indexierten Seiten nach Relevanz sortiert und ausgegeben.

Eine Seite muss also erst gecrawlt werden, damit sie indexiert werden kann, und erst dann kann sie überhaupt ranken. Wird eine Seite nicht gecrawlt, bleibt sie für die Suchmaschine unsichtbar.

Bekannte Webcrawler

Der bekannteste Webcrawler ist der Googlebot, der Crawler von Google. Auch andere Suchmaschinen haben eigene Crawler, etwa der Bingbot von Bing. Hinzu kommen zahlreiche weitere Bots, die das Web für verschiedene Zwecke durchsuchen, etwa für SEO-Analyse-Werkzeuge.

Wie steuert man Webcrawler?

Webseitenbetreiber können das Verhalten von Crawlern auf ihrer Seite gezielt beeinflussen, was du teils schon aus deinem Glossar kennst:

robots.txt: Diese Datei teilt Crawlern mit, welche Bereiche sie crawlen dürfen und welche nicht. Wichtig: Ein Crawling-Verbot ist kein Index-Ausschluss.
Meta-Robots- und X-Robots-Tag: Steuern, ob eine Seite indexiert und ob ihren Links gefolgt werden soll.
XML-Sitemap: Eine Art Inhaltsverzeichnis, das Crawlern hilft, alle wichtigen Seiten zu finden.
Interne Verlinkung: Da Crawler Links folgen, hilft eine gute interne Verlinkung dabei, dass alle Seiten gefunden werden.

Das Crawling-Budget

Ein wichtiger Begriff in diesem Zusammenhang ist das Crawling-Budget. Suchmaschinen crawlen nicht unbegrenzt jede Seite beliebig oft, sondern verteilen ihre Ressourcen. Gerade bei sehr großen Webseiten ist es daher wichtig, dass das Crawling-Budget nicht für unwichtige oder doppelte Seiten verschwendet wird, sondern den relevanten Inhalten zugutekommt. Eine klare Struktur, eine gepflegte Sitemap und das Vermeiden unnötiger Seiten helfen dabei.

Webcrawler und die KI-Suche

Eine aktuelle Entwicklung erweitert das Thema deutlich: Neben den klassischen Suchmaschinen-Crawlern gibt es heute auch Crawler, die Inhalte für KI-Systeme und große Sprachmodelle sammeln, etwa für KI-Antwortdienste. Für die Sichtbarkeit in der KI-gestützten Suche (GEO) ist das hochrelevant. Zwei Punkte sind dabei besonders wichtig: Erstens führen die meisten dieser KI-Crawler kein JavaScript aus und lesen nur den reinen HTML-Quelltext, weshalb wichtige Inhalte direkt im HTML stehen sollten. Zweitens lassen sich auch diese Crawler über die robots.txt steuern, sodass Betreiber entscheiden können, ob ihre Inhalte für das Training oder die Nutzung durch KI-Systeme zugänglich sein sollen.

Fazit

Ein Webcrawler ist ein automatisiertes Programm, das das Internet systematisch durchsucht, indem es Links folgt und Inhalte ausliest, allen voran der Googlebot. Er bildet den ersten Schritt der Suchmaschinen-Verarbeitung: Erst das Crawling ermöglicht die Indexierung und damit überhaupt ein Ranking. Webseitenbetreiber können das Crawling über die robots.txt, Meta-Anweisungen, eine XML-Sitemap und eine gute interne Verlinkung gezielt steuern und sollten gerade bei großen Seiten auf ein effizientes Crawling-Budget achten. Mit dem Aufkommen der KI-Suche kommen neue Crawler hinzu, die meist kein JavaScript verarbeiten und sich ebenfalls steuern lassen. Wer dafür sorgt, dass seine wichtigen Inhalte gut auffindbar und im HTML verfügbar sind, legt damit die Grundlage für die Sichtbarkeit sowohl in der klassischen als auch in der KI-gestützten Suche.