Ein Crawler ist ein Programm, das automatisiert das Internet durchsucht und "scannt". Suchmaschinen nutzen Crawler, um die gesammelten Informationen zu bewerten und anschließend einen Index aufzubauen. Auf Basis der Bewertungen entstehen anschließend die Suchergebnisse.

Definition

Vielleicht kennst du den Begriff auch unter dem Namen Webcrawler, (Suchmaschinen-)Spider oder (Search-)bot.

Dabei handelt es sich um ein Programm, das die Weiten des Internets ständig nach neuen Webseiten und Inhalten durchsucht.

Jede Suchmaschine im Internet arbeitet auf Grundlage eines Crawlers um ihren Index zu füllen und zu aktualisieren. Um die schier unendliche Anzahl von Seiten im Internet indexieren zu können, arbeiten diese Programme automatisiert. Dabei sind verschiedene Searchbots für verschiedene Funktionen zuständig. Ein Crawler kann die Texte analysieren, während ein anderer die ALT-Tags von Grafikdateien ausliest.

Visualisierung eines Crawlers

Nicht zuletzt weil Google in Deutschland und den meisten anderen Länder die marktführende Suchmaschine anbietet, ist der Googlebot – der Crawler Googles – am bekanntesten.

Wie funktioniert ein Crawler?

Ein Searchbot folgt prinzipiell jeder Seite im Internet, sofern diese auffindbar ist. Das ist allerdings sehr allgemein beschrieben – in der Praxis ist es wesentlich komplexer. Das Aufrufen der Seiten ist in einer bestimmten Abfolge festgelegt und wiederholt sich ständig. Die gefundenen Seiten werden dann durch verschiedene Algorithmen nach bestimmten Kriterien sortiert und bewertet. Um welche Kriterien es sich handelt und wie diese bewertet werden, veröffentlichen die Betreiber von Suchmaschinen nicht, da es sich um ihre Geschäftsgeheimnisse handelt. Es ist daher die Aufgabe von SEOs, herauszufinden, wie die Algorithmen denken und arbeiten. Focused Crawler konzentrieren sich z.B. auf themenrelevante Webseiten. Der Searchbot ist mit dem Index der Suchmaschine verbunden und listet diese dann entsprechend dort auf.

Falls du noch nicht ganz verstanden hast, welche Rolle ein Searchbot spielt…

Das folgende Video gibt unter Anderem Aufschluss darüber, wie Crawling funktioniert und wie die Webseiten gerankt werden.

Der Crawler in der Praxis

Durch die Logfiles des Crawlers kann ein Webmaster Infos darüber bekommen, wer genau den Server ausforscht. Er hat auch bestimmte Möglichkeiten dem Searchbot den Zugang zu verwehren. Wenn man z.B. nicht möchte, dass bestimmte Informationen über den Crawler abgerufen werden, kann man sogenannte Meta Tags im HTML-Dokument hinzufügen. Das kann ebenfalls über die Robots.txt Datei mit der Kennzeichnung: „Disallow:/“ erreicht werden. Man kann auch festhalten, mit welcher Frequenz (via Google Search Console) oder wie viele Seiten der Googlebot durchsucht, damit bspw. nicht die Serverleistung beeinträchtigt wird (lese hierzu auch Crawl Budget).

Leider wird ein Crawler nicht nur für den Index der Suchmaschinen verwendet, sondern auch bspw. für das Sammeln von E-Mail-Adressen. Ein Scraper z.B. handelt inhaltsbasiert und nicht auf Grundlage der Meta-Informationen. Dieser dient dem Zweck Content abzugreifen und diesen zu kopieren bzw. wiederzuverwenden.

Relevanz für SEO

Eins steht fest! Ohne Crawler gäbe es auch keine SERP. Sie bieten die Grundlage und sind quasi der Manager, der die Webseiten sammelt. Wie bereits oben erwähnt ist die Google Search Console ein wichtiges Instrument um Crawler zu beeinflussen und auch festzustellen ob bestimmte Seiten gar nicht berücksichtigt werden. Somit ist es essenziell zu wissen wie sie arbeiten und welchem Zweck sie dienen.

Pro Seite hat jeder Searchbot nur einen limitierten Zeitraum zur Verfügung – auch Crawl Budget genannt. Mit SEO und der Optimierung der Navigation sowie der Dateigröße können Webseitenbetreiber das Crawl Budget des Googlebots beispielsweise besser ausnutzen. Gleichzeitig steigt das Budget durch zahlreiche eingehende Links und eine stark frequentierte Seite.

Essentielle Instrumente, um Crawler wie den Googlebot zu steuern, sind schließlich aber die robots.txt-Datei sowie die in der Google Search Console hinterlegte XML-Sitemap. In der Google Search Console kannst du außerdem prüfen, ob alle relevanten Bereiche einer Webseite vom Googlebot erreicht und indexiert werden können.