Wenn du SEO betreiben möchtest, solltest du auf jedenfall wissen was
ein Crawler ist und wie er arbeitet.

Definition

Wenn sie den Begriff noch nie gehört haben, kennen sie ihn vielleicht unter dem Namen Webcrawler, (Suchmaschinen-)Spider oder (Search-)bot.

Einfach gesagt versteht unter einem (Web)Crawler ein Programm welches die weiten des Internets ständig nach neuen Webseiten und Inhalten durchsucht.

Jede Suchmaschine im Internet arbeitet auf Grundlage eines Crawlers um ihren Index zu füllen und zu aktualisieren. Diese Programme sind automatisiert. Der wohl bekannteste Suchmaschinencrawler ist der Googlebot. Google verwendet die verschiedensten Crawler für verschiedene Bereiche.  Manche haben beispielsweise die Funktion nach Bildern zu suchen und andere die nur für mobile Endgeräte zuständig sind.

Wie funktioniert ein Crawler?

Ein Searchbot folgt prinzipiell jeder Seite im Internet, sofern diese auffindbar ist. Das ist allerdings sehr allgemein beschrieben. In der Praxis ist es jedoch wesentlich komplexer. Das Aufrufen der Seiten ist in einer bestimmten Abfolge festgelegt und wiederholt sich ständig. Die gefundenen Seiten werden dann durch verschiedene Algorithmen nach bestimmten Kriterien (die meisten davon sind geheim) sortiert und bewertet. Focused Crawler konzentrieren sich z.B. auf themenrelevante Webseiten. Der Crawler ist mit dem Index der Suchmaschine verbunden und listet diese dann entsprechend dort auf.

Du hast noch nicht ganz verstanden was der Crawler für eine Rolle spielt?

Das folgende Video gibt unter Anderem Aufschluß darüber, wie crawling funktioniert und wie die Webseiten gerankt werden.

Der Crawler in der Praxis

Durch die Logfiles des Crawlers kann ein Webmaster Infos darüber bekommen wer genau den Server ausforscht. Er hat auch bestimmte Möglichkeiten dem Crawler den Zugang zu verwehren. Wenn man z.B. nicht möchte, dass bestimmte Informationen über den Crawler abgerufen werden, kann man sogenannte Meta Tags im HTML-Dokument hinzufügen. Das kann ebenfalls über die Robots.txt Datei mit der Kennzeichnung: „Disallow:/“ erreicht werden. Man kann auch festhalten, mit welcher Frequenz (via Google Search Console) oder wie viele Seite der Googlebot durchsucht, damit bspw. nicht die Serverleistung beeinträchtigt wird (lese hierzu auch Crawl Budget).

Leider wird ein Crawler nicht nur für den Index der Suchmaschinen verwendet, sondern auch bspw. für das Sammeln von E-Mail-Adressen. Ein Scraper z.B. handelt inhaltsbasiert und nicht auf Grundlage der Meta-Informationen. Dieser dient dem Zweck Content abzugreifen und diesen zu kopieren bzw. wiederzuverwenden.

Relevanz für SEO

Eins steht fest! Ohne Crawler gäbe es auch keine SERP. Sie bieten die Grundlage und sind quasi der Manager, der die Webseiten sammelt. Wie bereits oben erwähnt ist die Google Search Console ein wichtiges Instrument um Crawler zu beeinflussen und auch festzustellen ob bestimmte Seiten garnicht berücksichtigt werden. Somit ist es essenziell zu wissen wie sie arbeiten und welchem Zweck sie dienen.