Die robots.txt ist eine Textdatei, in der du festlegen kannst, welche Teile einer Domain ein Webcrawler crawlen darf und welche nicht.

Definition

Mit der Textdatei robots.txt kannst du einzelne Dateien in einem Verzeichnis, ganze Verzeichnisse, Unterverzeichnisse oder komplette Domains vom Crawling exkludieren. Du hinterlegst sie dafür im Root der Domain.

Fast jede Webseite im Internet enthält eine robots.txt Datei, nicht alle Webseitenbetreiber befassen sich jedoch genau mit derer Funktion oder wissen, dass sie überhaupt existiert.

Wie funktioniert die robots.txt?

Ist der Crawler einer Suchmaschine auf einer Webseite angekommen, sucht er nach einer robots.txt Datei. Findet er sie, liest der Crawler sie als erstes.

Weil sie Informationen oder eventuell Anweisungen enthält, „wie die Suchmaschine crawlen soll“, weisen die dortigen Informationen weitere Crawler-Aktionen auf dieser speziellen Webseite an. Gibt es keine robots.txt Datei (oder wenn sie keine Anweisungen enthält, die die Aktivität eines Benutzeragenten verbietet), untersucht die Suchmaschine alle Inhalte, die über den Quelltext verlinkt werden. Aber die Suchmaschinen entscheiden noch immer selbst, ob sie sich an die Anweisungen der robots.txt halten oder diese zum Teil oder gar komplett ignorieren.

Wie du eine robots.txt Datei erstellst und bearbeitest

Besitzt du noch keine robots.txt, kannst du diese ganz einfach erstellen:

Bei Wordpress kannst du eine Art Muster-Robots.txt über das Yoast-Plugin unter „Werkzeuge“ mit einem Klick erstellen. Dort kannst du dann auch die Robots.txt bearbeiten.

Auf dem Server deiner Webseite kannst du im Start- bzw. Stammverzeichnis über einen FTP-Client wie FileZilla ganz leicht ein Text-Dokument erstellen, über Notepad beispielsweise mit dem Namen „robots.txt“. Über den Server kannst du diese Datei dann auch ganz unkompliziert bearbeiten. Zur Sicherheit solltest du vor Änderungen immer eine Sicherheitskopie bzw. Backup deiner alten robots.txt Datei erstellen.

Zur Erstellung einer robots.txt Datei stellt Google Webmastern eine Anleitung zur Verfügung.

Warum du eine robots.txt brauchst?

Bei der Suchmaschinenoptimierung (SEO) nimmt die robots.txt Datei je nach Webseite eine große Rolle ein.

Bei Wordpress kannst du über die robots.txt den Zugriff auf den Admin Bereich (wp-admin) verwehren, um etwa die sensiblen Daten zur Datenbank, die dort liegen, zu schützen.

Andere Webseiten-Arten, wie zum Beispiel Online-Shops, sperren über die robots.txt gewisse Parameter oder IDs aus, um Duplicate Content zu verhindern. Aber auch um die Menge an irrelevanten Seiten für Suchmaschinen zu limitieren und den Fokus auf relevante Inhalte zu lenken.

Die Funktion der Datei ist stets mit Vorsicht zu genießen. Einerseits entscheiden Suchmaschinen selbst, ob sie sich an die Anweisungen aus der robots.txt Datei halten, andererseits kannst du durch fehlerhafte Angaben wichtige Inhalte für Suchmaschinen unzugänglich machen.

Fazit

Die robots.txt entscheidet das Crawl-Verhalten für deine Webseite, während der Meta-Robots-Tag das Indexierungsverhalten auf der Ebene der einzelnen Seite (oder eines Seitenelements) bestimmen kann. Die Benutzung der robots.txt ist aber nicht unbedingt leicht: Bei kleineren Webseiten muss eine robots.txt keine zahlreichen Anweisungen beinhalten, während bei größeren Seiten und Online-Shops die richtige Bedienung dagegen eine wichtige Rolle für Crawlbarkeit und saubere Indexierung spielen kann.