Der Google Bot: Wie kommuniziere ich mit einem Bot?

Irgendwann einmal kommt die Zeit eines jeden Webmasters oder Webprojektmanagers, in der man sich einmal ausführlich mit dem Google-Bot unterhalten muss. Etliche Seiten sind von dem eigenen Webprojekt im Index gelandet, die dort eigentlich nichts zu suchen haben. Man steht also vor der Aufgabe dem Bot, sprich Google, mitzuteilen, dass einige Seiten von diesem Google-Bot nicht mehr gecrawlt und indexiert werden sollen.

Dolmetscher für robots-txtDie wenigsten Webmaster aber sprechen die Sprache des Google-Bots, der vorwiegend über eine Metasprache namens „robots.txt“ kommuniziert und können demnach nicht ihre Anliegen gegenüber der „Suchmaschine“ ausdrücken. Aber zum Glück hat der Suchmaschinengigant Google ein Einsehen und spendiert jedem ambitionierten Webmaster einen Dolmetscher, sofern man diesen nutzen möchte. Dieser Dolmetscher erlaubt es auch den sprachunbegabtesten Admins sich der robots.txt -Sprache zu bemächtigen und mit ein paar einfachen Klicks eine administrative robots.txt zu erstellen.
Den Dolmetscher findet ihr, sofern ihr ein Googlekonto angelegt habt in der Rubrik Webmastertools. Dort könnt er per Klick auf „robots.rxt erstellen“ euch dieses Übersetzers bemächtigen und eure eigene robots.txt Datei erstellen.

Per robots.txt kann festgelegt werden, was der Google-Bot sehen bzw. crawlen darf und was nicht. Im einfachsten Fall müsst ihr nur die Dateien und Verzeichnisse angeben, die nicht von den Suchrobotern gecrawlt werden sollen. Aber auch tiefgreifender, administrative robots-Befehle sind über das von Google bereitgestellte Tool spielend zu realisieren und können postwendend mit einem anderen Webmastertool getestet werden.
Nicht nur der Google-Bot hört dann, dank des Dolmetscher und der robots.txt Datei, auf eure Befehle und durchsucht nur noch Verzeichnisse und Dateien, die er durchsuchen darf. Nein, auch Bots anderer Suchmaschinenbetreiber werden sich größtenteils an eure Befehle aus der robots.txt – Datei halten. Eine Garantie gibt es hierfür allerdings nicht und Google formuliert dieses Einschränkung folgender Maßen:

„Nicht alle Suchmaschinen unterstützen jeden Eintrag in der robots.txt-Datei
Der robots.txt-Generator erzeugt Dateien, die von Googlebot und ebenso von den meisten größeren Suchrobotern korrekt interpretiert werden. Es kann jedoch vorkommen, dass einzelne Suchroboter nicht alle vom robots.txt-Generator verwendeten Features verstehen.“

„Die robots.txt-Datei ist lediglich eine AnfrageAuch wenn man es für die bekannten Suchmaschinen mit großer Wahrscheinlichkeit ausschließen kann, gibt es doch einige skrupellose Suchroboter, die sich nicht an alle Anweisungen in der robots.txt-Datei halten und Inhalte crawlen, die eigentlich vom Crawling ausgeschlossen sind. Falls ihr sensible Daten habt, die ihr auf jeden Fall schützen wollt, solltet ihr diesen Content mittels eines passwortgesicherten Verzeichnisses schützen und euch nicht auf die robots.txt-Datei verlassen.“ (Google Blog)

Nun ja ich hoffe, dass nun einige sich der Sprache des Google-Bots auseinandersetzen werden und somit einen weiteren Teil zur Webkommunikation beitragen. Getreu dem Motto

„Mehr als 4 Mio. Menschen können kein robot.txt. Schreib dich nicht ab. Lern lesen und Schreiben auf robot.txt per Googles Webmastertools“!

6 Kommentare

  1. Jeremy Februar 6, 2009 10:38 am 

    Schöner informativer Text.

    Mehr als 4 Mio. Menschen können kein robot.txt. Schreib dich nicht ab……. HAHA Fett 🙂

  2. embee Januar 22, 2010 1:33 pm 

    Hey,
    vielen Dank für den interessanten Artikel – das war genau das, was ich gesucht habe. Der dämliche Bot hat immer meinen Statistik-Login gecrawlt.

    Liebe Grüße
    embee

  3. Mr Ohwei März 2, 2010 2:38 am 

    Oh wei Ohh wei, habt ihr alle noch nicht bemerkt das dieses alles absolut unwichtig ist? Schaut euch mal den quelltext von > http://www. menorca-index.info/ an !!

  4. Martin November 14, 2011 7:07 pm 

    Hallo, kleiner Hinweis am Rande: Ich persönlich finde die Lösung mit robots.txt eher zu unsicher. Deshalb sollte man gerade bei Seiten, die tatsächlich nicht in den Index sollen, diese physisch löschen und zur Sicherheit noch einen Removal-Antrag über die Webmaster Tools senden. Dann wird auch der Cache gelöscht. Allerdings darf man diesen Dienst nicht missbrauchen, denn dann könnte Google hier einen Riegel vorschieben. Schade ist, dass man nicht einfach eine xml-Datei hochladen kann, um im größeren Umfang Seiten zu löschen und es dauert oft ewig, bis das Google System die Änderungen tatsächlich erkennt. Wichtig: Gebt bei gelöschten Seiten einen Fehlercode 404 oder noch besser 410 an Google aus. Denn wenn es ein Code 200, 301 oder gar 302 ist, weiß Google ja nicht, was mit der bisherigen Seite passiert ist. LG Martin

Schreibe einen Kommentar