Wordpress ist weltweit das beliebteste Blog-System. Einfache Bedienung und gute Übersichtlichkeit sprechen für sich. Ein paar Handgriffe muss man nun doch manuell durchführen. Google, Bing und Co. verlangen eine robots.txt um die seite richtig zu crawlen. Leider bringt der Wordpress Core keine Möglichkeit mit diese anzulegen. Hier einige Tipps dazu ...
Was ist eine robots.txt
Web Robots oder auch Spider genannt, sind webbasierende Programme, die meist in regelmäßigen Abständen Hypertext Dokumente und die dort verlinkten Dokumente indizieren. Meist werden diese Programme von Suchmaschinen verwendet, um Seiten zu indizieren und die eigenen Datenbanken zu aktualisieren.
In manchen Fällen kann es aber von Vorteil sein, wenn diese Robots bestimmte Bereiche einer Website nicht indizieren. Dies kann zum Beispiel eine noch nicht veröffentlichte Seite sein, oder Bereiche einer Website, die sich sowieso laufend ändern. Um dies zu gewährleisten, legt man eine Datei an, in der dem Robots mitgeteilt wird, von welchen Bereichen sie sich fern halten sollen. Es hängt jedoch vom Robot ab, ob er diese Information verwendet und danach handelt.
Dabei wird mit "User-agent" immer der Crawler angesprochen und mit "Disallow" und "Allow" die Adressen oder Parameter die erlaubt beziehungsweise verboten werden. So kann man beispielsweise mit Disallow: /wp-admin/
Crawlern verbieten Dateien des Wordpress Backends zu indizieren.
Warum brauche ich eine robots.txt?
Eine solche Datei bringt viele Vorteile. Mit hilfe dieser Dateien lassen sich Verzeichnisse und auch Parameter vor Suchmaschinen verstecken. So vermeidet man Doppelten Content, welcher von Suchmaschinen bemängelt wird. In den Webmastertools kann man unter "Optimierungen > HTML Verbesserungen" Probleme mit Parametern entlarven.
Auch der Hinweis auf die Sitemap kann die indizierung der eigenen Seite vorantreiben. Mit dem Vermerk Sitemap: http://www.DeineWebseite.de/sitemap.xml
weiß jeder Crawler direkt wo er ein Inhaltsverzeichnis für die Webseite findet und kann schneller arbeiten.
Wie lege ich eine robots.txt an?
Ganz einfach. Mit einem FTP-Tool auf den Server verbinden und im Wurzelverzeichnis eine neue txt-datei anlegen. Dort kopiert man dann den entsprechenden Text hinein. Fertig. Die Datei muss zum Schluss über "http://www.DeineSeite.de/robots.txt" aufrufbar sein.