Wordpress ist weltweit das beliebteste Blog-System. Einfache Bedienung und gute Übersichtlichkeit sprechen für sich. Ein paar Handgriffe muss man nun doch manuell durchführen. Google, Bing und Co. verlangen eine robots.txt um die seite richtig zu crawlen. Leider bringt der Wordpress Core keine Möglichkeit mit diese anzulegen. Hier einige Tipps dazu ...
Was ist eine robots.txt
Web Robots oder auch Spider genannt, sind webbasierende Programme, die meist in regelmäßigen Abständen Hypertext Dokumente und die dort verlinkten Dokumente indizieren. Meist werden diese Programme von Suchmaschinen verwendet, um Seiten zu indizieren und die eigenen Datenbanken zu aktualisieren.
In manchen Fällen kann es aber von Vorteil sein, wenn diese Robots bestimmte Bereiche einer Website nicht indizieren. Dies kann zum Beispiel eine noch nicht veröffentlichte Seite sein, oder Bereiche einer Website, die sich sowieso laufend ändern. Um dies zu gewährleisten, legt man eine Datei an, in der dem Robots mitgeteilt wird, von welchen Bereichen sie sich fern halten sollen. Es hängt jedoch vom Robot ab, ob er diese Information verwendet und danach handelt.
Dabei wird mit "User-agent" immer der Crawler angesprochen und mit "Disallow" und "Allow" die Adressen oder Parameter die erlaubt beziehungsweise verboten werden. So kann man beispielsweise mit Disallow: /wp-admin/
Crawlern verbieten Dateien des Wordpress Backends zu indizieren.
Warum brauche ich eine robots.txt?
Eine solche Datei bringt viele Vorteile. Mit hilfe dieser Dateien lassen sich Verzeichnisse und auch Parameter vor Suchmaschinen verstecken. So vermeidet man Doppelten Content, welcher von Suchmaschinen bemängelt wird. In den Webmastertools kann man unter "Optimierungen > HTML Verbesserungen" Probleme mit Parametern entlarven.
Auch der Hinweis auf die Sitemap kann die indizierung der eigenen Seite vorantreiben. Mit dem Vermerk Sitemap: http://www.DeineWebseite.de/sitemap.xml
weiß jeder Crawler direkt wo er ein Inhaltsverzeichnis für die Webseite findet und kann schneller arbeiten.
Wie lege ich eine robots.txt an?
Ganz einfach. Mit einem FTP-Tool auf den Server verbinden und im Wurzelverzeichnis eine neue txt-datei anlegen. Dort kopiert man dann den entsprechenden Text hinein. Fertig. Die Datei muss zum Schluss über "http://www.DeineSeite.de/robots.txt" aufrufbar sein.
robots.txt für Wordpress
Wie sieht nun die Robots-txt für Wordpress aus? Hier findest du ein Beispiel für eine Robots.txt Datei. Wordpress liefert zwar keine eigene Datei im Paket mit, gibt jedoch Vorschläge wie eine solche Datei aussehen könnte. Im Wordpress Codex fintet sich ein Eintrag zu diesem Problem. Wordpress möchte in seiner robots.txt den Googlebot-Image explizit zulassen und "diggmirror" verbieten. Diese Befehle sind optional.
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
# digg mirror
User-agent: duggmirror
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Sitemap: http://www.DeineSeite.de/sitemap.xml
robots.txt für Joomla
Auch für Joomla gibt es Empfehlungen für eine robots.txt. Joomla bringt diese allerdings bereits von haus aus mit. Änderungen sind also selten notwendig. Joomla gibt keine weiteren Richtlinien herraus welche Crawler ausgesperrt oder explizit zugelassen werden sollen. Somit erhalten wir folgende datei:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: http://www.DeineSeite.de/sitemap.xml