Jeder der eine Joomla Webseite betreibt wird früher oder später Probleme mit doppelten Seiten (duplicate Content) bekommen. Also schauen wir uns das Problem etwas genauer an und suchen Gründe dafür warum Suchmaschinen diese Seiten indizieren und woher sie diese haben. Anschließen wollen wir die bösen Zwillinge auch wieder loswerden.
Was sind doppelte Seiten?
Als "Duplicate Content" bezeichnet man zwei identische Dokumente die über verschiedene URLs zu erreichen sind. Dieses Problem hat allerdings nicht nur Joomla. Die meisten CMS verursachen doppelte Inhalte, was auch kein Problem ist, solange sie nicht von Suchmaschinen gefunden werden.
Hauptursache für doppelte Inhalte ist eine falsche Struktur der Webseite. Vor dem Beginn mit der Arbeit an einer neuen Internetseite muss man viele Gedanken um die richtige Struktur machen. Wenn man eine feste Sturkur von Anfang an beibehält kann das vor falschen URLs schützen.
Schauen wir uns beispielsweise solche Fehler genauer an. Wir haben eine Kategorie "Nahrungsmittel" mit mehreren Unterkategorieen "Gemüse", "Obst", ... wir verlinken alles direkt auf die Unterkategorien. Hier sind einige Beispiele für URLs die daraus folgen...
https://meineSeite.com/gemuese/23-gurken
https://meineSeite.com/1-nahrungsmittel/gemuese/23-gurken
https://meineSeite.com/1-nahrungsmittel/2-gemuese/23-gurken
https://meineSeite.com/index.php?option=com_content&task=view&id=23&Itemid=1
Und so weiter ... es gibt zahlreiche Wege eine URL zu bilden. Das Problem ist dabei das es alles Kopien des gleichen Dokuments sind. Ein weiteres Problem an dem Suchmaschinen hängen bleiben sind technische Links wie "Drucken", "PDF Ansicht" und "Teilen". Diese Links sollten am besten deaktiviert werden!
Wenn man eine Webseite beginnt sollte man sich also über die Struktur sicher sein. Eine spätere Veränderung der Struktur kann die Webseite komplett zerstören und zu unzähligen fehlerhaften Links führen welche über Monate hinweg behoben werden müssen. Das führt unweigerlich zu einem Ranking Verlust bei Suchmaschinen.
Wie finden Suchmaschinen diese Adressen?
Oft liegt es an zusätzlich installierten Komponenten wie XMAP oder anderen Sitemap-Generatoren. Wenn diese fehlerhafte Adressen aufnehmen werden sie schnell von Crawlern übernommen. Andere Ursachen sind auch falsche Verlinkungen im Content. Viele WYSIWYG-Editoren nutzen für die Verlinkung anderer Inhalte nicht die schicken Urls sondern die System Internen mit zahlreichen Parametern. JCE bietet SEF Urls welche die korrekte Adresse benutzen.
Warum sind diese Adressen Problematisch?
Doppelter Inhalte wird von den meisten Suchmaschinen streng bestraft. Suchmaschinen bewerten Webseiten nach Ihren Inhalten und ihrer Relevanz. Wenn mehrere Seiten mit gleichem Inhalt auftauchen führt das unweigerlich zu Problemen und Verlusten bei der Bewertung.
Wie lösen wir das Problem?
Die Probleme müssen für jede Webseite gesondert betrachtet werden. Hier ein paar Beispiele die in den meisten Fällen die Probleme beheben. Ausgangspunkt ist die Aktivierung der SEF / SEO Optionen im Joomla Core.
1. StyleWare Content Canonical Plugin
Mit diesem kleinen Plugin lassen sich die meisten Probleme bereits lösen. Das Canonical Plugin fügt auf allen richtigen Seiten den Tag <link rel="canonical" href="http://www.ihreseite.de/produkte.html" />
ein. So weiß jede Suchmaschine das es sich bei der aktuellen URL um die Haupt-URL handelt und nicht um eine zufällig generierte.
2. Feed-Links deaktivieren
Ein häufiger Grund für unsinnige URLs sind Feed-Links in Beiträgen. Diese Verursachen oft Fehler und doppelte Inhalte. Unter "Beiträge > Optionen > Integration" kann man diese Links abschalten. Außerdem empfiehlt sich auch die PDF, Druck und Teilen Buttons am Artikelanfang zu deaktivieren. Diese kann man durch ein ShareThis oder AddThis Plugin austauschen welche keine Unsinnigen Urls verursachen.
3. Robots.txt in Joomla benutzen
Die Robots.txt beinhaltet Regeln für die Indizierung der Webseite. Damit kann man Suchmaschinen verbieten Verzeichnisse oder URLS zu besuchen. Beispielsweise kann man mit dem Befehl "Disallow: /*?*" verhindern das URLs mit diesem Zeichen (also alle mit Parametern) indiziert werden. Zu beachten ist aber, das die Sitemap und alle anderen Webseiten noch erreichbar sind! Das kann man entweder mit einem "Allow: /sitemap.xml" regeln oder man testet die robots.txt Datei mit dem Robots-Tester von Google.
4. 301 Redirects in htaccess
Ein schicker Weg doppelte URLs zu vermeiden ist sie mit mod_rewrite und htaccess umzuschreiben oder weiterzuleiten. Suchmaschinen die eine falsche Adresse aufrufen bekommen eine 301 Antwort und wissen das die Seite umgezogen ist. Danach werden sie zur richtigen Adresse geleitet. Zum Beispiel gibt es viele Probleme mit /index.php/... diese kann man mit Redirect 301 /index.php http://meineSeite.com/
in der htaccess beheben. Optional kann man auch im Template mit folgendem Code URLs mit index.php weiterleiten:
<?php
if($_SERVER['REQUEST_URI'] == '/index.php') {
header("Location: /",TRUE,301);
exit();
}
?>
Ein weiteres Problem was häufig auftritt sind Adressen mit www und ohne www. Ebenfalls sehr gefährlich für Suchmaschinen. Für diese Fälle fügen wir den folgenden Code zur htaccess hinzu:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [NC]
RewriteRule ^(.*)$ http://example.com/$1 [R=301,L]
5. Meta Tag Robots
Einzelne Webseiten kann man aus dem Index aussperren indem man "noindex" in den <head> einer Seite schreibt. <meta name="robots" content="noindex"/>
Das ist viel effektiver als das Aussperren mit einer robots.txt. Beispielsweise können wir mit folgendem Code in der index.php unseres Templates Seiten vor Suchmaschinen verbergen.
<?php $option = JRequest::getVar('option', null);
if ($option == 'com_search') : ?><meta name="robots" content="noindex"/>
<?php endif; ?>
6. URLs über das Webmaster Tool entfernen
Jeder Webmaster kennt sicher die Google Webmaster Tools. Mit dieser Sammlung von kleinen Helfern kann die Leistung und Indizierung der eigenen Webseiten bei Google geprüft und gesteuert werden. Es lassen sich beispielsweise Parameter aus dem Index Entfernen oder ganze URLs. Auf Fehler bei der Indizierung und fehlende Seiten werden aufgelistet. Ein Muss für jeden Webseiteninhaber.
Haben Sie Fragen zu diesem Artikel, oder wünschen Sie eine Beratung zur Optimierung Ihrer Webseite - dann nehmen Sie Kontakt zu uns auf!