Die robots.txt zur Vermeidung von Duplicate Content

Duplicate Content ist ein Schreckgespenst, das immer wieder mal durch die digitalen Lande zieht. Doch was ist das überhaupt? Duplicate Content hat auf jeden Fall etwas mit sogenannten doppelten Inhalten zu tun. Diese entstehen beispielsweise, wenn Webmaster faul sind, und einfach von anderen Webseiten Inhalte kopieren und auf ihrem eigenen Webauftritt präsentieren.

Damit machen sie sich übrigens unter Umständen strafbar, weil die Texte häufig einem Urheberrecht unterstehen – aber daran denkt man wohl nicht unbedingt sofort. „Prinz Rupi“ hat auf suite101.de neulich einen schönen Beitrag zu diesem Thema verfasst und ist dabei auch auf die Folgen bei Google eingegangen.

Ob es tatsächlich Abstrafen für Duplicate Content gibt, kann ich aus Erfahrung selber leider nicht sagen. Es gehen allerlei Gerüchte rum, dass im Extremfall Webseiten nicht mehr in diversen Suchmaschinen gelistet werden, wenn sie eine reine Kopie von anderen darstellen. Ich kann aber von folgendem Fall berichten:

Ein Reiseblogbetreiber sorgte durch gut geschriebene Beiträge für Aufsehen, was scheinbar auch Mitgliedern eines Reiseforums nicht entgangen war. Diese kopierten fleißig die Inhalte des Reiseblogs, sodass dieser an PageRank verlor und auch schlechter in Suchmaschinen gelistet wurde – in Sachen Suchmaschinenoptimierung (SEO) also ein Horror. Wenn die Suchmaschinen nicht erkennen, wo der ursprüngliche Text stand, dann kann so ein nicht unerheblicher Schaden entstehen.

Überprüfen kann man unter anderem bei www.copyscape.com, ob man schon Opfer von Content-Diebstahl wurde oder noch nicht. Doch der fleißige Webmaster oder Blogbetreiber kann selber auch für doppelte Inhalte sorgen, und das ohne Absicht.

So wird in der Regel fleißig kategorisiert und getagged. Die Folge kann zum Beispiel sein, dass Blogbeiträge komplett auf der Startseite angezeigt werden, auf einer Archivseite und auf diversen Tag-Seiten des Blogs. Wenn man verhindern will, dass die Beiträge auf verschiedenen Seiten in die Suchmaschinen aufgenommen werden, dann bietet sich (neben anderen SEO-Maßnahmen) die berühmt-berüchtigte robots.txt-Datei an.

Ich bin erst heute auf einen Blog gestoßen, der folgende robots.txt (die man übrigens mit einem ganz einfachen Editor erstellen kann) auf seinem Server rumliegen hatte:

User-Agent: *
Disallow: /

Darauf hin musste ich erst einmal inne halten, da diese Zeilen nichts anderes bedeuteten, als dass das komplette Hauptverzeichnis von der Indizierung durch die Suchmaschinenroboter (daher robots.txt) ausgeschlossen wird. Eine der besten Quellen dazu, wie man eine derartige Datei erstellt, findet sich auf robotstxt.org.

Das mit der fehlerhaften robots.txt kann auf keinen Fall Absicht gewesen sein, da der Blogbetreiber selber Suchmaschinenoptimierer (Seo) ist, hat aber folgenschwere Konsequenzen. Richtigerweise hätte es entweder heißen müssen:

User-Agent: *
Allow: /

oder aber

User-Agent: *
Disallow:

(was aber nach meinem Verständnis eigentlich beides überflüssig ist).

Eigentlich schließt man mit einer robots.txt einzelne Unterseiten/-verzeichnisse aus wie zum Beispiel /tag/ oder das Impressum (www.meinexyzdomain.de/impressum.htm oder so). Auf ein weiteres interessantes Beispiel bin ich nur wenige Momente später gestoßen, indem jemand eine vorbildliche robots.txt für WordPress Blogs verwendet hat, jedoch seine Permalinks so eingestellt hatte, dass seine Beiträge ebenfalls ausgeschlossen wurden.

Wenn ich nämlich Befehle der Art

Disallow: /*?*
Disallow: /*?

verwende, dann ist das nicht sonderlich förderlich, wenn meine Unterseiten etwa so aussehen: www.meinexyzdomain.de/?p12345. Der Blogbetreiber hatte es in diesem konkreten Fall versäumt, die URLs benutzerdefniert umzubenennen, was unter Settings -> Permalinks geht, indem man die „Custom Structure“ auf „/%postname%/“ stellt.

Das war wieder viel technisches Zeug für heute, aber eben aus gegebenem Anlass. Ich bin selber erst vor ein paar Wochen mit dem Thema „robots.txt erstellen“ und Duplicate Content (aus SEO-Gründen) in Berührung in Zusammenhang gekommen und finde es wichtig, sich damit auseinanderzusetzen. In diesem Sinne: viel Spaß beim Basteln!

3 Antworten auf „Die robots.txt zur Vermeidung von Duplicate Content“

Jimmy sagt:

12. November 2009 um 13:59 Uhr

Danke für diesen grossartigen beitrag, von Leuten wie dir kann man einiges lernen.
gentle.rocker sagt:

12. November 2009 um 18:18 Uhr

Hi Jimmy,

vielen Dank – zuviel des Lobes. Viel Erfolg mit Deiner Versicherungswebsite!
Tanja sagt:

12. Juli 2017 um 18:05 Uhr

Sehr cooler Tipp! Sehr gut.

Kommentare sind geschlossen.