Haben Sie sich auch darüber geärgert, dass Ihre Website komplett aus dem Google Index entfernt wurde? Dabei haben Sie nicht gegen die Google Webmaster Richtlinien verstoßen?
Die häufigste Ursache für ein schlechtes Ranking bei einer Suchmaschine wie Google ist ‘Duplicate Content’.
Das heißt, der gleiche Inhalt ist unter zwei oder mehreren URLs erreichbar. Wenn man das richtige beziehungsweise falsche Los zieht, dann kann die eigene Webseite ganz und gar aus dem Index fliegen.
Die häufigsten Gründe für Duplicate Content:
- Out-of-the-Box, Affiliate Werbemittel
- Identische Elemente
- Content unter verschiedenen URLs aufrufbar
- Unnötige Subdomains
- WWW und Non-WWW
- Doppelter Index
- Druckversionen
- Archive
- SessionIDs
- Trackingparameter
Affiliate Werbemittel mit Standard-Linktext, Standard-Beschreibung und ohne eigene Inhalte sind gefährlich. Diese gibt es schon tausendfach in Netz und deswegen erzeugt man ohne eigene Inhalte nur ‘Duplicate Content’.
Webkataloge mit 1000 Kategorien, von denen 900 leer sind und lediglich 100 nur einen einzigen Eintrag haben sind nutzlos, eher sogar hinderlich. Schlecht sind auch Blogs mit zweizeiligen Artikeln und zwei Sidebars mit unendlich langer Linkliste.
In den oben aufgeführten Fällen sind 90% der Inhalte auf allen Seiten gleich und nur ein kleiner Teil jeder Seite einzigartig.
Wenn Inhalte unter /thema1/seite1.html und /seite1.html aufrufbar sind, ist das nicht gut. Noch schlimmer ist es, wenn intern auf beide Versionen verlinkt wird.
Manchmal sind unter thema1.domain.de die gleichen Inhalte wie unter domain.de/thema1/ zu finden. Das sollte grundsätzlich vermieden werden.
example.de sollte auf www.example.de weitergeleitet werden, oder umgekehrt. Sonst ist jede Unterseite zweimal vorhanden.
Intern darf nicht auf /index.html oder /index.php verlinkt werden, sondern der Link muss einfach auf das Root-Verzeichnis, also www.example.de/, zeigen.
Diese Problematik wird zwar mittlerweile von Google erkannt, sollte jedoch ebenfalls vermieden werden.
Druckversionen sollten immer per Robots.txt gesperrt werden.
Für Archive gilt das gleiche wie bei den Druckversionen.
Session IDs zur Identifizierung des Users sollten auf jeden Fall, vermieden werden, denn der Google-Bot erhält bei jedem Besuch eine neue ID zugewiesen und geht dann fälschlicherweise davon aus, dass er eine andere Seite spidert.
Nutzt man Trackingparameter, zum Beispiel über Ref-Links, dann entsteht die gleiche Problematik. Statt dessen sollte man lieber Cookies verwenden.
Wenn Sie die wichtigsten Punkte, die hier aufgelistet sind, beachten, dann sind Sie auf der sicheren Seite, dass ihre Website nicht durch ‘Duplicate Content’ aus dem Index fliegt.
Dieser Artikel wurde am 20.08. 2007 von David Mirzoian geschrieben.
Evtl. noch Tag und Suchseiten hinzufügen?!
das mit den Tag-Seiten hab ich mir auch lange überlegt. Hab schon Blogs gesehen, wo Tag Seiten im Index sind. Manche Blogger meinen damit keine negativen Erfahrungen gemacht zu haben. Ich lasse aber das “nofollow” drin und sperre noch per robots.txt die Seiten.
noch was zu Session ID’s. Für XT Commerce User hab ich vor einiger Zeit mal einen Post geschrieben um die Session ID Seiten wieder aus dem Index zu bekommen und natürlich die Indexierung zu vermeiden. Hier der Link:
http://www.gogozone.de/blog/xt-commerce-session-id-aus-google-entfernen-25/
Ich finde, dass so langsam alles zu Duplicate Content gesagt wurde…eigentlich ist dieser Beitrag ja nichts neues oder? o0
Ich denke, wenn man bei den Tags mehr als ein paar Beiträge hat, besteht auch für Blogger KEINE Gefahr für DC.