03.08.07, von nXplorer
Viele Publisher akademischer Texte wurden beim erfolgreichen Cloaken ertappt. Beim PDF Cloaking wird Google die PDF-Datei gezeigt und ein menschlicher Besucher wird auf eine Seite geleitet auf der er den Artikel käuflich erwerben kann.
In Deutschland ist mir das noch nicht sehr oft aufgefallen und ich bin der Sache nie nachgegangen. In den USA scheint die Problematik wesentlich verbreiteter zu sein.
Einige Beispiele von blogsci
- site:springerlink.com filetype:pdf
- site:www.ingentaconnect.com intitle:”journal”
- site:rsc.org filetype:pdf “carbon dioxide”
- site:www.informaworld.com filetype:pdf “carbon dioxide”
Bei all diesen Seiten leitet der Aufruf eines PDFs euch auf eine Verkaufsseite weiter. Ich erstelle gerade ein paar PDF Files hoffe Google unternimmt etwas dagegen. So schwierig sollte es ja eigentlich nicht sein ein paar Spider mit anderen IPs und User Agents los zuschicken.
Dieser Artikel wurde am 03.08. 2007 von nXplorer geschrieben.
Interessante Idee. Ich hoffe aber auch mal das Google bald eine Möglichkeit findet dies einzudämmen.
Dito.
Ich bin da auch deiner Meinung. Das Problem sollte schnellstmöglich eingedämmt werden, weil cloaking eine Schweinerei ist.
Wenn Google eine PDF vorgegaukelt wird, dann sollte auch ein PDF dem User gezeigt werden.
Soweit ich weiß, wird diese Technik von Google aktiv unterstützt (zumindest bei ausgewählten Websites).
Dass es kein herkömmliches Cloaking sein kann, merkt man bereits in den Suchergebnissen daran, dass kein Link zur gecachten “HTML-Version” der PDF-Datei vorhanden ist. Ich wüsste für PDF-Dateien keinen bekannten und offiziellen Weg, dies auszuschalten.
Bin gerade wieder bei Springerlink gelandet – das PDF Cloaking funktioniert immernoch problemlos.
@nils: Über den X-Robots HTTP Header lässt sich das Caching von jeder beliebigen Datei steuern. Vor nem Jahr gabs den allerdings noch nicht…:
http://www.sistrix.com/news/716-new-tag-in-town-x-robots.html