Warum der Google Bot besser ist

28.06.07, von nXplorer

Die Logfiles des Restaurantführers Urbanspoon.com wurden von Adam Doppelt auf das Verhalten der Crawler von Yahoo und Google untersucht.

Das Ergebnis der Auswertung einer Zeitspanne von drei Tagen (16.-18. Juni):


Aktion – Yahoo – Google
Hits – 194.464 – 41.941
Pages – 120.076 – 41.332
Doppelt aufgerufene Seiten – 38% – 1,4%
Verletzungen der Robots.txt Regeln – 32 – 27

Es gibt einige Auffälligkeiten bei Yahoo.

Yahoo ruft Seiten mehrfach auf

  • /robots.txt (419)
  • /choose (294)
  • / (273)
  • /c/3/New-York.html (21)
  • /c/5/Los-Angeles.html (19)
  • /a/3/New-York-at-night.html (16)
  • /c/1/Seattle.html (15)
  • /c/2/Chicago.html (14)
  • /u/create (11) geblockt via Robots.txt!

Der Crawler ruft nicht verlinkte Verzeichnisse auf
Verlinkt ist nur /r/1/1084/Seattle/Eastlake-Lake-Union/Sitka-Spruce.html
für Yahoo ist das eine Einladung auch die folgenden (nirgendwo verlinkten und nicht existierenden, bzw. weiterleitenden Seiten aufzurufen):

  • /r/1/1084/Seattle/Eastlake-Lake-Union/
  • /r/1/1084/
  • /r/1/
  • /r/

Dazu kommt, dass Yahoo (im Gegensatz zu Google) seine Bots nicht gleichmäßig vorbeischickt sondern zwischen Phasen extremer Belastung und besuchsfreien Momenten schwankt.

Sistrix sieht darin einen großen Nachteil gegenüber Google und da kann ich ihm nur zustimmen. Das Aufrufen der nicht existierenden Verzeichnisse könnte erklären warum bei einem phpLD Webkatalog von mir ständig nicht existierende URLs mit komischen Ordnern aufgerufen wurden. Dank des verkorksten Modrewrites gab es dann tausendfach Duplicate Content bei Yahoo.

Also, lieber Yahoo Crawler. Bitte lern sorgfältiger mit deinen Ressourcen umzugehen (38% doppelte Aufrufe sind 29 mal so viele wie bei Google!) und verschwende nicht unseren Traffic.

Ranking-Konzept-Autor nXplorer Dieser Artikel wurde am 28.06. 2007 von nXplorer geschrieben.
2 Kommentare bisher • RSS-Feed für KommentareTrackBack URI
Hinterlasse deinen Kommentar!
Einen Kommentar hinterlassen