Stemming – Suchmaschinen im Vergleich

03.07.07, von nXplorer

Sistrix ist erfreut über das bessere Stemming von Google weil bei einer Suche nach CTR auch Click-Through Rate und Center for Turbulence Research mit Fettschrift hervorgehoben werden.
Google kennt also Abkürzungen. Doch wie sieht es mit anderen Suchmaschinen aus?

Folgende Abkürzungen wurden erkannt
Google

  • CTR – Click-Through Rate, Center for Turbulence Research und Center for Telecommunications Research
  • MS – Multiple Sklerose
  • VW – Volkswagen aber nur im Ergebnis von Wikipedia!

Web.de

  • CTR – Click- through rate(s), Carinthian Tech Research, Center for Telecommunications Research und Center for Turbulence Research
  • MS – Multiple Sklerose
  • VW – Volkswagen, ebenfalls nur im Ergebnis von Wikipedia

Und diese Suchmaschinen konnten mit den Abkürzungen gar nichts anfangen

  • MSN, Live
  • Yahoo
  • Ask

Was mich überrascht ist Web.de. Nicht nur, dass sie auch den Plural der Click-Through Rate erkannt haben. Sie haben sogar mehr Abkürzungen als Google, spricht die SERP sind besser gemischt, da ja nicht klar ist was der Suchende will.

Wobei mich Web.de sowieso verwirrt. Die SERP sind denen von Google sehr ähnlich, im Netz ist aber zu lesen, dass sie 2004 von Google zu Inktomi (Yahoo) gewechselt sind.
Dann gibt es noch Meinung von 2007, dass Web.de identisch mit Google sei, dass sie Googles Ergebnisse nehmen und nachfiltern und dass sie eine eigene Suchmaschine haben.
Weiß da jemand konkretes?

Da sowohl Web.de als auch Google Volkswagen bei der Suche nach VW nur für die Wikipedia Eintrag hervorheben vermute ich, dass sie die Ergebnisse direkt von Google beziehen und evtl. einige Filter anders regeln.
Die besser gemischten SERP kommen dann wohl nur durch Zufall (verschiedene DataCenter) zu Stande.

Und Google zeigt mal wieder wie viel Trust und Autorität Wikipedia hat. Die offiziellen VW-Seiten auf den ersten Plätzen kriegen keine Fettschrift für Volkswagen aber das Wiki schon.

Da die Frage gerade auftrat: Was ist eigentlich Stemming?

Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information-Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und schrieb auf schreiben.

Es geht also darum zu erkennen welche Worte den gleichen Stamm oder die gleiche Bedeutung haben.

Einige Beispiele fürs Stemming

  • Kompositionen: Haus > Hochhaus
  • Deklination (Adjektiv) : schnell > schneller
  • Konjugation: schnell > schnelles
  • Deklination: das Hoch > des Hauses
  • Derivation: frei > Freiheit
  • Präfixe: legen > ablegen
  • Suffix: mann > männlich

Nachtrag 8:48
Mit dem ~ zeigt Googles was wirklich Möglich ist. Eine Suche nach ~vw markiert auch Jetta, Passat und Wikipedia (!).

Und wenn wir nach ~ms suchen werden neben Multiple Sklerose auch Microsoft, Windows, MSN und Mississippi hervorgehoben.

Danke für den Hinweiß auf ~ an den LSI Exploiter.

Ranking-Konzept-Autor nXplorer Dieser Artikel wurde am 03.07. 2007 von nXplorer geschrieben.
3 Kommentare bisher • RSS-Feed für KommentareTrackBack URI
Hinterlasse deinen Kommentar!
  • Markus says:

    Also Web.de greift auf Google Ergebnisse zurück, wirkliche Veränderungen kann ich bei meinen Keys auch nicht feststellen.
    Was mir aber grade auffiel und was ich eigentlich wesentlich interessanter finde: Warum nutzt Web.de die Lokale Suche von Google, aber nicht das Kartenmaterial?

    Und um aufs eigentliche Thema zu kommen:
    An sich halte ich Stemming für eine gute Sache, aber ich finde wenn man das Tilt (~) vor die Abfrage setzt übertreibt Google doch schon ein wenig.

  • [...] erklärt das auch Malte, der in seinem Artikel, inspiriert von Sistrix das Stemming der Suchmaschinen auf den Teststand [...]

  • Google kennt Abkürzungen beim Suchen

    Ich war doch schon etwas verwundert als ich heute abenend mir mal ein paar Suchbegriffe angeschaut habe über die User auf meine Seite kommen. Einmal hätten wir da “Counterstrike kostenlos downloaden”, nanu hab ich auf einmal eine …

Einen Kommentar hinterlassen