Wer sind diese Crawler?

Ein Crawler – auch genannt Spider oder Searchbot – ist ein Computerprogramm, das Dokumente im Web durchsucht und entsprechend in einem Index speichert. Er wird für eine sich wiederholende Aktion programmiert und läuft automatisch ab.

 

Wo werden diese „Durchsucher“ eingesetzt?

Crawler sind Teil eines komplexen Algorithmus und werden hauptsächlich von Suchmaschinen genutzt. (Können aber auch beispielsweise bei Preisvergleichsportalen oder dem Sammeln von E-Mails eingesetzt werden)

grafik

 

Warum gibt es Crawler?

Um den Internetnutzern möglichst viele relevante und aktuelle Ergebnisse bieten zu können, müssen Suchmaschinen natürlich stets auf dem neuesten Stand sein. Und das gelingt ihnen nur, wenn ständig neue Informationen zur Verfügung stehen. Diese zu beschaffen ist die Aufgabe des Crawlers.

 

Wie funktioniert eine Suchmaschine?

  1. Crawler    

Wie bereits erwähnt, handelt es sich hierbei um eine Art „Durchsucher“. Dieser sammelt und analysiert Informationen auf einer Webseite und ordnet sie dann bestimmten Kategorien zu. Die Ergebnisse werden dann in einem Index angelegt.

  1. Index

Die durch den Crawler indexierten Daten werden hier auf Keywords untersucht und entsprechenden Suchbegriffen zugeordnet. Die Informationen sind nun jederzeit abrufbar.

  1. Ergebnisausgabe

Im letzten Schritt werden die Suchergebnisse, je nach Suchbegriff, individuell erstellt. Bei Google kümmert sich beispielsweise ein Suchalgorithmus um die Bewertung und Sortierung der Vorschläge. Dieses Ranking wird nach Relevanz der Beiträge gebildet.

 

Wann scannen Crawler Webseiten?

Die Abstände, in denen Webseiten durchsucht werden, variieren stark. Dabei kommt es vor allem auf den Inhalt einer Seite an. Ist diese für Google interessant und handelt es sich um eine vertrauenswürdige Quelle, wird sie natürlich öfter gescannt. So werden beispielsweise Nachrichtenseiten mehrmals täglich untersucht.

 

Was kann ich tun, um die Suchmaschine zu meinem Freund zu machen?

Um bei möglichst vielen Suchanfragen gefunden zu werden, ist es wichtig, dem Crawler die Arbeit so leicht wie möglich zu gestalten – denn jede Webseite besitzt ein Crawlingbudget. Das heißt, es gibt nur ein gewisses Zeitfenster, in dem eine Seite gescannt wird. Deshalb sollte man darauf achten, dass diese Zeit auch sinnvoll genutzt wird. So sollten unwichtige Inhalte aus dem Index ausgeschlossen werden, damit mehr Platz für relevante bleibt.

  • Prioritäten setzen

Mit dem Attribut <priority> kann man einzelnen Unterseiten Wertigkeiten von 0,1 – 1,0 zuordnen. Auf diese Weise kann die Aufmerksamkeit des Crawlers vor allem auf die wichtigen Seiten gelenkt werden.

  • Duplicate Content kennzeichnen

Damit keine Zeit durch das Erkennen von doppelt vorhandenen Inhalten verloren geht, kann man mit bestimmten Tags (beispielsweise dem Meta-Tag „noindex“ oder dem Canonical-Tag) im Quelltext auf solche hinweisen.

  • Änderungsfrequenz bestimmen

Je nachdem, wie oft eine Webseite aktualisiert wird, kann mithilfe des Attributs <changefrec> die Häufigkeit eines Recrawls festgelegt werden.

  • Zusammenhänge schaffen

Oft treten Schwierigkeiten beim Feststellen von Beziehungen zwischen zwei Seiten auf. Mit den Attributen <rel=“next“> und <rel=“prev“> kann man den Crawlern bestehende Zusammenhänge deutlicher machen.

 

Aber Achtung! Nicht nur die technische Struktur einer Webseite ist ausschlaggebend für eine gute Platzierung bei den Suchergebnissen – vor allem die Inhalte sollten sowohl zusammenhängend als auch strukturiert sein und Mehrwert bieten.