Sitemap

Die 4 Phasen der Suche, die alle SEOs kennen müssen

„Was ist der Unterschied zwischen Crawlen, Rendern, Indizieren und Ranking?“

Lily Ray teilte kürzlich mit, dass sie diese Frage potenziellen Mitarbeitern bei der Einstellung für das Amsive Digital SEO-Team stellt.Danny Sullivan von Google hält es für ausgezeichnet.

So grundlegend es auch scheinen mag, es ist nicht ungewöhnlich, dass einige Praktiker die grundlegenden Phasen der Suche verwechseln und den Prozess vollständig verschmelzen.

In diesem Artikel erhalten wir eine Auffrischung darüber, wie Suchmaschinen funktionieren, und gehen die einzelnen Phasen des Prozesses durch.

Warum es wichtig ist, den Unterschied zu kennen

Ich habe kürzlich als Sachverständiger an einem Markenverletzungsfall gearbeitet, bei dem der gegnerische Zeuge die Phasen der Suche falsch verstanden hat.

Zwei kleine Unternehmen erklärten, sie hätten jeweils das Recht, ähnliche Markennamen zu verwenden.

Der „Experte“ der Oppositionspartei kam fälschlicherweise zu dem Schluss, dass mein Mandant unangemessenes oder feindseliges SEO durchgeführt hat, um die Website des Klägers zu übertreffen.

Er machte auch mehrere kritische Fehler bei der Beschreibung der Prozesse von Google in seinem Expertenbericht, in dem er Folgendes behauptete:

  • Die Indizierung war Web-Crawling.
  • Die Such-Bots würden die Suchmaschine anweisen, wie Seiten in den Suchergebnissen eingestuft werden sollen.
  • Die Suchbots könnten auch „trainiert“ werden, Seiten für bestimmte Schlüsselwörter zu indizieren.

Eine wesentliche Verteidigung in einem Rechtsstreit ist der Versuch, die Feststellungen eines aussagenden Sachverständigen auszuschließen – was passieren kann, wenn man dem Gericht nachweisen kann, dass es ihm an den grundlegenden Qualifikationen fehlt, die notwendig sind, um ernst genommen zu werden.

Da ihr Experte eindeutig nicht qualifiziert war, in SEO-Angelegenheiten auszusagen, präsentierte ich seine fehlerhaften Beschreibungen des Google-Prozesses als Beweis für die Behauptung, dass ihm die entsprechenden Qualifikationen fehlten.

Das mag hart klingen, aber dieser unqualifizierte Experte hat viele elementare und offensichtliche Fehler gemacht, als er dem Gericht Informationen präsentierte.Er stellte meinen Mandanten fälschlicherweise so dar, als würde er irgendwie unlautere Handelspraktiken über SEO betreiben, während er das fragwürdige Verhalten des Klägers ignorierte (der offensichtlich Black-Hat-SEO verwendete, während mein Mandant dies nicht tat).

Der gegnerische Sachverständige in meinem Rechtsfall ist nicht allein mit diesem Missverständnis der Suchphasen, die von den führenden Suchmaschinen verwendet werden.

Es gibt prominente Suchmaschinenvermarkter, die ebenfalls die Phasen von Suchmaschinenprozessen miteinander verschmelzen, was zu falschen Diagnosen von Underperformance in den SERPs führt.

Ich habe einige Aussagen gehört: „Ich glaube, Google hat uns abgestraft, also können wir nicht in den Suchergebnissen erscheinen!“ – obwohl sie tatsächlich eine wichtige Einstellung auf ihren Webservern übersehen hatten, die ihre Website-Inhalte für Google unzugänglich machte.

Automatisierte Bestrafungen wurden möglicherweise als Teil der Ranking-Phase kategorisiert.In Wirklichkeit hatten diese Websites Probleme in der Crawling- und Rendering-Phase, die die Indizierung und das Ranking problematisch machten.

Wenn es in der Google Search Console keine Benachrichtigungen über eine manuelle Aktion gibt, sollte man sich zunächst auf allgemeine Probleme in jeder der vier Phasen konzentrieren, die bestimmen, wie die Suche funktioniert.

Es ist nicht nur Semantik

Nicht alle stimmten der Betonung von Ray und Sullivan zu, wie wichtig es ist, die Unterschiede zwischen Crawling, Rendering, Indizierung und Ranking zu verstehen.

Mir ist aufgefallen, dass einige Praktiker solche Bedenken als bloße Semantik oder unnötiges „Gatekeeping“ durch elitäre SEOs betrachten.

Bis zu einem gewissen Grad mögen einige SEO-Veteranen die Bedeutungen dieser Begriffe tatsächlich sehr locker zusammengeführt haben.Dies kann in allen Disziplinen passieren, wenn diejenigen, die in das Wissen eingetaucht sind, mit einem gemeinsamen Verständnis dessen, worauf sie sich beziehen, Fachjargon herumstreunen.Daran ist grundsätzlich nichts auszusetzen.

Wir neigen auch dazu, Suchmaschinen und ihre Prozesse zu vermenschlichen, weil die Interpretation von Dingen, indem man sie mit vertrauten Merkmalen beschreibt, das Verständnis erleichtert.Daran ist auch nichts auszusetzen.

Aber diese Ungenauigkeit, wenn es um technische Prozesse geht, kann verwirrend sein und macht es schwieriger für diejenigen, die versuchen, etwas über die SEO-Disziplin zu lernen.

Man kann die Begriffe beiläufig und unpräzise nur bedingt oder als Kurzschrift im Gespräch verwenden.Allerdings ist es immer am besten, die genauen Definitionen der Stufen der Suchmaschinentechnologie zu kennen und zu verstehen.

Die 4 Stufen der Suche

Viele verschiedene Prozesse sind daran beteiligt, den Inhalt des Webs in Ihre Suchergebnisse zu bringen.In gewisser Weise kann es eine grobe Vereinfachung sein zu sagen, dass es nur eine Handvoll diskreter Stufen gibt, um dies zu erreichen.

Jede der vier Phasen, die ich hier behandle, hat mehrere Unterprozesse, die in ihnen auftreten können.

Darüber hinaus gibt es wesentliche Prozesse, die dazu asynchron sein können, wie zum Beispiel:

  • Arten der Spam-Überwachung.
  • Aufnahme von Elementen in den Knowledge Graph und Aktualisierung von Knowledge Panels mit den Informationen.
  • Verarbeitung der optischen Zeichenerkennung in Bildern.
  • Audio-zu-Text-Verarbeitung in Audio- und Videodateien.
  • Auswertung und Anwendung von PageSpeed-Daten.
  • Und mehr.

Was folgt, sind die primären Phasen der Suche, die erforderlich sind, damit Webseiten in den Suchergebnissen erscheinen.

Krabbeln

Crawling tritt auf, wenn eine Suchmaschine Webseiten von den Servern von Websites anfordert.

Stellen Sie sich vor, Google und Microsoft Bing sitzen an einem Computer und tippen oder klicken auf einen Link zu einer Webseite in ihrem Browserfenster.

Daher besuchen die Maschinen der Suchmaschinen Webseiten ähnlich wie Sie.Jedes Mal, wenn die Suchmaschine eine Webseite besucht, sammelt sie eine Kopie dieser Seite und notiert alle auf dieser Seite gefundenen Links.Nachdem die Suchmaschine diese Webseite erfasst hat, besucht sie den nächsten Link in ihrer Liste der noch zu besuchenden Links.

Dies wird als „Crawling“ oder „Spidering“ bezeichnet, was passend ist, da das Web metaphorisch gesehen ein riesiges, virtuelles Netz aus miteinander verbundenen Links ist.

Die von Suchmaschinen verwendeten Programme zum Sammeln von Daten werden „Spider“, „Bots“ oder „Crawler“ genannt.

Das primäre Crawling-Programm von Google ist „Googlebot“, während Microsoft Bing „Bingbot“ hat.Jeder hat andere spezialisierte Bots für den Besuch von Anzeigen (z. B. GoogleAdsBot und AdIdxBot), mobile Seiten und mehr.

Diese Phase der Verarbeitung von Webseiten durch Suchmaschinen scheint einfach zu sein, aber allein in dieser Phase ist das, was vor sich geht, sehr komplex.

Denken Sie darüber nach, wie viele Webserversysteme es geben kann, auf denen verschiedene Betriebssysteme mit unterschiedlichen Versionen laufen, zusammen mit unterschiedlichen Content-Management-Systemen (z. B. WordPress, Wix, Squarespace) und dann die einzigartigen Anpassungen jeder Website.

Viele Probleme können die Crawler von Suchmaschinen davon abhalten, Seiten zu crawlen, was ein ausgezeichneter Grund ist, die Details in dieser Phase zu studieren.

Zunächst muss die Suchmaschine irgendwann einen Link zu der Seite finden, bevor sie die Seite anfordern und besuchen kann. (Unter bestimmten Konfigurationen vermuten Suchmaschinen bekanntermaßen, dass es andere, nicht offengelegte Links geben könnte, z. B. eine Stufe nach oben in der Linkhierarchie auf Unterverzeichnisebene oder über einige eingeschränkte interne Suchformulare der Website.)

Suchmaschinen können die Links von Webseiten durch die folgenden Methoden entdecken:

  • Wenn ein Website-Betreiber den Link direkt übermittelt oder eine Sitemap an die Suchmaschine weitergibt.
  • Wenn andere Websites auf die Seite verlinken.
  • Durch Links auf die Seite innerhalb der eigenen Website, vorausgesetzt, die Website hat bereits einige Seiten indiziert.
  • Social-Media-Beiträge.
  • Links in Dokumenten gefunden.
  • URLs, die in geschriebenem Text gefunden und nicht verlinkt wurden.
  • Über die Metadaten verschiedener Arten von Dateien.
  • Und mehr.

In einigen Fällen weist eine Website die Suchmaschinen an, eine oder mehrere Webseiten nicht über ihre robots.txt-Datei zu crawlen, die sich auf der Basisebene der Domain und des Webservers befindet.

Robots.txt-Dateien können mehrere Anweisungen enthalten, die Suchmaschinen anweisen, dass die Website das Crawlen bestimmter Seiten, Unterverzeichnisse oder der gesamten Website nicht zulässt.

Suchmaschinen anzuweisen, eine Seite oder einen Abschnitt einer Website nicht zu crawlen, bedeutet nicht, dass diese Seiten nicht in den Suchergebnissen erscheinen können.Wenn Sie verhindern, dass sie auf diese Weise gecrawlt werden, kann dies ihre Fähigkeit, für ihre Schlüsselwörter gut zu ranken, stark beeinträchtigen.

In noch anderen Fällen können Suchmaschinen Schwierigkeiten haben, eine Website zu crawlen, wenn die Website die Bots automatisch blockiert.Dies kann passieren, wenn die Systeme der Website festgestellt haben, dass:

  • Der Bot fordert innerhalb eines Zeitraums mehr Seiten an, als ein Mensch könnte.
  • Der Bot fordert mehrere Seiten gleichzeitig an.
  • Die Server-IP-Adresse eines Bots wird innerhalb einer Zone geolokalisiert, für deren Ausschluss die Website konfiguriert wurde.
  • Die Anfragen des Bots und/oder die Anfragen anderer Benutzer nach Seiten überlasten die Ressourcen des Servers, was dazu führt, dass die Bereitstellung von Seiten verlangsamt wird oder Fehler auftreten.

Suchmaschinen-Bots sind jedoch so programmiert, dass sie die Verzögerungsraten zwischen Anfragen automatisch ändern, wenn sie feststellen, dass der Server Schwierigkeiten hat, mit der Nachfrage Schritt zu halten.

Bei größeren Websites und Websites mit häufig wechselnden Inhalten auf ihren Seiten kann das „Crawling-Budget“ ein Faktor dafür werden, ob Such-Bots dazu kommen, alle Seiten zu crawlen.

Im Wesentlichen ist das Web so etwas wie ein unendlicher Raum von Webseiten mit unterschiedlicher Aktualisierungshäufigkeit.Die Suchmaschinen kommen möglicherweise nicht dazu, jede einzelne Seite da draußen zu besuchen, also priorisieren sie die Seiten, die sie crawlen.

Websites mit einer großen Anzahl von Seiten oder langsamer reagierenden Websites könnten ihr verfügbares Crawl-Budget aufbrauchen, bevor alle ihre Seiten gecrawlt werden, wenn sie im Vergleich zu anderen Websites ein relativ geringeres Ranking-Gewicht haben.

Es ist nützlich zu erwähnen, dass Suchmaschinen auch alle Dateien anfordern, die in die Erstellung der Webseite einfließen, wie Bilder, CSS und JavaScript.

Genau wie bei der Webseite selbst kann es sich auf die Interpretation der Webseite durch die Suchmaschine auswirken, wenn die zusätzlichen Ressourcen, die zum Erstellen der Webseite beitragen, für die Suchmaschine nicht zugänglich sind.

Rendern

Wenn die Suchmaschine eine Webseite durchsucht, wird die Seite „gerendert“.Dabei werden die HTML-, JavaScript- und CSS-Informationen (Cascading Stylesheet) verwendet, um zu generieren, wie die Seite für Desktop- und/oder mobile Benutzer angezeigt wird.

Dies ist wichtig, damit die Suchmaschine verstehen kann, wie der Webseiteninhalt im Kontext angezeigt wird.Durch die Verarbeitung des JavaScripts wird sichergestellt, dass alle Inhalte vorhanden sind, die ein menschlicher Benutzer beim Besuch der Seite sehen würde.

Die Suchmaschinen kategorisieren den Rendering-Schritt als einen Teilprozess innerhalb der Crawling-Phase.Ich habe es hier als separaten Schritt im Prozess aufgeführt, da das Abrufen einer Webseite und das anschließende Analysieren des Inhalts, um zu verstehen, wie er in einem Browser zusammengesetzt aussehen würde, zwei unterschiedliche Prozesse sind.

Google verwendet dieselbe Rendering-Engine wie der Google Chrome-Browser namens „Rendertron“, die auf dem Open-Source-Chromium-Browsersystem basiert.

Bingbot verwendet Microsoft Edge als Engine, um JavaScript auszuführen und Webseiten zu rendern.Es basiert jetzt auch auf dem Chromium-basierten Browser und rendert Webseiten im Wesentlichen so, wie es der Googlebot tut.

Google speichert Kopien der Seiten in einem komprimierten Format in seinem Repository.Es scheint wahrscheinlich, dass Microsoft Bing dies auch tut (aber ich habe keine Dokumentation gefunden, die dies bestätigt). Einige Suchmaschinen speichern möglicherweise eine Kurzversion von Webseiten, die nur den sichtbaren Text ohne jegliche Formatierung enthält.

Das Rendern wird meistens zu einem Problem in der SEO für Seiten, deren Inhalt in wesentlichen Teilen von JavaScript/AJAX abhängt.

Sowohl Google als auch Microsoft Bing führen JavaScript aus, um den gesamten Inhalt der Seite anzuzeigen, und komplexere JavaScript-Konstrukte können für die Suchmaschinen eine Herausforderung darstellen.

Ich habe mit JavaScript erstellte Webseiten gesehen, die für die Suchmaschinen im Wesentlichen unsichtbar waren, was zu stark nicht optimalen Webseiten führte, die nicht in der Lage waren, für ihre Suchbegriffe zu ranken.

Ich habe auch Fälle gesehen, in denen endlos scrollende Kategorieseiten auf E-Commerce-Websites in Suchmaschinen nicht gut abgeschnitten haben, weil die Suchmaschine nicht so viele der Produktlinks sehen konnte.

Auch andere Bedingungen können das Rendern stören.Wenn beispielsweise eine oder mehrere Javascript- oder CSS-Dateien für die Suchmaschinen-Bots nicht zugänglich sind, weil sie sich in Unterverzeichnissen befinden, die von robots.txt nicht zugelassen werden, ist es unmöglich, die Seite vollständig zu verarbeiten.

Googlebot und Bingbot indizieren größtenteils keine Seiten, die Cookies erfordern.Seiten, die bedingt einige Schlüsselelemente basierend auf Cookies liefern, werden möglicherweise auch nicht vollständig oder richtig gerendert.

Indizierung

Sobald eine Seite gecrawlt und gerendert wurde, verarbeiten die Suchmaschinen die Seite weiter, um festzustellen, ob sie im Index gespeichert wird oder nicht, und um zu verstehen, worum es auf der Seite geht.

Der Suchmaschinenindex ähnelt funktional einem Index von Wörtern, die am Ende eines Buches gefunden werden.

Der Index eines Buches listet alle wichtigen Wörter und Themen auf, die im Buch gefunden werden, wobei jedes Wort alphabetisch aufgelistet wird, zusammen mit einer Liste der Seitenzahlen, auf denen die Wörter/Themen zu finden sind.

Ein Suchmaschinenindex enthält viele Schlüsselwörter und Schlüsselwortfolgen, verbunden mit einer Liste aller Webseiten, auf denen die Schlüsselwörter gefunden werden.

Der Index weist eine gewisse konzeptionelle Ähnlichkeit mit einer Datenbank-Nachschlagetabelle auf, die möglicherweise ursprünglich die für Suchmaschinen verwendete Struktur war.Aber die großen Suchmaschinen verwenden wahrscheinlich etwas, das ein paar Generationen ausgefeilter ist, um den Zweck zu erreichen, ein Schlüsselwort nachzuschlagen und alle für das Wort relevanten URLs zurückzugeben.

Die Verwendung der Funktionalität zum Nachschlagen aller Seiten, die einem Schlüsselwort zugeordnet sind, ist eine zeitsparende Architektur, da es übermäßig viel Zeit erfordern würde, alle Webseiten in Echtzeit nach einem Schlüsselwort zu durchsuchen, jedes Mal, wenn jemand danach sucht.

Aus verschiedenen Gründen bleiben nicht alle gecrawlten Seiten im Suchindex.Wenn eine Seite beispielsweise ein Robots-Meta-Tag mit einer „noindex“-Direktive enthält, weist es die Suchmaschine an, die Seite nicht in den Index aufzunehmen.

Ebenso kann eine Webseite ein X-Robots-Tag in ihrem HTTP-Header enthalten, das die Suchmaschinen anweist, die Seite nicht zu indizieren.

In noch anderen Fällen kann das kanonische Tag einer Webseite eine Suchmaschine anweisen, dass eine andere Seite als die aktuelle als Hauptversion der Seite betrachtet werden soll, was dazu führt, dass andere, nicht kanonische Versionen der Seite aus dem Index entfernt werden .

Google hat auch erklärt, dass Webseiten möglicherweise nicht im Index bleiben, wenn sie von geringer Qualität sind (Seiten mit doppeltem Inhalt, Seiten mit dünnem Inhalt und Seiten mit allen oder zu vielen irrelevanten Inhalten).

Es gibt auch eine lange Geschichte, die darauf hindeutet, dass Websites mit unzureichendem kollektivem PageRank möglicherweise nicht alle ihre Webseiten indiziert haben – was darauf hindeutet, dass größere Websites mit unzureichenden externen Links möglicherweise nicht gründlich indiziert werden.

Ein unzureichendes Crawl-Budget kann auch dazu führen, dass eine Website nicht alle Seiten indexiert.

Ein Hauptbestandteil von SEO ist die Diagnose und Korrektur, wenn Seiten nicht indexiert werden.Aus diesem Grund ist es eine gute Idee, all die verschiedenen Probleme, die die Indizierung von Webseiten beeinträchtigen können, gründlich zu studieren.

Rangfolge

Das Ranking von Webseiten ist die Phase der Suchmaschinenverarbeitung, auf die wahrscheinlich am meisten Wert gelegt wird.

Sobald eine Suchmaschine eine Liste aller Webseiten hat, die einem bestimmten Schlüsselwort oder Schlüsselwortsatz zugeordnet sind, muss sie bestimmen, wie sie diese Seiten anordnen wird, wenn eine Suche nach dem Schlüsselwort durchgeführt wird.

Wenn Sie in der SEO-Branche arbeiten, sind Sie wahrscheinlich bereits mit einigen Aspekten des Ranking-Prozesses vertraut.Der Rankingprozess der Suchmaschine wird auch als „Algorithmus“ bezeichnet.

Die Komplexität, die mit der Ranking-Phase der Suche verbunden ist, ist so groß, dass sie allein mehrere Artikel und Bücher verdient, um sie zu beschreiben.

Es gibt sehr viele Kriterien, die den Rang einer Webseite in den Suchergebnissen beeinflussen können.Laut Google gibt es mehr als 200 Ranking-Faktoren, die von seinem Algorithmus verwendet werden.

Innerhalb vieler dieser Faktoren kann es auch bis zu 50 „Vektoren“ geben – Dinge, die den Einfluss eines einzelnen Ranking-Signals auf Rankings beeinflussen können.

PageRank ist Googles früheste Version seines 1996 erfundenen Ranking-Algorithmus.Es basiert auf einem Konzept, mit dem Links zu einer Webseite – und die relative Bedeutung der Quellen der Links, die auf diese Webseite verweisen – berechnet werden können, um die Ranking-Stärke der Seite im Vergleich zu allen anderen Seiten zu bestimmen.

Eine Metapher dafür ist, dass Links in gewisser Weise als Stimmen behandelt werden und Seiten mit den meisten Stimmen in einem höheren Ranking gewinnen als andere Seiten mit weniger Links/Stimmen.

Spulen wir bis 2022 vor und ein Großteil der DNA des alten PageRank-Algorithmus ist immer noch in den Ranking-Algorithmus von Google eingebettet.Dieser Linkanalysealgorithmus beeinflusste auch viele andere Suchmaschinen, die ähnliche Arten von Methoden entwickelten.

Die alte Google-Algorithmusmethode musste die Links des Webs iterativ verarbeiten und den PageRank-Wert dutzende Male zwischen den Seiten weitergeben, bevor der Ranking-Prozess abgeschlossen war.Diese iterative Berechnungssequenz über viele Millionen Seiten könnte fast einen Monat dauern.

Heutzutage werden jeden Tag neue Seitenlinks eingeführt und Google berechnet Rankings in einer Art Drip-Methode – so können Seiten und Änderungen viel schneller berücksichtigt werden, ohne dass eine monatelange Linkberechnung erforderlich ist.

Darüber hinaus werden Links auf ausgeklügelte Weise bewertet – durch Aufheben oder Reduzieren der Ranking-Macht von bezahlten Links, gehandelten Links, Spam-Links, nicht redaktionell unterstützten Links und mehr.

Breite Kategorien von Faktoren, die über Links hinausgehen, beeinflussen die Rankings ebenfalls, darunter:

Fazit

Das Verständnis der wichtigsten Phasen der Suche ist ein wesentlicher Punkt, um ein Profi in der SEO-Branche zu werden.

Einige Persönlichkeiten in den sozialen Medien denken, dass die Nichteinstellung eines Kandidaten, nur weil sie die Unterschiede zwischen Crawling, Rendering, Indizierung und Ranking nicht kennen, „zu weit geht“ oder „Gatekeeping“ ist.

Es ist eine gute Idee, die Unterschiede zwischen diesen Prozessen zu kennen.Ein verschwommenes Verständnis solcher Begriffe würde ich jedoch nicht als Ausschlusskriterium betrachten.

SEO-Profis kommen aus einer Vielzahl von Hintergründen und Erfahrungsstufen.Wichtig ist, dass sie lernfähig genug sind, um zu lernen und ein grundlegendes Verständnisniveau zu erreichen.

Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt Search Engine Land.Mitarbeiter Autoren sind hier aufgelistet.