Sitemap

So funktioniert Bingbot: Entdecken, Crawlen, Extrahieren und Indizieren

Hier ist eine Zusammenfassung meines Interviews mit „Bingbot-Chef“Fabrice Canel (offiziell: Bing’s Principal Program Manager).

Canel ist dafür verantwortlich, alle Inhalte im Web zu entdecken, die besten auszuwählen, sie zu verarbeiten und zu speichern – eine phänomenale Verantwortung, wie sich herausstellt (lesen Sie weiter).

Es scheint sicher anzunehmen, dass der Googlebot auf die gleiche Weise funktioniert

Bingbot und Googlebot funktionieren nicht bis ins kleinste Detail genau gleich.Aber nah genug für:

  • Der Prozess ist genau derselbe: entdecken, crawlen, extrahieren, indizieren.
  • Der Inhalt, den sie indizieren, ist genau derselbe.
  • Die Probleme, mit denen sie konfrontiert sind, sind genau die gleichen.
  • Die Technologie, die sie verwenden, ist die gleiche.

Die Details, wie sie jeden Schritt genau erreichen, werden sich also unterscheiden.

Aber Canel bestätigt, dass sie an Chromium zusammenarbeiten und das Crawling und Rendering standardisieren.

All dies macht alles, was Canel über das Entdecken, Crawlen, Extrahieren und Indizieren durch Bingbot teilt, sehr aufschlussreich und äußerst hilfreich.

Entdecken, Crawlen, Extrahieren und Indizieren ist das Fundament jeder Suchmaschine

Offensichtliche Aussage, ich weiß.

Aber was für mich auffällt, ist das Ausmaß, in dem dieser Prozess absolut alles untermauert, was folgt.

Viele Inhalte werden nicht nur ausgeschlossen, bevor sie überhaupt von den Ranking-Algorithmen berücksichtigt werden, sondern schlecht organisierte Inhalte haben ein erhebliches Handicap sowohl in der Art und Weise, wie sie indiziert werden, als auch in der Art und Weise, wie Algorithmen sie behandeln.

Die großartige Organisation von Inhalten in logischen, einfachen Blöcken bietet einen enormen Vorteil während des gesamten Prozesses – bis hin zur Auswahl, Position und Darstellung in den SERPs.

Gut strukturierte und gut präsentierte Inhalte steigen auf eine mechanische Weise an die Spitze, die einfach zu verstehen und zutiefst ermutigend ist.

Entdecken & Krabbeln

Jeden Tag findet Bingbot 70 Milliarden URLs, die sie noch nie zuvor gesehen haben.

Und jeden Tag müssen sie allen Links folgen, die sie finden, und auch jede resultierende Seite crawlen und abrufen, da sie, bis sie die Seite abgerufen haben, keine Ahnung haben, ob der Inhalt nützlich ist.

Inhalte vorfiltern

Und da ist der erste interessante Punkt, den Canel teilt.

Hier beginnt die Filterung.

Seiten, von denen angenommen wird, dass sie absolut kein Potenzial haben, nützlich zu sein, um die Suchanfrage eines Benutzers in den Bing-Ergebnissen zu erfüllen, werden nicht gespeichert.

Eine Seite, die wie Spam oder doppelt oder dünn aussieht, schafft es also nicht einmal in den Index.

Aber mehr als nur Spam-Seiten abzulehnen, versucht Bingbot, dem Spiel einen Schritt voraus zu sein, indem er vorhersagt, welche Links ihn wahrscheinlich zu nutzlosen Inhalten führen werden.

Um vorherzusagen, ob ein bestimmter Link zu Inhalten führt, die wahrscheinlich wertvoll sind oder nicht, berücksichtigt es Signale wie:

  • URL-Struktur.
  • Länge der URL.
  • Anzahl der Variablen.
  • Qualität eingehender Links.
  • Und so weiter.

Ein Link, der zu nutzlosen Inhalten führt, wird als „toter“ Link bezeichnet.

Wenn sich das maschinelle Lernen verbessert, werden weniger dieser toten Links verfolgt, weniger nutzlose Seiten werden durch diesen frühen Filter schlüpfen und der Index wird sich verbessern.

Die Algos müssen sich mit weniger „Spreu“ auseinandersetzen, was bedeutet, dass es für sie einfacher ist, die besten Inhalte zu identifizieren und diese den Kunden von Bing vorzustellen.

Wichtig ist, dass Bing einen starken Fokus auf Folgendes legt:

  • Reduzieren von Crawling, Rendern und Indizieren von Spreu (Geld sparen).
  • Reduzierung der CO2-Emissionen (Canel besteht stark darauf).
  • Verbesserung der Leistung der Ranking-Algorithmen.
  • Bessere Ergebnisse erzielen.

Das größte Signal dafür, dass eine Seite nicht wertvoll ist, ist, dass es keine eingehenden Links gibt.

Jede Seite benötigt mindestens einen eingehenden Link – natürlich muss dieser Link nicht von einem Dritten stammen – es kann ein interner Link sein.

Aber wenn sie einmal entdeckt sind, werden sie nicht benötigt, da Bingbot ein „Gedächtnis“ hat.

Bingbot behält jede URL im Speicher und kommt zurück und crawlt zeitweise erneut, selbst wenn alle Links darauf entfernt wurden.

Dies erklärt, warum Bingbot (und Googlebot) zurückkommen und gelöschte Seiten ohne eingehende Links überprüfen, selbst Monate nachdem die Seite und alle Verweise darauf entfernt wurden.

Ich hatte genau diese Situation auf meiner Website – alte Seiten, die ich vor 5 Monaten gelöscht habe, kommen zurück, um mich (und Bing und Google!) zu verfolgen.

Wieso den?

Weil Bing der Ansicht ist, dass jede URL plötzlich wieder zum Leben erweckt und wertvoll werden kann – zum Beispiel:

  • Geparkte Domänen, die aktiv werden.
  • Domains, die den Besitzer wechseln und zum Leben erweckt werden.
  • Fehlerhafte Links auf einer Website, die vom Eigentümer korrigiert wurden.

URL-Lebenszyklen sind ein „Ding“ bei Bing

Es gibt eine Grenze: das, was Canel den „Lebenszyklus“ nennt.

Sobald dieser Lebenszyklus abgeschlossen ist, wird die URL nicht mehr aus dem Speicher gecrawlt – sie kann durch die Entdeckung eines eingehenden Links, einer Referenz in einem RSS-Feed oder einer Sitemap oder einer Übermittlung über ihre API wiederbelebt werden.

Canel besteht darauf, dass die Bereitstellung von RSS-Feeds und Sitemaps wichtige Tools sind, die uns dabei helfen, Bingbot und Googlebot dabei zu unterstützen, nicht nur neue und wiederbelebte Inhalte zu entdecken, sondern auch „bekannte“ Inhalte effizient zu crawlen.

Besser noch, verwenden Sie die Indizierungs-API, da dies viel effizienter ist, sowohl beim Entdecken von Inhalten als auch beim Reduzieren von verschwendetem / überflüssigem Crawling und somit der Reduzierung von CO2-Emissionen.

Mehr darüber spricht er in dieser Folge des Podcasts.

Extrahieren

Ich bin ein Fan von HTML5.

Es stellt sich heraus, dass HTML5, obwohl es theoretisch sehr nützlich ist, weil es die rollenspezifischen Elemente einer Seite identifiziert, selten gut implementiert wird.

Obwohl es Struktur und Semantik geben sollte, die Bots helfen, Informationen von einer Seite zu extrahieren, tut es dies meistens nicht.

John Mueller von Google schlug vor, dass strenges HTML5 aus genau diesem Grund nicht unbedingt sehr nützlich für Bots sei.

Canel ist kategorisch, dass jede standardisierte Struktur hilfreich ist.

Die korrekte Verwendung von Überschriften-Tags zur Identifizierung des Themas, der Unterthemen und der Unter-Unter-Themen ist das Mindeste, was Sie tun können.

Die Verwendung von Tabellen und Listen ist ebenfalls einfach, aber leistungsstark.

Abschnitte, Randbemerkungen, Kopfzeilen, Fußzeilen und andere semantische HTML5-Tags helfen Bingbot (und mit ziemlicher Sicherheit Googlebot) und sind es wert, implementiert zu werden, wenn Sie können.

Kurzes Wort zu HTML-Tabellen.

Sie sind eine sehr leistungsfähige Möglichkeit, Daten zu strukturieren – hören Sie einfach auf, sie für das Design zu verwenden.

Über 80 % der Tabellen im Web werden für das Design verwendet, aber Tabellen dienen der Präsentation von Daten, nicht dem Design … und das ist für eine Maschine sehr verwirrend. (Canel verwendet den Begriff ablenken, den ich liebe, weil er den Bot menschlicher macht.)

Tu Bingbot einen Gefallen und verwende eine Tabelle, um Daten wie die Planeten im Sonnensystem darzustellen.

Verwenden Sie DIV und CSS, um Inhalte innerhalb des Layouts der Seite zu positionieren.

Aber jede Systematisierung der Struktur ist eine Überlegung wert.

Wenn Sie ein maßgeschneidertes CMS erstellen, verwenden Sie HTML5, um Bots beim „Verdauen“ zu unterstützen.

Ansonsten hilft jedes Standard-CMS, das Extrahieren für die Bots zu erleichtern.

Bei Standard-CMS-Systemen sehen sie immer wieder die gleiche Gesamtstruktur, und genau diese Wiederholung kann maschinelles Lernen am besten bewältigen.

Es lohnt sich also, darüber nachzudenken, Ihre Website mit einem beliebten CMS wie Joomla, Typo3 oder WordPress zu erstellen.

Unter dem Gesichtspunkt, Bots dabei zu helfen, Inhalte von Ihren Seiten zu extrahieren, ist WordPress offensichtlich der beste Kandidat, da über 30 % der Websites mit WordPress erstellt werden.

Der Bot sieht auf jeder dritten Website, die er besucht, dieselbe Grundstruktur.

Und das führt schön auf …

Bots und maschinelles Lernen

Es ist wichtig, sich daran zu erinnern, dass maschinelles Lernen jeden einzelnen Schritt im Discovery-Crawling-Extraction-Indizierungsprozess vorantreibt.Maschinelles Lernen ist also der Schlüssel.

Ein tiefes Verständnis der Seiten (Begriff von Canel) und ein intelligentes, sich entwickelndes System zum Extrahieren sind der Schlüssel für Bing, für Google und für Websitebesitzer.

Um Ihre Inhalte optimal zu extrahieren und zu indizieren, benötigt ein Bot Muster im zugrunde liegenden HTML-Code.

Daher ist es ein großer Vorteil für uns alle, hart daran zu arbeiten, sicherzustellen, dass unsere eigenen Links, die Seitenstruktur, die Seitenstruktur und der HTML-Code alle konsistent sind … und wenn möglich, konsistent mit Standards, die auch außerhalb unserer eigenen Site gelten.

Aber… Alle Seiten werden gleich sein

Es mag den Anschein haben, dass das Erstellen einer Website mit der gleichen Struktur wie mehrere andere Websites im Internet bedeutet, dass sie alle ineinander übergehen.Das ist nicht der Fall.

Das Design ist unabhängig von der HTML-Struktur.Und genau das ist der Sinn von HTML5 – das Design von der Semantik zu entkoppeln.Dieser Artikel behandelt diesen Punkt.

Die Struktur wird nicht genau dieselbe sein (sehr kleine Sites mit nur einem halben Dutzend akzeptierter Seiten).

Und selbst wenn es in Wahrheit so ist, warum sollte das eine Rolle spielen?

Der von Ihnen erstellte Inhalt ist einzigartig (hoffentlich). Daher werden keine zwei Marken dasselbe sagen, selbst wenn sie über dasselbe Thema sprechen.

Wenn Sie also WordPress verwenden und ein beliebtes Thema wählen, werden Sie alle Kästchen für die Bots ankreuzen … und dennoch werden Ihr Design, Ihre Struktur und Ihr Inhalt für Ihr Publikum immer noch einzigartig sein.

Sie gewinnen an beiden Fronten.

Kurz gesagt, es sei denn, Sie sind ein großes Unternehmen mit einem großen Budget, ist es oft eine gute Wahl, sich an eine beliebte Vorlage auf einem gemeinsamen CMS zu halten, da diese, da sie verbreitet sind, von allen Suchmaschinen nativ verstanden werden.

Ihr Inhalt ist einzigartig, und Sie können die visuelle Präsentation mit einfachem CSS vollständig einzigartig ändern.

Denken Sie nur daran, sich an CSS-Standards zu halten und nicht mit dem CMS-Kern oder dem zugrunde liegenden HTML herumzuspielen, um Bingbot und Googlebot nicht zu verwechseln.

Zusammenarbeit von Google und Bing

Beide Bots verwenden Chromium.Es ist wichtig, sich daran zu erinnern, dass Chromium ein Open-Source-Browser ist, der nicht nur Chrome, sondern auch Opera … und einige andere Browser unterstützt.

Wichtig in diesem Zusammenhang ist, dass Bingbot Ende 2019 nicht nur auf die Chromium-Version von Edge umgestiegen ist, sondern auch dem Googlebot gefolgt ist, um immergrün zu werden.

Darüber hinaus sagt Canel, dass Bing und Google jetzt eng bei Chromium zusammenarbeiten.Es ist seltsam, sich das vorzustellen.Und leicht zu vergessen.

Canel schlägt vor, dass es im Interesse beider Unternehmen liegt, zusammenzuarbeiten – sie versuchen, genau denselben Inhalt mit demselben Ziel zu crawlen.

Angesichts des Umfangs (und der Kosten) haben sie großes Interesse an einer Standardisierung (dieses Wort kommt immer wieder!).

Sie können nicht erwarten, dass Websitebesitzer sich für verschiedene Bots unterschiedlich entwickeln.Und jetzt, nach all den Jahren, scheint das Realität zu sein.

Zwei große Crawler, die beide denselben Browser verwenden und beide Evergreen sind.Ist die Entwicklung von Websites gerade viel einfacher geworden?

Die Einführung von Edge durch Bingbot wird der SEO-Community das Leben erleichtern, da wir das Rendering nur einmal testen müssen.

Wenn eine Seite in Edge gut gerendert wird, wird sie in Chrome gut gerendert, sie wird gut für Googlebot gerendert und sie wird gut für Bingbot gerendert.Und das sind wunderbare Neuigkeiten für uns alle.

Zur Info, seit dem 15. Januar 2020 baut die öffentlich vertriebene Version von Microsofts Browser Edge auf Chromium auf.

Unsere Browser basieren also nicht nur größtenteils auf dem gleichen Grundcode, sondern auch die beiden großen Suchmaschinen-Bots.

Extrahieren für reichhaltige Elemente

Das Wachstum von Rich Elements/Darwinism in Search war der Ausgangspunkt dieser Serie.

Und eine Sache, die ich wirklich verstehen wollte, ist, wie das aus Sicht der Indizierung funktioniert.

Wie pflegen Bing und Google ein Indizierungssystem, das all diese SERP-Funktionen unterstützt?

Beide Bots sind sehr gut darin geworden, die Teile / Chunks / Blöcke einer Seite zu identifizieren und herauszufinden, welche Rolle sie spielen (Kopfzeile, Fußzeile, Seite, Menü, Benutzerkommentare usw.

Sie können genau und zuverlässig spezifische, präzise Informationen aus der Mitte einer Seite extrahieren, selbst in Fällen, in denen der HTML-Code schlecht organisiert ist (aber das ist keine Entschuldigung für Faulheit).

Auch hier ist maschinelles Lernen unerlässlich.

Es ist der Schlüssel zu ihrer Fähigkeit, dies zu tun.Und das untermauert das phänomenale Wachstum an reichhaltigen Elementen, das wir in den letzten Jahren gesehen haben.

Es kann nützlich sein, einen Schritt zurückzutreten und die Anatomie der SERPs heute im Vergleich zu vor zehn Jahren zu betrachten.

Rich-Elemente haben in modernen SERPs einen großen Platz eingenommen – bis zu dem Punkt, an dem es schwer ist, sich an die Tage zu erinnern, als wir SERPs mit nur 10 blauen Links hatten…. Featureless-SERPs.

Indexieren / Speichern

Die Art und Weise, wie Bingbot die Informationen speichert, ist für alle Ranglistenteams absolut entscheidend.

Jeder Algorithmus verlässt sich auf die Qualität der Indexierung von Bingbot, um Informationen bereitzustellen, die er in die Ergebnisse einfließen lassen kann.

Der Schlüssel ist die Anmerkung.

Das Team von Canel kommentiert die gespeicherten Daten.

  • Sie fügen dem HTML eine reichhaltige beschreibende Ebene hinzu.
  • Sie beschriften die Teile: Überschrift, Absatz, Medien, Tabelle, Rand, Fußzeile usw.

Und es gibt den (sehr einfachen) Trick, mit dem sie Inhalte in einem geeigneten, oft reichen Format aus der Mitte einer Seite extrahieren und in den SERP platzieren können.

Standards sind der Schlüssel zu einer effektiven Etikettierung

Praktischer Hinweis: Wenn Ihr HTML einem bekannten System folgt (z. B. rigoros korrekte HTML5- oder Gutenberg-Blöcke in WordPress), ist diese Kennzeichnung nach dem, was Canel zuvor gesagt hat, genauer, granularer und „brauchbarer“ für die verschiedenen reichhaltigen Elemente.

Und weil Ihre Inhalte leichter verständlich und einfacher zugänglich sind und aus dem Index extrahiert werden können, haben Ihre Inhalte von Anfang an einen entscheidenden Vorteil.

Reichhaltige Anmerkungen

Canel verwendet den Begriff „reich“ und spricht vom „Hinzufügen vieler Funktionen“, was stark darauf hindeutet, dass diese Kennzeichnung/Anmerkung umfangreich ist.

Bingbot hat einen enormen Einfluss darauf, wie Inhalte von den Ranking-Algorithmen wahrgenommen werden.

Ihre Annotation macht den entscheidenden Unterschied in der Art und Weise, wie Ihre Inhalte von den verschiedenen SERP-Feature-Algos wahrgenommen, ausgewählt und angezeigt werden.

Wenn Ihre Inhalte bei der Indexierung von Bingbot unzureichend annotiert werden, haben Sie ein sehr ernstes Handicap, wenn es darum geht, in einem SERP zu erscheinen – seien es blaue Links, Featured Snippets, News, Bilder, Videos…

Daher ist es unerlässlich, Ihre Inhalte auf Blockebene zu strukturieren.

Die Verwendung eines standardisierten, logischen Systems und dessen Pflege auf Ihrer gesamten Website ist die einzige Möglichkeit, Bingbot dazu zu bringen, Ihre Inhalte in verwendbaren Blöcken zu kommentieren, wenn es die Seite in der Datenbank speichert…

Und das ist die Grundlage dafür, ob ein Teil des Inhalts in den SERPs lebt oder stirbt – sowohl im Hinblick darauf, als potenzieller Kandidat in Betracht gezogen zu werden, als auch wie und wann er angezeigt wird.

Das gesamte System des Rankings und der Anzeige von Ergebnissen, unabhängig vom Inhaltsformat oder der SERP-Funktion, hängt vom Verständnis des Canel-Teams für das Internet, die Verarbeitung des Internets und die Speicherung des Internets ab.

Es gibt keine multiplen Entdeckungs-, Auswahl-, Verarbeitungs- oder Indexierungssysteme für die Featured Snippets / Q&A, Videos und Bilder, Nachrichtenkarussells usw.

Alles wird miteinander kombiniert und jedes Team holt sich das, was es braucht, aus einer einzigen Quelle.

Die Fähigkeit von Kandidatengruppen, ihre Kandidatenliste auszuwählen, zu analysieren und dem gesamten Seitenteam zu präsentieren, hängt von den Anmerkungen ab, die Bingbot den Seiten hinzufügt.

Darwinismus in der Suche ist gerade interessanter geworden

Ja, die Ranking-Algorithmen sind darwinistisch, wie Gary Illyes beschrieben hat, aber der Inhalt einiger Seiten hat von Anfang an einen ernsthaften Vorteil.

Fügen Sie Handles hinzu, um Ihren Inhalten einen unfairen Vorteil zu verschaffen

Mein Verständnis ist, dass die „reiche Schicht von Anmerkungen“Canel spricht über die Griffe, die Cindy Krum in ihrer Fraggles-Theorie verwendet.

Wenn wir einfach zu identifizierende Handles in unserem eigenen HTML hinzufügen, werden die Anmerkungen: genauer, granularer und wesentlich hilfreicher für die Algorithmen für die verschiedenen Kandidatenmengen.

HTML-„Handles“ an Ihren Inhalten geben ihnen einen Vorsprung im Leben in der darwinistischen Welt der SERPs.

Lesen Sie die anderen Artikel in der Bing-Reihe

  1. So funktioniert Ranking bei Bing – Frédéric Dubut, Senior Program Manager Lead, Bing
  2. Entdecken, Crawlen, Extrahieren und Indizieren bei Bing – Fabrice Canel Principal Program Manager, Bing
  3. Funktionsweise des Q&A/Featured Snippet-Algorithmus – Ali Alvi, Principal Lead Program Manager AI Products, Bing
  4. So funktioniert der Bild- und Videoalgorithmus – Meenaz Merchant, Principal Program Manager Lead, AI and Research, Bing
  5. Funktionsweise des Whole-Page-Algorithmus – Nathan Chalmers, Program Manager, Search Relevance Team, Bing

Bildnachweis

Beitragsbild: Véronique Barnard, Kalicube.pro