Sitemap

Wie Google NLP nutzt, um Suchanfragen und Inhalte besser zu verstehen

Die Verarbeitung natürlicher Sprache öffnete die Tür für die semantische Suche bei Google.

SEOs müssen den Wechsel zur entitätsbasierten Suche verstehen, da dies die Zukunft der Google-Suche ist.

In diesem Artikel tauchen wir tief in die Verarbeitung natürlicher Sprache ein und wie Google sie verwendet, um Suchanfragen und Inhalte, Entity Mining und mehr zu interpretieren.

Was ist Natural Language Processing?

Die Verarbeitung natürlicher Sprache oder NLP ermöglicht es, die Bedeutung von Wörtern, Sätzen und Texten zu verstehen, um Informationen, Wissen oder neuen Text zu generieren.

Es besteht aus Natural Language Understanding (NLU) – das eine semantische Interpretation von Text und natürlicher Sprache ermöglicht – und Natural Language Generation (NLG).

NLP kann verwendet werden für:

  • Spracherkennung (Text zu Sprache und Sprache zu Text).
  • Segmentierung zuvor aufgenommener Sprache in einzelne Wörter, Sätze und Phrasen.
  • Grundformen von Wörtern erkennen und grammatikalische Informationen erwerben.
  • Funktionen einzelner Wörter in einem Satz erkennen (Subjekt, Verb, Objekt, Artikel etc.)
  • Extrahieren der Bedeutung von Sätzen und Satzteilen oder Phrasen, wie Adjektivphrasen (z. B. „zu lang“), Präpositionalphrasen (z. B. „to the river“) oder Nominalphrasen (z. B. „the long party“).
  • Erkennen von Satzkontexten, Satzbeziehungen und Entitäten.
  • Sprachliche Textanalyse, Sentimentanalyse, Übersetzungen (auch für Sprachassistenten), Chatbots und zugrunde liegende Frage-Antwort-Systeme.

Das Folgende sind die Kernkomponenten von NLP:

Ein Blick in die Natural Language Processing API von Google
  • Tokenisierung: Teilt einen Satz in verschiedene Begriffe.
  • Worttypkennzeichnung: Klassifiziert Wörter nach Objekt, Subjekt, Prädikat, Adjektiv usw.
  • Wortabhängigkeiten: Identifiziert Beziehungen zwischen Wörtern basierend auf Grammatikregeln.
  • Lemmatisierung: Bestimmt, ob ein Wort unterschiedliche Formen hat, und normalisiert Variationen auf die Grundform.Die Grundform von „Autos“ ist beispielsweise „Auto“.
  • Parsing-Beschriftungen: Beschriftet Wörter basierend auf der Beziehung zwischen zwei Wörtern, die durch eine Abhängigkeit verbunden sind.
  • Analyse und Extraktion benannter Entitäten: Identifiziert Wörter mit „bekannter“ Bedeutung und ordnet sie Klassen von Entitätstypen zu.Im Allgemeinen sind benannte Entitäten Organisationen, Personen, Produkte, Orte und Dinge (Substantive). In einem Satz sind Subjekte und Objekte als Entitäten zu identifizieren.
Entitätsanalyse mit der Google Natural Processing API.
  • Salience Scoring: Ermittelt, wie intensiv ein Text mit einem Thema verbunden ist.Die Hervorhebung wird im Allgemeinen durch das gemeinsame Zitieren von Wörtern im Web und die Beziehungen zwischen Entitäten in Datenbanken wie Wikipedia und Freebase bestimmt.Erfahrene SEOs kennen eine ähnliche Methode aus der TF-IDF-Analyse.
  • Stimmungsanalyse: Identifiziert die Meinung (Ansicht oder Einstellung), die in einem Text über die Entitäten oder Themen geäußert wird.
  • Textkategorisierung: Auf der Makroebene klassifiziert NLP Text in Inhaltskategorien.Die Textkategorisierung hilft dabei, allgemein zu bestimmen, worum es in dem Text geht.
  • Textklassifizierung und -funktion: NLP kann weiter gehen und die beabsichtigte Funktion oder den Zweck des Inhalts bestimmen.Dies ist sehr interessant, um eine Suchabsicht mit einem Dokument abzugleichen.
  • Inhaltstyp-Extraktion: Basierend auf Strukturmustern oder Kontext kann eine Suchmaschine den Inhaltstyp eines Textes ohne strukturierte Daten bestimmen.Der HTML-Code, die Formatierung und der Datentyp des Textes (Datum, Ort, URL usw.) können ohne Verwendung von Markups erkennen, ob es sich um ein Rezept, ein Produkt, eine Veranstaltung oder einen anderen Inhaltstyp handelt.
  • Implizite Bedeutung anhand der Struktur erkennen: Die Formatierung eines Textes kann seine implizite Bedeutung verändern.Überschriften, Zeilenumbrüche, Aufzählungen und Nähe vermitteln ein sekundäres Textverständnis.Wenn beispielsweise Text in einer HTML-sortierten Liste oder einer Reihe von Überschriften mit vorangestellten Zahlen angezeigt wird, handelt es sich wahrscheinlich um eine Liste oder eine Rangfolge.Die Struktur wird nicht nur durch HTML-Tags definiert, sondern auch durch visuelle Schriftgröße/-dicke und Nähe beim Rendern.

Die Verwendung von NLP bei der Suche

Google trainiert seit Jahren Sprachmodelle wie BERT oder MUM, um Texte, Suchanfragen und sogar Video- und Audioinhalte zu interpretieren.Diese Modelle werden über Natural Language Processing gespeist.

Die Google-Suche verwendet hauptsächlich die Verarbeitung natürlicher Sprache in den folgenden Bereichen:

  • Interpretation von Suchanfragen.
  • Klassifizierung von Thema und Zweck von Dokumenten.
  • Entitätsanalyse in Dokumenten, Suchanfragen und Social-Media-Beiträgen.
  • Zur Generierung von Featured Snippets und Antworten in der Sprachsuche.
  • Interpretation von Video- und Audioinhalten.
  • Erweiterung und Verbesserung des Knowledge Graph.

Google hat bei der Veröffentlichung des BERT-Updates im Oktober 2019 betont, wie wichtig es ist, die natürliche Sprache bei der Suche zu verstehen.

„Im Kern geht es bei der Suche darum, Sprache zu verstehen. Es ist unsere Aufgabe, herauszufinden, wonach Sie suchen, und hilfreiche Informationen aus dem Internet zu finden, unabhängig davon, wie Sie die Wörter in Ihrer Anfrage buchstabieren oder kombinieren. Obwohl wir unsere Sprachverständnisfähigkeiten im Laufe der Jahre kontinuierlich verbessert haben, sind wir manchmal immer noch nicht ganz richtig, insbesondere bei komplexen oder Konversationsanfragen. Tatsächlich ist dies einer der Gründe, warum Leute oft „Schlüsselwort-Es“ verwenden, indem sie Wortfolgen eingeben, von denen sie glauben, dass wir sie verstehen, aber eigentlich nicht so sind, wie sie normalerweise eine Frage stellen würden.“

BERT & MUM: NLP zur Interpretation von Suchanfragen und Dokumenten

BERT gilt als der wichtigste Fortschritt in der Google-Suche seit mehreren Jahren nach RankBrain.Basierend auf NLP wurde das Update entwickelt, um die Interpretation von Suchanfragen zu verbessern, und wirkte sich anfänglich auf 10 % aller Suchanfragen aus.

BERT spielt nicht nur bei der Abfrageinterpretation eine Rolle, sondern auch beim Ranking und der Zusammenstellung von Featured Snippets sowie bei der Interpretation von Textfragebögen in Dokumenten.

„Nun, durch die Anwendung von BERT-Modellen sowohl auf das Ranking als auch auf hervorgehobene Snippets in der Suche können wir Ihnen viel besser dabei helfen, nützliche Informationen zu finden. Wenn es um Ranking-Ergebnisse geht, wird BERT der Suche tatsächlich dabei helfen, eine von zehn Suchanfragen in den USA auf Englisch besser zu verstehen, und wir werden dies im Laufe der Zeit auf mehr Sprachen und Gebietsschemata übertragen.“

Die Einführung des MUM-Updates wurde auf der Search On ’21 angekündigt.Ebenfalls auf NLP basierend, ist MUM mehrsprachig, beantwortet komplexe Suchanfragen mit multimodalen Daten und verarbeitet Informationen aus unterschiedlichen Medienformaten.Neben Text versteht MUM auch Bilder, Video- und Audiodateien.

MUM kombiniert mehrere Technologien, um die Google-Suche noch semantischer und kontextbasierter zu gestalten und so das Nutzererlebnis zu verbessern.

Mit MUM will Google komplexe Suchanfragen in unterschiedlichen Medienformaten beantworten, um den Nutzer entlang der Customer Journey zu begleiten.

Wie für BERT und MUM verwendet, ist NLP ein wesentlicher Schritt zu einem besseren semantischen Verständnis und einer stärker benutzerzentrierten Suchmaschine.

Das Verstehen von Suchanfragen und Inhalten über Entitäten markiert den Wechsel von „Strings“ zu „Things“.Ziel von Google ist es, ein semantisches Verständnis von Suchanfragen und Inhalten zu entwickeln.

Durch die Identifizierung von Entitäten in Suchanfragen wird die Bedeutung und Suchabsicht klarer.Die einzelnen Wörter eines Suchbegriffs stehen nicht mehr alleine, sondern werden im Kontext der gesamten Suchanfrage betrachtet.

Die Magie der Interpretation von Suchbegriffen geschieht in der Abfrageverarbeitung.Dabei sind folgende Schritte wichtig:

  • Identifizieren der thematischen Ontologie, in der sich die Suchanfrage befindet.Ist der thematische Kontext klar, kann Google einen Inhaltskorpus aus Textdokumenten, Videos und Bildern als potenziell passende Suchergebnisse auswählen.Besonders schwierig ist dies bei mehrdeutigen Suchbegriffen.
  • Identifizieren von Entitäten und deren Bedeutung im Suchbegriff (Named Entity Recognition).
  • Verstehen der semantischen Bedeutung einer Suchanfrage.
  • Identifizieren der Suchabsicht.
  • Semantische Annotation der Suchanfrage.
  • Verfeinerung des Suchbegriffs.

Holen Sie sich den täglichen Newsletter, auf den sich Suchmaschinenvermarkter verlassen.

NLP ist die wichtigste Methode für das Entity Mining

Die Verarbeitung natürlicher Sprache wird für Google die wichtigste Rolle bei der Identifizierung von Entitäten und ihrer Bedeutung spielen, wodurch es möglich wird, Wissen aus unstrukturierten Daten zu extrahieren.

Auf dieser Basis können dann Beziehungen zwischen Entitäten und dem Knowledge Graph hergestellt werden.Speech Tagging hilft dabei teilweise.

Substantive sind potentielle Entitäten, und Verben repräsentieren oft die Beziehung der Entitäten zueinander.Adjektive beschreiben die Entität und Adverbien beschreiben die Beziehung.

Google hat bisher nur minimal unstrukturierte Informationen verwendet, um den Knowledge Graph zu füttern.

Es kann davon ausgegangen werden:

  • Die bisher im Knowledge Graph erfassten Entitäten sind nur die Spitze des Eisbergs.
  • Google füttert zusätzlich einen weiteren Wissensspeicher mit Informationen zu Long-Tail-Entitäten.

NLP spielt eine zentrale Rolle bei der Versorgung dieses Wissensspeichers.

Google ist bereits recht gut im NLP, erzielt aber noch keine zufriedenstellenden Ergebnisse bei der Bewertung automatisch extrahierter Informationen hinsichtlich Genauigkeit.

Das Data Mining für eine Wissensdatenbank wie den Knowledge Graph aus unstrukturierten Daten wie Webseiten ist komplex.

Neben der Vollständigkeit der Informationen ist deren Korrektheit wesentlich.Heutzutage garantiert Google die Vollständigkeit durch NLP, aber der Nachweis der Korrektheit und Genauigkeit ist schwierig.

Vermutlich agiert Google deshalb noch zurückhaltend bei der direkten Positionierung von Informationen zu Long-Tail-Entitäten in den SERPs.

Entitätsbasierter Index vs. klassischer inhaltsbasierter Index

Die Einführung des Hummingbird-Updates ebnete den Weg für die semantische Suche.Es rückte auch den Knowledge Graph – und damit Entitäten – in den Fokus.

Der Knowledge Graph ist der Entitätsindex von Google.Alle Attribute, Dokumente und digitalen Bilder wie Profile und Domänen werden um die Entität herum in einem entitätsbasierten Index organisiert.

Der Knowledge Graph wird aktuell parallel zum klassischen Google Index für das Ranking verwendet.

Angenommen, Google erkennt in der Suchanfrage, dass es sich um eine im Knowledge Graph erfasste Entität handelt.In diesem Fall wird auf die Informationen in beiden Verzeichnissen zugegriffen, wobei die Entität im Mittelpunkt steht und alle Informationen und Dokumente, die sich auf die Entität beziehen, ebenfalls berücksichtigt werden.

Zwischen dem klassischen Google-Index und dem Knowledge Graph oder einer anderen Art von Wissensspeicher ist eine Schnittstelle oder API erforderlich, um Informationen zwischen den beiden Indizes auszutauschen.

Bei dieser Entity-Content-Schnittstelle geht es darum, Folgendes herauszufinden:

  • Ob Entitäten in einem Inhaltselement vorhanden sind.
  • Ob es eine Hauptentität gibt, um die sich der Inhalt dreht.
  • Welcher Ontologie oder Ontologien kann die Hauptentität zugeordnet werden.
  • Welchem ​​Autor oder welcher Entität der Inhalt zugeordnet ist.
  • Wie die Entitäten im Inhalt miteinander in Beziehung stehen.
  • Welche Eigenschaften oder Attribute den Entitäten zugewiesen werden sollen.

Es könnte so aussehen:

Wir fangen gerade erst an, die Auswirkungen der entitätsbasierten Suche in den SERPs zu spüren, da Google die Bedeutung einzelner Entitäten nur langsam versteht.

Entitäten werden top-down nach gesellschaftlicher Relevanz verstanden.Die relevantesten sind in Wikidata bzw. Wikipedia erfasst.

Die große Aufgabe wird darin bestehen, Long-Tail-Entitäten zu identifizieren und zu verifizieren.Unklar ist auch, welche Kriterien Google prüft, um eine Entität in den Knowledge Graph aufzunehmen.

In einem deutschen Webmaster-Hangout im Januar 2019 sagte John Mueller von Google, dass sie an einem einfacheren Weg arbeiten, um Entitäten für alle zu erstellen.

„Ich glaube nicht, dass wir eine klare Antwort haben. Ich denke, wir haben verschiedene Algorithmen, die so etwas prüfen, und dann verwenden wir verschiedene Kriterien, um das Ganze zusammenzuziehen, auseinander zu ziehen und zu erkennen, welche Dinge wirklich getrennte Einheiten sind, welche nur Varianten oder weniger getrennte Einheiten sind… Aber so weit Was mich betrifft, habe ich das gesehen, daran arbeiten wir, um es ein wenig zu erweitern, und ich stelle mir vor, dass es einfacher wird, auch im Knowledge Graph aufgeführt zu werden. Aber ich weiß nicht, was die Pläne genau sind.“

NLP spielt eine entscheidende Rolle bei der Skalierung dieser Herausforderung.

Beispiele aus der Diffbot-Demo zeigen, wie gut NLP für das Entity Mining und den Aufbau eines Knowledge Graph eingesetzt werden kann.

NLP in der Google-Suche ist gekommen, um zu bleiben

RankBrain wurde eingeführt, um Suchanfragen und Begriffe mittels Vektorraumanalyse zu interpretieren, die zuvor so nicht verwendet wurden.

BERT und MUM verwenden Natural Language Processing, um Suchanfragen und Dokumente zu interpretieren.

Neben der Interpretation von Suchanfragen und Inhalten haben MUM und BERT die Tür geöffnet, um eine Wissensdatenbank wie den Knowledge Graph skalierbar wachsen zu lassen und so die semantische Suche bei Google voranzutreiben.

Die Entwicklungen in der Google-Suche durch die Core-Updates stehen auch in engem Zusammenhang mit MUM und BERT und letztendlich mit NLP und der semantischen Suche.

In Zukunft werden wir immer mehr entitätsbasierte Google-Suchergebnisse sehen, die die klassische phrasenbasierte Indexierung und Rangfolge ersetzen.

Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt Search Engine Land.Mitarbeiter Autoren sind hier aufgelistet.