Sitemap

Jak Google používá NLP k lepšímu pochopení vyhledávacích dotazů, obsahu

Zpracování přirozeného jazyka otevřelo dveře pro sémantické vyhledávání na Googlu.

SEO musí pochopit přechod na vyhledávání založené na entitách, protože to je budoucnost vyhledávání Google.

V tomto článku se ponoříme do hloubky zpracování přirozeného jazyka a toho, jak jej Google používá k interpretaci vyhledávacích dotazů a obsahu, dolování entit a dalším.

Co je zpracování přirozeného jazyka?

Zpracování přirozeného jazyka neboli NLP umožňuje porozumět významu slov, vět a textů a generovat informace, znalosti nebo nový text.

Skládá se z porozumění přirozenému jazyku (NLU) – což umožňuje sémantickou interpretaci textu a přirozeného jazyka – a generování přirozeného jazyka (NLG).

NLP lze použít pro:

  • Rozpoznávání řeči (převod textu na řeč a řeči na text).
  • Segmentace dříve zachycené řeči na jednotlivá slova, věty a fráze.
  • Rozpoznávání základních tvarů slov a získávání gramatických informací.
  • Rozpoznávání funkcí jednotlivých slov ve větě (předmět, sloveso, předmět, člen atd.)
  • Získávání významu vět a částí vět nebo frází, jako jsou adjektivní fráze (např. „příliš dlouhé“), předložkové fráze (např. „k řece“) nebo nominální fráze (např. „dlouhá párty“).
  • Rozpoznávání větných souvislostí, větných vztahů a entit.
  • Lingvistická textová analýza, analýza sentimentu, překlady (včetně překladů pro hlasové asistenty), chatboti a základní systémy otázek a odpovědí.

Níže jsou uvedeny základní součásti NLP:

Pohled do rozhraní API pro zpracování přirozeného jazyka společnosti Google
  • Tokenizace: Rozdělí větu na různé termíny.
  • Označení typu slova: Klasifikuje slova podle předmětu, předmětu, predikátu, přídavného jména atd.
  • Závislosti slov: Identifikuje vztahy mezi slovy na základě gramatických pravidel.
  • Lemmatizace: Určuje, zda má slovo různé tvary, a normalizuje variace na základní tvar.Například základní tvar „auta“ je „auto“.
  • Analýza popisků: Označuje slova na základě vztahu mezi dvěma slovy spojenými závislostí.
  • Analýza a extrakce pojmenovaných entit: Identifikuje slova se „známým“ významem a přiřadí je do tříd typů entit.Obecně jsou pojmenované entity organizace, lidé, produkty, místa a věci (podstatná jména). Ve větě mají být subjekty a předměty identifikovány jako entity.
Analýza entit pomocí rozhraní Google Natural Processing API.
  • Skóre nápadnosti: Určuje, jak intenzivně je text spojen s tématem.Význam je obecně určen společným citováním slov na webu a vztahy mezi entitami v databázích, jako je Wikipedia a Freebase.Zkušení SEO znají podobnou metodu z analýzy TF-IDF.
  • Analýza sentimentu: Identifikuje názor (názor nebo postoj) vyjádřený v textu o entitách nebo tématech.
  • Kategorizace textu: Na úrovni maker klasifikuje NLP text do kategorií obsahu.Kategorizace textu pomáhá obecně určit, o čem text je.
  • Klasifikace a funkce textu: NLP může jít dále a určit zamýšlenou funkci nebo účel obsahu.To je velmi zajímavé přiřadit vyhledávací záměr k dokumentu.
  • Extrakce typu obsahu: Na základě strukturních vzorů nebo kontextu může vyhledávač určit typ obsahu textu bez strukturovaných dat.HTML, formátování a datový typ textu (datum, umístění, adresa URL atd.) dokážou bez použití značek určit, zda se jedná o recept, produkt, událost nebo jiný typ obsahu.
  • Identifikujte implicitní význam na základě struktury: Formátování textu může změnit jeho implicitní význam.Nadpisy, zalomení řádků, seznamy a blízkost vyjadřují sekundární porozumění textu.Když je například text zobrazen v seznamu seřazeném HTML nebo v řadě nadpisů s čísly před nimi, pravděpodobně se bude jednat o seznam nebo pořadí.Struktura je definována nejen HTML tagy, ale také vizuální velikostí/tloušťkou písma a blízkostí při vykreslování.

Využití NLP při vyhledávání

Google již léta školí jazykové modely jako BERT nebo MUM pro interpretaci textu, vyhledávacích dotazů a dokonce i video a audio obsahu.Tyto modely jsou napájeny zpracováním přirozeného jazyka.

Vyhledávání Google využívá zpracování přirozeného jazyka především v následujících oblastech:

  • Interpretace vyhledávacích dotazů.
  • Třídění předmětu a účelu dokumentů.
  • Analýza entit v dokumentech, vyhledávacích dotazech a příspěvcích na sociálních sítích.
  • Pro generování vybraných úryvků a odpovědí při hlasovém vyhledávání.
  • Interpretace video a audio obsahu.
  • Rozšíření a vylepšení Diagramu znalostí.

Google zdůraznil důležitost porozumění přirozenému jazyku ve vyhledávání, když v říjnu 2019 vydal aktualizaci BERT.

„Vyhledávání je ve své podstatě o porozumění jazyku. Naším úkolem je zjistit, co hledáte, a zpřístupnit užitečné informace z webu bez ohledu na to, jak slova v dotazu napíšete nebo zkombinujete. I když jsme v průběhu let pokračovali ve zlepšování našich schopností porozumět jazyku, někdy se nám to stále nedaří, zejména u složitých nebo konverzačních dotazů. Ve skutečnosti je to jeden z důvodů, proč lidé často používají „keyword-ese“ a píšou řetězce slov, o kterých si myslí, že jim budeme rozumět, ale ve skutečnosti to nejsou tak, jak by přirozeně položili otázku.

BERT & MUM: NLP pro interpretaci vyhledávacích dotazů a dokumentů

BERT je považován za nejdůležitější pokrok ve vyhledávání Google za několik let po RankBrain.Na základě NLP byla aktualizace navržena tak, aby zlepšila interpretaci vyhledávacích dotazů a zpočátku ovlivnila 10 % všech vyhledávacích dotazů.

BERT hraje roli nejen při interpretaci dotazů, ale také při hodnocení a sestavování vybraných úryvků a také při interpretaci textových dotazníků v dokumentech.

„Když použijeme modely BERT na hodnocení i na vybrané úryvky ve Vyhledávání, můžeme vám pomoci najít užitečné informace mnohem lépe. Ve skutečnosti, pokud jde o hodnocení výsledků, BERT pomůže Vyhledávání lépe porozumět jednomu z 10 vyhledávání v USA v angličtině a časem to přineseme do více jazyků a lokalit.“

Zavedení aktualizace MUM bylo oznámeno na Search On ’21.MUM je také založen na NLP a je vícejazyčný, odpovídá na složité vyhledávací dotazy pomocí multimodálních dat a zpracovává informace z různých formátů médií.Kromě textu si MUM rozumí také s obrázky, videem a zvukovými soubory.

MUM kombinuje několik technologií, díky nimž je vyhledávání Google ještě více sémantické a založené na kontextu, aby se zlepšil uživatelský dojem.

S MUM chce Google odpovídat na složité vyhledávací dotazy v různých formátech médií a připojit se k uživateli na cestě zákazníka.

Jak se používá pro BERT a MUM, NLP je nezbytným krokem k lepšímu sémantickému porozumění a vyhledávači více zaměřenému na uživatele.

Pochopení vyhledávacích dotazů a obsahu prostřednictvím entit znamená posun od „řetězců“ k „věcím“.Cílem společnosti Google je rozvíjet sémantické porozumění vyhledávacím dotazům a obsahu.

Identifikací entit ve vyhledávacích dotazech je význam a záměr vyhledávání jasnější.Jednotlivá slova hledaného výrazu již nestojí samostatně, ale jsou brána v úvahu v kontextu celého vyhledávacího dotazu.

Kouzlo interpretace hledaných výrazů se odehrává ve zpracování dotazů.Zde jsou důležité následující kroky:

  • Identifikace tematické ontologie, ve které se vyhledávací dotaz nachází.Pokud je tematický kontext jasný, může Google jako potenciálně vhodné výsledky vyhledávání vybrat obsahový korpus textových dokumentů, videí a obrázků.To je zvláště obtížné u nejednoznačných vyhledávacích výrazů.
  • Identifikace entit a jejich význam ve hledaném výrazu (pojmenované rozpoznávání entit).
  • Pochopení sémantického významu vyhledávacího dotazu.
  • Identifikace záměru hledání.
  • Sémantická anotace vyhledávacího dotazu.
  • Upřesnění hledaného výrazu.

Získejte denní vyhledávání newsletterů, na které se marketéři spoléhají.

NLP je nejdůležitější metodika pro těžbu entit

Zpracování přirozeného jazyka bude pro Google hrát nejdůležitější roli při identifikaci entit a jejich významů, což umožní extrahovat znalosti z nestrukturovaných dat.

Na tomto základě pak mohou být vytvořeny vztahy mezi entitami a Diagramem znalostí.S tím částečně pomáhá značkování řeči.

Podstatná jména jsou potenciální entity a slovesa často představují vzájemný vztah entit.Přídavná jména popisují entitu a příslovce popisují vztah.

Google dosud jen minimálně využíval nestrukturované informace k naplnění Diagramu znalostí.

Dá se předpokládat, že:

  • Doposud zaznamenané entity v Diagramu znalostí jsou pouze špičkou ledovce.
  • Google navíc doplňuje další úložiště znalostí informacemi o dlouhých entitách.

NLP hraje ústřední roli v zásobování tohoto úložiště znalostí.

Google je již v NLP docela dobrý, ale zatím nedosahuje uspokojivých výsledků při vyhodnocování automaticky extrahovaných informací ohledně přesnosti.

Dolování dat pro znalostní databázi, jako je Diagram znalostí, z nestrukturovaných dat, jako jsou webové stránky, je složité.

Kromě úplnosti informací je zásadní správnost.V současné době Google garantuje úplnost v měřítku prostřednictvím NLP, ale prokazování správnosti a přesnosti je obtížné.

To je pravděpodobně důvod, proč Google stále jedná opatrně, pokud jde o přímé umístění informací o dlouhých entitách v SERP.

Index založený na entitách vs. klasický index založený na obsahu

Zavedení aktualizace Hummingbird otevřelo cestu pro sémantické vyhledávání.Zaměřilo se také na Diagram znalostí – a tedy entity.

Diagram znalostí je index entit společnosti Google.Všechny atributy, dokumenty a digitální obrázky, jako jsou profily a domény, jsou uspořádány kolem entity v indexu založeném na entitě.

Knowledge Graph se v současnosti používá pro hodnocení souběžně s klasickým indexem Google.

Předpokládejme, že Google ve vyhledávacím dotazu rozpozná, že se jedná o entitu zaznamenanou v Diagramu znalostí.V takovém případě se přistupuje k informacím v obou indexech, přičemž středem zájmu je entita a jsou brány v úvahu všechny informace a dokumenty související s entitou.

Mezi klasickým indexem Google a Diagramem znalostí nebo jiným typem úložiště znalostí je vyžadováno rozhraní nebo API pro výměnu informací mezi těmito dvěma indexy.

Toto rozhraní obsahu entity je o zjištění:

  • Zda jsou entity v části obsahu.
  • Zda existuje hlavní entita, které se obsah týká.
  • Ke které ontologii nebo ontologiím lze hlavní entitu přiřadit.
  • Kterému autorovi nebo entitě je obsah přiřazen.
  • Jak spolu entity v obsahu souvisejí.
  • Které vlastnosti nebo atributy mají být entitám přiřazeny.

Mohlo by to vypadat takto:

Právě začínáme pociťovat dopad vyhledávání na základě entit v SERP, protože Google pomalu chápe význam jednotlivých entit.

Entity jsou chápány shora dolů podle sociální relevance.Ty nejrelevantnější jsou zaznamenány ve Wikidatech a Wikipedii.

Velkým úkolem bude identifikovat a ověřit long-tail entity.Není také jasné, jaká kritéria Google kontroluje pro zahrnutí entity do Diagramu znalostí.

Na německém setkání pro webmastery v lednu 2019 John Mueller z Googlu řekl, že pracují na jednodušším způsobu, jak vytvářet entity pro každého.

„Nemyslím si, že máme jasnou odpověď. Myslím, že máme různé algoritmy, které něco takového kontrolují, a pak používáme různá kritéria, abychom to celé dali dohromady, roztrhli a rozeznali, které věci jsou skutečně samostatné entity, které jsou jen varianty nebo méně samostatné entity… Ale pokud jde o obávám se, že jsem to viděl, je to něco, na čem pracujeme, abychom to trochu rozšířili, a myslím si, že to usnadní i zařazení do Diagramu znalostí. Ale nevím přesně, jaké jsou plány."

NLP hraje zásadní roli při rozšiřování této výzvy.

Příklady z ukázky diffbotu ukazují, jak dobře lze NLP použít k dolování entit a vytváření Diagramu znalostí.

NLP ve vyhledávání Google zde zůstane

RankBrain byl představen k interpretaci vyhledávacích dotazů a termínů prostřednictvím analýzy vektorového prostoru, které se dříve tímto způsobem nepoužívaly.

BERT a MUM používají zpracování přirozeného jazyka k interpretaci vyhledávacích dotazů a dokumentů.

Kromě interpretace vyhledávacích dotazů a obsahu MUM a BERT otevřely dveře k tomu, aby umožnily znalostní databázi, jako je Knowledge Graph, ve velkém rozrůstat, čímž posouvaly sémantické vyhledávání na Google.

Vývoj ve Vyhledávání Google prostřednictvím základních aktualizací také úzce souvisí s MUM a BERT a nakonec také s NLP a sémantickým vyhledáváním.

V budoucnu uvidíme stále více výsledků vyhledávání Google založených na entitách, které nahradí klasické indexování a hodnocení založené na frázích.

Názory vyjádřené v tomto článku jsou názory hostujícího autora a ne nutně Search Engine Land.Autoři štábu jsou uvedeni zde.