Sitemap

Hur Google använder NLP för att bättre förstå sökfrågor, innehåll

Naturlig språkbehandling öppnade dörren för semantisk sökning på Google.

SEOs måste förstå övergången till enhetsbaserad sökning eftersom detta är framtiden för Google-sökning.

I den här artikeln kommer vi att dyka djupt in i naturlig språkbehandling och hur Google använder den för att tolka sökfrågor och innehåll, entity mining och mer.

Vad är naturlig språkbehandling?

Naturlig språkbehandling, eller NLP, gör det möjligt att förstå innebörden av ord, meningar och texter för att generera information, kunskap eller ny text.

Den består av naturlig språkförståelse (NLU) – vilket möjliggör semantisk tolkning av text och naturligt språk – och naturlig språkgenerering (NLG).

NLP kan användas för:

  • Taligenkänning (text till tal och tal till text).
  • Segmentera tidigare fångat tal till enskilda ord, meningar och fraser.
  • Att känna igen grundläggande former av ord och inhämtning av grammatisk information.
  • Att känna igen funktioner hos enskilda ord i en mening (ämne, verb, objekt, artikel, etc.)
  • Extrahera betydelsen av meningar och delar av meningar eller fraser, som adjektivfraser (t.ex. "för långa"), prepositionsfraser (t.ex. "till floden") eller nominella fraser (t.ex. "det långa partiet").
  • Känna igen meningssammanhang, meningsrelationer och entiteter.
  • Språklig textanalys, sentimentanalys, översättningar (inklusive de för röstassistenter), chatbots och underliggande fråge- och svarsystem.

Följande är kärnkomponenterna i NLP:

En titt på Googles Natural Language Processing API
  • Tokenisering: Delar en mening i olika termer.
  • Ordtypsmärkning: Klassificerar ord efter objekt, subjekt, predikat, adjektiv, etc.
  • Ordberoenden: Identifierar relationer mellan ord baserat på grammatikregler.
  • Lemmatisering: Avgör om ett ord har olika former och normaliserar variationer till basformen.Till exempel är basformen för "bilar" "bil".
  • Parsing etiketter: Märker ord baserat på förhållandet mellan två ord kopplade av ett beroende.
  • Namngiven enhetsanalys och extraktion: Identifierar ord med en "känd" betydelse och tilldelar dem till klasser av entitetstyper.I allmänhet är namngivna enheter organisationer, människor, produkter, platser och saker (substantiv). I en mening ska subjekt och objekt identifieras som enheter.
Enhetsanalys med Google Natural Processing API.
  • Framträdande poäng: Bestämmer hur intensivt en text är kopplad till ett ämne.Framträdande karaktär bestäms i allmänhet av samcitering av ord på webben och relationerna mellan enheter i databaser som Wikipedia och Freebase.Erfarna SEOs känner till en liknande metod från TF-IDF-analys.
  • Sentimentanalys: Identifierar åsikten (syn eller attityd) som uttrycks i en text om enheterna eller ämnena.
  • Textkategorisering: På makronivå klassificerar NLP text i innehållskategorier.Textkategorisering hjälper till att avgöra generellt vad texten handlar om.
  • Textklassificering och funktion: NLP kan gå längre och bestämma innehållets avsedda funktion eller syfte.Det här är väldigt intressant att matcha en sökavsikt med ett dokument.
  • Utvinning av innehållstyp: Baserat på strukturella mönster eller sammanhang kan en sökmotor bestämma en texts innehållstyp utan strukturerad data.Textens HTML, formatering och datatyp (datum, plats, URL, etc.) kan identifiera om det är ett recept, produkt, händelse eller annan innehållstyp utan att använda uppmärkningar.
  • Identifiera implicit mening baserat på struktur: Formateringen av en text kan ändra dess underförstådda betydelse.Rubriker, radbrytningar, listor och närhet förmedlar en sekundär förståelse av texten.Till exempel, när text visas i en HTML-sorterad lista eller en serie rubriker med siffror framför sig, är det sannolikt en lista eller en rangordning.Strukturen definieras inte bara av HTML-taggar utan också av visuell teckenstorlek/tjocklek och närhet under renderingen.

Användningen av NLP i sökning

I flera år har Google utbildat språkmodeller som BERT eller MUM för att tolka text, sökfrågor och till och med video- och ljudinnehåll.Dessa modeller matas via naturlig språkbehandling.

Google-sökning använder huvudsakligen naturlig språkbehandling inom följande områden:

  • Tolkning av sökfrågor.
  • Klassificering av ämne och syfte med dokument.
  • Enhetsanalys i dokument, sökfrågor och inlägg på sociala medier.
  • För att generera utvalda utdrag och svar i röstsökning.
  • Tolkning av video- och ljudinnehåll.
  • Utbyggnad och förbättring av Kunskapsdiagrammet.

Google betonade vikten av att förstå naturligt språk i sökningar när de släppte BERT-uppdateringen i oktober 2019.

"I kärnan handlar Search om att förstå språk. Det är vårt jobb att ta reda på vad du söker efter och få fram användbar information från webben, oavsett hur du stavar eller kombinerar orden i din fråga. Även om vi har fortsatt att förbättra vår språkförståelse genom åren, fattar vi ibland fortfarande inte riktigt, särskilt med komplexa frågor eller samtalsfrågor. Faktum är att det är en av anledningarna till att folk ofta använder "keyword-ese", skriver strängar av ord som de tror att vi kommer att förstå, men som faktiskt inte är hur de naturligt skulle ställa en fråga."

BERT & MUM: NLP för tolkning av sökfrågor och dokument

BERT sägs vara det mest kritiska framstegen inom Google-sökning på flera år efter RankBrain.Baserat på NLP utformades uppdateringen för att förbättra tolkningen av sökfrågor och påverkade initialt 10 % av alla sökfrågor.

BERT spelar en roll inte bara vid tolkning av frågeformulär utan också vid rangordning och sammanställning av utvalda utdrag, samt tolkning av frågeformulär i dokument.

"Tja, genom att tillämpa BERT-modeller på både rankning och utvalda utdrag i Sök, kan vi göra ett mycket bättre jobb och hjälpa dig att hitta användbar information. Faktum är att när det gäller rankning av resultat, kommer BERT att hjälpa Search att bättre förstå en av tio sökningar i USA på engelska, och vi kommer att ta detta till fler språk och lokaler med tiden."

Lanseringen av MUM-uppdateringen tillkännagavs vid Search On ’21.Även baserat på NLP är MUM flerspråkig, svarar på komplexa sökfrågor med multimodal data och bearbetar information från olika medieformat.Förutom text förstår MUM även bilder, video och ljudfiler.

MUM kombinerar flera tekniker för att göra Google-sökningar ännu mer semantiska och kontextbaserade för att förbättra användarupplevelsen.

Med MUM vill Google svara på komplexa sökfrågor i olika medieformat för att följa med användaren längs kundresan.

Som det används för BERT och MUM är NLP ett viktigt steg till en bättre semantisk förståelse och en mer användarcentrerad sökmotor.

Att förstå sökfrågor och innehåll via entiteter markerar skiftet från "strängar" till "saker".Googles mål är att utveckla en semantisk förståelse för sökfrågor och innehåll.

Genom att identifiera entiteter i sökfrågor blir innebörden och sökavsikten tydligare.De enskilda orden i en sökterm står inte längre ensamma utan betraktas i sammanhanget för hela sökfrågan.

Det magiska med att tolka söktermer uppstår vid frågebehandling.Följande steg är viktiga här:

  • Identifiera den tematiska ontologin där sökfrågan finns.Om det tematiska sammanhanget är tydligt kan Google välja en innehållskorpus av textdokument, videor och bilder som potentiellt lämpliga sökresultat.Detta är särskilt svårt med tvetydiga söktermer.
  • Identifiera enheter och deras betydelse i söktermen (namngiven enhetsidentifiering).
  • Förstå den semantiska innebörden av en sökfråga.
  • Identifiera sökavsikten.
  • Semantisk anteckning av sökfrågan.
  • Förfina söktermen.

Få det dagliga nyhetsbrevet som sökmarknadsförare litar på.

NLP är den mest avgörande metoden för gruvdrift

Bearbetning av naturligt språk kommer att spela den viktigaste rollen för Google för att identifiera enheter och deras betydelser, vilket gör det möjligt att extrahera kunskap från ostrukturerad data.

På grundval av detta kan relationer mellan entiteter och Kunskapsdiagrammet sedan skapas.Taltaggning hjälper delvis till med detta.

Substantiv är potentiella enheter, och verb representerar ofta enheternas förhållande till varandra.Adjektiv beskriver entiteten och adverb beskriver förhållandet.

Google har hittills bara använt ostrukturerad information minimalt för att mata kunskapsdiagrammet.

Det kan antas att:

  • Entiteterna som hittills registrerats i kunskapsdiagrammet är bara toppen av isberget.
  • Google förser dessutom ytterligare ett kunskapsarkiv med information om long-tail-enheter.

NLP spelar en central roll för att mata detta kunskapsförråd.

Google är redan ganska bra i NLP men uppnår ännu inte tillfredsställande resultat när det gäller att utvärdera automatiskt extraherad information om noggrannhet.

Datautvinning för en kunskapsdatabas som Knowledge Graph från ostrukturerad data som webbplatser är komplex.

Förutom att informationen är fullständig är korrekthet väsentligt.Nuförtiden garanterar Google fullständighet i stor skala genom NLP, men det är svårt att bevisa riktighet och noggrannhet.

Det är förmodligen därför Google fortfarande agerar försiktigt när det gäller den direkta positioneringen av information om long-tail-enheter i SERP:erna.

Entitetsbaserat index kontra klassiskt innehållsbaserat index

Introduktionen av Hummingbird-uppdateringen banade väg för semantisk sökning.Det förde också kunskapsdiagrammet – och därmed entiteter – i fokus.

Kunskapsdiagrammet är Googles enhetsindex.Alla attribut, dokument och digitala bilder som profiler och domäner är organiserade runt entiteten i ett enhetsbaserat index.

Knowledge Graph används för närvarande parallellt med det klassiska Google Index för rankning.

Anta att Google känner igen i sökfrågan att det handlar om en enhet som registrerats i kunskapsdiagrammet.I så fall nås informationen i båda indexen, där enheten är i fokus och all information och dokument relaterade till enheten också beaktas.

Ett gränssnitt eller API krävs mellan det klassiska Google Index och Knowledge Graph, eller någon annan typ av kunskapsförråd, för att utbyta information mellan de två indexen.

Det här gränssnittet för entitetsinnehåll handlar om att ta reda på:

  • Om det finns entiteter i ett innehåll.
  • Om det finns en huvudenhet som innehållet handlar om.
  • Vilken eller vilka ontologier huvudenheten kan tilldelas.
  • Vilken författare eller vilken enhet innehållet är tilldelat.
  • Hur enheterna i innehållet förhåller sig till varandra.
  • Vilka egenskaper eller attribut som ska tilldelas enheterna.

Det kan se ut så här:

Vi har precis börjat känna effekten av entitetsbaserad sökning i SERP:erna eftersom Google är långsamt med att förstå innebörden av enskilda enheter.

Entiteter förstås top-down med social relevans.De mest relevanta finns registrerade i Wikidata respektive Wikipedia.

Den stora uppgiften blir att identifiera och verifiera longtail-enheter.Det är också oklart vilka kriterier Google kontrollerar för att inkludera en enhet i kunskapsdiagrammet.

I en tysk Hangout för webbansvariga i januari 2019 sa Googles John Mueller att de arbetade på ett enklare sätt att skapa enheter för alla.

"Jag tror inte att vi har ett tydligt svar. Jag tror att vi har olika algoritmer som kontrollerar något sådant och sedan använder vi olika kriterier för att dra ihop det hela, för att dra isär det och för att känna igen vilka saker som verkligen är separata enheter, vilka som bara är varianter eller mindre separata enheter... Men så långt som jag är orolig har jag sett det, det är något vi jobbar på för att utöka det lite och jag föreställer mig att det kommer att göra det lättare att bli med i kunskapsdiagrammet också. Men jag vet inte exakt vad planerna är."

NLP spelar en viktig roll för att skala upp denna utmaning.

Exempel från diffbot-demon visar hur väl NLP kan användas för entity mining och att konstruera en Knowledge Graph.

NLP i Google-sökning är här för att stanna

RankBrain introducerades för att tolka sökfrågor och termer via vektorrymdsanalys som inte tidigare använts på detta sätt.

BERT och MUM använder naturlig språkbehandling för att tolka sökfrågor och dokument.

Förutom tolkningen av sökfrågor och innehåll, öppnade MUM och BERT dörren för att tillåta en kunskapsdatabas som Knowledge Graph att växa i skala och på så sätt främja semantisk sökning hos Google.

Utvecklingen inom Google Sök genom kärnuppdateringarna är också nära relaterade till MUM och BERT, och i slutändan NLP och semantisk sökning.

I framtiden kommer vi att se fler och fler enhetsbaserade Google-sökresultat som ersätter klassisk frasbaserad indexering och rankning.

Åsikter som uttrycks i den här artikeln är gästförfattarens åsikter och inte nödvändigtvis Search Engine Land.Personalförfattare listas här.