Sitemap

Hvordan Google bruger NLP til bedre at forstå søgeforespørgsler, indhold

Naturlig sprogbehandling åbnede døren for semantisk søgning på Google.

SEO'er skal forstå skiftet til enhedsbaseret søgning, fordi dette er fremtiden for Google-søgning.

I denne artikel vil vi dykke dybt ned i naturlig sprogbehandling, og hvordan Google bruger det til at fortolke søgeforespørgsler og indhold, entity mining og mere.

Hvad er naturlig sprogbehandling?

Naturlig sprogbehandling, eller NLP, gør det muligt at forstå betydningen af ​​ord, sætninger og tekster for at generere information, viden eller ny tekst.

Den består af naturlig sprogforståelse (NLU) – som tillader semantisk fortolkning af tekst og naturligt sprog – og naturlig sproggenerering (NLG).

NLP kan bruges til:

  • Talegenkendelse (tekst til tale og tale til tekst).
  • Segmentering af tidligere indfanget tale i individuelle ord, sætninger og sætninger.
  • Genkende grundlæggende ordformer og tilegnelse af grammatisk information.
  • Genkende funktioner af individuelle ord i en sætning (emne, verbum, objekt, artikel osv.)
  • Uddrag af betydningen af ​​sætninger og dele af sætninger eller sætninger, såsom adjektiviske sætninger (f.eks. "for lange"), præpositionssætninger (f.eks. "til floden") eller nominelle sætninger (f.eks. "det lange parti").
  • Genkendelse af sætningskontekster, sætningsforhold og entiteter.
  • Sproglig tekstanalyse, sentimentanalyse, oversættelser (inklusive dem til stemmeassistenter), chatbots og underliggende spørgsmål og svar-systemer.

Følgende er kernekomponenterne i NLP:

Et kig på Googles Natural Language Processing API
  • Tokenisering: Opdeler en sætning i forskellige termer.
  • Ordtypemærkning: Klassificerer ord efter objekt, emne, prædikat, adjektiv osv.
  • Ordafhængigheder: Identificerer relationer mellem ord baseret på grammatikregler.
  • Lemmatisering: Bestemmer om et ord har forskellige former og normaliserer variationer til grundformen.For eksempel er grundformen for "biler" "bil".
  • Parsing etiketter: Mærker ord baseret på forholdet mellem to ord forbundet med en afhængighed.
  • Navngivet enhedsanalyse og udtrækning: Identificerer ord med en "kendt" betydning og tildeler dem til klasser af entitetstyper.Generelt er navngivne enheder organisationer, mennesker, produkter, steder og ting (navneord). I en sætning skal subjekter og objekter identificeres som entiteter.
Enhedsanalyse ved hjælp af Google Natural Processing API.
  • Salience-scoring: Bestemmer, hvor intensivt en tekst er forbundet med et emne.Salience bestemmes generelt af samcitering af ord på nettet og relationerne mellem entiteter i databaser som Wikipedia og Freebase.Erfarne SEO'er kender en lignende metode fra TF-IDF analyse.
  • Følelsesanalyse: Identificerer den mening (syn eller holdning), der udtrykkes i en tekst om entiteterne eller emnerne.
  • Tekstkategorisering: På makroniveau klassificerer NLP tekst i indholdskategorier.Tekstkategorisering er med til at bestemme generelt, hvad teksten handler om.
  • Tekstklassificering og funktion: NLP kan gå videre og bestemme indholdets tilsigtede funktion eller formål.Dette er meget interessant at matche en søgehensigt med et dokument.
  • Indholdstypeudtræk: Baseret på strukturelle mønstre eller kontekst kan en søgemaskine bestemme en teksts indholdstype uden strukturerede data.Tekstens HTML, formatering og datatype (dato, placering, URL osv.) kan identificere, om det er en opskrift, et produkt, en begivenhed eller en anden indholdstype uden brug af opmærkninger.
  • Identificer implicit betydning baseret på struktur: Formateringen af ​​en tekst kan ændre dens underforståede betydning.Overskrifter, linjeskift, lister og nærhed formidler en sekundær forståelse af teksten.For eksempel, når tekst vises i en HTML-sorteret liste eller en række overskrifter med tal foran dem, er det sandsynligvis en liste eller en rangering.Strukturen defineres ikke kun af HTML-tags, men også af visuel skriftstørrelse/-tykkelse og nærhed under gengivelsen.

Brugen af ​​NLP i søgning

I årevis har Google trænet sprogmodeller som BERT eller MUM til at fortolke tekst, søgeforespørgsler og endda video- og lydindhold.Disse modeller fødes via naturlig sprogbehandling.

Google-søgning bruger primært naturlig sprogbehandling på følgende områder:

  • Fortolkning af søgeforespørgsler.
  • Klassificering af emne og formål med dokumenter.
  • Enhedsanalyse i dokumenter, søgeforespørgsler og opslag på sociale medier.
  • Til generering af fremhævede uddrag og svar i stemmesøgning.
  • Fortolkning af video- og lydindhold.
  • Udvidelse og forbedring af Knowledge Graph.

Google fremhævede vigtigheden af ​​at forstå naturligt sprog i søgning, da de udgav BERT-opdateringen i oktober 2019.

"I sin kerne handler Search om at forstå sprog. Det er vores opgave at finde ud af, hvad du søger efter, og finde nyttige oplysninger fra nettet, uanset hvordan du staver eller kombinerer ordene i din forespørgsel. Selvom vi er blevet ved med at forbedre vores sprogforståelsesevner i årenes løb, får vi nogle gange stadig det ikke helt rigtigt, især med komplekse eller samtaleforespørgsler. Faktisk er det en af ​​grundene til, at folk ofte bruger "søgeord-se", og skriver rækker af ord, som de tror, ​​vi vil forstå, men som faktisk ikke er sådan, de naturligt ville stille et spørgsmål."

BERT & MUM: NLP til tolkning af søgeforespørgsler og dokumenter

BERT siges at være det mest kritiske fremskridt inden for Google-søgning i flere år efter RankBrain.Baseret på NLP blev opdateringen designet til at forbedre fortolkningen af ​​søgeforespørgsler og påvirkede oprindeligt 10 % af alle søgeforespørgsler.

BERT spiller ikke kun en rolle i forespørgselsfortolkning, men også ved rangering og kompilering af fremhævede uddrag, samt fortolkning af tekstspørgeskemaer i dokumenter.

"Nå, ved at anvende BERT-modeller på både rangering og fremhævede uddrag i Søgning, er vi i stand til at gøre et meget bedre stykke arbejde med at hjælpe dig med at finde nyttig information. Faktisk, når det kommer til rangering af resultater, vil BERT hjælpe Search bedre med at forstå én ud af 10 søgninger i USA på engelsk, og vi vil bringe dette til flere sprog og lokaliteter over tid."

Udrulningen af ​​MUM-opdateringen blev annonceret på Search On ’21.Også baseret på NLP er MUM flersproget, besvarer komplekse søgeforespørgsler med multimodale data og behandler information fra forskellige medieformater.Udover tekst forstår MUM også billeder, video og lydfiler.

MUM kombinerer flere teknologier for at gøre Google-søgninger endnu mere semantiske og kontekstbaserede for at forbedre brugeroplevelsen.

Med MUM ønsker Google at besvare komplekse søgeforespørgsler i forskellige medieformater for at slutte sig til brugeren på kunderejsen.

Som brugt til BERT og MUM er NLP et væsentligt skridt til en bedre semantisk forståelse og en mere brugercentreret søgemaskine.

At forstå søgeforespørgsler og indhold via enheder markerer skiftet fra "strenge" til "ting".Googles mål er at udvikle en semantisk forståelse af søgeforespørgsler og indhold.

Ved at identificere enheder i søgeforespørgsler bliver betydningen og søgehensigten tydeligere.De enkelte ord i en søgeterm står ikke længere alene, men betragtes i sammenhæng med hele søgeforespørgslen.

Magien ved at fortolke søgetermer sker i forespørgselsbehandling.Følgende trin er vigtige her:

  • Identifikation af den tematiske ontologi, hvori søgeforespørgslen er placeret.Hvis den tematiske kontekst er klar, kan Google vælge et indholdskorpus af tekstdokumenter, videoer og billeder som potentielt egnede søgeresultater.Dette er især svært med tvetydige søgetermer.
  • Identifikation af enheder og deres betydning i søgetermen (navngivet enhedsgenkendelse).
  • Forstå den semantiske betydning af en søgeforespørgsel.
  • Identifikation af søgehensigten.
  • Semantisk annotering af søgeforespørgslen.
  • Forfining af søgeordet.

Få det daglige nyhedsbrev, søgemarkedsførere stoler på.

NLP er den mest afgørende metode til entity minedrift

Naturlig sprogbehandling vil spille den vigtigste rolle for Google i at identificere enheder og deres betydninger, hvilket gør det muligt at udtrække viden fra ustrukturerede data.

På dette grundlag kan der så skabes relationer mellem entiteter og Knowledge Graph.Talemærkning hjælper delvist med dette.

Navneord er potentielle entiteter, og verber repræsenterer ofte entiteternes forhold til hinanden.Adjektiver beskriver entiteten, og adverbier beskriver forholdet.

Google har hidtil kun gjort minimal brug af ustruktureret information til at fodre Vidensgrafen.

Det kan antages, at:

  • De enheder, der hidtil er registreret i vidensgrafen, er kun toppen af ​​isbjerget.
  • Google forsyner desuden et andet videnlager med information om long-tail-enheder.

NLP spiller en central rolle i fodring af dette videnlager.

Google er allerede ret god i NLP, men opnår endnu ikke tilfredsstillende resultater med at evaluere automatisk udtrukne informationer vedrørende nøjagtighed.

Data mining for en videndatabase som vidensgrafen fra ustrukturerede data som websteder er kompleks.

Ud over fuldstændigheden af ​​oplysningerne er rigtigheden afgørende.I dag garanterer Google fuldstændighed i skala gennem NLP, men det er svært at bevise rigtighed og nøjagtighed.

Dette er sandsynligvis grunden til, at Google stadig handler forsigtigt med hensyn til den direkte positionering af information om long-tail-enheder i SERP'erne.

Entitetsbaseret indeks vs. klassisk indholdsbaseret indeks

Introduktionen af ​​Hummingbird-opdateringen banede vejen for semantisk søgning.Det bragte også vidensgrafen – og dermed enheder – i fokus.

Knowledge Graph er Googles enhedsindeks.Alle attributter, dokumenter og digitale billeder såsom profiler og domæner er organiseret omkring enheden i et enhedsbaseret indeks.

Knowledge Graph bruges i øjeblikket parallelt med det klassiske Google-indeks til rangering.

Antag, at Google genkender i søgeforespørgslen, at det drejer sig om en enhed, der er registreret i Knowledge Graph.I så fald tilgås oplysningerne i begge indekser, hvor enheden er i fokus, og alle oplysninger og dokumenter relateret til enheden også tages i betragtning.

Der kræves en grænseflade eller API mellem det klassiske Google Index og Knowledge Graph, eller en anden type videnlager, for at udveksle information mellem de to indekser.

Denne enhedsindholdsgrænseflade handler om at finde ud af:

  • Om der er enheder i et stykke indhold.
  • Om der er en hovedentitet, som indholdet handler om.
  • Hvilken ontologi eller ontologier hovedenheden kan tildeles.
  • Hvilken forfatter eller hvilken enhed indholdet er tildelt.
  • Hvordan entiteterne i indholdet forholder sig til hinanden.
  • Hvilke egenskaber eller attributter skal tildeles enhederne.

Det kunne se sådan ud:

Vi er lige begyndt at mærke virkningen af ​​enhedsbaseret søgning i SERP'erne, da Google er langsom til at forstå betydningen af ​​individuelle enheder.

Enheder forstås top-down ved social relevans.De mest relevante er registreret i henholdsvis Wikidata og Wikipedia.

Den store opgave bliver at identificere og verificere long-tail enheder.Det er også uklart, hvilke kriterier Google kontrollerer for at inkludere en enhed i Knowledge Graph.

I et tysk webmaster-Hangout i januar 2019 sagde Googles John Mueller, at de arbejdede på en mere ligetil måde at skabe enheder for alle.

»Jeg tror ikke, vi har et klart svar. Jeg tror, ​​vi har forskellige algoritmer, der kontrollerer sådan noget, og så bruger vi forskellige kriterier til at trække det hele sammen, til at trække det fra hinanden og til at genkende, hvilke ting der virkelig er separate entiteter, som bare er varianter eller mindre separate entiteter... Men for så vidt som jeg er bekymret for, har jeg set, at det er noget, vi arbejder på for at udvide det lidt, og jeg forestiller mig, at det også vil gøre det nemmere at blive vist i vidensgrafen. Men jeg ved ikke præcis, hvad planerne er."

NLP spiller en afgørende rolle i at opskalere denne udfordring.

Eksempler fra diffbot-demoen viser, hvor godt NLP kan bruges til entity mining og opbygning af en vidensgraf.

NLP i Google-søgning er kommet for at blive

RankBrain blev introduceret til at fortolke søgeforespørgsler og termer via vektorrumsanalyse, som ikke tidligere var blevet brugt på denne måde.

BERT og MUM bruger naturlig sprogbehandling til at fortolke søgeforespørgsler og dokumenter.

Ud over fortolkningen af ​​søgeforespørgsler og indhold åbnede MUM og BERT døren for at tillade en vidensdatabase som Knowledge Graph at vokse i skala og dermed fremme den semantiske søgning hos Google.

Udviklingen i Google Search gennem kerneopdateringerne er også tæt forbundet med MUM og BERT, og i sidste ende NLP og semantisk søgning.

I fremtiden vil vi se flere og flere enhedsbaserede Google-søgeresultater, der erstatter klassisk sætningsbaseret indeksering og rangering.

Meninger udtrykt i denne artikel er gæsteforfatterens og ikke nødvendigvis Search Engine Land.Personalets forfattere er opført her.