Sitemap

Hoe Google NLP gebruikt om zoekopdrachten en inhoud beter te begrijpen

Natuurlijke taalverwerking opende de deur voor semantisch zoeken op Google.

SEO's moeten de overstap naar op entiteiten gebaseerd zoeken begrijpen, want dit is de toekomst van Google Zoeken.

In dit artikel gaan we dieper in op de verwerking van natuurlijke taal en hoe Google deze gebruikt om zoekopdrachten en inhoud, entiteitsmining en meer te interpreteren.

Wat is natuurlijke taalverwerking?

Natuurlijke taalverwerking, of NLP, maakt het mogelijk om de betekenis van woorden, zinnen en teksten te begrijpen om informatie, kennis of nieuwe tekst te genereren.

Het bestaat uit natuurlijke taalbegrip (NLU) - waarmee semantische interpretatie van tekst en natuurlijke taal mogelijk is - en natuurlijke taalgeneratie (NLG).

NLP kan worden gebruikt voor:

  • Spraakherkenning (tekst naar spraak en spraak naar tekst).
  • Segmenteren van eerder vastgelegde spraak in afzonderlijke woorden, zinnen en zinsdelen.
  • Herkennen van basisvormen van woorden en verwerven van grammaticale informatie.
  • Functies van afzonderlijke woorden in een zin herkennen (onderwerp, werkwoord, object, lidwoord, enz.)
  • Extraheren van de betekenis van zinnen en delen van zinnen of zinsdelen, zoals bijvoeglijke naamwoorden (bijv. "te lang"), voorzetselgroepen (bijv. "naar de rivier") of nominale zinnen (bijv. "de lange partij").
  • Herkennen van zinscontexten, zinsrelaties en entiteiten.
  • Taalkundige tekstanalyse, sentimentanalyse, vertalingen (ook voor stemassistenten), chatbots en onderliggende vraag- en antwoordsystemen.

Dit zijn de kerncomponenten van NLP:

Een kijkje in de Natural Language Processing API van Google
  • Tokenisatie: verdeelt een zin in verschillende termen.
  • Labeling van woordtype: classificeert woorden op object, onderwerp, predikaat, bijvoeglijk naamwoord, enz.
  • Woordafhankelijkheden: identificeert relaties tussen woorden op basis van grammaticaregels.
  • Lemmatisering: bepaalt of een woord verschillende vormen heeft en normaliseert variaties op de basisvorm.De basisvorm van 'auto's' is bijvoorbeeld 'auto'.
  • Labels ontleden: Labelt woorden op basis van de relatie tussen twee woorden die door een afhankelijkheid zijn verbonden.
  • Analyse en extractie van benoemde entiteiten: identificeert woorden met een "bekende" betekenis en wijst ze toe aan klassen van entiteitstypen.Over het algemeen zijn benoemde entiteiten organisaties, mensen, producten, plaatsen en dingen (zelfstandige naamwoorden). In een zin moeten subjecten en objecten als entiteiten worden geïdentificeerd.
Entiteitsanalyse met behulp van de Google Natural Processing API.
  • Salience-score: Bepaalt hoe intensief een tekst is verbonden met een onderwerp.Salience wordt over het algemeen bepaald door het gelijktijdig citeren van woorden op het web en de relaties tussen entiteiten in databases zoals Wikipedia en Freebase.Ervaren SEO's kennen een vergelijkbare methode uit de TF-IDF-analyse.
  • Sentimentanalyse: Identificeert de mening (visie of houding) die in een tekst wordt uitgedrukt over de entiteiten of onderwerpen.
  • Tekstcategorisatie: Op macroniveau classificeert NLP tekst in inhoudscategorieën.Tekstcategorisatie helpt om in het algemeen te bepalen waar de tekst over gaat.
  • Tekstclassificatie en functie: NLP kan verder gaan en de beoogde functie of het doel van de inhoud bepalen.Dit is erg interessant om een ​​zoekintentie te koppelen aan een document.
  • Extractie van inhoudstype: op basis van structurele patronen of context kan een zoekmachine het inhoudstype van een tekst bepalen zonder gestructureerde gegevens.De HTML, de opmaak en het gegevenstype van de tekst (datum, locatie, URL, enz.) kunnen identificeren of het een recept, product, evenement of een ander inhoudstype is zonder gebruik te maken van markeringen.
  • Identificeer impliciete betekenis op basis van structuur: de opmaak van een tekst kan de impliciete betekenis ervan veranderen.Koppen, regeleinden, lijsten en nabijheid geven een secundair begrip van de tekst weer.Als tekst bijvoorbeeld wordt weergegeven in een HTML-gesorteerde lijst of een reeks koppen met cijfers ervoor, is het waarschijnlijk een lijst of een rangschikking.De structuur wordt niet alleen bepaald door HTML-tags, maar ook door visuele lettergrootte/dikte en nabijheid tijdens het renderen.

Het gebruik van NLP bij het zoeken

Google heeft jarenlang taalmodellen zoals BERT of MUM getraind om tekst, zoekopdrachten en zelfs video- en audio-inhoud te interpreteren.Deze modellen worden gevoed via natuurlijke taalverwerking.

Google Zoeken gebruikt voornamelijk natuurlijke taalverwerking op de volgende gebieden:

  • Interpretatie van zoekopdrachten.
  • Classificatie van onderwerp en doel van documenten.
  • Entiteitsanalyse in documenten, zoekopdrachten en posts op sociale media.
  • Voor het genereren van featured snippets en antwoorden in gesproken zoekopdrachten.
  • Interpretatie van video- en audiocontent.
  • Uitbreiding en verbetering van de Knowledge Graph.

Google benadrukte het belang van het begrijpen van natuurlijke taal in zoekopdrachten toen ze de BERT-update in oktober 2019 uitbrachten.

“In de kern gaat Search over het begrijpen van taal. Het is onze taak om erachter te komen waarnaar u zoekt en om nuttige informatie van internet te vinden, ongeacht hoe u de woorden in uw zoekopdracht spelt of combineert. Hoewel we in de loop der jaren onze mogelijkheden voor het begrijpen van talen zijn blijven verbeteren, komen we er soms nog steeds niet helemaal uit, vooral bij complexe of conversatievragen. Dat is zelfs een van de redenen waarom mensen vaak 'keyword-ese' gebruiken, waarbij ze reeksen woorden typen waarvan ze denken dat we ze zullen begrijpen, maar die niet zijn hoe ze van nature een vraag zouden stellen.'

BERT & MUM: NLP voor het interpreteren van zoekopdrachten en documenten

Van BERT wordt gezegd dat het na RankBrain de meest kritische vooruitgang is in Google Zoeken in meerdere jaren.De update, gebaseerd op NLP, was bedoeld om de interpretatie van zoekopdrachten te verbeteren en had aanvankelijk invloed op 10% van alle zoekopdrachten.

BERT speelt niet alleen een rol bij de interpretatie van zoekopdrachten, maar ook bij het rangschikken en samenstellen van featured snippets, evenals bij het interpreteren van tekstvragenlijsten in documenten.

“Nou, door BERT-modellen toe te passen op zowel rankings als featured snippets in Zoeken, kunnen we veel beter werk leveren door u te helpen nuttige informatie te vinden. Als het gaat om het rangschikken van resultaten, zal BERT Search helpen om één op de tien zoekopdrachten in de VS in het Engels beter te begrijpen, en we zullen dit in de loop van de tijd naar meer talen en locaties brengen."

De uitrol van de MUM-update werd aangekondigd tijdens Search On ’21.Ook gebaseerd op NLP is MUM meertalig, beantwoordt het complexe zoekopdrachten met multimodale gegevens en verwerkt het informatie uit verschillende mediaformaten.Naast tekst begrijpt MUM ook afbeeldingen, video- en audiobestanden.

MUM combineert verschillende technologieën om Google-zoekopdrachten nog semantischer en contextgerichter te maken om de gebruikerservaring te verbeteren.

Met MUM wil Google complexe zoekopdrachten in verschillende mediaformaten beantwoorden om de gebruiker mee te nemen in het klanttraject.

Zoals gebruikt voor BERT en MUM, is NLP een essentiële stap naar een beter semantisch begrip en een meer gebruikersgerichte zoekmachine.

Het begrijpen van zoekopdrachten en inhoud via entiteiten markeert de verschuiving van 'strings' naar 'dingen'.Het doel van Google is om een ​​semantisch begrip van zoekopdrachten en inhoud te ontwikkelen.

Door entiteiten in zoekopdrachten te identificeren, wordt de betekenis en zoekintentie duidelijker.De afzonderlijke woorden van een zoekterm staan ​​niet langer op zichzelf, maar worden beschouwd in de context van de gehele zoekopdracht.

De magie van het interpreteren van zoektermen gebeurt bij het verwerken van zoekopdrachten.De volgende stappen zijn hierbij van belang:

  • Het identificeren van de thematische ontologie waarin de zoekopdracht zich bevindt.Als de thematische context duidelijk is, kan Google een contentcorpus van tekstdocumenten, video's en afbeeldingen selecteren als potentieel geschikte zoekresultaten.Dit is vooral moeilijk bij dubbelzinnige zoektermen.
  • Identificeren van entiteiten en hun betekenis in de zoekterm (namelijk herkenning van entiteiten).
  • De semantische betekenis van een zoekopdracht begrijpen.
  • Het identificeren van de zoekintentie.
  • Semantische annotatie van de zoekopdracht.
  • De zoekterm verfijnen.

Ontvang de dagelijkse nieuwsbrief waarop zoekmarketeers vertrouwen.

NLP is de meest cruciale methode voor entiteitsmining

Natuurlijke taalverwerking zal de belangrijkste rol spelen voor Google bij het identificeren van entiteiten en hun betekenissen, waardoor het mogelijk wordt om kennis te extraheren uit ongestructureerde gegevens.

Op basis hiervan kunnen vervolgens relaties tussen entiteiten en de Kenniskaart worden gecreëerd.Spraakherkenning helpt hierbij gedeeltelijk.

Zelfstandige naamwoorden zijn potentiële entiteiten en werkwoorden vertegenwoordigen vaak de relatie van de entiteiten tot elkaar.Bijvoeglijke naamwoorden beschrijven de entiteit en bijwoorden beschrijven de relatie.

Google heeft tot nu toe slechts minimaal gebruik gemaakt van ongestructureerde informatie om de Knowledge Graph te voeden.

Er kan worden aangenomen dat:

  • De entiteiten die tot nu toe in de Kenniskaart zijn geregistreerd, zijn slechts het topje van de ijsberg.
  • Google voedt bovendien een andere kennisbank met informatie over long-tail-entiteiten.

NLP speelt een centrale rol bij het voeden van deze kennisbank.

Google is al behoorlijk goed in NLP, maar behaalt nog geen bevredigende resultaten bij het evalueren van automatisch geëxtraheerde informatie met betrekking tot nauwkeurigheid.

Datamining voor een kennisdatabase zoals de Knowledge Graph uit ongestructureerde data zoals websites is complex.

Naast de volledigheid van de informatie is juistheid essentieel.Tegenwoordig garandeert Google volledigheid op schaal via NLP, maar het bewijzen van juistheid en nauwkeurigheid is moeilijk.

Dit is waarschijnlijk de reden waarom Google nog steeds voorzichtig is met het direct positioneren van informatie over long-tail entiteiten in de SERP's.

Op entiteiten gebaseerde index versus klassieke op inhoud gebaseerde index

De introductie van de Hummingbird-update maakte de weg vrij voor semantisch zoeken.Het bracht ook de Kenniskaart - en dus entiteiten - in beeld.

De Knowledge Graph is de entiteitsindex van Google.Alle attributen, documenten en digitale afbeeldingen zoals profielen en domeinen zijn rond de entiteit georganiseerd in een op entiteiten gebaseerde index.

De Knowledge Graph wordt momenteel parallel aan de klassieke Google Index gebruikt voor ranking.

Stel dat Google in de zoekopdracht herkent dat het gaat om een ​​entiteit die is vastgelegd in de Knowledge Graph.In dat geval wordt toegang verkregen tot de informatie in beide indexen, waarbij de entiteit centraal staat en ook alle informatie en documenten die betrekking hebben op de entiteit in aanmerking worden genomen.

Er is een interface of API nodig tussen de klassieke Google-index en de Knowledge Graph, of een ander type kennisopslag, om informatie tussen de twee indices uit te wisselen.

Deze entiteit-inhoudsinterface gaat over het vinden van:

  • Of er entiteiten in een stuk inhoud zijn.
  • Of er een hoofdentiteit is waar de inhoud over gaat.
  • Aan welke ontologie of ontologieën de hoofdentiteit kan worden toegewezen.
  • Welke auteur of welke entiteit de inhoud is toegewezen.
  • Hoe de entiteiten in de inhoud zich tot elkaar verhouden.
  • Welke eigenschappen of attributen aan de entiteiten moeten worden toegewezen.

Het zou er zo uit kunnen zien:

We beginnen net de impact te voelen van op entiteiten gebaseerd zoeken in de SERP's, aangezien Google de betekenis van individuele entiteiten traag begrijpt.

Entiteiten worden top-down begrepen door maatschappelijke relevantie.De meest relevante zijn opgenomen in respectievelijk Wikidata en Wikipedia.

De grote taak zal zijn om long-tail entiteiten te identificeren en te verifiëren.Ook is het onduidelijk welke criteria Google controleert op het opnemen van een entiteit in de Knowledge Graph.

In een Duitse Webmaster Hangout in januari 2019 zei John Mueller van Google dat ze werkten aan een eenvoudigere manier om entiteiten voor iedereen te creëren.

“Ik denk niet dat we een duidelijk antwoord hebben. Ik denk dat we verschillende algoritmen hebben die zoiets controleren en dan gebruiken we verschillende criteria om het hele ding bij elkaar te brengen, om het uit elkaar te halen en om te herkennen welke dingen echt afzonderlijke entiteiten zijn, die slechts varianten of minder afzonderlijke entiteiten zijn ... Maar voor zover wat mij betreft heb ik dat gezien, dat is iets waar we aan werken om dat een beetje uit te breiden en ik kan me voorstellen dat het het gemakkelijker zal maken om ook in de Kenniskaart te verschijnen. Maar wat de plannen precies zijn, weet ik niet.”

NLP speelt een cruciale rol bij het opschalen van deze uitdaging.

Voorbeelden uit de diffbot-demo laten zien hoe goed NLP kan worden gebruikt voor entiteitsmining en het maken van een kenniskaart.

NLP in Google Zoeken is hier om te blijven

RankBrain is geïntroduceerd om zoekopdrachten en termen te interpreteren via vectorruimteanalyse die nog niet eerder op deze manier waren gebruikt.

BERT en MUM gebruiken natuurlijke taalverwerking om zoekopdrachten en documenten te interpreteren.

Naast de interpretatie van zoekopdrachten en content, hebben MUM en BERT de deur geopend om een ​​kennisdatabase zoals de Knowledge Graph op schaal te laten groeien en zo het semantisch zoeken bij Google vooruit te helpen.

De ontwikkelingen in Google Zoeken via de kernupdates hangen ook nauw samen met MUM en BERT, en uiteindelijk NLP en semantisch zoeken.

In de toekomst zullen we steeds meer op entiteiten gebaseerde Google-zoekresultaten zien die klassieke op woordgroepen gebaseerde indexering en rangschikking vervangen.

De meningen in dit artikel zijn die van de gastauteur en niet noodzakelijkerwijs Search Engine Land.De auteurs van het personeel worden hier vermeld.