Sitemap

Cum folosește Google NLP pentru a înțelege mai bine interogările de căutare, conținutul

Procesarea limbajului natural a deschis ușa căutării semantice pe Google.

SEO trebuie să înțeleagă trecerea la căutarea bazată pe entități, deoarece acesta este viitorul căutării Google.

În acest articol, ne vom aprofunda în procesarea limbajului natural și în modul în care Google o folosește pentru a interpreta interogările și conținutul de căutare, extragerea de entități și multe altele.

Ce este procesarea limbajului natural?

Procesarea limbajului natural, sau NLP, face posibilă înțelegerea sensului cuvintelor, propozițiilor și textelor pentru a genera informații, cunoștințe sau text nou.

Constă în înțelegerea limbajului natural (NLU) – care permite interpretarea semantică a textului și a limbajului natural – și generarea limbajului natural (NLG).

NLP poate fi folosit pentru:

  • Recunoașterea vorbirii (text în vorbire și vorbire în text).
  • Segmentarea discursului capturat anterior în cuvinte, propoziții și fraze individuale.
  • Recunoașterea formelor de bază ale cuvintelor și achiziția de informații gramaticale.
  • Recunoașterea funcțiilor cuvintelor individuale dintr-o propoziție (subiect, verb, obiect, articol etc.)
  • Extragerea semnificației propozițiilor și a părților de propoziție sau fraze, cum ar fi fraze adjectivale (de exemplu, „prea lung”), fraze prepoziționale (de exemplu, „până la râu”) sau expresii nominale (de exemplu, „partea lungă”).
  • Recunoașterea contextelor de propoziție, a relațiilor de propoziție și a entităților.
  • Analiza lingvistică a textului, analiza sentimentelor, traduceri (inclusiv cele pentru asistenți vocali), chatbot și sisteme de întrebări și răspunsuri subiacente.

Următoarele sunt componentele de bază ale NLP:

O privire asupra API-ului de procesare a limbajului natural de la Google
  • Tokenizare: împarte o propoziție în termeni diferiți.
  • Etichetarea tipului de cuvinte: clasifică cuvintele după obiect, subiect, predicat, adjectiv etc.
  • Dependențe de cuvinte: identifică relațiile dintre cuvinte pe baza regulilor gramaticale.
  • Lematizare: determină dacă un cuvânt are forme diferite și normalizează variațiile formei de bază.De exemplu, forma de bază a „mașini” este „mașină”.
  • Analizarea etichetelor: etichetează cuvintele pe baza relației dintre două cuvinte conectate printr-o dependență.
  • Analiza și extragerea entităților numite: identifică cuvinte cu un sens „cunoscut” și le atribuie claselor de tipuri de entități.În general, entitățile numite sunt organizații, oameni, produse, locuri și lucruri (substantive). Într-o propoziție, subiectele și obiectele trebuie identificate ca entități.
Analiza entității folosind API-ul Google Natural Processing.
  • Scorul de proeminență: determină cât de intens este conectat un text cu un subiect.Proența este determinată în general de co-citarea cuvintelor pe web și de relațiile dintre entitățile din bazele de date precum Wikipedia și Freebase.SEO experimentați cunosc o metodă similară din analiza TF-IDF.
  • Analiza sentimentelor: Identifică opinia (viziunea sau atitudinea) exprimată într-un text despre entități sau subiecte.
  • Categorizarea textului: la nivel macro, NLP clasifică textul în categorii de conținut.Categorizarea textului ajută la determinarea generală despre ce este vorba în text.
  • Clasificarea textului și funcția: NLP poate merge mai departe și poate determina funcția sau scopul dorit al conținutului.Este foarte interesant să potriviți o intenție de căutare cu un document.
  • Extragerea tipului de conținut: Pe baza modelelor structurale sau a contextului, un motor de căutare poate determina tipul de conținut al unui text fără date structurate.HTML-ul textului, formatarea și tipul de date (data, locație, URL etc.) pot identifica dacă este o rețetă, produs, eveniment sau alt tip de conținut fără a utiliza markupuri.
  • Identificați semnificația implicită pe baza structurii: formatarea unui text poate schimba sensul implicit al acestuia.Titlurile, rupturile de rând, listele și proximitatea transmit o înțelegere secundară a textului.De exemplu, atunci când textul este afișat într-o listă sortată în format HTML sau într-o serie de titluri cu numere în fața lor, este probabil să fie o listă sau un clasament.Structura este definită nu numai de etichetele HTML, ci și de dimensiunea/grosimea fontului vizual și proximitatea în timpul redării.

Utilizarea NLP în căutare

De ani de zile, Google a instruit modele lingvistice precum BERT sau MUM pentru a interpreta text, interogări de căutare și chiar conținut video și audio.Aceste modele sunt alimentate prin procesarea limbajului natural.

Căutarea Google utilizează în principal procesarea limbajului natural în următoarele domenii:

  • Interpretarea interogărilor de căutare.
  • Clasificarea subiectului și a scopului documentelor.
  • Analiza entităților în documente, interogări de căutare și postări pe rețelele sociale.
  • Pentru generarea de fragmente și răspunsuri prezentate în căutarea vocală.
  • Interpretarea conținutului video și audio.
  • Extinderea și îmbunătățirea Knowledge Graph.

Google a subliniat importanța înțelegerii limbajului natural în căutare când a lansat actualizarea BERT în octombrie 2019.

„În esență, Căutarea se referă la înțelegerea limbajului. Este datoria noastră să aflăm ce căutați și să scoateți în evidență informații utile de pe web, indiferent de modul în care scrieți sau combinați cuvintele din interogarea dvs. Deși am continuat să ne îmbunătățim capacitățile de înțelegere a limbii de-a lungul anilor, uneori încă nu înțelegem corect, în special în cazul interogărilor complexe sau conversaționale. De fapt, acesta este unul dintre motivele pentru care oamenii folosesc adesea „keyword-ese”, tastând șiruri de cuvinte pe care cred că le vom înțelege, dar nu sunt de fapt modul în care ar pune o întrebare în mod natural.

BERT & MUM: NLP pentru interpretarea interogărilor de căutare și a documentelor

Se spune că BERT este cel mai important progres în căutarea Google din câțiva ani după RankBrain.Pe baza NLP, actualizarea a fost concepută pentru a îmbunătăți interpretarea interogărilor de căutare și a afectat inițial 10% din toate interogările de căutare.

BERT joacă un rol nu numai în interpretarea interogărilor, ci și în clasarea și compilarea fragmentelor prezentate, precum și în interpretarea chestionarelor text din documente.

„Ei bine, prin aplicarea modelelor BERT atât pentru clasament, cât și pentru fragmentele prezentate în Căutare, putem face o treabă mult mai bună, ajutându-vă să găsiți informații utile. De fapt, când vine vorba de clasarea rezultatelor, BERT va ajuta Căutarea să înțeleagă mai bine una din 10 căutări în S.U.A. în engleză, iar de-a lungul timpului vom aduce acest lucru în mai multe limbi și localități.”

Lansarea actualizării MUM a fost anunțată la Search On '21.De asemenea, bazat pe NLP, MUM este multilingv, răspunde la interogări complexe de căutare cu date multimodale și procesează informații din diferite formate media.Pe lângă text, MUM înțelege și imagini, fișiere video și audio.

MUM combină mai multe tehnologii pentru a face căutările Google și mai semantice și bazate pe context pentru a îmbunătăți experiența utilizatorului.

Cu MUM, Google dorește să răspundă la întrebări complexe de căutare în diferite formate media pentru a se alătura utilizatorului de-a lungul călătoriei clientului.

Așa cum este folosit pentru BERT și MUM, NLP este un pas esențial pentru o mai bună înțelegere semantică și un motor de căutare mai centrat pe utilizator.

Înțelegerea interogărilor de căutare și a conținutului prin intermediul entităților marchează trecerea de la „șiruri” la „lucruri”.Scopul Google este de a dezvolta o înțelegere semantică a interogărilor de căutare și a conținutului.

Prin identificarea entităților în interogările de căutare, sensul și intenția de căutare devin mai clare.Cuvintele individuale ale unui termen de căutare nu mai sunt singure, ci sunt luate în considerare în contextul întregii interogări de căutare.

Magia interpretării termenilor de căutare are loc în procesarea interogărilor.Următorii pași sunt importanți aici:

  • Identificarea ontologiei tematice în care se află interogarea de căutare.Dacă contextul tematic este clar, Google poate selecta un corp de conținut de documente text, videoclipuri și imagini ca rezultate de căutare potențial adecvate.Acest lucru este deosebit de dificil în cazul termenilor de căutare ambigui.
  • Identificarea entităților și semnificația acestora în termenul de căutare (recunoașterea entității numite).
  • Înțelegerea semnificației semantice a unei interogări de căutare.
  • Identificarea intenției de căutare.
  • Adnotarea semantică a interogării de căutare.
  • Rafinarea termenului de căutare.

Obțineți buletinele informative zilnice pe care se bazează marketerii.

NLP este cea mai importantă metodologie pentru minerit de entități

Procesarea limbajului natural va juca cel mai important rol pentru Google în identificarea entităților și a semnificațiilor acestora, făcând posibilă extragerea cunoștințelor din date nestructurate.

Pe această bază, pot fi create apoi relații între entități și Knowledge Graph.Etichetarea vocală ajută parțial în acest sens.

Substantivele sunt entități potențiale, iar verbele reprezintă adesea relația dintre entități între ele.Adjectivele descriu entitatea, iar adverbele descriu relația.

Google a folosit până acum doar informațiile nestructurate pentru a alimenta Knowledge Graph.

Se poate presupune că:

  • Entitățile înregistrate până acum în Knowledge Graph sunt doar vârful aisbergului.
  • În plus, Google alimentează un alt depozit de cunoștințe cu informații despre entitățile cu coadă lungă.

NLP joacă un rol central în alimentarea acestui depozit de cunoștințe.

Google este deja destul de bun în NLP, dar nu obține încă rezultate satisfăcătoare în evaluarea informațiilor extrase automat cu privire la acuratețe.

Exploatarea datelor pentru o bază de date de cunoștințe precum Knowledge Graph din date nestructurate, cum ar fi site-urile web, este complexă.

Pe lângă caracterul complet al informațiilor, corectitudinea este esențială.În zilele noastre, Google garantează completitatea la scară prin NLP, dar este dificil să se demonstreze corectitudinea și acuratețea.

Acesta este, probabil, motivul pentru care Google încă acționează cu prudență în ceea ce privește poziționarea directă a informațiilor privind entitățile cu coadă lungă în SERP-uri.

Index bazat pe entitate vs. index bazat pe conținut clasic

Introducerea actualizării Hummingbird a deschis calea căutării semantice.De asemenea, a adus în atenție Knowledge Graph și, prin urmare, entitățile.

Knowledge Graph este indexul de entități Google.Toate atributele, documentele și imaginile digitale, cum ar fi profilurile și domeniile, sunt organizate în jurul entității într-un index bazat pe entitate.

Knowledge Graph este utilizat în prezent în paralel cu clasicul index Google pentru clasare.

Să presupunem că Google recunoaște în interogarea de căutare că este vorba despre o entitate înregistrată în Knowledge Graph.În acest caz, se accesează informațiile din ambii indici, focalizarea fiind entitatea și luând în considerare și toate informațiile și documentele legate de entitate.

Este necesară o interfață sau API între indexul clasic Google și Knowledge Graph, sau un alt tip de depozit de cunoștințe, pentru a face schimb de informații între cei doi indici.

Această interfață entitate-conținut este despre a afla:

  • Dacă există entități într-o bucată de conținut.
  • Dacă există o entitate principală despre care se referă conținutul.
  • Care ontologie sau ontologii poate fi atribuită entitatea principală.
  • Carui autor sau entitate i se atribuie continutul.
  • Cum se leagă între ele entitățile din conținut.
  • Ce proprietăți sau atribute urmează să fie atribuite entităților.

Ar putea arata asa:

Tocmai începem să simțim impactul căutării bazate pe entități în SERP-uri, deoarece Google este lent în înțelegerea semnificației entităților individuale.

Entitățile sunt înțelese de sus în jos prin relevanță socială.Cele mai relevante sunt înregistrate în Wikidata și, respectiv, Wikipedia.

Sarcina mare va fi identificarea și verificarea entităților cu coadă lungă.De asemenea, nu este clar ce criterii verifică Google pentru includerea unei entități în Knowledge Graph.

Într-un Hangout pentru webmasteri germani din ianuarie 2019, John Mueller de la Google a spus că lucrează la o modalitate mai simplă de a crea entități pentru toată lumea.

„Nu cred că avem un răspuns clar. Cred că avem diferiți algoritmi care verifică așa ceva și apoi folosim criterii diferite pentru a pune totul laolaltă, pentru a o separa și pentru a recunoaște care lucruri sunt cu adevărat entități separate, care sunt doar variante sau entități mai puțin separate... Dar în măsura în care Deoarece sunt îngrijorat, am văzut asta, este ceva la care lucrăm pentru a extinde puțin acest lucru și îmi imaginez că va face mai ușor să apară și în Knowledge Graph. Dar nu știu exact care sunt planurile.”

NLP joacă un rol vital în extinderea acestei provocări.

Exemplele din demo-ul diffbot arată cât de bine poate fi folosit NLP pentru extragerea entităților și construirea unui Knowledge Graph.

NLP în căutarea Google este aici pentru a rămâne

RankBrain a fost introdus pentru a interpreta interogările de căutare și termenii prin analiza spațiului vectorial care nu fuseseră utilizate anterior în acest mod.

BERT și MUM folosesc procesarea limbajului natural pentru a interpreta interogările și documentele de căutare.

Pe lângă interpretarea interogărilor de căutare și a conținutului, MUM și BERT au deschis ușa pentru a permite unei baze de date de cunoștințe precum Knowledge Graph să crească la scară, avansând astfel căutarea semantică la Google.

Evoluțiile din Căutarea Google prin actualizările de bază sunt, de asemenea, strâns legate de MUM și BERT și, în cele din urmă, NLP și căutarea semantică.

În viitor, vom vedea din ce în ce mai multe rezultate de căutare Google bazate pe entități care înlocuiesc indexarea și clasarea clasică bazată pe fraze.

Opiniile exprimate în acest articol sunt cele ale autorului invitat și nu neapărat Search Engine Land.Autorii personalului sunt enumerați aici.