Sitemap

In che modo Google utilizza la NLP per comprendere meglio le query di ricerca, i contenuti

L'elaborazione del linguaggio naturale ha aperto le porte alla ricerca semantica su Google.

I SEO devono comprendere il passaggio alla ricerca basata su entità perché questo è il futuro della ricerca su Google.

In questo articolo, approfondiremo l'elaborazione del linguaggio naturale e come Google lo utilizza per interpretare le query di ricerca e i contenuti, il mining di entità e altro ancora.

Che cos'è l'elaborazione del linguaggio naturale?

L'elaborazione del linguaggio naturale, o NLP, consente di comprendere il significato di parole, frasi e testi per generare informazioni, conoscenze o nuovo testo.

Consiste nella comprensione del linguaggio naturale (NLU) – che consente l'interpretazione semantica del testo e del linguaggio naturale – e nella generazione del linguaggio naturale (NLG).

La PNL può essere utilizzata per:

  • Riconoscimento vocale (text to speech e speech to text).
  • Segmentazione del discorso precedentemente acquisito in singole parole, frasi e frasi.
  • Riconoscere le forme base delle parole e acquisire informazioni grammaticali.
  • Riconoscere le funzioni delle singole parole in una frase (soggetto, verbo, oggetto, articolo, ecc.)
  • Estrarre il significato di frasi e parti di frasi o locuzioni, come frasi aggettivi (ad es. "troppo lungo"), frasi preposizionali (ad es. "al fiume") o frasi nominali (ad es. "il partito lungo").
  • Riconoscere i contesti delle frasi, le relazioni delle frasi e le entità.
  • Analisi linguistica del testo, analisi del sentiment, traduzioni (comprese quelle per assistenti vocali), chatbot e sistemi di domande e risposte sottostanti.

I seguenti sono i componenti principali della PNL:

Uno sguardo all'API di elaborazione del linguaggio naturale di Google
  • Tokenizzazione: divide una frase in termini diversi.
  • Etichettatura del tipo di parola: classifica le parole per oggetto, soggetto, predicato, aggettivo, ecc.
  • Dipendenze di parole: identifica le relazioni tra le parole in base a regole grammaticali.
  • Lemmatizzazione: determina se una parola ha forme diverse e normalizza le variazioni rispetto alla forma base.Ad esempio, la forma base di "auto" è "auto".
  • Etichette di analisi: etichetta le parole in base alla relazione tra due parole collegate da una dipendenza.
  • Analisi ed estrazione dell'entità denominata: identifica le parole con un significato "noto" e le assegna a classi di tipi di entità.In generale, le entità denominate sono organizzazioni, persone, prodotti, luoghi e cose (nomi). In una frase, i soggetti e gli oggetti devono essere identificati come entità.
Analisi dell'entità utilizzando l'API di elaborazione naturale di Google.
  • Punteggio di salienza: determina l'intensità con cui un testo è collegato a un argomento.La salienza è generalmente determinata dalla co-citazione di parole sul web e dalle relazioni tra entità in database come Wikipedia e Freebase.I SEO esperti conoscono un metodo simile dall'analisi TF-IDF.
  • Analisi del sentiment: identifica l'opinione (punto di vista o atteggiamento) espressa in un testo sulle entità o sugli argomenti.
  • Categorizzazione del testo: a livello macro, la PNL classifica il testo in categorie di contenuto.La categorizzazione del testo aiuta a determinare in generale di cosa tratta il testo.
  • Classificazione e funzione del testo: la PNL può andare oltre e determinare la funzione prevista o lo scopo del contenuto.Questo è molto interessante per abbinare un intento di ricerca a un documento.
  • Estrazione del tipo di contenuto: sulla base di modelli strutturali o contesto, un motore di ricerca può determinare il tipo di contenuto di un testo senza dati strutturati.L'HTML del testo, la formattazione e il tipo di dati (data, posizione, URL, ecc.) possono identificare se si tratta di una ricetta, un prodotto, un evento o un altro tipo di contenuto senza utilizzare markup.
  • Identificare il significato implicito in base alla struttura: la formattazione di un testo può cambiarne il significato implicito.Intestazioni, interruzioni di riga, elenchi e prossimità trasmettono una comprensione secondaria del testo.Ad esempio, quando il testo viene visualizzato in un elenco ordinato in HTML o in una serie di intestazioni con numeri davanti, è probabile che si tratti di un elenco o di una classifica.La struttura è definita non solo dai tag HTML ma anche dalla dimensione/spessore del carattere visivo e dalla vicinanza durante il rendering.

L'uso della PNL nella ricerca

Per anni, Google ha addestrato modelli linguistici come BERT o MUM per interpretare testo, query di ricerca e persino contenuti video e audio.Questi modelli sono alimentati tramite l'elaborazione del linguaggio naturale.

La ricerca di Google utilizza principalmente l'elaborazione del linguaggio naturale nelle seguenti aree:

  • Interpretazione delle query di ricerca.
  • Classificazione dell'oggetto e dello scopo dei documenti.
  • Analisi delle entità in documenti, query di ricerca e post sui social media.
  • Per generare frammenti e risposte in primo piano nella ricerca vocale.
  • Interpretazione di contenuti video e audio.
  • Ampliamento e miglioramento del Knowledge Graph.

Google ha sottolineato l'importanza della comprensione del linguaggio naturale nella ricerca quando ha rilasciato l'aggiornamento BERT nell'ottobre 2019.

“In sostanza, la ricerca riguarda la comprensione del linguaggio. Il nostro compito è capire cosa stai cercando e far emergere informazioni utili dal Web, indipendentemente da come scrivi o combini le parole nella tua query. Anche se abbiamo continuato a migliorare le nostre capacità di comprensione della lingua nel corso degli anni, a volte non riusciamo ancora a farlo bene, in particolare con domande complesse o conversazionali. In effetti, questo è uno dei motivi per cui le persone usano spesso "parola chiave-ese", digitando stringhe di parole che pensano che riusciremo a capire, ma in realtà non sono il modo in cui farebbero naturalmente una domanda".

BERT & MUM: PNL per l'interpretazione di query e documenti di ricerca

Si dice che BERT sia il progresso più critico nella ricerca su Google in diversi anni dopo RankBrain.Basato su NLP, l'aggiornamento è stato progettato per migliorare l'interpretazione delle query di ricerca e inizialmente ha avuto un impatto sul 10% di tutte le query di ricerca.

BERT svolge un ruolo non solo nell'interpretazione delle query, ma anche nella classificazione e nella compilazione di frammenti in primo piano, nonché nell'interpretazione dei questionari di testo nei documenti.

"Bene, applicando i modelli BERT sia al ranking che agli snippet in primo piano nella Ricerca, siamo in grado di fare un lavoro molto migliore aiutandoti a trovare informazioni utili. In effetti, quando si tratta di classificare i risultati, BERT aiuterà la ricerca a comprendere meglio una ricerca su 10 negli Stati Uniti in inglese e, nel tempo, la porteremo a più lingue e località".

Il lancio dell'aggiornamento MUM è stato annunciato su Search On '21.Basato anche sulla NLP, MUM è multilingue, risponde a complesse query di ricerca con dati multimodali ed elabora informazioni da diversi formati multimediali.Oltre al testo, MUM comprende anche immagini, file video e audio.

MUM combina diverse tecnologie per rendere le ricerche su Google ancora più semantiche e basate sul contesto per migliorare l'esperienza dell'utente.

Con MUM, Google vuole rispondere a complesse query di ricerca in diversi formati multimediali per accompagnare l'utente lungo il percorso del cliente.

Come utilizzato per BERT e MUM, la PNL è un passaggio essenziale per una migliore comprensione semantica e un motore di ricerca più incentrato sull'utente.

La comprensione delle query di ricerca e del contenuto tramite entità segna il passaggio da "stringhe" a "cose".L'obiettivo di Google è sviluppare una comprensione semantica delle query di ricerca e dei contenuti.

Identificando le entità nelle query di ricerca, il significato e l'intento di ricerca diventano più chiari.Le singole parole di un termine di ricerca non sono più isolate, ma vengono considerate nel contesto dell'intera query di ricerca.

La magia dell'interpretazione dei termini di ricerca avviene nell'elaborazione delle query.I seguenti passaggi sono importanti qui:

  • Identificare l'ontologia tematica in cui si trova la query di ricerca.Se il contesto tematico è chiaro, Google può selezionare un corpus di contenuti di documenti di testo, video e immagini come risultati di ricerca potenzialmente idonei.Ciò è particolarmente difficile con termini di ricerca ambigui.
  • Identificare le entità e il loro significato nel termine di ricerca (riconoscimento di entità denominata).
  • Comprendere il significato semantico di una query di ricerca.
  • Identificazione dell'intento di ricerca.
  • Annotazione semantica della query di ricerca.
  • Perfezionamento del termine di ricerca.

Ricevi la newsletter quotidiana su cui fanno affidamento i marketer.

La PNL è la metodologia più cruciale per il mining di entità

L'elaborazione del linguaggio naturale svolgerà il ruolo più importante per Google nell'identificazione delle entità e dei loro significati, consentendo di estrarre la conoscenza da dati non strutturati.

Su questa base si possono poi creare relazioni tra entità e Knowledge Graph.La codifica vocale aiuta in parte in questo.

I nomi sono entità potenziali e i verbi spesso rappresentano la relazione delle entità tra loro.Gli aggettivi descrivono l'entità e gli avverbi descrivono la relazione.

Finora Google ha fatto solo un uso minimo di informazioni non strutturate per alimentare il Knowledge Graph.

Si può presumere che:

  • Le entità registrate finora nel Knowledge Graph sono solo la punta dell'iceberg.
  • Google sta inoltre alimentando un altro repository di conoscenze con informazioni sulle entità a coda lunga.

La PNL gioca un ruolo centrale nell'alimentare questo archivio di conoscenze.

Google è già abbastanza bravo in NLP ma non ottiene ancora risultati soddisfacenti nella valutazione delle informazioni estratte automaticamente per quanto riguarda l'accuratezza.

Il data mining per un database della conoscenza come il Knowledge Graph da dati non strutturati come i siti Web è complesso.

Oltre alla completezza delle informazioni, è essenziale la correttezza.Al giorno d'oggi, Google garantisce la completezza su larga scala tramite la PNL, ma dimostrarne la correttezza e l'accuratezza è difficile.

Questo è probabilmente il motivo per cui Google sta ancora agendo con cautela riguardo al posizionamento diretto delle informazioni sulle entità a coda lunga nelle SERP.

Indice basato su entità rispetto al classico indice basato sul contenuto

L'introduzione dell'aggiornamento Hummingbird ha aperto la strada alla ricerca semantica.Ha anche messo a fuoco il Knowledge Graph – e quindi le entità.

Il Knowledge Graph è l'indice di entità di Google.Tutti gli attributi, i documenti e le immagini digitali come profili e domini sono organizzati attorno all'entità in un indice basato sull'entità.

Il Knowledge Graph è attualmente utilizzato parallelamente al classico Google Index per il ranking.

Supponiamo che Google riconosca nella query di ricerca che si tratta di un'entità registrata nel Knowledge Graph.In tal caso, si accede alle informazioni in entrambi gli indici, con l'entità al centro e si tiene conto anche di tutte le informazioni e documenti relativi all'entità.

È necessaria un'interfaccia o API tra il classico Google Index e il Knowledge Graph, o un altro tipo di knowledge repository, per scambiare informazioni tra i due indici.

Questa interfaccia entità-contenuto serve per scoprire:

  • Se sono presenti entità in un contenuto.
  • Se esiste un'entità principale di cui tratta il contenuto.
  • A quale ontologia o ontologie può essere assegnata l'entità principale.
  • A quale autore o a quale entità è assegnato il contenuto.
  • Come le entità nel contenuto si relazionano tra loro.
  • Quali proprietà o attributi devono essere assegnati alle entità.

Potrebbe assomigliare a questo:

Stiamo appena iniziando a sentire l'impatto della ricerca basata su entità nelle SERP poiché Google è lento a comprendere il significato delle singole entità.

Le entità sono intese dall'alto per rilevanza sociale.I più rilevanti sono registrati rispettivamente in Wikidata e Wikipedia.

Il grande compito sarà identificare e verificare le entità a coda lunga.Inoltre, non è chiaro quali criteri Google controlli per includere un'entità nel Knowledge Graph.

In un Hangout per webmaster tedesco nel gennaio 2019, John Mueller di Google ha affermato che stavano lavorando a un modo più semplice per creare entità per tutti.

“Non credo che abbiamo una risposta chiara. Penso che abbiamo algoritmi diversi che controllano qualcosa del genere e poi usiamo criteri diversi per mettere insieme l'intera cosa, per separarla e per riconoscere quali cose sono entità realmente separate, quali sono solo varianti o entità meno separate... Ma per quanto per quanto mi riguarda, l'ho visto, è qualcosa su cui stiamo lavorando per espanderlo un po' e immagino che renderà più facile essere presenti anche nel Knowledge Graph. Ma non so quali siano esattamente i piani".

La PNL gioca un ruolo fondamentale nell'intensificare questa sfida.

Gli esempi della demo diffbot mostrano quanto bene la NLP possa essere utilizzata per il mining di entità e la costruzione di un Knowledge Graph.

La PNL nella ricerca di Google è qui per restare

RankBrain è stato introdotto per interpretare le query di ricerca ei termini tramite l'analisi dello spazio vettoriale che in precedenza non erano stati utilizzati in questo modo.

BERT e MUM utilizzano l'elaborazione del linguaggio naturale per interpretare query e documenti di ricerca.

Oltre all'interpretazione delle query di ricerca e dei contenuti, MUM e BERT hanno aperto le porte per consentire a un database di conoscenze come il Knowledge Graph di crescere su larga scala, facendo avanzare così la ricerca semantica in Google.

Gli sviluppi nella Ricerca Google attraverso gli aggiornamenti principali sono anche strettamente correlati a MUM e BERT e, in definitiva, alla PNL e alla ricerca semantica.

In futuro, vedremo sempre più risultati di ricerca di Google basati su entità che sostituiranno l'indicizzazione e il posizionamento classici basati su frasi.

Le opinioni espresse in questo articolo sono quelle dell'autore ospite e non necessariamente di Search Engine Land.Gli autori dello staff sono elencati qui.