Sitemap

Comment Google utilise le NLP pour mieux comprendre les requêtes de recherche, le contenu

Le traitement automatique du langage naturel a ouvert la porte à la recherche sémantique sur Google.

Les référenceurs doivent comprendre le passage à la recherche basée sur les entités, car c'est l'avenir de la recherche Google.

Dans cet article, nous approfondirons le traitement du langage naturel et la manière dont Google l'utilise pour interpréter les requêtes de recherche et le contenu, l'exploration d'entités, etc.

Qu'est-ce que le traitement automatique du langage naturel ?

Le traitement automatique du langage naturel, ou TAL, permet de comprendre le sens des mots, des phrases et des textes pour générer des informations, des connaissances ou un nouveau texte.

Il se compose de la compréhension du langage naturel (NLU) - qui permet l'interprétation sémantique du texte et du langage naturel - et de la génération du langage naturel (NLG).

La PNL peut être utilisée pour :

  • Reconnaissance vocale (text to speech et speech to text).
  • Segmentation de la parole précédemment capturée en mots, phrases et expressions individuels.
  • Reconnaître les formes de base des mots et acquérir des informations grammaticales.
  • Reconnaître les fonctions des mots individuels dans une phrase (sujet, verbe, objet, article, etc.)
  • Extraire le sens de phrases et de parties de phrases ou de phrases, telles que des adjectifs (par exemple, "trop ​​long"), des phrases prépositionnelles (par exemple, "à la rivière") ou des phrases nominales (par exemple, "la longue fête").
  • Reconnaître les contextes de phrases, les relations de phrases et les entités.
  • Analyse linguistique de texte, analyse des sentiments, traductions (y compris celles pour les assistants vocaux), chatbots et systèmes de questions et réponses sous-jacents.

Voici les principaux composants de la PNL :

Un aperçu de l'API de traitement du langage naturel de Google
  • Tokénisation : divise une phrase en différents termes.
  • Étiquetage des types de mots : classe les mots par objet, sujet, prédicat, adjectif, etc.
  • Dépendances de mots : identifie les relations entre les mots en fonction des règles de grammaire.
  • Lemmatisation : détermine si un mot a des formes différentes et normalise les variations par rapport à la forme de base.Par exemple, la forme de base de "voitures" est "voiture".
  • Analyse des étiquettes : étiquette les mots en fonction de la relation entre deux mots reliés par une dépendance.
  • Analyse et extraction d'entités nommées : identifie les mots ayant une signification "connue" et les affecte à des classes de types d'entités.En général, les entités nommées sont des organisations, des personnes, des produits, des lieux et des choses (noms). Dans une phrase, les sujets et les objets doivent être identifiés comme des entités.
Analyse d'entités à l'aide de l'API Google Natural Processing.
  • Score de saillance : détermine à quel point un texte est lié à un sujet.La saillance est généralement déterminée par la co-citation de mots sur le Web et les relations entre les entités dans des bases de données telles que Wikipedia et Freebase.Les référenceurs expérimentés connaissent une méthode similaire à partir de l'analyse TF-IDF.
  • Analyse des sentiments : Identifie l'opinion (point de vue ou attitude) exprimée dans un texte sur les entités ou les sujets.
  • Catégorisation du texte : Au niveau macro, le NLP classe le texte en catégories de contenu.La catégorisation du texte aide à déterminer de manière générale de quoi parle le texte.
  • Classification et fonction du texte : la PNL peut aller plus loin et déterminer la fonction ou le but prévu du contenu.C'est très intéressant pour faire correspondre une intention de recherche à un document.
  • Extraction du type de contenu : sur la base de modèles structurels ou du contexte, un moteur de recherche peut déterminer le type de contenu d'un texte sans données structurées.Le code HTML, la mise en forme et le type de données du texte (date, emplacement, URL, etc.) peuvent identifier s'il s'agit d'une recette, d'un produit, d'un événement ou d'un autre type de contenu sans utiliser de balises.
  • Identifier le sens implicite en fonction de la structure : La mise en forme d'un texte peut modifier son sens implicite.Les titres, les sauts de ligne, les listes et la proximité transmettent une compréhension secondaire du texte.Par exemple, lorsque du texte est affiché dans une liste triée par HTML ou une série d'en-têtes précédés de chiffres, il s'agit probablement d'un listicule ou d'un classement.La structure est définie non seulement par des balises HTML, mais également par la taille/épaisseur de la police visuelle et la proximité lors du rendu.

L'utilisation du NLP dans la recherche

Pendant des années, Google a formé des modèles de langage comme BERT ou MUM pour interpréter du texte, des requêtes de recherche et même du contenu vidéo et audio.Ces modèles sont alimentés via le traitement du langage naturel.

La recherche Google utilise principalement le traitement du langage naturel dans les domaines suivants :

  • Interprétation des requêtes de recherche.
  • Classification du sujet et du but des documents.
  • Analyse des entités dans les documents, les requêtes de recherche et les publications sur les réseaux sociaux.
  • Pour générer des extraits et des réponses en vedette dans la recherche vocale.
  • Interprétation de contenu vidéo et audio.
  • Extension et amélioration du Knowledge Graph.

Google a souligné l'importance de comprendre le langage naturel dans la recherche lors de la publication de la mise à jour BERT en octobre 2019.

"À la base, la recherche consiste à comprendre le langage. C'est notre travail de comprendre ce que vous recherchez et de trouver des informations utiles sur le Web, quelle que soit la façon dont vous épelez ou combinez les mots dans votre requête. Bien que nous ayons continué à améliorer nos capacités de compréhension linguistique au fil des ans, nous n'arrivons toujours pas à faire les choses correctement, en particulier avec des requêtes complexes ou conversationnelles. En fait, c'est l'une des raisons pour lesquelles les gens utilisent souvent le "mot-clé", en tapant des chaînes de mots qu'ils pensent que nous comprendrons, mais ce n'est pas vraiment ainsi qu'ils poseraient naturellement une question.

BERT & MUM : NLP pour interpréter les requêtes de recherche et les documents

BERT serait l'avancée la plus critique dans la recherche Google depuis plusieurs années après RankBrain.Basée sur le NLP, la mise à jour a été conçue pour améliorer l'interprétation des requêtes de recherche et a initialement touché 10 % de toutes les requêtes de recherche.

Le BERT joue un rôle non seulement dans l'interprétation des requêtes, mais également dans le classement et la compilation des extraits de code, ainsi que dans l'interprétation des questionnaires textuels dans les documents.

"Eh bien, en appliquant les modèles BERT au classement et aux extraits en vedette dans la recherche, nous sommes en mesure de faire un bien meilleur travail en vous aidant à trouver des informations utiles. En fait, en ce qui concerne le classement des résultats, BERT aidera Search à mieux comprendre une recherche sur 10 aux États-Unis en anglais, et nous l'appliquerons à plus de langues et de paramètres régionaux au fil du temps.

Le déploiement de la mise à jour MUM a été annoncé lors de Search On ’21.Également basé sur le NLP, MUM est multilingue, répond à des requêtes de recherche complexes avec des données multimodales et traite des informations provenant de différents formats de médias.En plus du texte, MUM comprend également des images, des fichiers vidéo et audio.

MUM combine plusieurs technologies pour rendre les recherches Google encore plus sémantiques et contextuelles afin d'améliorer l'expérience utilisateur.

Avec MUM, Google souhaite répondre à des requêtes de recherche complexes dans différents formats de médias pour accompagner l'utilisateur tout au long du parcours client.

Tel qu'utilisé pour BERT et MUM, le NLP est une étape essentielle vers une meilleure compréhension sémantique et un moteur de recherche plus centré sur l'utilisateur.

Comprendre les requêtes de recherche et le contenu via les entités marque le passage des « chaînes » aux « choses ».L'objectif de Google est de développer une compréhension sémantique des requêtes de recherche et du contenu.

En identifiant les entités dans les requêtes de recherche, la signification et l'intention de recherche deviennent plus claires.Les mots individuels d'un terme de recherche ne sont plus isolés, mais sont considérés dans le contexte de la requête de recherche entière.

La magie de l'interprétation des termes de recherche se produit dans le traitement des requêtes.Les étapes suivantes sont importantes ici :

  • Identifier l'ontologie thématique dans laquelle se trouve la requête de recherche.Si le contexte thématique est clair, Google peut sélectionner un corpus de contenu composé de documents texte, de vidéos et d'images comme résultats de recherche potentiellement appropriés.Ceci est particulièrement difficile avec des termes de recherche ambigus.
  • Identifier les entités et leur signification dans le terme de recherche (reconnaissance d'entité nommée).
  • Comprendre la signification sémantique d'une requête de recherche.
  • Identification de l'intention de recherche.
  • Annotation sémantique de la requête de recherche.
  • Affiner le terme de recherche.

Recevez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.

La PNL est la méthodologie la plus cruciale pour l'exploration d'entités

Le traitement du langage naturel jouera le rôle le plus important pour Google dans l'identification des entités et de leurs significations, permettant d'extraire des connaissances à partir de données non structurées.

Sur cette base, des relations entre les entités et le Knowledge Graph peuvent alors être créées.Le marquage vocal aide partiellement à cela.

Les noms sont des entités potentielles et les verbes représentent souvent la relation des entités entre elles.Les adjectifs décrivent l'entité et les adverbes décrivent la relation.

Google n'a jusqu'à présent utilisé que très peu d'informations non structurées pour alimenter le Knowledge Graph.

On peut supposer que :

  • Les entités enregistrées jusqu'à présent dans le Knowledge Graph ne sont que la pointe de l'iceberg.
  • Google alimente en outre un autre référentiel de connaissances avec des informations sur les entités à longue traîne.

La PNL joue un rôle central dans l'alimentation de ce référentiel de connaissances.

Google est déjà assez bon en NLP mais n'obtient pas encore de résultats satisfaisants dans l'évaluation de l'exactitude des informations extraites automatiquement.

L'exploration de données pour une base de données de connaissances comme le Knowledge Graph à partir de données non structurées comme les sites Web est complexe.

En plus de l'exhaustivité des informations, l'exactitude est essentielle.De nos jours, Google garantit l'exhaustivité à grande échelle grâce au NLP, mais il est difficile de prouver l'exactitude et la précision.

C'est probablement la raison pour laquelle Google agit toujours avec prudence en ce qui concerne le positionnement direct des informations sur les entités de longue traîne dans les SERP.

Index basé sur les entités vs index classique basé sur le contenu

L'introduction de la mise à jour Hummingbird a ouvert la voie à la recherche sémantique.Cela a également mis en évidence le Knowledge Graph - et donc les entités.

Le Knowledge Graph est l'index des entités de Google.Tous les attributs, documents et images numériques tels que les profils et les domaines sont organisés autour de l'entité dans un index basé sur l'entité.

Le Knowledge Graph est actuellement utilisé parallèlement à l'index classique de Google pour le classement.

Supposons que Google reconnaisse dans la requête de recherche qu'il s'agit d'une entité enregistrée dans le Knowledge Graph.Dans ce cas, les informations des deux index sont consultées, l'entité étant au centre de l'attention et toutes les informations et tous les documents liés à l'entité étant également pris en compte.

Une interface ou une API est nécessaire entre l'index Google classique et le Knowledge Graph, ou un autre type de référentiel de connaissances, pour échanger des informations entre les deux index.

Cette interface entité-contenu consiste à découvrir :

  • S'il y a des entités dans un élément de contenu.
  • S'il existe une entité principale sur laquelle porte le contenu.
  • À quelle(s) ontologie(s) l'entité principale peut-elle être affectée.
  • Quel auteur ou quelle entité le contenu est attribué.
  • Comment les entités du contenu sont liées les unes aux autres.
  • Quelles propriétés ou quels attributs doivent être affectés aux entités.

Cela pourrait ressembler à ceci :

Nous commençons tout juste à ressentir l'impact de la recherche basée sur les entités dans les SERP, car Google est lent à comprendre la signification des entités individuelles.

Les entités sont appréhendées de haut en bas par pertinence sociale.Les plus pertinentes sont enregistrées dans Wikidata et Wikipedia, respectivement.

La grande tâche sera d'identifier et de vérifier les entités à longue traîne.On ne sait pas non plus quels critères Google vérifie pour inclure une entité dans le Knowledge Graph.

Lors d'un Hangout pour les webmasters allemands en janvier 2019, John Mueller de Google a déclaré qu'ils travaillaient sur un moyen plus simple de créer des entités pour tout le monde.

« Je ne pense pas que nous ayons une réponse claire. Je pense que nous avons différents algorithmes qui vérifient quelque chose comme ça, puis nous utilisons différents critères pour rassembler le tout, le séparer et reconnaître quelles choses sont vraiment des entités distinctes, qui ne sont que des variantes ou des entités moins distinctes… Mais pour autant en ce qui me concerne, j'ai vu cela, c'est quelque chose sur lequel nous travaillons pour étendre un peu cela et j'imagine que cela facilitera également la mise en vedette dans le Knowledge Graph. Mais je ne sais pas exactement quels sont les plans.

La PNL joue un rôle essentiel dans l'intensification de ce défi.

Des exemples de la démo diffbot montrent à quel point la PNL peut être utilisée pour l'exploration d'entités et la construction d'un graphe de connaissances.

La PNL dans la recherche Google est là pour rester

RankBrain a été introduit pour interpréter les requêtes et les termes de recherche via une analyse d'espace vectoriel qui n'avait pas été utilisée auparavant de cette manière.

BERT et MUM utilisent le traitement du langage naturel pour interpréter les requêtes de recherche et les documents.

En plus de l'interprétation des requêtes de recherche et du contenu, MUM et BERT ont ouvert la porte pour permettre à une base de données de connaissances telle que le Knowledge Graph de se développer à grande échelle, faisant ainsi progresser la recherche sémantique chez Google.

Les développements de la recherche Google via les mises à jour principales sont également étroitement liés à MUM et BERT, et finalement, à la recherche NLP et sémantique.

À l'avenir, nous verrons de plus en plus de résultats de recherche Google basés sur des entités remplacer l'indexation et le classement classiques basés sur des phrases.

Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement Search Engine Land.Les auteurs du personnel sont répertoriés ici.