Sitemap

Cómo usa Google NLP para comprender mejor las consultas de búsqueda, el contenido

El procesamiento del lenguaje natural abrió la puerta a la búsqueda semántica en Google.

Los SEO deben comprender el cambio a la búsqueda basada en entidades porque este es el futuro de la búsqueda de Google.

En este artículo, profundizaremos en el procesamiento del lenguaje natural y cómo Google lo usa para interpretar las consultas de búsqueda y el contenido, la minería de entidades y más.

¿Qué es el procesamiento del lenguaje natural?

El procesamiento del lenguaje natural, o NLP, permite comprender el significado de palabras, oraciones y textos para generar información, conocimiento o texto nuevo.

Consiste en la comprensión del lenguaje natural (NLU), que permite la interpretación semántica del texto y el lenguaje natural, y la generación del lenguaje natural (NLG).

La PNL se puede utilizar para:

  • Reconocimiento de voz (texto a voz y voz a texto).
  • Segmentación del habla previamente capturada en palabras, oraciones y frases individuales.
  • Reconocimiento de formas básicas de palabras y adquisición de información gramatical.
  • Reconocer funciones de palabras individuales en una oración (sujeto, verbo, objeto, artículo, etc.)
  • Extraer el significado de oraciones y partes de oraciones o frases, como frases adjetivas (p. ej., "demasiado largo"), frases preposicionales (p. ej., "al río") o frases nominales (p. ej., "la fiesta larga").
  • Reconocer contextos de oraciones, relaciones de oraciones y entidades.
  • Análisis de texto lingüístico, análisis de sentimientos, traducciones (incluidas las de asistentes de voz), chatbots y sistemas subyacentes de preguntas y respuestas.

Los siguientes son los componentes centrales de la PNL:

Una mirada a la API de procesamiento de lenguaje natural de Google
  • Tokenización: Divide una oración en diferentes términos.
  • Etiquetado de tipo de palabra: clasifica las palabras por objeto, sujeto, predicado, adjetivo, etc.
  • Dependencias de palabras: identifica las relaciones entre palabras según las reglas gramaticales.
  • Lematización: Determina si una palabra tiene diferentes formas y normaliza las variaciones a la forma base.Por ejemplo, la forma base de "cars" es "car".
  • Etiquetas de análisis: etiqueta las palabras en función de la relación entre dos palabras conectadas por una dependencia.
  • Análisis y extracción de entidades nombradas: identifica palabras con un significado "conocido" y las asigna a clases de tipos de entidades.En general, las entidades nombradas son organizaciones, personas, productos, lugares y cosas (sustantivos). En una oración, los sujetos y los objetos deben identificarse como entidades.
Análisis de entidades utilizando la API de Google Natural Processing.
  • Puntuación de prominencia: determina la intensidad con la que un texto está conectado con un tema.La prominencia generalmente está determinada por la cocitación de palabras en la web y las relaciones entre entidades en bases de datos como Wikipedia y Freebase.Los SEO experimentados conocen un método similar del análisis TF-IDF.
  • Análisis de sentimiento: Identifica la opinión (punto de vista o actitud) expresada en un texto sobre las entidades o temas.
  • Categorización de texto: a nivel macro, NLP clasifica el texto en categorías de contenido.La categorización del texto ayuda a determinar en general de qué trata el texto.
  • Clasificación y función del texto: la PNL puede ir más allá y determinar la función o propósito previsto del contenido.Esto es muy interesante para hacer coincidir una intención de búsqueda con un documento.
  • Extracción del tipo de contenido: según los patrones estructurales o el contexto, un motor de búsqueda puede determinar el tipo de contenido de un texto sin datos estructurados.El HTML del texto, el formato y el tipo de datos (fecha, ubicación, URL, etc.) pueden identificar si se trata de una receta, un producto, un evento u otro tipo de contenido sin usar marcas.
  • Identifique el significado implícito basado en la estructura: el formato de un texto puede cambiar su significado implícito.Los encabezados, los saltos de línea, las listas y la proximidad transmiten una comprensión secundaria del texto.Por ejemplo, cuando el texto se muestra en una lista ordenada por HTML o una serie de encabezados con números delante de ellos, es probable que sea una lista o una clasificación.La estructura se define no solo por las etiquetas HTML, sino también por el tamaño/grosor de la fuente visual y la proximidad durante la representación.

El uso de la PNL en la búsqueda

Durante años, Google ha capacitado modelos de lenguaje como BERT o MUM para interpretar texto, consultas de búsqueda e incluso contenido de video y audio.Estos modelos se alimentan a través del procesamiento del lenguaje natural.

La búsqueda de Google utiliza principalmente el procesamiento del lenguaje natural en las siguientes áreas:

  • Interpretación de consultas de búsqueda.
  • Clasificación del tema y finalidad de los documentos.
  • Análisis de entidades en documentos, consultas de búsqueda y publicaciones en redes sociales.
  • Para generar fragmentos destacados y respuestas en la búsqueda por voz.
  • Interpretación de contenidos de video y audio.
  • Ampliación y mejora del Gráfico de Conocimiento.

Google destacó la importancia de comprender el lenguaje natural en la búsqueda cuando lanzó la actualización BERT en octubre de 2019.

“En esencia, la búsqueda se trata de comprender el lenguaje. Nuestro trabajo es descubrir lo que está buscando y mostrar información útil de la web, sin importar cómo escriba o combine las palabras en su consulta. Si bien hemos seguido mejorando nuestras capacidades de comprensión del idioma a lo largo de los años, a veces todavía no lo hacemos del todo bien, especialmente con consultas complejas o conversacionales. De hecho, esa es una de las razones por las que las personas a menudo usan "keyword-ese", escribiendo cadenas de palabras que creen que entenderemos, pero que en realidad no son como harían una pregunta de forma natural.

BERT & MUM: NLP para interpretar documentos y consultas de búsqueda

Se dice que BERT es el avance más crítico en la búsqueda de Google en varios años después de RankBrain.Basada en NLP, la actualización se diseñó para mejorar la interpretación de las consultas de búsqueda e inicialmente afectó al 10 % de todas las consultas de búsqueda.

BERT desempeña un papel no solo en la interpretación de consultas, sino también en la clasificación y compilación de fragmentos destacados, así como en la interpretación de cuestionarios de texto en documentos.

“Bueno, al aplicar los modelos BERT tanto a la clasificación como a los fragmentos destacados en la Búsqueda, podemos hacer un trabajo mucho mejor ayudándolo a encontrar información útil. De hecho, cuando se trata de clasificar los resultados, BERT ayudará a Search a comprender mejor una de cada 10 búsquedas en los EE. UU. en inglés, y lo llevaremos a más idiomas y lugares con el tiempo”.

El lanzamiento de la actualización MUM se anunció en Search On '21.También basado en NLP, MUM es multilingüe, responde consultas de búsqueda complejas con datos multimodales y procesa información de diferentes formatos de medios.Además de texto, MUM también comprende archivos de imágenes, video y audio.

MUM combina varias tecnologías para hacer que las búsquedas de Google sean aún más semánticas y basadas en el contexto para mejorar la experiencia del usuario.

Con MUM, Google quiere responder consultas de búsqueda complejas en diferentes formatos de medios para acompañar al usuario a lo largo del recorrido del cliente.

Como se usa para BERT y MUM, NLP es un paso esencial para una mejor comprensión semántica y un motor de búsqueda más centrado en el usuario.

Comprender las consultas de búsqueda y el contenido a través de entidades marca el cambio de "cadenas" a "cosas".El objetivo de Google es desarrollar una comprensión semántica de las consultas de búsqueda y el contenido.

Al identificar entidades en las consultas de búsqueda, el significado y la intención de búsqueda se vuelven más claros.Las palabras individuales de un término de búsqueda ya no están solas, sino que se consideran en el contexto de toda la consulta de búsqueda.

La magia de interpretar los términos de búsqueda ocurre en el procesamiento de consultas.Los siguientes pasos son importantes aquí:

  • Identificar la ontología temática en la que se ubica la consulta de búsqueda.Si el contexto temático es claro, Google puede seleccionar un corpus de contenido de documentos de texto, videos e imágenes como resultados de búsqueda potencialmente adecuados.Esto es particularmente difícil con términos de búsqueda ambiguos.
  • Identificación de entidades y su significado en el término de búsqueda (reconocimiento de entidad nombrada).
  • Comprender el significado semántico de una consulta de búsqueda.
  • Identificar la intención de búsqueda.
  • Anotación semántica de la consulta de búsqueda.
  • Refinar el término de búsqueda.

Obtenga el boletín informativo diario en el que confían los especialistas en marketing.

NLP es la metodología más crucial para la minería de entidades

El procesamiento del lenguaje natural desempeñará el papel más importante para Google en la identificación de entidades y sus significados, lo que permitirá extraer conocimiento de datos no estructurados.

Sobre esta base, se pueden crear relaciones entre las entidades y el gráfico de conocimiento.El etiquetado de voz ayuda parcialmente con esto.

Los sustantivos son entidades potenciales y los verbos a menudo representan la relación de las entidades entre sí.Los adjetivos describen la entidad y los adverbios describen la relación.

Hasta ahora, Google solo ha hecho un uso mínimo de información no estructurada para alimentar el Knowledge Graph.

Se puede suponer que:

  • Las entidades registradas hasta ahora en Knowledge Graph son solo la punta del iceberg.
  • Google también está alimentando otro repositorio de conocimiento con información sobre entidades de cola larga.

La PNL juega un papel central en la alimentación de este depósito de conocimiento.

Google ya es bastante bueno en NLP, pero aún no logra resultados satisfactorios en la evaluación de la información extraída automáticamente con respecto a la precisión.

La extracción de datos para una base de datos de conocimiento como Knowledge Graph a partir de datos no estructurados como sitios web es compleja.

Además de la integridad de la información, la corrección es esencial.Hoy en día, Google garantiza la integridad a escala a través de NLP, pero es difícil probar la corrección y la precisión.

Esta es probablemente la razón por la que Google sigue actuando con cautela con respecto al posicionamiento directo de información sobre entidades de cola larga en las SERP.

Índice basado en entidades frente a índice clásico basado en contenido

La introducción de la actualización de Hummingbird allanó el camino para la búsqueda semántica.También enfocó el gráfico de conocimiento y, por lo tanto, las entidades.

El Knowledge Graph es el índice de entidades de Google.Todos los atributos, documentos e imágenes digitales, como perfiles y dominios, se organizan en torno a la entidad en un índice basado en entidades.

El gráfico de conocimiento se utiliza actualmente en paralelo al índice clásico de Google para la clasificación.

Supongamos que Google reconoce en la consulta de búsqueda que se trata de una entidad registrada en el Knowledge Graph.En ese caso, se accede a la información de ambos índices, siendo el foco la entidad y teniendo en cuenta también toda la información y documentos relacionados con la entidad.

Se requiere una interfaz o API entre el Google Index clásico y el Knowledge Graph, u otro tipo de repositorio de conocimiento, para intercambiar información entre los dos índices.

Esta interfaz entidad-contenido se trata de descubrir:

  • Si hay entidades en una pieza de contenido.
  • Si hay una entidad principal de la que trata el contenido.
  • A qué ontología u ontologías se puede asignar la entidad principal.
  • A qué autor o a qué entidad se le asigna el contenido.
  • Cómo se relacionan entre sí las entidades del contenido.
  • Qué propiedades o atributos se van a asignar a las entidades.

Podría verse así:

Apenas estamos comenzando a sentir el impacto de la búsqueda basada en entidades en las SERP, ya que Google tarda en comprender el significado de las entidades individuales.

Las entidades se entienden de arriba hacia abajo por relevancia social.Los más relevantes se encuentran registrados en Wikidata y Wikipedia, respectivamente.

La gran tarea será identificar y verificar las entidades de cola larga.Tampoco está claro qué criterios verifica Google para incluir una entidad en el gráfico de conocimiento.

En un Hangout para webmasters alemán en enero de 2019, John Mueller de Google dijo que estaban trabajando en una forma más sencilla de crear entidades para todos.

“No creo que tengamos una respuesta clara. Creo que tenemos diferentes algoritmos que verifican algo así y luego usamos diferentes criterios para juntar todo, separarlo y reconocer qué cosas son realmente entidades separadas, cuáles son solo variantes o entidades menos separadas... Pero en lo que respecta a por lo que a mí respecta, he visto eso, es algo en lo que estamos trabajando para expandirlo un poco y me imagino que también hará que sea más fácil aparecer en el Gráfico de conocimiento. Pero no sé cuáles son exactamente los planes”.

La PNL juega un papel vital en la ampliación de este desafío.

Los ejemplos de la demostración de diffbot muestran qué tan bien se puede usar NLP para la extracción de entidades y la construcción de un gráfico de conocimiento.

La PNL en la búsqueda de Google llegó para quedarse

RankBrain se introdujo para interpretar consultas y términos de búsqueda a través del análisis de espacio vectorial que no se había utilizado anteriormente de esta manera.

BERT y MUM utilizan el procesamiento de lenguaje natural para interpretar documentos y consultas de búsqueda.

Además de la interpretación de las consultas de búsqueda y el contenido, MUM y BERT abrieron la puerta para permitir que una base de datos de conocimiento como Knowledge Graph creciera a escala, lo que impulsó la búsqueda semántica en Google.

Los desarrollos en la Búsqueda de Google a través de las actualizaciones principales también están estrechamente relacionados con MUM y BERT y, en última instancia, con la PNL y la búsqueda semántica.

En el futuro, veremos más y más resultados de búsqueda de Google basados ​​en entidades que reemplazan la indexación y clasificación clásicas basadas en frases.

Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land.Los autores del personal se enumeran aquí.