Sitemap

Como o Google usa a PNL para entender melhor as consultas de pesquisa, conteúdo

O processamento de linguagem natural abriu as portas para a pesquisa semântica no Google.

Os SEOs precisam entender a mudança para a pesquisa baseada em entidade porque esse é o futuro da pesquisa do Google.

Neste artigo, vamos nos aprofundar no processamento de linguagem natural e como o Google o usa para interpretar consultas de pesquisa e conteúdo, mineração de entidades e muito mais.

O que é processamento de linguagem natural?

O processamento de linguagem natural, ou PNL, possibilita a compreensão do significado de palavras, frases e textos para gerar informação, conhecimento ou novo texto.

Consiste em compreensão de linguagem natural (NLU) – que permite a interpretação semântica de texto e linguagem natural – e geração de linguagem natural (NLG).

A PNL pode ser usada para:

  • Reconhecimento de fala (texto para fala e fala para texto).
  • Segmentar a fala previamente capturada em palavras, frases e frases individuais.
  • Reconhecer formas básicas de palavras e aquisição de informação gramatical.
  • Reconhecer funções de palavras individuais em uma frase (sujeito, verbo, objeto, artigo, etc.)
  • Extrair o significado de frases e partes de frases ou frases, como frases adjetivas (por exemplo, "muito longo"), frases preposicionais (por exemplo, "para o rio") ou frases nominais (por exemplo, "a festa longa").
  • Reconhecer contextos de frases, relacionamentos de frases e entidades.
  • Análise linguística de texto, análise de sentimentos, traduções (incluindo para assistentes de voz), chatbots e sistemas subjacentes de perguntas e respostas.

A seguir estão os principais componentes da PNL:

Uma olhada na API de processamento de linguagem natural do Google
  • Tokenização: divide uma frase em diferentes termos.
  • Rotulagem de tipo de palavra: Classifica as palavras por objeto, sujeito, predicado, adjetivo, etc.
  • Dependências de palavras: identifica relacionamentos entre palavras com base em regras gramaticais.
  • Lematização: Determina se uma palavra tem formas diferentes e normaliza as variações da forma base.Por exemplo, a forma básica de “cars” é “car”.
  • Rótulos de análise: rotula palavras com base no relacionamento entre duas palavras conectadas por uma dependência.
  • Análise e extração de entidades nomeadas: Identifica palavras com um significado “conhecido” e as atribui a classes de tipos de entidade.Em geral, entidades nomeadas são organizações, pessoas, produtos, lugares e coisas (substantivos). Em uma frase, sujeitos e objetos devem ser identificados como entidades.
Análise de entidade usando a API de processamento natural do Google.
  • Pontuação de saliência: determina com que intensidade um texto está conectado a um tópico.A saliência é geralmente determinada pela co-citação de palavras na web e os relacionamentos entre entidades em bancos de dados como Wikipedia e Freebase.SEOs experientes conhecem um método semelhante da análise TF-IDF.
  • Análise de sentimento: Identifica a opinião (visão ou atitude) expressa em um texto sobre as entidades ou temas.
  • Categorização de texto: No nível macro, a PNL classifica o texto em categorias de conteúdo.A categorização de texto ajuda a determinar geralmente sobre o que o texto trata.
  • Classificação e função do texto: a PNL pode ir além e determinar a função ou propósito pretendido do conteúdo.Isso é muito interessante para combinar uma intenção de pesquisa com um documento.
  • Extração de tipo de conteúdo: com base em padrões estruturais ou contexto, um mecanismo de pesquisa pode determinar o tipo de conteúdo de um texto sem dados estruturados.O HTML, a formatação e o tipo de dados do texto (data, local, URL etc.) podem identificar se é uma receita, produto, evento ou outro tipo de conteúdo sem usar marcações.
  • Identifique o significado implícito com base na estrutura: A formatação de um texto pode alterar seu significado implícito.Títulos, quebras de linha, listas e proximidade transmitem uma compreensão secundária do texto.Por exemplo, quando o texto é exibido em uma lista classificada em HTML ou em uma série de títulos com números na frente deles, é provável que seja uma lista ou uma classificação.A estrutura é definida não apenas por tags HTML, mas também pelo tamanho/espessura visual da fonte e pela proximidade durante a renderização.

O uso da PNL na pesquisa

Durante anos, o Google treinou modelos de linguagem como BERT ou MUM para interpretar texto, consultas de pesquisa e até mesmo conteúdo de vídeo e áudio.Esses modelos são alimentados via processamento de linguagem natural.

A pesquisa do Google usa principalmente o processamento de linguagem natural nas seguintes áreas:

  • Interpretação de consultas de pesquisa.
  • Classificação de assunto e finalidade dos documentos.
  • Análise de entidades em documentos, consultas de pesquisa e postagens em mídias sociais.
  • Para gerar trechos em destaque e respostas na pesquisa por voz.
  • Interpretação de conteúdo de vídeo e áudio.
  • Ampliação e aprimoramento do Knowledge Graph.

O Google destacou a importância de entender a linguagem natural na pesquisa quando lançou a atualização do BERT em outubro de 2019.

“Em sua essência, a Pesquisa é sobre a compreensão da linguagem. É nosso trabalho descobrir o que você está procurando e obter informações úteis da Web, não importa como você soletre ou combine as palavras em sua consulta. Embora tenhamos continuado a melhorar nossos recursos de compreensão do idioma ao longo dos anos, às vezes ainda não acertamos, principalmente com consultas complexas ou de conversação. Na verdade, essa é uma das razões pelas quais as pessoas costumam usar “keyword-ese”, digitando sequências de palavras que elas acham que entenderemos, mas na verdade não são como elas naturalmente fazem uma pergunta.”

BERT & MUM: PNL para interpretar consultas e documentos de pesquisa

O BERT é considerado o avanço mais crítico na pesquisa do Google em vários anos após o RankBrain.Com base na PNL, a atualização foi projetada para melhorar a interpretação das consultas de pesquisa e impactou inicialmente 10% de todas as consultas de pesquisa.

O BERT desempenha um papel não apenas na interpretação de consultas, mas também na classificação e compilação de trechos em destaque, bem como na interpretação de questionários de texto em documentos.

“Bem, ao aplicar modelos BERT tanto para classificação quanto para snippets em destaque na Pesquisa, podemos fazer um trabalho muito melhor ajudando você a encontrar informações úteis. Na verdade, quando se trata de classificar os resultados, o BERT ajudará a Pesquisa a entender melhor uma em cada 10 pesquisas nos EUA em inglês, e levaremos isso para mais idiomas e localidades ao longo do tempo.”

O lançamento da atualização do MUM foi anunciado no Search On '21.Também baseado em NLP, o MUM é multilíngue, responde a consultas de pesquisa complexas com dados multimodais e processa informações de diferentes formatos de mídia.Além de texto, o MUM também entende arquivos de imagens, vídeo e áudio.

O MUM combina várias tecnologias para tornar as pesquisas do Google ainda mais semânticas e baseadas em contexto para melhorar a experiência do usuário.

Com o MUM, o Google quer responder a consultas de pesquisa complexas em diferentes formatos de mídia para acompanhar o usuário ao longo da jornada do cliente.

Como usado para BERT e MUM, a PNL é um passo essencial para uma melhor compreensão semântica e um mecanismo de pesquisa mais centrado no usuário.

Compreender as consultas de pesquisa e o conteúdo por meio de entidades marca a mudança de “strings” para “coisas”.O objetivo do Google é desenvolver uma compreensão semântica de consultas de pesquisa e conteúdo.

Ao identificar entidades nas consultas de pesquisa, o significado e a intenção da pesquisa ficam mais claros.As palavras individuais de um termo de pesquisa não são mais isoladas, mas são consideradas no contexto de toda a consulta de pesquisa.

A mágica de interpretar termos de pesquisa acontece no processamento de consultas.Os seguintes passos são importantes aqui:

  • Identificar a ontologia temática na qual a consulta de pesquisa está localizada.Se o contexto temático for claro, o Google pode selecionar um corpus de conteúdo de documentos de texto, vídeos e imagens como resultados de pesquisa potencialmente adequados.Isso é particularmente difícil com termos de pesquisa ambíguos.
  • Identificando entidades e seu significado no termo de pesquisa (reconhecimento de entidade nomeada).
  • Compreender o significado semântico de uma consulta de pesquisa.
  • Identificando a intenção de pesquisa.
  • Anotação semântica da consulta de pesquisa.
  • Refinando o termo de pesquisa.

Obtenha a pesquisa diária de newsletters em que os profissionais de marketing confiam.

A PNL é a metodologia mais crucial para mineração de entidades

O processamento de linguagem natural desempenhará o papel mais importante para o Google na identificação de entidades e seus significados, possibilitando a extração de conhecimento de dados não estruturados.

Com base nisso, os relacionamentos entre as entidades e o Knowledge Graph podem ser criados.A marcação de fala ajuda parcialmente com isso.

Os substantivos são entidades potenciais e os verbos geralmente representam o relacionamento das entidades entre si.Adjetivos descrevem a entidade e advérbios descrevem o relacionamento.

Até agora, o Google fez uso mínimo de informações não estruturadas para alimentar o Gráfico de conhecimento.

Pode-se supor que:

  • As entidades registradas até agora no Knowledge Graph são apenas a ponta do iceberg.
  • Além disso, o Google está alimentando outro repositório de conhecimento com informações sobre entidades de cauda longa.

A PNL desempenha um papel central na alimentação desse repositório de conhecimento.

O Google já é bastante bom em PNL, mas ainda não alcança resultados satisfatórios na avaliação de informações extraídas automaticamente quanto à precisão.

A mineração de dados para um banco de dados de conhecimento, como o Knowledge Graph, de dados não estruturados, como sites, é complexa.

Além da completude das informações, a exatidão é essencial.Atualmente, o Google garante a completude em escala por meio da PNL, mas é difícil provar a exatidão e a precisão.

Provavelmente é por isso que o Google ainda está agindo com cautela em relação ao posicionamento direto de informações sobre entidades de cauda longa nos SERPs.

Índice baseado em entidade x índice baseado em conteúdo clássico

A introdução da atualização do Hummingbird abriu o caminho para a pesquisa semântica.Também trouxe o Knowledge Graph – e, portanto, as entidades – em foco.

O Knowledge Graph é o índice de entidades do Google.Todos os atributos, documentos e imagens digitais, como perfis e domínios, são organizados em torno da entidade em um índice baseado em entidade.

Atualmente, o Knowledge Graph é usado paralelamente ao clássico Google Index para classificação.

Suponha que o Google reconheça na consulta de pesquisa que se trata de uma entidade registrada no Gráfico de conhecimento.Nesse caso, as informações em ambos os índices são acessadas, sendo a entidade o foco e todas as informações e documentos relacionados à entidade também são levados em consideração.

É necessária uma interface ou API entre o Google Index clássico e o Knowledge Graph, ou outro tipo de repositório de conhecimento, para trocar informações entre os dois índices.

Esta interface de conteúdo de entidade é sobre descobrir:

  • Se há entidades em uma parte do conteúdo.
  • Se há uma entidade principal sobre a qual o conteúdo se refere.
  • A qual ontologia ou ontologias a entidade principal pode ser atribuída.
  • A qual autor ou entidade o conteúdo é atribuído.
  • Como as entidades no conteúdo se relacionam entre si.
  • Quais propriedades ou atributos devem ser atribuídos às entidades.

Poderia ficar assim:

Estamos apenas começando a sentir o impacto da pesquisa baseada em entidade nos SERPs, pois o Google demora a entender o significado de entidades individuais.

As entidades são entendidas de cima para baixo por relevância social.Os mais relevantes estão registrados no Wikidata e na Wikipedia, respectivamente.

A grande tarefa será identificar e verificar entidades de cauda longa.Também não está claro quais critérios o Google verifica para incluir uma entidade no Gráfico de conhecimento.

Em um Hangout para webmasters alemão em janeiro de 2019, John Mueller, do Google, disse que estava trabalhando em uma maneira mais direta de criar entidades para todos.

“Acho que não temos uma resposta clara. Acho que temos algoritmos diferentes que verificam algo assim e então usamos critérios diferentes para juntar tudo, separar e reconhecer quais coisas são realmente entidades separadas, que são apenas variantes ou entidades menos separadas... como estou preocupado, vi isso, é algo em que estamos trabalhando para expandir um pouco e imagino que também facilitará a exibição no Gráfico de conhecimento. Mas não sei exatamente quais são os planos.”

A PNL desempenha um papel vital na ampliação desse desafio.

Exemplos da demonstração do diffbot mostram como o NLP pode ser usado para mineração de entidades e construção de um gráfico de conhecimento.

A PNL na pesquisa do Google veio para ficar

O RankBrain foi introduzido para interpretar consultas e termos de pesquisa por meio de análise de espaço vetorial que não havia sido usado anteriormente dessa maneira.

BERT e MUM usam processamento de linguagem natural para interpretar consultas de pesquisa e documentos.

Além da interpretação de consultas de pesquisa e conteúdo, MUM e BERT abriram as portas para permitir que um banco de dados de conhecimento como o Knowledge Graph crescesse em escala, avançando assim a pesquisa semântica no Google.

Os desenvolvimentos na Pesquisa do Google por meio das atualizações principais também estão intimamente relacionados ao MUM e BERT e, finalmente, à PNL e à pesquisa semântica.

No futuro, veremos cada vez mais resultados de pesquisa do Google baseados em entidade substituindo a indexação e classificação clássicas baseadas em frases.

As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land.Os autores da equipe estão listados aqui.