Sitemap

Google が NLP を使用して検索クエリやコンテンツをよりよく理解する方法

自然言語処理は、Google でのセマンティック検索の扉を開きました。

これは Google 検索の未来であるため、SEO はエンティティ ベースの検索への切り替えを理解する必要があります。

この記事では、自然言語処理と、Google がそれを使用して検索クエリとコンテンツ、エンティティ マイニングなどを解釈する方法について詳しく説明します。

自然言語処理とは?

自然言語処理 (NLP) は、単語、文、テキストの意味を理解して、情報、知識、または新しいテキストを生成することを可能にします。

これは、テキストと自然言語の意味解釈を可能にする自然言語理解 (NLU) と自然言語生成 (NLG) で構成されます。

NLP は次の目的で使用できます。

  • 音声認識 (テキストから音声へ、および音声からテキストへ)。
  • 以前にキャプチャした音声を個々の単語、文、フレーズに分割します。
  • 単語の基本形の認識と文法情報の習得。
  • 文中の個々の単語(主語、動詞、目的語、冠詞など)の機能を認識する
  • 形容詞句 (例: 「too long」)、前置詞句 (例: 「to the river」)、名義句 (例: 「the long party」) などの文および文または句の一部の意味を抽出します。
  • 文の文脈、文の関係、エンティティを認識する。
  • 言語テキスト分析、感情分析、翻訳 (音声アシスタント用のものを含む)、チャットボット、および基礎となる質問応答システム。

NLP のコア コンポーネントは次のとおりです。

Google の自然言語処理 API を調べる
  • トークン化: 文を異なる用語に分割します。
  • 単語タイプの分類: オブジェクト、主語、述語、形容詞などによって単語を分類します。
  • 単語の依存関係: 文法規則に基づいて単語間の関係を識別します。
  • 見出し語化: 単語に異なる形式があるかどうかを判断し、バリエーションを基本形式に正規化します。たとえば、「cars」の原形は「car」です。
  • ラベルの解析: 依存関係によって接続された 2 つの単語間の関係に基づいて、単語にラベルを付けます。
  • 名前付きエンティティの分析と抽出: 「既知の」意味を持つ単語を識別し、それらをエンティティ タイプのクラスに割り当てます。一般に、名前付きエンティティは、組織、人、製品、場所、および物 (名詞) です。センテンスでは、サブジェクトとオブジェクトはエンティティとして識別されます。
Google Natural Processing API を使用したエンティティ分析。
  • 顕著性スコアリング: テキストがトピックにどれだけ強く関連しているかを判断します。顕著性は一般に、Web 上の単語の共引用と、Wikipedia や Freebase などのデータベース内のエンティティ間の関係によって決定されます。経験豊富な SEO は、TF-IDF 分析から同様の方法を知っています。
  • 感情分析: エンティティまたはトピックに関するテキストで表現された意見 (見解または態度) を識別します。
  • テキストの分類: マクロ レベルでは、NLP はテキストをコンテンツ カテゴリに分類します。テキストの分類は、テキストが何であるかを一般的に判断するのに役立ちます。
  • テキストの分類と機能: NLP はさらに進んで、コンテンツの意図された機能または目的を決定することができます。これは、検索意図とドキュメントを一致させるのに非常に興味深いものです。
  • コンテンツ タイプの抽出: 構造パターンまたはコンテキストに基づいて、検索エンジンは構造化データなしでテキストのコンテンツ タイプを判断できます。テキストの HTML、フォーマット、およびデータ型 (日付、場所、URL など) により、マークアップを使用しなくても、それがレシピ、製品、イベント、またはその他のコンテンツ タイプであるかどうかを識別できます。
  • 構造に基づいて暗黙の意味を特定する: テキストの書式設定によって、暗黙の意味が変わる場合があります。見出し、改行、リスト、および近接性は、テキストの二次的な理解を伝えます。たとえば、テキストが HTML で並べ替えられたリストや、先頭に数字が付いた一連の見出しで表示される場合、リストやランキングである可能性が高くなります。構造は、HTML タグだけでなく、視覚的なフォント サイズ/太さ、およびレンダリング中の近接性によっても定義されます。

検索における NLP の使用

何年もの間、Google は BERT や MUM などの言語モデルをトレーニングして、テキスト、検索クエリ、さらにはビデオやオーディオ コンテンツを解釈してきました。これらのモデルは、自然言語処理によって供給されます。

Google 検索では、主に次の領域で自然言語処理が使用されます。

  • 検索クエリの解釈。
  • ドキュメントの主題と目的の分類。
  • ドキュメント、検索クエリ、ソーシャル メディア投稿のエンティティ分析。
  • 音声検索で注目のスニペットと回答を生成するため。
  • ビデオおよびオーディオ コンテンツの解釈。
  • ナレッジグラフの拡張と改善。

Google は、2019 年 10 月に BERT アップデートをリリースした際、検索における自然言語を理解することの重要性を強調しました。

「本質的に、検索は言語を理解することです。クエリ内の単語のつづりや組み合わせに関係なく、ユーザーが検索しているものを把握し、Web から役立つ情報を表示することが私たちの仕事です。私たちは何年にもわたって言語理解能力を向上させ続けてきましたが、特に複雑なクエリや会話形式のクエリでは、まだ正しく理解できないことがあります。実際、人々がよく「キーワード語」を使用する理由の 1 つは、理解できると思われる単語の文字列を入力することですが、実際には自然に質問をする方法ではありません。」

BERT & MUM: 検索クエリとドキュメントを解釈するための NLP

BERT は、RankBrain に続く数年間で最も重要な Google 検索の進歩であると言われています。NLP に基づいて、更新は検索クエリの解釈を改善するように設計されており、最初はすべての検索クエリの 10% に影響を与えました。

BERT は、クエリの解釈だけでなく、強調スニペットのランキングとコンパイル、およびドキュメント内のテキスト アンケートの解釈にも役割を果たします。

「まあ、BERTモデルを検索のランキングと強調スニペットの両方に適用することで、有益な情報を見つけるのに役立つはるかに優れた仕事をすることができます.実際、結果のランキングに関して言えば、BERT は Search が米国内の英語での検索の 10 分の 1 をよりよく理解するのに役立ち、時間の経過とともにこれをより多くの言語とロケールに提供する予定です。」

MUM アップデートのロールアウトは、Search On '21 で発表されました。また、NLP に基づいて、MUM は多言語対応であり、マルチモーダル データを使用して複雑な検索クエリに応答し、さまざまなメディア形式からの情報を処理します。テキストに加えて、MUM は画像、ビデオ、およびオーディオ ファイルも認識します。

MUM は複数のテクノロジーを組み合わせて、Google 検索をさらにセマンティックでコンテキストベースにし、ユーザー エクスペリエンスを向上させます。

MUM を使用して、Google はさまざまなメディア形式で複雑な検索クエリに答え、ユーザーをカスタマー ジャーニーに参加させたいと考えています。

BERT や MUM で使用されているように、NLP はセマンティックの理解を深め、よりユーザー中心の検索エンジンにするための重要なステップです。

エンティティを介して検索クエリとコンテンツを理解することは、「文字列」から「モノ」への移行を示しています。Google の目的は、検索クエリとコンテンツのセマンティックな理解を深めることです。

検索クエリでエンティティを識別することにより、意味と検索意図がより明確になります。検索語の個々の単語は、もはや単独ではなく、検索クエリ全体のコンテキストで考慮されます。

検索語を解釈する魔法は、クエリ処理で発生します。ここでは、次の手順が重要です。

  • 検索クエリが配置されているテーマ別オントロジーを特定します。テーマのコンテキストが明確な場合、Google はテキスト ドキュメント、ビデオ、画像のコンテンツ コーパスを適切な検索結果として選択できます。これは、あいまいな検索用語では特に困難です。
  • 検索用語でのエンティティとその意味の識別 (名前付きエンティティの認識)。
  • 検索クエリの意味を理解する。
  • 検索意図の特定。
  • 検索クエリのセマンティック アノテーション。
  • 検索語の絞り込み。

検索マーケティング担当者が頼りにしている毎日のニュースレターを入手してください。

NLP は、エンティティ マイニングの最も重要な方法論です。

自然言語処理は、エンティティとその意味を識別する上で Google にとって最も重要な役割を果たし、非構造化データから知識を抽出できるようになります。

これに基づいて、エンティティとナレッジ グラフの間の関係を作成できます。音声タグ付けは、これに部分的に役立ちます。

名詞は潜在的なエンティティであり、動詞は多くの場合、エンティティ間の関係を表します。形容詞はエンティティを説明し、副詞は関係を説明します。

Google はこれまでのところ、ナレッジ グラフにフィードする非構造化情報を最小限しか使用していません。

次のことが想定できます。

  • これまでにナレッジ グラフに記録されたエンティティは、氷山の一角にすぎません。
  • Google はさらに、ロングテール エンティティに関する情報を別のナレッジ リポジトリに提供しています。

NLP は、この知識リポジトリを提供する上で中心的な役割を果たします。

Google はすでに NLP で非常に優れていますが、精度に関する自動抽出情報の評価においてはまだ満足のいく結果を達成していません。

Web サイトなどの非構造化データからナレッジ グラフのようなナレッジ データベースを作成するためのデータ マイニングは複雑です。

情報の完全性に加えて、正確性も不可欠です。現在、Google は NLP を通じて大規模な完全性を保証していますが、正確性と正確性を証明することは困難です。

おそらくこれが、SERP でのロングテール エンティティに関する情報の直接的な位置付けに関して、Google がまだ慎重に行動している理由です。

エンティティ ベースのインデックスと従来のコンテンツ ベースのインデックス

Hummingbird アップデートの導入により、セマンティック検索への道が開かれました。また、ナレッジ グラフ (したがって、エンティティ) にも焦点が当てられました。

ナレッジ グラフは、Google のエンティティ インデックスです。すべての属性、ドキュメント、およびプロファイルやドメインなどのデジタル画像は、エンティティ ベースのインデックスでエンティティを中心に編成されます。

ナレッジ グラフは現在、ランキングのために従来の Google インデックスと並行して使用されています。

Google がナレッジ グラフに記録されたエンティティに関するものであることを検索クエリで認識したとします。その場合、両方のインデックスの情報がアクセスされ、エンティティがフォーカスされ、エンティティに関連するすべての情報とドキュメントも考慮されます。

2 つのインデックス間で情報を交換するには、従来の Google インデックスとナレッジ グラフ、または別の種類のナレッジ リポジトリの間にインターフェイスまたは API が必要です。

このエンティティ コンテンツ インターフェースは、以下を見つけるためのものです。

  • コンテンツにエンティティがあるかどうか。
  • コンテンツの主体があるかどうか。
  • メイン エンティティを割り当てることができるオントロジー (単数または複数)。
  • コンテンツが割り当てられている作成者またはエンティティ。
  • コンテンツ内のエンティティが互いにどのように関連しているか。
  • エンティティに割り当てられるプロパティまたは属性。

次のようになります。

Google は個々のエンティティの意味を理解するのが遅いため、SERP でのエンティティ ベースの検索の影響を感じ始めたところです。

エンティティは、社会的関連性によってトップダウンで理解されます。最も関連性の高いものは、それぞれウィキデータとウィキペディアに記録されています。

大きなタスクは、ロングテール エンティティを特定して検証することです。また、ナレッジ グラフにエンティティを含めるために Google がチェックする基準も不明です。

2019 年 1 月のドイツの Webmaster Hangout で、Google の John Mueller は、すべての人にエンティティを作成するためのより簡単な方法に取り組んでいると述べました。

「明確な答えはないと思います。そのようなものをチェックするさまざまなアルゴリズムがあると思います。次に、さまざまな基準を使用して全体をまとめたり、バラバラにしたり、どれが本当に別々のエンティティであるか、単なるバリアントであるか、あまり分離していないエンティティであるかを認識します…しかし、これまでのところ、私が懸念しているのは、私が見たもので、それを少し拡大するために取り組んでいるものであり、ナレッジグラフにも簡単に取り上げられるようになると思います.しかし、その計画が正確に何であるかはわかりません。」

NLP は、この課題を拡大する上で重要な役割を果たします。

diffbot デモの例は、エンティティ マイニングとナレッジ グラフの構築に NLP がいかにうまく使用できるかを示しています。

Google 検索の NLP は今後も定着する

RankBrain は、以前はこの方法で使用されていなかったベクトル空間分析を介して検索クエリと用語を解釈するために導入されました。

BERT と MUM は、自然言語処理を使用して検索クエリとドキュメントを解釈します。

MUM と BERT は、検索クエリとコンテンツの解釈に加えて、ナレッジ グラフなどのナレッジ データベースを大規模に成長させるための扉を開き、Google でのセマンティック検索を進歩させました。

コア アップデートによる Google 検索の発展は、MUM と BERT、そして最終的には NLP とセマンティック検索にも密接に関連しています。

将来的には、エンティティ ベースの Google 検索結果が、従来のフレーズ ベースのインデックス作成とランキングに取って代わります。

この記事で表明された意見はゲスト著者のものであり、必ずしも Search Engine Land ではありません。スタッフの著者はここにリストされています。