Sitemap

Google 如何使用 NLP 更好地理解搜索查詢、內容

自然語言處理為 Google 上的語義搜索打開了大門。

SEO 需要了解轉向基於實體的搜索,因為這是 Google 搜索的未來。

在本文中,我們將深入探討自然語言處理以及 Google 如何使用它來解釋搜索查詢和內容、實體挖掘等。

什麼是自然語言處理?

自然語言處理或 NLP 使理解單詞、句子和文本的含義以生成信息、知識或新文本成為可能。

它由自然語言理解 (NLU) 和自然語言生成 (NLG) 組成——它允許對文本和自然語言進行語義解釋。

NLP 可用於:

  • 語音識別(文本到語音和語音到文本)。
  • 將先前捕獲的語音分割成單個單詞、句子和短語。
  • 識別單詞的基本形式和獲取語法信息。
  • 識別句子中單個單詞的功能(主語、動詞、賓語、冠詞等)
  • 提取句子和部分句子或短語的含義,例如形容詞短語(例如,“too long”)、介詞短語(例如,“to the river”)或名詞短語(例如,“the long party”)。
  • 識別句子上下文、句子關係和實體。
  • 語言文本分析、情感分析、翻譯(包括語音助手)、聊天機器人和底層問答系統。

以下是 NLP 的核心組件:

了解 Google 的自然語言處理 API
  • 標記化:將一個句子分成不同的術語。
  • 詞類標註:按賓語、主語、謂語、形容詞等對詞進行分類。
  • 詞依賴:根據語法規則識別詞之間的關係。
  • 詞形還原:確定一個詞是否具有不同的形式並將變體規範化為基本形式。例如,“cars”的基本形式是“car”。
  • 解析標籤:根據依賴關係連接的兩個單詞之間的關係標記單詞。
  • 命名實體分析和提取:識別具有“已知”含義的單詞並將它們分配給實體類型的類。一般來說,命名實體是組織、人、產品、地點和事物(名詞)。在一個句子中,主語和賓語將被識別為實體。
使用 Google 自然處理 API 進行實體分析。
  • 顯著性評分:確定文本與主題的關聯程度。顯著性通常由網絡上單詞的共同引用以及 Wikipedia 和 Freebase 等數據庫中實體之間的關係決定。經驗豐富的 SEO 從 TF-IDF 分析中知道類似的方法。
  • 情感分析:識別文本中表達的關於實體或主題的意見(觀點或態度)。
  • 文本分類:在宏觀層面,NLP 將文本分類為內容類別。文本分類有助於確定文本的大致內容。
  • 文本分類和功能:NLP 可以更進一步,確定內容的預期功能或目的。將搜索意圖與文檔匹配是非常有趣的。
  • 內容類型提取:基於結構模式或上下文,搜索引擎可以在沒有結構化數據的情況下確定文本的內容類型。文本的 HTML、格式和數據類型(日期、位置、URL 等)可以在不使用標記的情況下識別它是食譜、產品、事件還是其他內容類型。
  • 根據結構識別隱含含義:文本的格式可以改變其隱含含義。標題、換行符、列表和接近度傳達了對文本的次要理解。例如,當文本顯示在一個 HTML 排序的列表或一系列前面帶有數字的標題中時,它很可能是一個列表或排名。該結構不僅由 HTML 標記定義,還由渲染期間的視覺字體大小/粗細和接近度定義。

NLP在搜索中的應用

多年來,谷歌已經訓練了像 BERT 或 MUM 這樣的語言模型來解釋文本、搜索查詢,甚至是視頻和音頻內容。這些模型是通過自然語言處理提供的。

谷歌搜索主要在以下幾個方面使用自然語言處理:

  • 解釋搜索查詢。
  • 文件主題和目的的分類。
  • 文檔、搜索查詢和社交媒體帖子中的實體分析。
  • 用於在語音搜索中生成精選片段和答案。
  • 視頻和音頻內容的解釋。
  • 知識圖譜的擴展和改進。

谷歌在 2019 年 10 月發布 BERT 更新時強調了理解自然語言在搜索中的重要性。

“搜索的核心是理解語言。無論您如何拼寫或組合查詢中的單詞,我們的工作都是找出您正在搜索的內容並從網絡上顯示有用的信息。儘管這些年來我們一直在不斷提高我們的語言理解能力,但有時我們仍然不能完全正確,尤其是對於復雜或對話式的查詢。事實上,這就是人們經常使用“keyword-ese”的原因之一,即輸入他們認為我們會理解的字符串,但實際上並不是他們自然提出問題的方式。”

BERT & MUM:用於解釋搜索查詢和文檔的 NLP

BERT 據說是繼 RankBrain 之後幾年谷歌搜索領域最關鍵的進步。基於 NLP,此更新旨在改進搜索查詢解釋,最初影響了 10% 的所有搜索查詢。

BERT 不僅在查詢解釋中發揮作用,而且在排名和編譯特色片段以及解釋文檔中的文本調查問卷方面發揮作用。

“嗯,通過將 BERT 模型應用於搜索中的排名和特色片段,我們能夠做得更好,幫助你找到有用的信息。事實上,在對結果進行排名時,BERT 將幫助 Search 更好地理解美國十分之一的英語搜索,隨著時間的推移,我們將把它帶到更多的語言和地區。”

MUM 更新的推出是在 Search On '21 上宣布的。同樣基於 NLP,MUM 是多語言的,使用多模態數據回答複雜的搜索查詢,並處理來自不同媒體格式的信息。除了文本,MUM 還可以理解圖像、視頻和音頻文件。

MUM 結合了多種技術,使 Google 搜索更加語義化和基於上下文,從而改善用戶體驗。

借助 MUM,Google 希望以不同的媒體格式回答複雜的搜索查詢,以加入用戶的客戶旅程。

與 BERT 和 MUM 一樣,NLP 是更好的語義理解和更以用戶為中心的搜索引擎的重要一步。

通過實體理解搜索查詢和內容標誌著從“字符串”到“事物”的轉變。谷歌的目標是發展對搜索查詢和內容的語義理解。

通過識別搜索查詢中的實體,含義和搜索意圖變得更加清晰。搜索詞的單個詞不再獨立,而是在整個搜索查詢的上下文中考慮。

解釋搜索詞的魔力發生在查詢處理中。以下步驟在這裡很重要:

  • 識別搜索查詢所在的主題本體。如果主題上下文明確,Google 可以選擇文本文檔、視頻和圖像的內容語料庫作為可能合適的搜索結果。這對於不明確的搜索詞尤其困難。
  • 在搜索詞中識別實體及其含義(命名實體識別)。
  • 了解搜索查詢的語義。
  • 識別搜索意圖。
  • 搜索查詢的語義註釋。
  • 細化搜索詞。

獲取營銷人員所依賴的每日通訊搜索。

NLP是實體挖掘最關鍵的方法論

自然語言處理將在谷歌識別實體及其含義方面發揮最重要的作用,使從非結構化數據中提取知識成為可能。

在此基礎上,可以創建實體和知識圖譜之間的關係。語音標記部分對此有所幫助。

名詞是潛在的實體,動詞通常代表實體之間的關係。形容詞描述實體,副詞描述關係。

到目前為止,谷歌只很少使用非結構化信息來提供知識圖譜。

可以假設:

  • 到目前為止,知識圖中記錄的實體只是冰山一角。
  • 谷歌還在向另一個知識庫提供有關長尾實體的信息。

NLP 在為這個知識庫提供信息方面發揮著核心作用。

Google 在 NLP 方面已經相當出色,但在評估自動提取的準確性信息方面尚未取得令人滿意的結果。

從網站等非結構化數據中對知識圖譜等知識數據庫進行數據挖掘是複雜的。

除了信息的完整性之外,正確性也是必不可少的。如今,谷歌通過 NLP 保證了大規模的完整性,但很難證明正確性和準確性。

這可能就是為什麼谷歌仍然對 SERP 中長尾實體信息的直接定位採取謹慎態度的原因。

基於實體的索引與經典的基於內容的索引

蜂鳥更新的引入為語義搜索鋪平了道路。它還使知識圖——以及實體——成為焦點。

知識圖是谷歌的實體索引。所有屬性、文檔和數字圖像(例如配置文件和域)都圍繞實體組織在基於實體的索引中。

知識圖目前與經典的谷歌索引並行使用以進行排名。

假設 Google 在搜索查詢中識別出它與知識圖中記錄的實體有關。在這種情況下,將訪問兩個索引中的信息,實體是焦點,與實體相關的所有信息和文檔也會被考慮在內。

經典的 Google 索引和知識圖譜或其他類型的知識庫之間需要一個接口或 API,以在兩個索引之間交換信息。

這個實體內容接口是關於找出:

  • 一段內容中是否有實體。
  • 是否存在內容所涉及的主要實體。
  • 可以將主要實體分配給哪些本體或多個本體。
  • 分配內容的作者或實體。
  • 內容中的實體如何相互關聯。
  • 哪些屬性或屬性將分配給實體。

它可能看起來像這樣:

我們才剛剛開始感受到 SERP 中基於實體的搜索的影響,因為 Google 理解單個實體的含義很慢。

通過社會相關性自上而下地理解實體。最相關的內容分別記錄在 Wikidata 和 Wikipedia 中。

最大的任務將是識別和驗證長尾實體。還不清楚谷歌檢查哪些標準以將實體包含在知識圖中。

在 2019 年 1 月的德國網站管理員環聊中,谷歌的 John Mueller 表示,他們正在研究一種更直接的方式來為每個人創建實體。

“我認為我們沒有明確的答案。我認為我們有不同的算法來檢查類似的東西,然後我們使用不同的標準將整個事物拉在一起,將其分開並識別哪些事物是真正獨立的實體,它們只是變體或不太獨立的實體......但到目前為止我擔心我已經看到了,這是我們正在努力擴展的東西,我想它也會更容易在知識圖譜中獲得特色。但我不知道具體的計劃是什麼。”

NLP 在擴大這一挑戰方面發揮著至關重要的作用。

diffbot 演示中的示例展示了 NLP 可用於實體挖掘和構建知識圖譜的效果。

Google 搜索中的 NLP 將繼續存在

RankBrain 被引入以通過向量空間分析來解釋搜索查詢和術語,而以前沒有以這種方式使用過。

BERT 和 MUM 使用自然語言處理來解釋搜索查詢和文檔。

除了對搜索查詢和內容的解釋之外,MUM 和 BERT 還打開了大門,允許知識圖譜等知識數據庫大規模增長,從而在谷歌推進語義搜索。

谷歌搜索通過核心更新的發展也與 MUM 和 BERT 密切相關,最終與 NLP 和語義搜索密切相關。

未來,我們將看到越來越多的基於實體的 Google 搜索結果取代經典的基於短語的索引和排名。

本文中表達的觀點是客座作者的觀點,不一定是 Search Engine Land。工作人員作者在這裡列出。