Sitemap

วิธีที่ Google ใช้ NLP เพื่อทำความเข้าใจคำค้นหา เนื้อหา

การประมวลผลภาษาธรรมชาติเปิดประตูสู่การค้นหาความหมายบน Google

SEO จำเป็นต้องเข้าใจการเปลี่ยนไปใช้การค้นหาตามเอนทิตี เพราะนี่คืออนาคตของการค้นหาของ Google

ในบทความนี้ เราจะเจาะลึกถึงการประมวลผลภาษาธรรมชาติและวิธีที่ Google ใช้ในการตีความข้อความค้นหาและเนื้อหา การขุดเอนทิตี และอื่นๆ

การประมวลผลภาษาธรรมชาติคืออะไร?

การประมวลผลภาษาธรรมชาติหรือ NLP ทำให้สามารถเข้าใจความหมายของคำ ประโยค และข้อความเพื่อสร้างข้อมูล ความรู้ หรือข้อความใหม่

ประกอบด้วยการเข้าใจภาษาธรรมชาติ (NLU) ซึ่งช่วยให้สามารถแปลความหมายของข้อความและภาษาธรรมชาติ และการสร้างภาษาธรรมชาติ (NLG)

NLP สามารถใช้สำหรับ:

  • การรู้จำเสียงพูด (ข้อความเป็นคำพูดและคำพูดเป็นข้อความ)
  • การแบ่งกลุ่มคำพูดที่บันทึกไว้ก่อนหน้านี้ออกเป็นคำ ประโยค และวลีแต่ละรายการ
  • การรับรู้รูปแบบพื้นฐานของคำและการได้มาซึ่งข้อมูลทางไวยากรณ์
  • การจดจำหน้าที่ของคำแต่ละคำในประโยค (ประธาน กริยา กรรม บทความ ฯลฯ)
  • การแยกความหมายของประโยคและส่วนของประโยคหรือวลี เช่น วลีคำคุณศัพท์ (เช่น "ยาวเกินไป") วลีบุพบท (เช่น "ถึงแม่น้ำ") หรือวลีที่ระบุ (เช่น "พรรคยาว")
  • การรับรู้บริบทของประโยค ความสัมพันธ์ของประโยค และเอนทิตี
  • การวิเคราะห์ข้อความภาษาศาสตร์ การวิเคราะห์ความรู้สึก การแปล (รวมถึงผู้ช่วยเสียง) แชทบอทและระบบคำถามและคำตอบพื้นฐาน

ต่อไปนี้เป็นองค์ประกอบหลักของ NLP:

ดู API การประมวลผลภาษาธรรมชาติของ Google
  • Tokenization: แบ่งประโยคออกเป็นคำต่างๆ
  • การติดฉลากประเภทคำ: จำแนกคำตามวัตถุ หัวเรื่อง เพรดิเคต คำคุณศัพท์ ฯลฯ
  • การขึ้นต่อกันของคำ: ระบุความสัมพันธ์ระหว่างคำตามกฎไวยากรณ์
  • Lemmatization: กำหนดว่าคำมีรูปแบบที่แตกต่างกันหรือไม่และทำให้รูปแบบพื้นฐานเป็นมาตรฐานตัวอย่างเช่น รูปแบบพื้นฐานของ "รถยนต์" คือ "รถยนต์"
  • การแยกวิเคราะห์ป้ายกำกับ: ติดป้ายกำกับคำตามความสัมพันธ์ระหว่างคำสองคำที่เชื่อมโยงกันด้วยการขึ้นต่อกัน
  • การวิเคราะห์และการแยกชื่อเอนทิตีที่มีชื่อ: ระบุคำที่มีความหมาย "รู้จัก" และกำหนดให้กับคลาสของประเภทเอนทิตีโดยทั่วไป เอนทิตีที่มีชื่อคือ องค์กร ผู้คน ผลิตภัณฑ์ สถานที่ และสิ่งของ (คำนาม) ในประโยค ให้ระบุประธานและวัตถุเป็นเอนทิตี
การวิเคราะห์เอนทิตีโดยใช้ Google Natural Processing API
  • การให้คะแนนความโดดเด่น: กำหนดว่าข้อความเชื่อมโยงกับหัวข้ออย่างเข้มข้นเพียงใดโดยทั่วไปความโดดเด่นจะถูกกำหนดโดยการอ้างอิงร่วมของคำบนเว็บและความสัมพันธ์ระหว่างเอนทิตีในฐานข้อมูล เช่น Wikipedia และ FreebaseSEO ที่มีประสบการณ์รู้วิธีการที่คล้ายกันจากการวิเคราะห์ TF-IDF
  • การวิเคราะห์ความรู้สึก: ระบุความคิดเห็น (มุมมองหรือทัศนคติ) ที่แสดงในข้อความเกี่ยวกับหน่วยงานหรือหัวข้อ
  • การจัดประเภทข้อความ: ในระดับมาโคร NLP จะจัดประเภทข้อความเป็นหมวดหมู่เนื้อหาการจัดหมวดหมู่ข้อความช่วยในการกำหนดโดยทั่วไปว่าข้อความนั้นเกี่ยวกับอะไร
  • การจัดประเภทข้อความและฟังก์ชัน: NLP สามารถดำเนินการต่อไปและกำหนดหน้าที่หรือวัตถุประสงค์ของเนื้อหาที่ต้องการได้สิ่งนี้น่าสนใจมากในการจับคู่ความตั้งใจในการค้นหากับเอกสาร
  • การแยกประเภทเนื้อหา: ตามรูปแบบโครงสร้างหรือบริบท เครื่องมือค้นหาสามารถกำหนดประเภทเนื้อหาของข้อความโดยไม่มีข้อมูลที่มีโครงสร้างHTML การจัดรูปแบบและประเภทข้อมูลของข้อความ (วันที่ ตำแหน่ง URL ฯลฯ) สามารถระบุได้ว่าข้อความนั้นเป็นสูตรอาหาร ผลิตภัณฑ์ กิจกรรม หรือประเภทเนื้อหาอื่นโดยไม่ต้องใช้มาร์กอัป
  • ระบุความหมายโดยนัยตามโครงสร้าง: การจัดรูปแบบของข้อความสามารถเปลี่ยนความหมายโดยนัยได้หัวเรื่อง ตัวแบ่งบรรทัด รายการ และความใกล้เคียงสื่อถึงความเข้าใจรองของข้อความตัวอย่างเช่น เมื่อข้อความแสดงในรายการที่จัดเรียงแบบ HTML หรือชุดของหัวเรื่องที่มีตัวเลขอยู่ข้างหน้า ข้อความนั้นมักจะเป็นรายการหรือการจัดอันดับโครงสร้างไม่ได้ถูกกำหนดโดยแท็ก HTML เท่านั้น แต่ยังกำหนดโดยขนาด/ความหนาของฟอนต์ที่มองเห็นได้ และความใกล้ชิดระหว่างการเรนเดอร์ด้วย

การใช้ NLP ในการค้นหา

เป็นเวลาหลายปีแล้วที่ Google ได้ฝึกฝนโมเดลภาษา เช่น BERT หรือ MUM เพื่อตีความข้อความ คำค้นหา และแม้แต่เนื้อหาวิดีโอและเสียงโมเดลเหล่านี้ได้รับการป้อนผ่านการประมวลผลภาษาธรรมชาติ

การค้นหาของ Google ส่วนใหญ่ใช้การประมวลผลภาษาธรรมชาติในพื้นที่ต่อไปนี้:

  • การตีความคำค้นหา
  • การจำแนกหัวเรื่องและวัตถุประสงค์ของเอกสาร
  • การวิเคราะห์เอนทิตีในเอกสาร คำค้นหา และโพสต์บนโซเชียลมีเดีย
  • สำหรับการสร้างตัวอย่างข้อมูลและคำตอบในการค้นหาด้วยเสียง
  • การตีความเนื้อหาวิดีโอและเสียง
  • การขยายและปรับปรุงกราฟความรู้

Google เน้นย้ำถึงความสำคัญของการทำความเข้าใจภาษาธรรมชาติในการค้นหา เมื่อพวกเขาเผยแพร่การอัปเดต BERT ในเดือนตุลาคม 2019

“แก่นแท้ของการค้นหานั้นเกี่ยวกับการทำความเข้าใจภาษา เป็นหน้าที่ของเราที่จะค้นหาสิ่งที่คุณกำลังค้นหาและแสดงข้อมูลที่เป็นประโยชน์จากเว็บ ไม่ว่าคุณจะสะกดคำหรือรวมคำในข้อความค้นหาของคุณอย่างไร แม้ว่าเราจะปรับปรุงความสามารถในการเข้าใจภาษาของเราอย่างต่อเนื่องในช่วงหลายปีที่ผ่านมา แต่บางครั้งเรายังทำไม่ถูกต้อง โดยเฉพาะอย่างยิ่งกับคำถามที่ซับซ้อนหรือเชิงสนทนา อันที่จริงแล้ว นั่นเป็นหนึ่งในเหตุผลที่ผู้คนมักใช้ “คีย์เวิร์ด-อีส” พิมพ์สตริงของคำที่พวกเขาคิดว่าเราจะเข้าใจ แต่จริงๆ แล้วไม่ใช่วิธีที่พวกเขาจะถามคำถามโดยธรรมชาติ”

BERT & MUM: NLP สำหรับตีความคำค้นหาและเอกสาร

BERT ถือเป็นความก้าวหน้าที่สำคัญที่สุดในการค้นหาของ Google ในรอบหลายปีหลังจาก RankBrainโดยอิงจาก NLP การอัปเดตนี้ได้รับการออกแบบมาเพื่อปรับปรุงการตีความคำค้นหา และในขั้นต้นส่งผลกระทบ 10% ของคำค้นหาทั้งหมด

BERT ไม่ได้มีบทบาทเฉพาะในการตีความข้อความค้นหาเท่านั้น แต่ยังรวมถึงการจัดอันดับและรวบรวมตัวอย่างข้อมูลสำคัญ ตลอดจนการตีความแบบสอบถามข้อความในเอกสาร

“ด้วยการใช้แบบจำลอง BERT กับทั้งการจัดอันดับและตัวอย่างข้อมูลเด่นใน Search ทำให้เราสามารถช่วยคุณค้นหาข้อมูลที่เป็นประโยชน์ได้ดีขึ้นมาก ที่จริงแล้ว เมื่อพูดถึงผลการจัดอันดับ BERT จะช่วยให้ Search เข้าใจการค้นหา 1 ใน 10 ในสหรัฐอเมริกาเป็นภาษาอังกฤษได้ดีขึ้น และเราจะนำสิ่งนี้ไปสู่ภาษาและสถานที่อื่นๆ เมื่อเวลาผ่านไป”

การเปิดตัวการอัปเดต MUM ได้รับการประกาศที่ Search On '21นอกจากนี้ MUM ยังใช้ NLP ได้หลายภาษา ตอบคำถามในการค้นหาที่ซับซ้อนด้วยข้อมูลหลายรูปแบบ และประมวลผลข้อมูลจากรูปแบบสื่อต่างๆนอกจากข้อความแล้ว MUM ยังเข้าใจไฟล์รูปภาพ วิดีโอ และไฟล์เสียงอีกด้วย

MUM ผสมผสานเทคโนโลยีหลายอย่างเข้าด้วยกันเพื่อทำให้การค้นหาของ Google มีความหมายและอิงตามบริบทมากยิ่งขึ้นเพื่อปรับปรุงประสบการณ์ของผู้ใช้

ด้วย MUM Google ต้องการตอบคำค้นหาที่ซับซ้อนในรูปแบบสื่อต่างๆ เพื่อเข้าร่วมกับผู้ใช้ตลอดเส้นทางของลูกค้า

ตามที่ใช้กับ BERT และ MUM NLP เป็นขั้นตอนสำคัญในการทำความเข้าใจความหมายที่ดีขึ้นและเป็นเสิร์ชเอ็นจิ้นที่เน้นผู้ใช้เป็นหลัก

การทำความเข้าใจคำค้นหาและเนื้อหาผ่านเอนทิตีทำให้การเปลี่ยนจาก "สตริง" เป็น "สิ่งของ"เป้าหมายของ Google คือการพัฒนาความเข้าใจในความหมายของคำค้นหาและเนื้อหา

โดยการระบุเอนทิตีในคำค้นหา ความหมายและความตั้งใจในการค้นหาจะชัดเจนขึ้นคำแต่ละคำของข้อความค้นหาไม่ได้แยกจากกันอีกต่อไปแต่จะพิจารณาในบริบทของคำค้นหาทั้งหมด

ความมหัศจรรย์ของการตีความข้อความค้นหาเกิดขึ้นในการประมวลผลคำค้นหาขั้นตอนต่อไปนี้มีความสำคัญที่นี่:

  • การระบุ ontology เฉพาะเรื่องที่คำค้นหาตั้งอยู่หากบริบทของหัวข้อมีความชัดเจน Google สามารถเลือกคลังเนื้อหาของเอกสารข้อความ วิดีโอ และรูปภาพเป็นผลการค้นหาที่อาจเหมาะสมซึ่งเป็นเรื่องยากโดยเฉพาะอย่างยิ่งกับข้อความค้นหาที่คลุมเครือ
  • การระบุเอนทิตีและความหมายในข้อความค้นหา (การรับรู้ชื่อเอนทิตี)
  • การทำความเข้าใจความหมายเชิงความหมายของคำค้นหา
  • การระบุเจตนาในการค้นหา
  • คำอธิบายประกอบความหมายของคำค้นหา
  • การปรับแต่งคำค้นหา

รับจดหมายข่าวรายวันที่นักการตลาดต้องพึ่งพา

NLP เป็นวิธีการที่สำคัญที่สุดสำหรับการขุดเอนทิตี

การประมวลผลภาษาธรรมชาติจะมีบทบาทสำคัญที่สุดสำหรับ Google ในการระบุเอนทิตีและความหมาย ทำให้สามารถดึงความรู้จากข้อมูลที่ไม่มีโครงสร้างได้

บนพื้นฐานนี้ ความสัมพันธ์ระหว่างเอนทิตีและกราฟความรู้สามารถสร้างขึ้นได้การติดแท็กคำพูดช่วยได้บางส่วนในเรื่องนี้

คำนามเป็นเอนทิตีที่มีศักยภาพและกริยามักแสดงถึงความสัมพันธ์ของเอนทิตีซึ่งกันและกันคำคุณศัพท์อธิบายเอนทิตีและคำวิเศษณ์อธิบายความสัมพันธ์

จนถึงตอนนี้ Google ได้ใช้ข้อมูลที่ไม่มีโครงสร้างเพียงเล็กน้อยในการป้อนกราฟความรู้

สามารถสันนิษฐานได้ว่า:

  • เอนทิตีที่บันทึกไว้ในกราฟความรู้เป็นเพียงส่วนเล็กๆ ของภูเขาน้ำแข็งเท่านั้น
  • Google ยังให้คลังความรู้อื่นด้วยข้อมูลเกี่ยวกับเอนทิตีหางยาว

NLP มีบทบาทสำคัญในการป้อนคลังความรู้นี้

Google นั้นค่อนข้างดีใน NLP แต่ยังไม่บรรลุผลที่น่าพอใจในการประเมินข้อมูลที่ดึงออกมาโดยอัตโนมัติเกี่ยวกับความถูกต้อง

การขุดข้อมูลสำหรับฐานข้อมูลความรู้เช่นกราฟความรู้จากข้อมูลที่ไม่มีโครงสร้างเช่นเว็บไซต์นั้นซับซ้อน

นอกจากความครบถ้วนของข้อมูลแล้ว ความถูกต้องเป็นสิ่งสำคัญปัจจุบัน Google รับประกันความสมบูรณ์ในวงกว้างผ่าน NLP แต่การพิสูจน์ความถูกต้องและความถูกต้องนั้นยาก

นี่อาจเป็นสาเหตุที่ Google ยังคงดำเนินการอย่างระมัดระวังเกี่ยวกับการวางตำแหน่งข้อมูลโดยตรงของเอนทิตีหางยาวใน SERP

ดัชนีตามเอนทิตีเทียบกับดัชนีตามเนื้อหาแบบคลาสสิก

การแนะนำการอัปเดต Hummingbird เป็นการปูทางสำหรับการค้นหาเชิงความหมายนอกจากนี้ยังนำกราฟความรู้ – และเอนทิตี – มาโฟกัสด้วย

กราฟความรู้คือดัชนีเอนทิตีของ Googleคุณลักษณะ เอกสาร และรูปภาพดิจิทัลทั้งหมด เช่น โปรไฟล์และโดเมน ได้รับการจัดระเบียบรอบๆ เอนทิตีในดัชนีตามเอนทิตี

ปัจจุบัน ใช้กราฟความรู้ควบคู่ไปกับดัชนี Google แบบคลาสสิกสำหรับการจัดอันดับ

สมมติว่า Google รับรู้ในคำค้นหาว่าเกี่ยวกับเอนทิตีที่บันทึกไว้ในกราฟความรู้ในกรณีนั้น ข้อมูลในดัชนีทั้งสองจะเข้าถึงได้ โดยที่เอนทิตีเป็นจุดสนใจ และข้อมูลและเอกสารทั้งหมดที่เกี่ยวข้องกับเอนทิตีจะถูกนำมาพิจารณาด้วย

จำเป็นต้องมีอินเทอร์เฟซหรือ API ระหว่างดัชนี Google แบบคลาสสิกและกราฟความรู้ หรือคลังความรู้ประเภทอื่น เพื่อแลกเปลี่ยนข้อมูลระหว่างดัชนีทั้งสอง

อินเทอร์เฟซเนื้อหาเอนทิตีนี้เกี่ยวกับการค้นหา:

  • มีเอนทิตีในส่วนของเนื้อหาหรือไม่
  • มีเอนทิตีหลักที่เนื้อหาเป็นเรื่องเกี่ยวกับหรือไม่
  • ซึ่ง ontology หรือ ontology ที่เอนทิตีหลักสามารถกำหนดได้
  • ผู้เขียนคนใดหรือหน่วยงานใดที่ได้รับมอบหมายเนื้อหา
  • เอนทิตีในเนื้อหามีความสัมพันธ์กันอย่างไร
  • คุณสมบัติหรือแอตทริบิวต์ใดที่จะกำหนดให้กับเอนทิตี

อาจมีลักษณะดังนี้:

เราเพิ่งเริ่มรู้สึกถึงผลกระทบของการค้นหาตามเอนทิตีใน SERP เนื่องจาก Google เข้าใจความหมายของแต่ละหน่วยงานได้ช้า

เอนทิตีเข้าใจจากบนลงล่างตามความเกี่ยวข้องทางสังคมสิ่งที่เกี่ยวข้องมากที่สุดจะถูกบันทึกไว้ใน Wikidata และ Wikipedia ตามลำดับ

งานใหญ่คือการระบุและตรวจสอบเอนทิตีหางยาวยังไม่ชัดเจนว่า Google ใช้เกณฑ์ใดในการรวมเอนทิตีในกราฟความรู้

ในแฮงเอาท์เว็บมาสเตอร์ของเยอรมันในเดือนมกราคม 2019 John Mueller ของ Google กล่าวว่าพวกเขากำลังหาวิธีที่ตรงไปตรงมามากขึ้นเพื่อสร้างเอนทิตีสำหรับทุกคน

“ฉันไม่คิดว่าเรามีคำตอบที่ชัดเจน ฉันคิดว่าเรามีอัลกอริธึมที่แตกต่างกันที่จะตรวจสอบบางอย่าง จากนั้นเราใช้เกณฑ์ที่แตกต่างกันเพื่อดึงสิ่งทั้งหมดเข้าด้วยกัน แยกมันออกจากกัน และรู้ว่าสิ่งใดเป็นเอนทิตีที่แยกจากกันจริงๆ ซึ่งเป็นเพียงตัวแปรหรือเอนทิตีที่แยกจากกันน้อยกว่า... แต่เท่าที่ไกล อย่างที่ฉันกังวล ฉันได้เห็นแล้วว่า นั่นคือสิ่งที่เรากำลังดำเนินการเพื่อขยายขอบเขตออกไปอีกเล็กน้อย และฉันคิดว่ามันจะช่วยให้แสดงข้อมูลในกราฟความรู้ได้ง่ายขึ้นด้วย แต่ฉันไม่รู้ว่าแผนคืออะไรกันแน่”

NLP มีบทบาทสำคัญในการขยายความท้าทายนี้

ตัวอย่างจากการสาธิต diffbot แสดงให้เห็นว่า NLP สามารถใช้สำหรับการขุดเอนทิตีและสร้างกราฟความรู้ได้ดีเพียงใด

NLP ในการค้นหาของ Google อยู่ที่นี่แล้ว

RankBrain ถูกนำมาใช้เพื่อตีความคำค้นหาและคำค้นหาผ่านการวิเคราะห์พื้นที่เวกเตอร์ที่ไม่เคยใช้วิธีนี้มาก่อน

BERT และ MUM ใช้การประมวลผลภาษาธรรมชาติในการตีความคำค้นหาและเอกสาร

นอกเหนือจากการตีความคำค้นหาและเนื้อหาแล้ว MUM และ BERT ยังเปิดประตูให้ฐานข้อมูลความรู้ เช่น กราฟความรู้เติบโตตามขนาด จึงเป็นการเพิ่มการค้นหาเชิงความหมายที่ Google

การพัฒนาใน Google Search ผ่านการอัปเดตหลักนั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับ MUM และ BERT และท้ายที่สุดคือ NLP และการค้นหาเชิงความหมาย

ในอนาคต เราจะเห็นผลการค้นหาของ Google ตามเอนทิตีมากขึ้นเรื่อยๆ แทนที่การจัดทำดัชนีและการจัดอันดับตามวลีแบบคลาสสิก

ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น Search Engine Landผู้เขียนพนักงานอยู่ที่นี่