การนำทางอย่างรวดเร็ว
การประมวลผลภาษาธรรมชาติเปิดประตูสู่การค้นหาความหมายบน Google
SEO จำเป็นต้องเข้าใจการเปลี่ยนไปใช้การค้นหาตามเอนทิตี เพราะนี่คืออนาคตของการค้นหาของ Google
ในบทความนี้ เราจะเจาะลึกถึงการประมวลผลภาษาธรรมชาติและวิธีที่ Google ใช้ในการตีความข้อความค้นหาและเนื้อหา การขุดเอนทิตี และอื่นๆ
การประมวลผลภาษาธรรมชาติคืออะไร?
การประมวลผลภาษาธรรมชาติหรือ NLP ทำให้สามารถเข้าใจความหมายของคำ ประโยค และข้อความเพื่อสร้างข้อมูล ความรู้ หรือข้อความใหม่
ประกอบด้วยการเข้าใจภาษาธรรมชาติ (NLU) ซึ่งช่วยให้สามารถแปลความหมายของข้อความและภาษาธรรมชาติ และการสร้างภาษาธรรมชาติ (NLG)
NLP สามารถใช้สำหรับ:
- การรู้จำเสียงพูด (ข้อความเป็นคำพูดและคำพูดเป็นข้อความ)
- การแบ่งกลุ่มคำพูดที่บันทึกไว้ก่อนหน้านี้ออกเป็นคำ ประโยค และวลีแต่ละรายการ
- การรับรู้รูปแบบพื้นฐานของคำและการได้มาซึ่งข้อมูลทางไวยากรณ์
- การจดจำหน้าที่ของคำแต่ละคำในประโยค (ประธาน กริยา กรรม บทความ ฯลฯ)
- การแยกความหมายของประโยคและส่วนของประโยคหรือวลี เช่น วลีคำคุณศัพท์ (เช่น "ยาวเกินไป") วลีบุพบท (เช่น "ถึงแม่น้ำ") หรือวลีที่ระบุ (เช่น "พรรคยาว")
- การรับรู้บริบทของประโยค ความสัมพันธ์ของประโยค และเอนทิตี
- การวิเคราะห์ข้อความภาษาศาสตร์ การวิเคราะห์ความรู้สึก การแปล (รวมถึงผู้ช่วยเสียง) แชทบอทและระบบคำถามและคำตอบพื้นฐาน
ต่อไปนี้เป็นองค์ประกอบหลักของ NLP:

- Tokenization: แบ่งประโยคออกเป็นคำต่างๆ
- การติดฉลากประเภทคำ: จำแนกคำตามวัตถุ หัวเรื่อง เพรดิเคต คำคุณศัพท์ ฯลฯ
- การขึ้นต่อกันของคำ: ระบุความสัมพันธ์ระหว่างคำตามกฎไวยากรณ์
- Lemmatization: กำหนดว่าคำมีรูปแบบที่แตกต่างกันหรือไม่และทำให้รูปแบบพื้นฐานเป็นมาตรฐานตัวอย่างเช่น รูปแบบพื้นฐานของ "รถยนต์" คือ "รถยนต์"
- การแยกวิเคราะห์ป้ายกำกับ: ติดป้ายกำกับคำตามความสัมพันธ์ระหว่างคำสองคำที่เชื่อมโยงกันด้วยการขึ้นต่อกัน
- การวิเคราะห์และการแยกชื่อเอนทิตีที่มีชื่อ: ระบุคำที่มีความหมาย "รู้จัก" และกำหนดให้กับคลาสของประเภทเอนทิตีโดยทั่วไป เอนทิตีที่มีชื่อคือ องค์กร ผู้คน ผลิตภัณฑ์ สถานที่ และสิ่งของ (คำนาม) ในประโยค ให้ระบุประธานและวัตถุเป็นเอนทิตี

- การให้คะแนนความโดดเด่น: กำหนดว่าข้อความเชื่อมโยงกับหัวข้ออย่างเข้มข้นเพียงใดโดยทั่วไปความโดดเด่นจะถูกกำหนดโดยการอ้างอิงร่วมของคำบนเว็บและความสัมพันธ์ระหว่างเอนทิตีในฐานข้อมูล เช่น Wikipedia และ FreebaseSEO ที่มีประสบการณ์รู้วิธีการที่คล้ายกันจากการวิเคราะห์ TF-IDF
- การวิเคราะห์ความรู้สึก: ระบุความคิดเห็น (มุมมองหรือทัศนคติ) ที่แสดงในข้อความเกี่ยวกับหน่วยงานหรือหัวข้อ
- การจัดประเภทข้อความ: ในระดับมาโคร NLP จะจัดประเภทข้อความเป็นหมวดหมู่เนื้อหาการจัดหมวดหมู่ข้อความช่วยในการกำหนดโดยทั่วไปว่าข้อความนั้นเกี่ยวกับอะไร
- การจัดประเภทข้อความและฟังก์ชัน: NLP สามารถดำเนินการต่อไปและกำหนดหน้าที่หรือวัตถุประสงค์ของเนื้อหาที่ต้องการได้สิ่งนี้น่าสนใจมากในการจับคู่ความตั้งใจในการค้นหากับเอกสาร
- การแยกประเภทเนื้อหา: ตามรูปแบบโครงสร้างหรือบริบท เครื่องมือค้นหาสามารถกำหนดประเภทเนื้อหาของข้อความโดยไม่มีข้อมูลที่มีโครงสร้างHTML การจัดรูปแบบและประเภทข้อมูลของข้อความ (วันที่ ตำแหน่ง URL ฯลฯ) สามารถระบุได้ว่าข้อความนั้นเป็นสูตรอาหาร ผลิตภัณฑ์ กิจกรรม หรือประเภทเนื้อหาอื่นโดยไม่ต้องใช้มาร์กอัป
- ระบุความหมายโดยนัยตามโครงสร้าง: การจัดรูปแบบของข้อความสามารถเปลี่ยนความหมายโดยนัยได้หัวเรื่อง ตัวแบ่งบรรทัด รายการ และความใกล้เคียงสื่อถึงความเข้าใจรองของข้อความตัวอย่างเช่น เมื่อข้อความแสดงในรายการที่จัดเรียงแบบ HTML หรือชุดของหัวเรื่องที่มีตัวเลขอยู่ข้างหน้า ข้อความนั้นมักจะเป็นรายการหรือการจัดอันดับโครงสร้างไม่ได้ถูกกำหนดโดยแท็ก HTML เท่านั้น แต่ยังกำหนดโดยขนาด/ความหนาของฟอนต์ที่มองเห็นได้ และความใกล้ชิดระหว่างการเรนเดอร์ด้วย
การใช้ NLP ในการค้นหา
เป็นเวลาหลายปีแล้วที่ Google ได้ฝึกฝนโมเดลภาษา เช่น BERT หรือ MUM เพื่อตีความข้อความ คำค้นหา และแม้แต่เนื้อหาวิดีโอและเสียงโมเดลเหล่านี้ได้รับการป้อนผ่านการประมวลผลภาษาธรรมชาติ
การค้นหาของ Google ส่วนใหญ่ใช้การประมวลผลภาษาธรรมชาติในพื้นที่ต่อไปนี้:
- การตีความคำค้นหา
- การจำแนกหัวเรื่องและวัตถุประสงค์ของเอกสาร
- การวิเคราะห์เอนทิตีในเอกสาร คำค้นหา และโพสต์บนโซเชียลมีเดีย
- สำหรับการสร้างตัวอย่างข้อมูลและคำตอบในการค้นหาด้วยเสียง
- การตีความเนื้อหาวิดีโอและเสียง
- การขยายและปรับปรุงกราฟความรู้
Google เน้นย้ำถึงความสำคัญของการทำความเข้าใจภาษาธรรมชาติในการค้นหา เมื่อพวกเขาเผยแพร่การอัปเดต BERT ในเดือนตุลาคม 2019
“แก่นแท้ของการค้นหานั้นเกี่ยวกับการทำความเข้าใจภาษา เป็นหน้าที่ของเราที่จะค้นหาสิ่งที่คุณกำลังค้นหาและแสดงข้อมูลที่เป็นประโยชน์จากเว็บ ไม่ว่าคุณจะสะกดคำหรือรวมคำในข้อความค้นหาของคุณอย่างไร แม้ว่าเราจะปรับปรุงความสามารถในการเข้าใจภาษาของเราอย่างต่อเนื่องในช่วงหลายปีที่ผ่านมา แต่บางครั้งเรายังทำไม่ถูกต้อง โดยเฉพาะอย่างยิ่งกับคำถามที่ซับซ้อนหรือเชิงสนทนา อันที่จริงแล้ว นั่นเป็นหนึ่งในเหตุผลที่ผู้คนมักใช้ “คีย์เวิร์ด-อีส” พิมพ์สตริงของคำที่พวกเขาคิดว่าเราจะเข้าใจ แต่จริงๆ แล้วไม่ใช่วิธีที่พวกเขาจะถามคำถามโดยธรรมชาติ”
BERT & MUM: NLP สำหรับตีความคำค้นหาและเอกสาร
BERT ถือเป็นความก้าวหน้าที่สำคัญที่สุดในการค้นหาของ Google ในรอบหลายปีหลังจาก RankBrainโดยอิงจาก NLP การอัปเดตนี้ได้รับการออกแบบมาเพื่อปรับปรุงการตีความคำค้นหา และในขั้นต้นส่งผลกระทบ 10% ของคำค้นหาทั้งหมด
BERT ไม่ได้มีบทบาทเฉพาะในการตีความข้อความค้นหาเท่านั้น แต่ยังรวมถึงการจัดอันดับและรวบรวมตัวอย่างข้อมูลสำคัญ ตลอดจนการตีความแบบสอบถามข้อความในเอกสาร
“ด้วยการใช้แบบจำลอง BERT กับทั้งการจัดอันดับและตัวอย่างข้อมูลเด่นใน Search ทำให้เราสามารถช่วยคุณค้นหาข้อมูลที่เป็นประโยชน์ได้ดีขึ้นมาก ที่จริงแล้ว เมื่อพูดถึงผลการจัดอันดับ BERT จะช่วยให้ Search เข้าใจการค้นหา 1 ใน 10 ในสหรัฐอเมริกาเป็นภาษาอังกฤษได้ดีขึ้น และเราจะนำสิ่งนี้ไปสู่ภาษาและสถานที่อื่นๆ เมื่อเวลาผ่านไป”
การเปิดตัวการอัปเดต MUM ได้รับการประกาศที่ Search On '21นอกจากนี้ MUM ยังใช้ NLP ได้หลายภาษา ตอบคำถามในการค้นหาที่ซับซ้อนด้วยข้อมูลหลายรูปแบบ และประมวลผลข้อมูลจากรูปแบบสื่อต่างๆนอกจากข้อความแล้ว MUM ยังเข้าใจไฟล์รูปภาพ วิดีโอ และไฟล์เสียงอีกด้วย
MUM ผสมผสานเทคโนโลยีหลายอย่างเข้าด้วยกันเพื่อทำให้การค้นหาของ Google มีความหมายและอิงตามบริบทมากยิ่งขึ้นเพื่อปรับปรุงประสบการณ์ของผู้ใช้
ด้วย MUM Google ต้องการตอบคำค้นหาที่ซับซ้อนในรูปแบบสื่อต่างๆ เพื่อเข้าร่วมกับผู้ใช้ตลอดเส้นทางของลูกค้า
ตามที่ใช้กับ BERT และ MUM NLP เป็นขั้นตอนสำคัญในการทำความเข้าใจความหมายที่ดีขึ้นและเป็นเสิร์ชเอ็นจิ้นที่เน้นผู้ใช้เป็นหลัก
การทำความเข้าใจคำค้นหาและเนื้อหาผ่านเอนทิตีทำให้การเปลี่ยนจาก "สตริง" เป็น "สิ่งของ"เป้าหมายของ Google คือการพัฒนาความเข้าใจในความหมายของคำค้นหาและเนื้อหา
โดยการระบุเอนทิตีในคำค้นหา ความหมายและความตั้งใจในการค้นหาจะชัดเจนขึ้นคำแต่ละคำของข้อความค้นหาไม่ได้แยกจากกันอีกต่อไปแต่จะพิจารณาในบริบทของคำค้นหาทั้งหมด
ความมหัศจรรย์ของการตีความข้อความค้นหาเกิดขึ้นในการประมวลผลคำค้นหาขั้นตอนต่อไปนี้มีความสำคัญที่นี่:
- การระบุ ontology เฉพาะเรื่องที่คำค้นหาตั้งอยู่หากบริบทของหัวข้อมีความชัดเจน Google สามารถเลือกคลังเนื้อหาของเอกสารข้อความ วิดีโอ และรูปภาพเป็นผลการค้นหาที่อาจเหมาะสมซึ่งเป็นเรื่องยากโดยเฉพาะอย่างยิ่งกับข้อความค้นหาที่คลุมเครือ
- การระบุเอนทิตีและความหมายในข้อความค้นหา (การรับรู้ชื่อเอนทิตี)
- การทำความเข้าใจความหมายเชิงความหมายของคำค้นหา
- การระบุเจตนาในการค้นหา
- คำอธิบายประกอบความหมายของคำค้นหา
- การปรับแต่งคำค้นหา
รับจดหมายข่าวรายวันที่นักการตลาดต้องพึ่งพา
NLP เป็นวิธีการที่สำคัญที่สุดสำหรับการขุดเอนทิตี
การประมวลผลภาษาธรรมชาติจะมีบทบาทสำคัญที่สุดสำหรับ Google ในการระบุเอนทิตีและความหมาย ทำให้สามารถดึงความรู้จากข้อมูลที่ไม่มีโครงสร้างได้
บนพื้นฐานนี้ ความสัมพันธ์ระหว่างเอนทิตีและกราฟความรู้สามารถสร้างขึ้นได้การติดแท็กคำพูดช่วยได้บางส่วนในเรื่องนี้
คำนามเป็นเอนทิตีที่มีศักยภาพและกริยามักแสดงถึงความสัมพันธ์ของเอนทิตีซึ่งกันและกันคำคุณศัพท์อธิบายเอนทิตีและคำวิเศษณ์อธิบายความสัมพันธ์
จนถึงตอนนี้ Google ได้ใช้ข้อมูลที่ไม่มีโครงสร้างเพียงเล็กน้อยในการป้อนกราฟความรู้
สามารถสันนิษฐานได้ว่า:
- เอนทิตีที่บันทึกไว้ในกราฟความรู้เป็นเพียงส่วนเล็กๆ ของภูเขาน้ำแข็งเท่านั้น
- Google ยังให้คลังความรู้อื่นด้วยข้อมูลเกี่ยวกับเอนทิตีหางยาว
NLP มีบทบาทสำคัญในการป้อนคลังความรู้นี้
Google นั้นค่อนข้างดีใน NLP แต่ยังไม่บรรลุผลที่น่าพอใจในการประเมินข้อมูลที่ดึงออกมาโดยอัตโนมัติเกี่ยวกับความถูกต้อง
การขุดข้อมูลสำหรับฐานข้อมูลความรู้เช่นกราฟความรู้จากข้อมูลที่ไม่มีโครงสร้างเช่นเว็บไซต์นั้นซับซ้อน
นอกจากความครบถ้วนของข้อมูลแล้ว ความถูกต้องเป็นสิ่งสำคัญปัจจุบัน Google รับประกันความสมบูรณ์ในวงกว้างผ่าน NLP แต่การพิสูจน์ความถูกต้องและความถูกต้องนั้นยาก
นี่อาจเป็นสาเหตุที่ Google ยังคงดำเนินการอย่างระมัดระวังเกี่ยวกับการวางตำแหน่งข้อมูลโดยตรงของเอนทิตีหางยาวใน SERP
ดัชนีตามเอนทิตีเทียบกับดัชนีตามเนื้อหาแบบคลาสสิก
การแนะนำการอัปเดต Hummingbird เป็นการปูทางสำหรับการค้นหาเชิงความหมายนอกจากนี้ยังนำกราฟความรู้ – และเอนทิตี – มาโฟกัสด้วย
กราฟความรู้คือดัชนีเอนทิตีของ Googleคุณลักษณะ เอกสาร และรูปภาพดิจิทัลทั้งหมด เช่น โปรไฟล์และโดเมน ได้รับการจัดระเบียบรอบๆ เอนทิตีในดัชนีตามเอนทิตี

ปัจจุบัน ใช้กราฟความรู้ควบคู่ไปกับดัชนี Google แบบคลาสสิกสำหรับการจัดอันดับ
สมมติว่า Google รับรู้ในคำค้นหาว่าเกี่ยวกับเอนทิตีที่บันทึกไว้ในกราฟความรู้ในกรณีนั้น ข้อมูลในดัชนีทั้งสองจะเข้าถึงได้ โดยที่เอนทิตีเป็นจุดสนใจ และข้อมูลและเอกสารทั้งหมดที่เกี่ยวข้องกับเอนทิตีจะถูกนำมาพิจารณาด้วย
จำเป็นต้องมีอินเทอร์เฟซหรือ API ระหว่างดัชนี Google แบบคลาสสิกและกราฟความรู้ หรือคลังความรู้ประเภทอื่น เพื่อแลกเปลี่ยนข้อมูลระหว่างดัชนีทั้งสอง
อินเทอร์เฟซเนื้อหาเอนทิตีนี้เกี่ยวกับการค้นหา:
- มีเอนทิตีในส่วนของเนื้อหาหรือไม่
- มีเอนทิตีหลักที่เนื้อหาเป็นเรื่องเกี่ยวกับหรือไม่
- ซึ่ง ontology หรือ ontology ที่เอนทิตีหลักสามารถกำหนดได้
- ผู้เขียนคนใดหรือหน่วยงานใดที่ได้รับมอบหมายเนื้อหา
- เอนทิตีในเนื้อหามีความสัมพันธ์กันอย่างไร
- คุณสมบัติหรือแอตทริบิวต์ใดที่จะกำหนดให้กับเอนทิตี
อาจมีลักษณะดังนี้:

เราเพิ่งเริ่มรู้สึกถึงผลกระทบของการค้นหาตามเอนทิตีใน SERP เนื่องจาก Google เข้าใจความหมายของแต่ละหน่วยงานได้ช้า
เอนทิตีเข้าใจจากบนลงล่างตามความเกี่ยวข้องทางสังคมสิ่งที่เกี่ยวข้องมากที่สุดจะถูกบันทึกไว้ใน Wikidata และ Wikipedia ตามลำดับ
งานใหญ่คือการระบุและตรวจสอบเอนทิตีหางยาวยังไม่ชัดเจนว่า Google ใช้เกณฑ์ใดในการรวมเอนทิตีในกราฟความรู้
ในแฮงเอาท์เว็บมาสเตอร์ของเยอรมันในเดือนมกราคม 2019 John Mueller ของ Google กล่าวว่าพวกเขากำลังหาวิธีที่ตรงไปตรงมามากขึ้นเพื่อสร้างเอนทิตีสำหรับทุกคน
“ฉันไม่คิดว่าเรามีคำตอบที่ชัดเจน ฉันคิดว่าเรามีอัลกอริธึมที่แตกต่างกันที่จะตรวจสอบบางอย่าง จากนั้นเราใช้เกณฑ์ที่แตกต่างกันเพื่อดึงสิ่งทั้งหมดเข้าด้วยกัน แยกมันออกจากกัน และรู้ว่าสิ่งใดเป็นเอนทิตีที่แยกจากกันจริงๆ ซึ่งเป็นเพียงตัวแปรหรือเอนทิตีที่แยกจากกันน้อยกว่า... แต่เท่าที่ไกล อย่างที่ฉันกังวล ฉันได้เห็นแล้วว่า นั่นคือสิ่งที่เรากำลังดำเนินการเพื่อขยายขอบเขตออกไปอีกเล็กน้อย และฉันคิดว่ามันจะช่วยให้แสดงข้อมูลในกราฟความรู้ได้ง่ายขึ้นด้วย แต่ฉันไม่รู้ว่าแผนคืออะไรกันแน่”
NLP มีบทบาทสำคัญในการขยายความท้าทายนี้
ตัวอย่างจากการสาธิต diffbot แสดงให้เห็นว่า NLP สามารถใช้สำหรับการขุดเอนทิตีและสร้างกราฟความรู้ได้ดีเพียงใด

NLP ในการค้นหาของ Google อยู่ที่นี่แล้ว
RankBrain ถูกนำมาใช้เพื่อตีความคำค้นหาและคำค้นหาผ่านการวิเคราะห์พื้นที่เวกเตอร์ที่ไม่เคยใช้วิธีนี้มาก่อน
BERT และ MUM ใช้การประมวลผลภาษาธรรมชาติในการตีความคำค้นหาและเอกสาร
นอกเหนือจากการตีความคำค้นหาและเนื้อหาแล้ว MUM และ BERT ยังเปิดประตูให้ฐานข้อมูลความรู้ เช่น กราฟความรู้เติบโตตามขนาด จึงเป็นการเพิ่มการค้นหาเชิงความหมายที่ Google
การพัฒนาใน Google Search ผ่านการอัปเดตหลักนั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับ MUM และ BERT และท้ายที่สุดคือ NLP และการค้นหาเชิงความหมาย
ในอนาคต เราจะเห็นผลการค้นหาของ Google ตามเอนทิตีมากขึ้นเรื่อยๆ แทนที่การจัดทำดัชนีและการจัดอันดับตามวลีแบบคลาสสิก
ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น Search Engine Landผู้เขียนพนักงานอยู่ที่นี่