Sitemap

كيف تستخدم Google البرمجة اللغوية العصبية لفهم استعلامات البحث والمحتوى بشكل أفضل

فتحت معالجة اللغة الطبيعية الباب للبحث الدلالي على Google.

تحتاج مُحسّنات محرّكات البحث إلى فهم التبديل إلى البحث المستند إلى الكيان لأن هذا هو مستقبل بحث Google.

في هذه المقالة ، سنتعمق في معالجة اللغة الطبيعية وكيف تستخدمها Google لتفسير استعلامات البحث والمحتوى ، واستخراج الكيانات ، والمزيد.

ما هي معالجة اللغة الطبيعية؟

تتيح معالجة اللغة الطبيعية ، أو NLP ، فهم معنى الكلمات والجمل والنصوص لتوليد معلومات أو معرفة أو نص جديد.

وهو يتألف من فهم اللغة الطبيعية (NLU) - الذي يسمح بالتفسير الدلالي للنص واللغة الطبيعية - وتوليد اللغة الطبيعية (NLG).

يمكن استخدام البرمجة اللغوية العصبية في:

  • التعرف على الكلام (تحويل النص إلى كلام والكلام إلى نص).
  • تجزئة الكلام الذي تم التقاطه مسبقًا إلى كلمات وجمل وعبارات فردية.
  • التعرف على الأشكال الأساسية للكلمات واكتساب المعلومات النحوية.
  • التعرف على وظائف الكلمات الفردية في الجملة (الفاعل ، والفعل ، والموضوع ، والمقالة ، وما إلى ذلك)
  • استخراج معنى الجمل وأجزاء من الجمل أو العبارات ، مثل عبارات الصفات (على سبيل المثال ، "طويل جدًا") ، أو عبارات الجر (على سبيل المثال ، "إلى النهر") ، أو العبارات الاسمية (على سبيل المثال ، "الطرف الطويل").
  • التعرف على سياقات الجملة وعلاقات الجملة والكيانات.
  • تحليل النص اللغوي وتحليل المشاعر والترجمات (بما في ذلك تلك الخاصة بالمساعدين الصوتيين) وروبوتات المحادثة وأنظمة الأسئلة والأجوبة الأساسية.

فيما يلي المكونات الأساسية في البرمجة اللغوية العصبية:

نظرة على واجهة برمجة تطبيقات معالجة اللغة الطبيعية من Google
  • الترميز: يقسم الجملة إلى مصطلحات مختلفة.
  • تصنيف نوع الكلمة: لتصنيف الكلمات حسب الكائن ، والموضوع ، والمسند ، والصفة ، وما إلى ذلك.
  • تبعيات الكلمات: يحدد العلاقات بين الكلمات بناءً على قواعد القواعد.
  • Lemmatization: تحديد ما إذا كانت الكلمة لها أشكال مختلفة وتطبيع الاختلافات في الشكل الأساسي.على سبيل المثال ، الشكل الأساسي لكلمة "سيارات" هو "سيارة".
  • تحليل التسميات: تسميات الكلمات بناءً على العلاقة بين كلمتين متصلتين بواسطة تبعية.
  • تحليل الكيان المحدد واستخراجه: يحدد الكلمات ذات المعنى "المعروف" ويخصصها لفئات من أنواع الكيانات.بشكل عام ، الكيانات المسماة هي المنظمات والأشخاص والمنتجات والأماكن والأشياء (الأسماء). في الجملة ، يجب تحديد الموضوعات والأشياء ككيانات.
تحليل الكيان باستخدام Google Natural Processing API.
  • تسجيل النقاط البارزة: يحدد مدى قوة ارتباط النص بالموضوع.يتم تحديد البروز بشكل عام من خلال الاقتباس المشترك للكلمات على الويب والعلاقات بين الكيانات في قواعد البيانات مثل Wikipedia و Freebase.يعرف كبار المسئولين الاقتصاديين ذوي الخبرة طريقة مماثلة من تحليل TF-IDF.
  • تحليل المشاعر: يحدد الرأي (الرأي أو الموقف) المعبر عنه في نص حول الكيانات أو الموضوعات.
  • تصنيف النص: على المستوى الكلي ، يصنف البرمجة اللغوية العصبية النص إلى فئات محتوى.يساعد تصنيف النص في تحديد موضوع النص بشكل عام.
  • تصنيف ووظيفة النص: يمكن أن يذهب البرمجة اللغوية العصبية إلى أبعد من ذلك ويحدد الوظيفة أو الغرض المقصود من المحتوى.من المثير جدًا مطابقة هدف البحث مع مستند.
  • استخراج نوع المحتوى: استنادًا إلى السياق أو الأنماط الهيكلية ، يمكن لمحرك البحث تحديد نوع محتوى النص بدون بيانات منظمة.يمكن أن يحدد HTML ، والتنسيق ، ونوع البيانات (التاريخ ، والموقع ، وعنوان URL ، وما إلى ذلك) الخاصة بالنص ما إذا كانت وصفة أو منتجًا أو حدثًا أو نوع محتوى آخر دون استخدام الترميز.
  • تحديد المعنى الضمني بناءً على البنية: يمكن أن يغير تنسيق النص معناه الضمني.تنقل العناوين وفواصل الأسطر والقوائم والقرب فهماً ثانوياً للنص.على سبيل المثال ، عندما يتم عرض النص في قائمة مرتبة بتنسيق HTML أو في سلسلة من العناوين مع أرقام أمامها ، فمن المحتمل أن تكون قائمة أو ترتيبًا.يتم تعريف البنية ليس فقط من خلال علامات HTML ولكن أيضًا من خلال حجم / سمك الخط المرئي والقرب أثناء العرض.

استخدام البرمجة اللغوية العصبية في البحث

لسنوات ، دربت Google نماذج لغوية مثل BERT أو MUM لتفسير النص واستعلامات البحث وحتى محتوى الفيديو والصوت.يتم تغذية هذه النماذج من خلال معالجة اللغة الطبيعية.

يستخدم بحث Google بشكل أساسي معالجة اللغة الطبيعية في المجالات التالية:

  • تفسير استفسارات البحث.
  • تصنيف الموضوع والغرض من الوثائق.
  • تحليل الكيان في المستندات واستعلامات البحث ومنشورات وسائل التواصل الاجتماعي.
  • لتوليد مقتطفات وإجابات مميزة في البحث الصوتي.
  • تفسير محتوى الفيديو والصوت.
  • توسيع وتحسين الرسم البياني للمعرفة.

سلطت Google الضوء على أهمية فهم اللغة الطبيعية في البحث عندما أصدرت تحديث BERT في أكتوبر 2019.

"البحث في جوهره يدور حول فهم اللغة. تتمثل مهمتنا في معرفة ما تبحث عنه وعرض معلومات مفيدة من الويب ، بغض النظر عن كيفية تهجئة الكلمات أو دمجها في طلب البحث. بينما واصلنا تحسين قدراتنا على فهم اللغة على مر السنين ، إلا أننا في بعض الأحيان ما زلنا لا نفهمها بشكل صحيح ، لا سيما مع الاستعلامات المعقدة أو التحادثية. في الواقع ، هذا هو أحد الأسباب التي تجعل الأشخاص يستخدمون "الكلمات الرئيسية" ، في كتابة سلاسل من الكلمات التي يعتقدون أننا سنفهمها ، ولكنهم في الواقع لا يطرحون سؤالاً بشكل طبيعي ".

BERT & MUM: البرمجة اللغوية العصبية لتفسير استعلامات البحث والمستندات

يُقال إن BERT هو أهم تقدم في بحث Google في عدة سنوات بعد RankBrain.استنادًا إلى البرمجة اللغوية العصبية ، تم تصميم التحديث لتحسين تفسير استعلام البحث وأثر في البداية على 10٪ من جميع استعلامات البحث.

يلعب BERT دورًا ليس فقط في تفسير الاستعلام ولكن أيضًا في ترتيب وتجميع المقتطفات المميزة ، بالإضافة إلى تفسير الاستبيانات النصية في المستندات.

"حسنًا ، من خلال تطبيق نماذج BERT على كل من الترتيب والمقتطفات المميزة في البحث ، يمكننا القيام بعمل أفضل بكثير لمساعدتك في العثور على معلومات مفيدة. في الواقع ، عندما يتعلق الأمر بترتيب النتائج ، ستساعد BERT "البحث" في فهم واحدة من كل 10 عمليات بحث في الولايات المتحدة باللغة الإنجليزية بشكل أفضل ، وسننقل هذا إلى المزيد من اللغات والمناطق المحلية بمرور الوقت ".

تم الإعلان عن طرح تحديث MUM في Search On '21.استنادًا أيضًا إلى NLP ، تعد MUM متعددة اللغات ، وتجيب على استعلامات البحث المعقدة ببيانات متعددة الوسائط ، وتعالج المعلومات من تنسيقات وسائط مختلفة.بالإضافة إلى النص ، تفهم MUM أيضًا ملفات الصور والفيديو والصوت.

تجمع MUM بين العديد من التقنيات لجعل عمليات بحث Google أكثر دلاليًا واستنادًا إلى السياق لتحسين تجربة المستخدم.

مع MUM ، تريد Google الإجابة على استعلامات البحث المعقدة بتنسيقات وسائط مختلفة للانضمام إلى المستخدم طوال رحلة العميل.

كما هو مستخدم في BERT و MUM ، يعد البرمجة اللغوية العصبية خطوة أساسية لفهم دلالي أفضل ومحرك بحث أكثر تركيزًا على المستخدم.

يمثل فهم استعلامات البحث والمحتوى عبر الكيانات علامة على التحول من "السلاسل" إلى "الأشياء".تهدف Google إلى تطوير فهم دلالي لاستعلامات البحث والمحتوى.

من خلال تحديد الكيانات في استعلامات البحث ، يصبح المعنى والغرض من البحث أكثر وضوحًا.لم تعد الكلمات الفردية لمصطلح البحث قائمة بذاتها ولكن يتم أخذها في الاعتبار في سياق استعلام البحث بأكمله.

سحر تفسير مصطلحات البحث يحدث في معالجة الاستعلام.الخطوات التالية مهمة هنا:

  • تحديد الأنطولوجيا الموضوعية التي يوجد بها استعلام البحث.إذا كان السياق الموضوعي واضحًا ، يمكن لـ Google تحديد مجموعة محتوى من المستندات النصية ومقاطع الفيديو والصور باعتبارها نتائج بحث مناسبة محتملة.هذا صعب بشكل خاص مع مصطلحات البحث الغامضة.
  • تحديد الكيانات ومعناها في مصطلح البحث (التعرف على الكيانات المسماة).
  • فهم المعنى الدلالي لاستعلام البحث.
  • تحديد القصد من البحث.
  • الشرح الدلالي لاستعلام البحث.
  • تنقية مصطلح البحث.

احصل على النشرة الإخبارية اليومية التي يعتمد عليها المسوقون.

البرمجة اللغوية العصبية هي المنهجية الأكثر أهمية لتعدين الكيانات

ستلعب معالجة اللغة الطبيعية الدور الأكثر أهمية بالنسبة لـ Google في تحديد الكيانات ومعانيها ، مما يجعل من الممكن استخراج المعرفة من البيانات غير المنظمة.

على هذا الأساس ، يمكن بعد ذلك إنشاء العلاقات بين الكيانات والرسم البياني المعرفي.يساعد وضع علامات على الكلام جزئيًا في ذلك.

الأسماء هي كيانات محتملة ، وغالبًا ما تمثل الأفعال علاقة الكيانات ببعضها البعض.الصفات تصف الكيان والظروف تصف العلاقة.

لم تستخدم Google حتى الآن سوى الحد الأدنى من المعلومات غير المنظمة لتغذية الرسم البياني المعرفي.

يمكن افتراض ما يلي:

  • الكيانات المسجلة حتى الآن في الرسم البياني للمعرفة ليست سوى غيض من فيض.
  • تقوم Google أيضًا بتغذية مستودع آخر للمعرفة بمعلومات عن الكيانات ذات الذيل الطويل.

تلعب البرمجة اللغوية العصبية (NLP) دورًا مركزيًا في تغذية مستودع المعرفة هذا.

تعد Google بالفعل جيدة جدًا في البرمجة اللغوية العصبية ولكنها لم تحقق نتائج مرضية في تقييم المعلومات المستخرجة تلقائيًا فيما يتعلق بالدقة.

يعد استخراج البيانات لقاعدة بيانات المعرفة مثل الرسم البياني المعرفي من البيانات غير المهيكلة مثل مواقع الويب أمرًا معقدًا.

بالإضافة إلى اكتمال المعلومات ، فإن صحتها ضرورية.في الوقت الحاضر ، تضمن Google الاكتمال على نطاق واسع من خلال البرمجة اللغوية العصبية ، ولكن إثبات الصحة والدقة أمر صعب.

ربما هذا هو السبب في أن Google لا تزال تتصرف بحذر فيما يتعلق بتحديد المواقع المباشر للمعلومات عن الكيانات ذات الذيل الطويل في SERPs.

الفهرس المستند إلى الكيان مقابل الفهرس الكلاسيكي المستند إلى المحتوى

مهد إدخال تحديث الطائر الطنان الطريق للبحث الدلالي.كما أنها سلطت الضوء على الرسم البياني المعرفي - وبالتالي الكيانات -.

الرسم البياني المعرفي هو فهرس كيانات Google.يتم تنظيم جميع السمات والمستندات والصور الرقمية مثل الملفات الشخصية والمجالات حول الكيان في فهرس قائم على الكيان.

يُستخدم الرسم البياني المعرفي حاليًا بالتوازي مع مؤشر Google الكلاسيكي للترتيب.

لنفترض أن Google تعرف في طلب البحث على أنه يتعلق بكيان مسجل في الرسم البياني المعرفي.في هذه الحالة ، يتم الوصول إلى المعلومات الموجودة في كلا الفهرين ، مع كون الكيان هو محور التركيز ، كما يتم أخذ جميع المعلومات والوثائق المتعلقة بالكيان في الاعتبار.

يلزم وجود واجهة أو واجهة برمجة تطبيقات بين فهرس Google الكلاسيكي والرسم البياني المعرفي ، أو نوع آخر من مستودع المعرفة ، لتبادل المعلومات بين المؤشرين.

تدور واجهة محتوى الكيان هذه حول اكتشاف:

  • ما إذا كانت هناك كيانات في جزء من المحتوى.
  • ما إذا كان هناك كيان رئيسي يتعلق بالمحتوى.
  • ما هي الأنطولوجيا أو الأنطولوجيا التي يمكن تعيين الكيان الرئيسي لها.
  • أي المؤلف أو الكيان الذي تم تعيين المحتوى.
  • كيف ترتبط الكيانات في المحتوى ببعضها البعض.
  • الخصائص أو السمات التي سيتم تخصيصها للكيانات.

يمكن أن يبدو كالتالي:

لقد بدأنا للتو في الشعور بتأثير البحث المستند إلى الكيانات في SERPs نظرًا لأن Google بطيئة في فهم معنى الكيانات الفردية.

يتم فهم الكيانات من أعلى إلى أسفل حسب الأهمية الاجتماعية.يتم تسجيل أكثرها صلة في ويكي بيانات ويكيبيديا ، على التوالي.

ستكون المهمة الكبيرة هي تحديد الكيانات طويلة الذيل والتحقق منها.من غير الواضح أيضًا المعايير التي تتحقق منها Google لتضمين كيان في الرسم البياني المعرفي.

في جلسة Hangout الألمانية لمشرفي المواقع في كانون الثاني (يناير) 2019 ، قال جون مولر من Google إنهم يعملون على طريقة أكثر وضوحًا لإنشاء كيانات للجميع.

"لا أعتقد أن لدينا إجابة واضحة. أعتقد أن لدينا خوارزميات مختلفة تتحقق من شيء من هذا القبيل ثم نستخدم معايير مختلفة لتجميع كل شيء معًا ، وتفكيكه والتعرف على الأشياء التي هي بالفعل كيانات منفصلة ، والتي هي مجرد متغيرات أو كيانات أقل منفصلة ... ولكن بقدر ما نظرًا لأنني رأيت ذلك ، فهذا شيء نعمل عليه لتوسيع ذلك قليلاً وأتصور أنه سيجعل من السهل الظهور في الرسم البياني المعرفي أيضًا. لكني لا أعرف ما هي الخطط بالضبط ".

تلعب البرمجة اللغوية العصبية دورًا حيويًا في رفع مستوى هذا التحدي.

توضح الأمثلة من العرض التوضيحي لـ diffbot مدى جودة استخدام البرمجة اللغوية العصبية لتعدين الكيانات وإنشاء رسم بياني معرفي.

البرمجة اللغوية العصبية في بحث Google موجودة لتبقى

تم تقديم RankBrain لتفسير استعلامات البحث والمصطلحات عبر تحليل مساحة المتجه التي لم يتم استخدامها من قبل بهذه الطريقة.

يستخدم BERT و MUM معالجة اللغة الطبيعية لتفسير استعلامات البحث والمستندات.

بالإضافة إلى تفسير استعلامات البحث والمحتوى ، فتحت MUM و BERT الباب للسماح لقاعدة بيانات المعرفة مثل الرسم البياني المعرفي بالنمو على نطاق واسع ، وبالتالي تطوير البحث الدلالي في Google.

ترتبط التطورات في بحث Google من خلال التحديثات الأساسية ارتباطًا وثيقًا أيضًا بـ MUM و BERT ، وفي النهاية ، البرمجة اللغوية العصبية والبحث الدلالي.

في المستقبل ، سنرى المزيد والمزيد من نتائج بحث Google المستندة إلى الكيانات لتحل محل الفهرسة والترتيب المعتمد على العبارات الكلاسيكية.

الآراء الواردة في هذا المقال هي آراء المؤلف الضيف وليست بالضرورة آراء محرك البحث.مؤلفو طاقم العمل مدرجون هنا.