Sitemap

Cara Google menggunakan NLP untuk lebih memahami pertanyaan carian, kandungan

Pemprosesan bahasa semula jadi membuka pintu untuk carian semantik di Google.

SEO perlu memahami peralihan kepada carian berasaskan entiti kerana ini adalah masa depan carian Google.

Dalam artikel ini, kita akan mendalami pemprosesan bahasa semula jadi dan cara Google menggunakannya untuk mentafsir pertanyaan carian dan kandungan, perlombongan entiti dan banyak lagi.

Apakah pemprosesan bahasa semula jadi?

Pemprosesan bahasa semulajadi, atau NLP, membolehkan anda memahami maksud perkataan, ayat dan teks untuk menjana maklumat, pengetahuan atau teks baharu.

Ia terdiri daripada pemahaman bahasa semula jadi (NLU) - yang membolehkan tafsiran semantik teks dan bahasa semula jadi - dan penjanaan bahasa semula jadi (NLG).

NLP boleh digunakan untuk:

  • Pengecaman pertuturan (teks ke ucapan dan ucapan ke teks).
  • Membahagikan ucapan yang ditangkap sebelum ini kepada perkataan, ayat dan frasa individu.
  • Mengenal bentuk asas perkataan dan pemerolehan maklumat tatabahasa.
  • Mengecam fungsi perkataan individu dalam ayat (subjek, kata kerja, objek, artikel, dll.)
  • Mengekstrak maksud ayat dan bahagian ayat atau frasa, seperti frasa adjektif (cth., "terlalu panjang"), frasa preposisi (cth., "ke sungai"), atau frasa nominal (cth., "the long party").
  • Mengenal konteks ayat, hubungan ayat dan entiti.
  • Analisis teks linguistik, analisis sentimen, terjemahan (termasuk untuk pembantu suara), chatbots dan sistem soal jawab yang mendasari.

Berikut adalah komponen teras NLP:

Semakan ke dalam API Pemprosesan Bahasa Semulajadi Google
  • Tokenisasi: Membahagikan ayat kepada istilah yang berbeza.
  • Pelabelan jenis perkataan: Mengelaskan perkataan mengikut objek, subjek, predikat, kata sifat, dsb.
  • Kebergantungan perkataan: Mengenal pasti hubungan antara perkataan berdasarkan peraturan tatabahasa.
  • Lemmatisasi: Menentukan sama ada perkataan mempunyai bentuk yang berbeza dan menormalkan variasi kepada bentuk asas.Sebagai contoh, bentuk asas "kereta" ialah "kereta."
  • Menghuraikan label: Melabelkan perkataan berdasarkan hubungan antara dua perkataan yang disambungkan oleh kebergantungan.
  • Analisis dan pengekstrakan entiti bernama: Mengenal pasti perkataan dengan makna "diketahui" dan memberikannya kepada kelas jenis entiti.Secara umum, entiti yang dinamakan ialah organisasi, orang, produk, tempat dan benda (kata nama). Dalam ayat, subjek dan objek perlu dikenal pasti sebagai entiti.
Analisis entiti menggunakan API Pemprosesan Semulajadi Google.
  • Pemarkahan salience: Menentukan seberapa intensif teks disambungkan dengan topik.Kepentingan biasanya ditentukan oleh petikan bersama perkataan di web dan hubungan antara entiti dalam pangkalan data seperti Wikipedia dan Freebase.SEO yang berpengalaman mengetahui kaedah yang sama daripada analisis TF-IDF.
  • Analisis sentimen: Mengenal pasti pendapat (pandangan atau sikap) yang dinyatakan dalam teks tentang entiti atau topik.
  • Pengkategorian teks: Pada peringkat makro, NLP mengklasifikasikan teks ke dalam kategori kandungan.Pengkategorian teks membantu untuk menentukan secara umum tentang maksud teks itu.
  • Klasifikasi dan fungsi teks: NLP boleh pergi lebih jauh dan menentukan fungsi atau tujuan kandungan yang dimaksudkan.Ini sangat menarik untuk memadankan niat carian dengan dokumen.
  • Pengekstrakan jenis kandungan: Berdasarkan corak atau konteks struktur, enjin carian boleh menentukan jenis kandungan teks tanpa data berstruktur.HTML teks, pemformatan dan jenis data (tarikh, lokasi, URL, dll.) boleh mengenal pasti sama ada ia adalah resipi, produk, acara atau jenis kandungan lain tanpa menggunakan penanda.
  • Kenal pasti makna tersirat berdasarkan struktur: Pemformatan teks boleh mengubah makna tersiratnya.Tajuk, pemisah baris, senarai dan kedekatan menyampaikan pemahaman sekunder terhadap teks.Sebagai contoh, apabila teks dipaparkan dalam senarai yang diisih HTML atau satu siri tajuk dengan nombor di hadapannya, ia berkemungkinan menjadi senarai atau kedudukan.Struktur ditakrifkan bukan sahaja oleh teg HTML tetapi juga oleh saiz/ketebalan fon visual dan kedekatan semasa pemaparan.

Penggunaan NLP dalam carian

Selama bertahun-tahun, Google telah melatih model bahasa seperti BERT atau MUM untuk mentafsir teks, pertanyaan carian dan juga kandungan video dan audio.Model ini diberi makan melalui pemprosesan bahasa semula jadi.

Carian Google terutamanya menggunakan pemprosesan bahasa semula jadi dalam bidang berikut:

  • Tafsiran pertanyaan carian.
  • Klasifikasi subjek dan tujuan dokumen.
  • Analisis entiti dalam dokumen, pertanyaan carian dan siaran media sosial.
  • Untuk menjana coretan dan jawapan yang ditampilkan dalam carian suara.
  • Tafsiran kandungan video dan audio.
  • Peluasan dan peningkatan Graf Pengetahuan.

Google menyerlahkan kepentingan memahami bahasa semula jadi dalam carian apabila mereka mengeluarkan kemas kini BERT pada Oktober 2019.

“Pada terasnya, Carian adalah tentang memahami bahasa. Tugas kami untuk mengetahui perkara yang anda cari dan memaparkan maklumat berguna daripada web, tidak kira cara anda mengeja atau menggabungkan perkataan dalam pertanyaan anda. Walaupun kami terus meningkatkan keupayaan pemahaman bahasa kami selama ini, kadangkala kami masih tidak memahaminya dengan betul, terutamanya dengan pertanyaan rumit atau perbualan. Malah, itulah salah satu sebab mengapa orang sering menggunakan "kata kunci-ese", menaip rentetan perkataan yang mereka fikir akan kita fahami, tetapi sebenarnya bukan cara mereka bertanya soalan secara semula jadi."

BERT & MUM: NLP untuk mentafsir pertanyaan carian dan dokumen

BERT dikatakan sebagai kemajuan paling kritikal dalam carian Google dalam beberapa tahun selepas RankBrain.Berdasarkan NLP, kemas kini telah direka untuk meningkatkan tafsiran pertanyaan carian dan pada mulanya memberi kesan kepada 10% daripada semua pertanyaan carian.

BERT memainkan peranan bukan sahaja dalam tafsiran pertanyaan tetapi juga dalam penarafan dan penyusunan coretan yang ditampilkan, serta mentafsir soal selidik teks dalam dokumen.

“Nah, dengan menggunakan model BERT pada kedua-dua kedudukan dan coretan yang ditampilkan dalam Carian, kami dapat melakukan kerja yang lebih baik untuk membantu anda mencari maklumat yang berguna. Malah, apabila ia berkaitan dengan keputusan kedudukan, BERT akan membantu Carian memahami dengan lebih baik satu daripada 10 carian di A.S. dalam bahasa Inggeris, dan kami akan membawa ini ke lebih banyak bahasa dan tempat dari masa ke masa."

Pelancaran kemas kini MUM telah diumumkan pada Search On '21.Juga berdasarkan NLP, MUM adalah berbilang bahasa, menjawab pertanyaan carian yang kompleks dengan data berbilang mod dan memproses maklumat daripada format media yang berbeza.Selain teks, MUM juga memahami fail imej, video dan audio.

MUM menggabungkan beberapa teknologi untuk menjadikan carian Google lebih semantik dan berasaskan konteks untuk meningkatkan pengalaman pengguna.

Dengan MUM, Google mahu menjawab pertanyaan carian yang kompleks dalam format media yang berbeza untuk menyertai pengguna sepanjang perjalanan pelanggan.

Seperti yang digunakan untuk BERT dan MUM, NLP ialah langkah penting kepada pemahaman semantik yang lebih baik dan enjin carian yang lebih mengutamakan pengguna.

Memahami pertanyaan carian dan kandungan melalui entiti menandakan peralihan daripada "rentetan" kepada "benda".Matlamat Google adalah untuk membangunkan pemahaman semantik tentang pertanyaan carian dan kandungan.

Dengan mengenal pasti entiti dalam pertanyaan carian, maksud dan niat carian menjadi lebih jelas.Perkataan individu bagi istilah carian tidak lagi berdiri sendiri tetapi dipertimbangkan dalam konteks keseluruhan pertanyaan carian.

Keajaiban mentafsir istilah carian berlaku dalam pemprosesan pertanyaan.Langkah-langkah berikut adalah penting di sini:

  • Mengenal pasti ontologi tematik di mana pertanyaan carian terletak.Jika konteks tematik jelas, Google boleh memilih korpus kandungan dokumen teks, video dan imej sebagai hasil carian yang berpotensi sesuai.Ini amat sukar dengan istilah carian yang tidak jelas.
  • Mengenal pasti entiti dan maksudnya dalam istilah carian (pengiktirafan entiti dinamakan).
  • Memahami maksud semantik pertanyaan carian.
  • Mengenal pasti niat carian.
  • Anotasi semantik pertanyaan carian.
  • Memperhalusi istilah carian.

Dapatkan surat berita harian yang boleh dipercayai oleh pemasar carian.

NLP ialah metodologi yang paling penting untuk perlombongan entiti

Pemprosesan bahasa semula jadi akan memainkan peranan paling penting untuk Google dalam mengenal pasti entiti dan maknanya, membolehkan anda mengekstrak pengetahuan daripada data tidak berstruktur.

Atas dasar ini, hubungan antara entiti dan Graf Pengetahuan kemudiannya boleh dibuat.Tanda pertuturan sebahagiannya membantu dengan ini.

Kata nama ialah entiti yang berpotensi, dan kata kerja sering mewakili hubungan entiti antara satu sama lain.Kata adjektif menerangkan entiti, dan kata adverba menerangkan hubungan.

Google setakat ini hanya menggunakan minima maklumat tidak berstruktur untuk menyuapkan Graf Pengetahuan.

Ia boleh diandaikan bahawa:

  • Entiti yang direkodkan setakat ini dalam Graf Pengetahuan hanyalah puncak gunung ais.
  • Google juga memberikan satu lagi repositori pengetahuan dengan maklumat tentang entiti ekor panjang.

NLP memainkan peranan penting dalam membekalkan repositori pengetahuan ini.

Google sudah cukup baik dalam NLP tetapi belum mencapai keputusan yang memuaskan dalam menilai maklumat yang diekstrak secara automatik mengenai ketepatan.

Perlombongan data untuk pangkalan data pengetahuan seperti Graf Pengetahuan daripada data tidak berstruktur seperti tapak web adalah kompleks.

Selain kelengkapan maklumat, ketepatan adalah penting.Pada masa kini, Google menjamin kesempurnaan pada skala melalui NLP, tetapi membuktikan ketepatan dan ketepatan adalah sukar.

Ini mungkin sebab Google masih bertindak berhati-hati mengenai kedudukan langsung maklumat mengenai entiti ekor panjang dalam SERP.

Indeks berasaskan entiti berbanding indeks berasaskan kandungan klasik

Pengenalan kemas kini Hummingbird membuka jalan untuk carian semantik.Ia juga membawa Graf Pengetahuan - dan dengan itu, entiti - menjadi tumpuan.

Graf Pengetahuan ialah indeks entiti Google.Semua atribut, dokumen dan imej digital seperti profil dan domain disusun di sekeliling entiti dalam indeks berasaskan entiti.

Graf Pengetahuan pada masa ini digunakan selari dengan Indeks Google klasik untuk kedudukan.

Katakan Google mengiktiraf dalam pertanyaan carian bahawa ia adalah mengenai entiti yang direkodkan dalam Graf Pengetahuan.Dalam kes itu, maklumat dalam kedua-dua indeks diakses, dengan entiti menjadi tumpuan dan semua maklumat dan dokumen yang berkaitan dengan entiti juga diambil kira.

Antara muka atau API diperlukan antara Indeks Google klasik dan Graf Pengetahuan, atau jenis repositori pengetahuan lain, untuk bertukar maklumat antara kedua-dua indeks.

Antara muka kandungan entiti ini adalah tentang mengetahui:

  • Sama ada terdapat entiti dalam sekeping kandungan.
  • Sama ada terdapat entiti utama tentang kandungan tersebut.
  • Ontologi atau ontologi yang mana entiti utama boleh ditugaskan.
  • Pengarang atau entiti mana kandungan yang diberikan.
  • Bagaimana entiti dalam kandungan berkaitan antara satu sama lain.
  • Sifat atau atribut mana yang akan diberikan kepada entiti.

Ia boleh kelihatan seperti ini:

Kami baru mula merasakan kesan carian berasaskan entiti dalam SERP kerana Google lambat memahami maksud entiti individu.

Entiti difahami dari atas ke bawah oleh perkaitan sosial.Yang paling relevan direkodkan dalam Wikidata dan Wikipedia, masing-masing.

Tugas besar adalah untuk mengenal pasti dan mengesahkan entiti ekor panjang.Kriteria yang Google semak juga tidak jelas untuk memasukkan entiti dalam Graf Pengetahuan.

Dalam Hangout Juruweb Jerman pada Januari 2019, John Mueller dari Google berkata mereka sedang berusaha dengan cara yang lebih mudah untuk mencipta entiti untuk semua orang.

“Saya tidak fikir kita mempunyai jawapan yang jelas. Saya rasa kami mempunyai algoritma berbeza yang menyemak sesuatu seperti itu dan kemudian kami menggunakan kriteria yang berbeza untuk menyatukan keseluruhannya, memisahkannya dan mengenali perkara yang benar-benar entiti berasingan, yang hanya varian atau entiti yang kurang berasingan... Tetapi sejauh ini kerana saya bimbang saya telah melihatnya, itu adalah sesuatu yang kami sedang berusaha untuk mengembangkannya sedikit dan saya bayangkan ia akan memudahkan untuk dipaparkan dalam Graf Pengetahuan juga. Tetapi saya tidak tahu apa sebenarnya rancangan itu."

NLP memainkan peranan penting dalam meningkatkan cabaran ini.

Contoh daripada demo diffbot menunjukkan sejauh mana NLP boleh digunakan untuk perlombongan entiti dan membina Graf Pengetahuan.

NLP dalam carian Google ada di sini untuk kekal

RankBrain diperkenalkan untuk mentafsir pertanyaan carian dan istilah melalui analisis ruang vektor yang sebelum ini tidak digunakan dengan cara ini.

BERT dan MUM menggunakan pemprosesan bahasa semula jadi untuk mentafsir pertanyaan carian dan dokumen.

Sebagai tambahan kepada tafsiran pertanyaan dan kandungan carian, MUM dan BERT membuka pintu untuk membenarkan pangkalan data pengetahuan seperti Graf Pengetahuan berkembang pada skala, sekali gus memajukan carian semantik di Google.

Perkembangan dalam Carian Google melalui kemas kini teras juga berkait rapat dengan MUM dan BERT, dan akhirnya, NLP dan carian semantik.

Pada masa hadapan, kami akan melihat lebih banyak hasil carian Google berasaskan entiti menggantikan pengindeksan dan kedudukan berasaskan frasa klasik.

Pendapat yang dinyatakan dalam artikel ini adalah pendapat pengarang tetamu dan tidak semestinya Search Engine Land.Pengarang kakitangan disenaraikan di sini.