Sitemap

Google, arama sorgularını ve içeriği daha iyi anlamak için NLP'yi nasıl kullanır?

Doğal dil işleme, Google'da anlamsal arama için kapıyı açtı.

SEO'ların varlık tabanlı aramaya geçişi anlaması gerekir çünkü bu, Google aramanın geleceğidir.

Bu makalede, doğal dil işlemeyi ve Google'ın arama sorgularını ve içeriğini, varlık madenciliğini ve daha fazlasını yorumlamak için bunu nasıl kullandığını derinlemesine inceleyeceğiz.

Doğal dil işleme nedir?

Doğal dil işleme veya NLP, bilgi, bilgi veya yeni metin üretmek için kelimelerin, cümlelerin ve metinlerin anlamlarını anlamayı mümkün kılar.

Metin ve doğal dilin anlamsal olarak yorumlanmasını sağlayan doğal dil anlama (NLU) ve doğal dil oluşturmadan (NLG) oluşur.

NLP aşağıdakiler için kullanılabilir:

  • Konuşma tanıma (metinden konuşmaya ve konuşmadan metne).
  • Önceden yakalanan konuşmayı tek tek kelimelere, cümlelere ve deyimlere ayırma.
  • Temel sözcük biçimlerini tanıma ve dilbilgisi bilgilerini edinme.
  • Bir cümledeki tek tek kelimelerin işlevlerini tanıma (özne, fiil, nesne, makale vb.)
  • Sıfat cümleleri (örn., “çok uzun”), edat cümleleri (örn. “nehre”) veya isim cümleleri (örn.
  • Cümle bağlamlarını, cümle ilişkilerini ve varlıkları tanıma.
  • Dilsel metin analizi, duygu analizi, çeviriler (sesli asistanlar için olanlar dahil), sohbet robotları ve temel soru-cevap sistemleri.

NLP'nin temel bileşenleri şunlardır:

Google'ın Doğal Dil İşleme API'sine bir bakış
  • Tokenization: Bir cümleyi farklı terimlere böler.
  • Kelime türü etiketleme: Sözcükleri nesne, özne, yüklem, sıfat vb. ile sınıflandırır.
  • Kelime bağımlılıkları: Dil bilgisi kurallarına göre kelimeler arasındaki ilişkileri tanımlar.
  • Lemmatization: Bir kelimenin farklı formlara sahip olup olmadığını belirler ve varyasyonları temel forma göre normalleştirir.Örneğin, "arabalar"ın temel biçimi "araba"dır.
  • Etiketleri ayrıştırma: Bir bağımlılıkla birbirine bağlanan iki sözcük arasındaki ilişkiye dayalı olarak sözcükleri etiketler.
  • Adlandırılmış varlık analizi ve çıkarma: Anlamı "bilinen" olan sözcükleri tanımlar ve bunları varlık türleri sınıflarına atar.Genel olarak, adlandırılmış varlıklar kuruluşlar, insanlar, ürünler, yerler ve şeylerdir (isimler). Bir cümlede, özneler ve nesneler varlıklar olarak tanımlanmalıdır.
Google Natural Processing API'sini kullanarak varlık analizi.
  • Belirginlik puanlaması: Bir metnin bir konuyla ne kadar yoğun bir şekilde bağlantılı olduğunu belirler.Belirginlik genellikle web'deki kelimelerin birlikte alıntılanması ve Wikipedia ve Freebase gibi veritabanlarındaki varlıklar arasındaki ilişkiler tarafından belirlenir.Deneyimli SEO'lar benzer bir yöntemi TF-IDF analizinden bilirler.
  • Duygu analizi: Varlıklar veya konular hakkında bir metinde ifade edilen görüşü (görüş veya tutum) tanımlar.
  • Metin kategorizasyonu: Makro düzeyde, NLP metni içerik kategorilerine ayırır.Metin sınıflandırması, genel olarak metnin ne hakkında olduğunu belirlemeye yardımcı olur.
  • Metin sınıflandırması ve işlevi: NLP daha da ileri gidebilir ve içeriğin amaçlanan işlevini veya amacını belirleyebilir.Bu, bir arama amacını bir belgeyle eşleştirmek için çok ilginçtir.
  • İçerik türü çıkarma: Yapısal kalıplara veya bağlama dayalı olarak, bir arama motoru, bir metnin içerik türünü yapılandırılmış veriler olmadan belirleyebilir.Metnin HTML'si, biçimlendirmesi ve veri türü (tarih, konum, URL, vb.), işaretleme kullanmadan bir tarif, ürün, etkinlik veya başka bir içerik türü olup olmadığını belirleyebilir.
  • Yapıya dayalı örtük anlamı tanımlayın: Bir metnin biçimlendirilmesi, örtük anlamını değiştirebilir.Başlıklar, satır sonları, listeler ve yakınlık metnin ikincil bir şekilde anlaşılmasını sağlar.Örneğin, metin HTML olarak sıralanmış bir listede veya önünde sayılar olan bir dizi başlıkta görüntülendiğinde, bunun bir liste veya sıralama olması muhtemeldir.Yapı, yalnızca HTML etiketleri ile değil, aynı zamanda görsel yazı tipi boyutu/kalınlığı ve oluşturma sırasındaki yakınlık ile de tanımlanır.

Aramada NLP kullanımı

Google yıllardır metin, arama sorguları ve hatta video ve ses içeriğini yorumlamak için BERT veya MUM gibi dil modellerini eğitmiştir.Bu modeller doğal dil işleme yoluyla beslenir.

Google arama, temel olarak aşağıdaki alanlarda doğal dil işlemeyi kullanır:

  • Arama sorgularının yorumlanması.
  • Belgelerin konusu ve amacının sınıflandırılması.
  • Belgelerde, arama sorgularında ve sosyal medya gönderilerinde varlık analizi.
  • Sesli aramada öne çıkan snippet'ler ve yanıtlar oluşturmak için.
  • Video ve ses içeriğinin yorumlanması.
  • Bilgi Grafiğinin genişletilmesi ve iyileştirilmesi.

Google, Ekim 2019'da BERT güncellemesini yayınlarken aramada doğal dili anlamanın önemini vurguladı.

“Özünde Arama, dili anlamakla ilgilidir. Sorgunuzdaki sözcükleri nasıl hecelerseniz veya birleştirirseniz, ne aradığınızı bulmak ve web'den yararlı bilgiler elde etmek bizim işimiz. Yıllar içinde dil anlama yeteneklerimizi geliştirmeye devam etsek de, özellikle karmaşık veya konuşma sorgularında bazen hala tam olarak doğru yapamıyoruz. Aslında, insanların anlayacağımızı düşündükleri, ancak aslında doğal olarak nasıl soru sormayacaklarını yazarak "anahtar kelime-ese" kullanmalarının nedenlerinden biri de budur.

BERT & MUM: Arama sorgularını ve belgelerini yorumlamak için NLP

BERT, RankBrain'den birkaç yıl sonra Google aramasında en kritik gelişme olduğu söyleniyor.NLP'ye dayanan güncelleme, arama sorgusunun yorumlanmasını iyileştirmek için tasarlandı ve başlangıçta tüm arama sorgularının %10'unu etkiledi.

BERT, yalnızca sorgu yorumlamada değil, aynı zamanda öne çıkan snippet'leri sıralamada ve derlemede ve ayrıca belgelerdeki metin anketlerini yorumlamada rol oynar.

"BERT modellerini Arama'da hem sıralamaya hem de öne çıkan snippet'lere uygulayarak, faydalı bilgiler bulmanıza yardımcı olmak için çok daha iyi bir iş çıkarabiliyoruz. Aslında, sıralama sonuçları söz konusu olduğunda, BERT, Arama'nın ABD'de İngilizce olarak yapılan her 10 aramadan birini daha iyi anlamasına yardımcı olacak ve bunu zaman içinde daha fazla dile ve bölgeye getireceğiz."

MUM güncellemesinin kullanıma sunulacağı Search On '21'de duyuruldu.Ayrıca NLP'ye dayanan MUM, çok dillidir, karmaşık arama sorgularını çok modlu verilerle yanıtlar ve farklı medya formatlarından gelen bilgileri işler.MUM, metne ek olarak görüntüleri, videoları ve ses dosyalarını da anlar.

MUM, kullanıcı deneyimini iyileştirmek için Google aramalarını daha da anlamsal ve bağlama dayalı hale getirmek için çeşitli teknolojileri birleştirir.

MUM ile Google, müşteri yolculuğunda kullanıcıya katılmak için karmaşık arama sorgularını farklı medya biçimlerinde yanıtlamak istiyor.

BERT ve MUM için kullanıldığı şekliyle NLP, daha iyi bir anlamsal anlayış ve daha kullanıcı merkezli bir arama motoru için önemli bir adımdır.

Varlıklar aracılığıyla arama sorgularını ve içeriği anlamak, "dizelerden" "nesnelere" geçişi işaret eder.Google'ın amacı, arama sorguları ve içeriği hakkında anlamsal bir anlayış geliştirmektir.

Arama sorgularındaki varlıkları tanımlayarak anlam ve arama amacı daha net hale gelir.Bir arama teriminin tek tek kelimeleri artık tek başına durmaz, tüm arama sorgusu bağlamında değerlendirilir.

Arama terimlerini yorumlamanın büyüsü, sorgu işlemede gerçekleşir.Burada aşağıdaki adımlar önemlidir:

  • Arama sorgusunun bulunduğu tematik ontolojiyi belirleme.Tematik bağlam açıksa, Google potansiyel olarak uygun arama sonuçları olarak metin belgeleri, videolar ve resimlerden oluşan bir içerik topluluğu seçebilir.Bu, özellikle belirsiz arama terimleriyle zordur.
  • Varlıkları ve arama terimindeki anlamlarını belirleme (adlandırılmış varlık tanıma).
  • Bir arama sorgusunun anlamsal anlamını anlama.
  • Arama amacının belirlenmesi.
  • Arama sorgusunun anlamsal açıklaması.
  • Arama terimini hassaslaştırma.

Arama pazarlamacılarının güvendiği günlük bültenleri alın.

NLP, varlık madenciliği için en önemli metodolojidir

Doğal dil işleme, Google için varlıkları ve anlamlarını belirlemede en önemli rolü oynayacak ve yapılandırılmamış verilerden bilgi elde etmeyi mümkün kılacaktır.

Bu temelde, varlıklar ve Bilgi Grafiği arasındaki ilişkiler daha sonra oluşturulabilir.Konuşma etiketleme kısmen bu konuda yardımcı olur.

İsimler potansiyel varlıklardır ve fiiller genellikle varlıkların birbirleriyle olan ilişkisini temsil eder.Sıfatlar varlığı tanımlar ve zarflar ilişkiyi tanımlar.

Google, şimdiye kadar Bilgi Grafiği'ni beslemek için yapılandırılmamış bilgileri yalnızca minimum düzeyde kullandı.

Şu varsayılabilir:

  • Bilgi Grafiği'nde şimdiye kadar kaydedilen varlıklar, buzdağının sadece görünen kısmıdır.
  • Google ayrıca uzun kuyruklu varlıklarla ilgili bilgilerle başka bir bilgi havuzunu besliyor.

NLP, bu bilgi deposunu beslemede merkezi bir rol oynar.

Google, NLP'de zaten oldukça iyidir, ancak doğrulukla ilgili olarak otomatik olarak çıkarılan bilgilerin değerlendirilmesinde henüz tatmin edici sonuçlar elde edememektedir.

Web siteleri gibi yapılandırılmamış verilerden Bilgi Grafiği gibi bir bilgi veritabanı için veri madenciliği karmaşıktır.

Bilgilerin eksiksizliğine ek olarak, doğruluğu da esastır.Günümüzde Google, NLP aracılığıyla geniş ölçekte eksiksizliği garanti etmektedir, ancak doğruluğu ve doğruluğu kanıtlamak zordur.

Bu muhtemelen Google'ın SERP'lerde uzun kuyruklu varlıklar hakkındaki bilgilerin doğrudan konumlandırılması konusunda temkinli davranmasının nedenidir.

Varlık tabanlı dizin ve klasik içerik tabanlı dizin

Hummingbird güncellemesinin tanıtımı semantik aramanın yolunu açtı.Ayrıca Bilgi Grafiği'ni - ve dolayısıyla varlıkları - odak noktasına getirdi.

Bilgi Grafiği, Google'ın varlık dizinidir.Profiller ve etki alanları gibi tüm nitelikler, belgeler ve dijital görüntüler, varlık tabanlı bir dizin içinde varlık etrafında düzenlenir.

Bilgi Grafiği şu anda sıralama için klasik Google İndeksine paralel olarak kullanılmaktadır.

Google'ın, arama sorgusunda, Bilgi Grafiğine kaydedilen bir varlık hakkında olduğunu tanıdığını varsayalım.Bu durumda her iki indeksteki bilgilere de odak noktası olmak üzere ulaşılır ve varlıkla ilgili tüm bilgi ve belgeler de dikkate alınır.

İki endeks arasında bilgi alışverişi yapmak için klasik Google Dizini ile Bilgi Grafiği veya başka bir bilgi havuzu türü arasında bir arayüz veya API gereklidir.

Bu varlık-içerik arayüzü şunları bulmakla ilgilidir:

  • Bir içerik parçasında varlıklar olup olmadığı.
  • İçeriğin ilgili olduğu bir ana varlık olup olmadığı.
  • Ana varlığın hangi ontoloji veya ontolojilere atanabileceği.
  • İçeriğin hangi yazara veya hangi varlığa atandığı.
  • İçerikteki varlıkların birbirleriyle nasıl ilişkili olduğu.
  • Varlıklara hangi özelliklerin veya niteliklerin atanacağı.

Şuna benzeyebilir:

Google, bireysel varlıkların anlamını anlamakta yavaş olduğundan, SERP'lerde varlık tabanlı aramanın etkisini yeni yeni hissetmeye başlıyoruz.

Varlıklar, sosyal alaka düzeyine göre yukarıdan aşağıya anlaşılır.En alakalı olanlar sırasıyla Vikiveri ve Vikipedi'de kayıtlıdır.

Büyük görev, uzun kuyruklu varlıkları belirlemek ve doğrulamak olacaktır.Ayrıca, Google'ın Bilgi Grafiğine bir varlığı dahil etmek için hangi kriterleri kontrol ettiği de belirsizdir.

Ocak 2019'da bir Alman Web Yöneticisi Hangout'unda Google'dan John Mueller, herkes için varlıklar oluşturmak için daha basit bir yol üzerinde çalıştıklarını söyledi.

"Kesin bir cevabımız olduğunu sanmıyorum. Sanırım böyle bir şeyi kontrol eden farklı algoritmalarımız var ve sonra her şeyi bir araya getirmek, parçalara ayırmak ve hangi şeylerin gerçekten ayrı varlıklar, bunlar sadece değişkenler veya daha az ayrı varlıklar olduğunu anlamak için farklı kriterler kullanıyoruz… Endişelendiğim için bunu gördüm, bu biraz genişletmek için üzerinde çalıştığımız bir şey ve bunun Bilgi Grafiğinde yer almayı da kolaylaştıracağını düşünüyorum. Ama planların tam olarak ne olduğunu bilmiyorum.”

NLP, bu zorluğun ölçeğini büyütmede hayati bir rol oynar.

Diffbot demosundan örnekler, NLP'nin varlık madenciliği ve bir Bilgi Grafiği oluşturmak için ne kadar iyi kullanılabileceğini gösterir.

Google aramada NLP kalmak için burada

RankBrain, daha önce bu şekilde kullanılmayan vektör uzayı analizi yoluyla arama sorgularını ve terimleri yorumlamak için tanıtıldı.

BERT ve MUM, arama sorgularını ve belgeleri yorumlamak için doğal dil işlemeyi kullanır.

MUM ve BERT, arama sorgularının ve içeriğin yorumlanmasına ek olarak, Bilgi Grafiği gibi bir bilgi veri tabanının ölçekte büyümesine izin vermek için kapıyı açtı ve böylece Google'da anlamsal aramayı ilerletti.

Temel güncellemeler yoluyla Google Arama'daki gelişmeler de MUM ve BERT ve nihayetinde NLP ve anlamsal arama ile yakından ilgilidir.

Gelecekte, klasik kelime öbeği tabanlı indeksleme ve sıralamanın yerini alan daha fazla varlık tabanlı Google arama sonucu göreceğiz.

Bu makalede ifade edilen görüşler konuk yazara aittir ve mutlaka Search Engine Land değildir.Personel yazarları burada listelenir.