Sitemap

Cách Google sử dụng NLP để hiểu rõ hơn về các truy vấn tìm kiếm, nội dung

Xử lý ngôn ngữ tự nhiên đã mở ra cánh cửa cho tìm kiếm ngữ nghĩa trên Google.

Người làm SEO cần hiểu việc chuyển sang tìm kiếm dựa trên thực thể vì đây là tương lai của tìm kiếm Google.

Trong bài viết này, chúng ta sẽ đi sâu vào xử lý ngôn ngữ tự nhiên và cách Google sử dụng nó để giải thích nội dung và truy vấn tìm kiếm, khai thác thực thể, v.v.

Xử lý ngôn ngữ tự nhiên là gì?

Xử lý ngôn ngữ tự nhiên, hay NLP, giúp bạn có thể hiểu được ý nghĩa của từ, câu và văn bản để tạo ra thông tin, kiến ​​thức hoặc văn bản mới.

Nó bao gồm hiểu ngôn ngữ tự nhiên (NLU) - cho phép giải thích ngữ nghĩa của văn bản và ngôn ngữ tự nhiên - và tạo ngôn ngữ tự nhiên (NLG).

NLP có thể được sử dụng cho:

  • Nhận dạng giọng nói (văn bản thành giọng nói và lời nói thành văn bản).
  • Phân đoạn lời nói đã nắm được trước đó thành các từ, câu và cụm từ riêng lẻ.
  • Nhận biết các dạng từ cơ bản và thu nhận thông tin ngữ pháp.
  • Nhận biết chức năng của các từ riêng lẻ trong câu (chủ ngữ, động từ, tân ngữ, mạo từ, v.v.)
  • Trích xuất ý nghĩa của câu và các phần của câu hoặc cụm từ, chẳng hạn như cụm tính từ (ví dụ: "quá dài"), cụm giới từ (ví dụ: "sang sông") hoặc các cụm từ danh nghĩa (ví dụ: "bữa tiệc dài").
  • Nhận biết ngữ cảnh câu, quan hệ câu và thực thể.
  • Phân tích văn bản ngôn ngữ, phân tích tình cảm, bản dịch (bao gồm cả những bản dịch cho trợ lý giọng nói), chatbot và hệ thống câu hỏi và câu trả lời cơ bản.

Sau đây là các thành phần cốt lõi của NLP:

Xem xét API xử lý ngôn ngữ tự nhiên của Google
  • Tokenization: Chia một câu thành các thuật ngữ khác nhau.
  • Ghi nhãn kiểu từ: Phân loại từ theo tân ngữ, chủ ngữ, vị ngữ, tính từ, v.v.
  • Phụ thuộc từ: Xác định mối quan hệ giữa các từ dựa trên các quy tắc ngữ pháp.
  • Bổ đề hóa: Xác định xem một từ có các dạng khác nhau hay không và chuẩn hóa các biến thể thành dạng cơ sở.Ví dụ: dạng cơ bản của “ô tô” là “ô tô”.
  • Phân tích cú pháp nhãn: Gắn nhãn các từ dựa trên mối quan hệ giữa hai từ được kết nối bởi một phụ thuộc.
  • Phân tích và trích xuất thực thể được đặt tên: Xác định các từ có nghĩa “đã biết” và gán chúng vào các lớp của loại thực thể.Nói chung, các thực thể được đặt tên là tổ chức, con người, sản phẩm, địa điểm và sự vật (danh từ). Trong một câu, chủ thể và đối tượng được xác định là các thực thể.
Phân tích thực thể bằng cách sử dụng API xử lý tự nhiên của Google.
  • Chấm điểm người xem: Xác định mức độ liên kết của một văn bản với một chủ đề.Khả năng phục hồi thường được xác định bởi sự đồng trích dẫn các từ trên web và mối quan hệ giữa các thực thể trong cơ sở dữ liệu như Wikipedia và Freebase.Những người làm SEO có kinh nghiệm biết một phương pháp tương tự từ phân tích TF-IDF.
  • Phân tích cảm xúc: Xác định ý kiến ​​(quan điểm hoặc thái độ) được thể hiện trong một văn bản về các thực thể hoặc chủ đề.
  • Phân loại văn bản: Ở cấp độ vĩ mô, NLP phân loại văn bản thành các danh mục nội dung.Phân loại văn bản giúp xác định chung nội dung của văn bản.
  • Phân loại văn bản và chức năng: NLP có thể đi xa hơn và xác định chức năng dự định hoặc mục đích của nội dung.Điều này rất thú vị để phù hợp với mục đích tìm kiếm với một tài liệu.
  • Trích xuất loại nội dung: Dựa trên các mẫu cấu trúc hoặc ngữ cảnh, công cụ tìm kiếm có thể xác định loại nội dung của văn bản mà không có dữ liệu có cấu trúc.HTML, định dạng và kiểu dữ liệu của văn bản (ngày, vị trí, URL, v.v.) có thể xác định đó là công thức, sản phẩm, sự kiện hay một loại nội dung khác mà không cần sử dụng đánh dấu.
  • Xác định nghĩa hàm ý dựa trên cấu trúc: Việc định dạng văn bản có thể thay đổi ý nghĩa hàm ý của nó.Tiêu đề, ngắt dòng, danh sách và vùng lân cận truyền đạt hiểu biết thứ cấp về văn bản.Ví dụ: khi văn bản được hiển thị trong danh sách được sắp xếp theo HTML hoặc một loạt các tiêu đề với các con số ở phía trước, nó có thể là một listicle hoặc một bảng xếp hạng.Cấu trúc được xác định không chỉ bởi các thẻ HTML mà còn bởi kích thước / độ dày và độ gần của phông chữ trực quan trong quá trình hiển thị.

Việc sử dụng NLP trong tìm kiếm

Trong nhiều năm, Google đã đào tạo các mô hình ngôn ngữ như BERT hoặc MUM để diễn giải văn bản, truy vấn tìm kiếm và thậm chí cả nội dung video và âm thanh.Các mô hình này được cung cấp thông qua xử lý ngôn ngữ tự nhiên.

Tìm kiếm của Google chủ yếu sử dụng xử lý ngôn ngữ tự nhiên trong các lĩnh vực sau:

  • Diễn giải các truy vấn tìm kiếm.
  • Phân loại chủ thể và mục đích của văn bản.
  • Phân tích thực thể trong tài liệu, truy vấn tìm kiếm và các bài đăng trên mạng xã hội.
  • Để tạo các đoạn trích và câu trả lời nổi bật trong tìm kiếm bằng giọng nói.
  • Phiên dịch nội dung video và âm thanh.
  • Mở rộng và cải thiện Sơ đồ tri thức.

Google đã nhấn mạnh tầm quan trọng của việc hiểu ngôn ngữ tự nhiên trong tìm kiếm khi họ phát hành bản cập nhật BERT vào tháng 10 năm 2019.

“Về cốt lõi, Tìm kiếm là hiểu ngôn ngữ. Công việc của chúng tôi là tìm ra những gì bạn đang tìm kiếm và hiển thị thông tin hữu ích từ web, bất kể bạn đánh vần hay kết hợp các từ trong truy vấn của mình như thế nào. Mặc dù chúng tôi đã tiếp tục cải thiện khả năng hiểu ngôn ngữ của mình trong những năm qua, nhưng đôi khi chúng tôi vẫn chưa hiểu đúng, đặc biệt là với các truy vấn phức tạp hoặc mang tính hội thoại. Trên thực tế, đó là một trong những lý do tại sao mọi người thường sử dụng "keyword-ese", nhập các chuỗi từ mà họ nghĩ rằng chúng ta sẽ hiểu, nhưng thực tế không phải là cách họ đặt câu hỏi một cách tự nhiên. "

BERT & MUM: NLP để diễn giải các truy vấn tìm kiếm và tài liệu

BERT được cho là tiến bộ quan trọng nhất trong lĩnh vực tìm kiếm của Google trong vài năm sau RankBrain.Dựa trên NLP, bản cập nhật được thiết kế để cải thiện việc giải thích truy vấn tìm kiếm và ban đầu đã tác động đến 10% tất cả các truy vấn tìm kiếm.

BERT đóng một vai trò không chỉ trong việc giải thích truy vấn mà còn trong việc xếp hạng và biên dịch các đoạn trích đặc trưng, ​​cũng như diễn giải các bảng câu hỏi văn bản trong tài liệu.

“Chà, bằng cách áp dụng mô hình BERT cho cả xếp hạng và các đoạn trích nổi bật trong Tìm kiếm, chúng tôi có thể thực hiện công việc tốt hơn nhiều khi giúp bạn tìm thấy thông tin hữu ích. Trên thực tế, khi nói đến kết quả xếp hạng, BERT sẽ giúp Tìm kiếm hiểu rõ hơn một trong 10 tìm kiếm ở Hoa Kỳ bằng tiếng Anh và chúng tôi sẽ đưa điều này đến nhiều ngôn ngữ và địa phương hơn theo thời gian. ”

Việc triển khai bản cập nhật MUM đã được công bố tại Search On ’21.Cũng dựa trên NLP, MUM đa ngôn ngữ, trả lời các truy vấn tìm kiếm phức tạp với dữ liệu đa phương thức và xử lý thông tin từ các định dạng phương tiện khác nhau.Ngoài văn bản, MUM cũng hiểu các tệp hình ảnh, video và âm thanh.

MUM kết hợp một số công nghệ để làm cho các tìm kiếm của Google thậm chí còn nhiều ngữ nghĩa hơn và dựa trên ngữ cảnh để cải thiện trải nghiệm người dùng.

Với MUM, Google muốn trả lời các truy vấn tìm kiếm phức tạp ở các định dạng phương tiện khác nhau để tham gia cùng người dùng trong hành trình của khách hàng.

Như được sử dụng cho BERT và MUM, NLP là một bước thiết yếu để hiểu rõ hơn về ngữ nghĩa và một công cụ tìm kiếm tập trung vào người dùng hơn.

Việc hiểu nội dung và truy vấn tìm kiếm thông qua các thực thể đánh dấu sự thay đổi từ “chuỗi” thành “thứ”.Mục đích của Google là phát triển sự hiểu biết về ngữ nghĩa của các truy vấn tìm kiếm và nội dung.

Bằng cách xác định các thực thể trong truy vấn tìm kiếm, ý nghĩa và mục đích tìm kiếm trở nên rõ ràng hơn.Các từ riêng lẻ của một cụm từ tìm kiếm không còn đứng riêng lẻ mà được xem xét trong ngữ cảnh của toàn bộ truy vấn tìm kiếm.

Sự kỳ diệu của việc diễn giải các cụm từ tìm kiếm xảy ra trong quá trình xử lý truy vấn.Các bước sau đây là quan trọng ở đây:

  • Xác định bản thể luận chuyên đề nơi đặt truy vấn tìm kiếm.Nếu ngữ cảnh chủ đề rõ ràng, Google có thể chọn một kho nội dung gồm các tài liệu văn bản, video và hình ảnh làm kết quả tìm kiếm có thể phù hợp.Điều này đặc biệt khó khăn với các cụm từ tìm kiếm không rõ ràng.
  • Nhận dạng các thực thể và ý nghĩa của chúng trong cụm từ tìm kiếm (nhận dạng đối tượng được đặt tên).
  • Hiểu ý nghĩa ngữ nghĩa của truy vấn tìm kiếm.
  • Xác định mục đích tìm kiếm.
  • Chú thích ngữ nghĩa của truy vấn tìm kiếm.
  • Tinh chỉnh cụm từ tìm kiếm.

Nhận các nhà tiếp thị tìm kiếm bản tin hàng ngày dựa vào.

NLP là phương pháp luận quan trọng nhất để khai thác thực thể

Xử lý ngôn ngữ tự nhiên sẽ đóng vai trò quan trọng nhất đối với Google trong việc xác định các thực thể và ý nghĩa của chúng, giúp bạn có thể trích xuất kiến ​​thức từ dữ liệu phi cấu trúc.

Trên cơ sở này, các mối quan hệ giữa các thực thể và Sơ đồ tri thức có thể được tạo ra.Gắn thẻ giọng nói giúp ích một phần cho việc này.

Danh từ là các thực thể tiềm ẩn, và các động từ thường biểu thị mối quan hệ của các thực thể với nhau.Tính từ mô tả thực thể, và trạng từ mô tả mối quan hệ.

Cho đến nay, Google chỉ sử dụng tối thiểu thông tin phi cấu trúc để cung cấp cho Sơ đồ tri thức.

Có thể giả định rằng:

  • Các thực thể được ghi lại cho đến nay trong Sơ đồ tri thức chỉ là phần nổi của tảng băng chìm.
  • Google cũng đang cung cấp thêm một kho kiến ​​thức khác với thông tin về các thực thể đuôi dài.

NLP đóng vai trò trung tâm nuôi kho kiến ​​thức này.

Google đã khá tốt về NLP nhưng vẫn chưa đạt được kết quả khả quan trong việc đánh giá thông tin được trích xuất tự động về độ chính xác.

Khai thác dữ liệu cho một cơ sở dữ liệu tri thức như Sơ đồ tri thức từ dữ liệu phi cấu trúc như các trang web rất phức tạp.

Ngoài tính đầy đủ của thông tin, tính đúng đắn là điều cần thiết.Ngày nay, Google đảm bảo tính hoàn chỉnh trên quy mô lớn thông qua NLP, nhưng việc chứng minh tính đúng đắn và chính xác là rất khó.

Đây có lẽ là lý do tại sao Google vẫn hành động thận trọng liên quan đến việc định vị trực tiếp thông tin về các thực thể đuôi dài trong SERPs.

Chỉ mục dựa trên thực thể so với chỉ mục dựa trên nội dung cổ điển

Sự ra đời của bản cập nhật Hummingbird đã mở đường cho việc tìm kiếm ngữ nghĩa.Nó cũng đưa Sơ đồ tri thức - và do đó, các thực thể - vào trọng tâm.

Sơ đồ tri thức là chỉ mục thực thể của Google.Tất cả các thuộc tính, tài liệu và hình ảnh kỹ thuật số như hồ sơ và miền được tổ chức xung quanh thực thể trong một chỉ mục dựa trên thực thể.

Sơ đồ tri thức hiện được sử dụng song song với Chỉ mục cổ điển của Google để xếp hạng.

Giả sử Google nhận ra trong truy vấn tìm kiếm rằng đó là về một thực thể được ghi lại trong Sơ đồ tri thức.Trong trường hợp đó, thông tin trong cả hai chỉ mục đều được truy cập, với đối tượng là trọng tâm và tất cả thông tin và tài liệu liên quan đến đối tượng cũng được tính đến.

Cần có giao diện hoặc API giữa Chỉ mục Google cổ điển và Sơ đồ tri thức hoặc một loại kho lưu trữ kiến ​​thức khác, để trao đổi thông tin giữa hai chỉ số.

Giao diện nội dung-thực thể này nhằm tìm ra:

  • Cho dù có các thực thể trong một phần nội dung.
  • Cho dù có một thực thể chính mà nội dung nói đến.
  • Thực thể chính có thể được gán cho những bản thể học hoặc bản thể luận nào.
  • Nội dung được chỉ định cho tác giả hoặc thực thể nào.
  • Các thực thể trong nội dung liên quan với nhau như thế nào.
  • Thuộc tính hoặc thuộc tính nào sẽ được gán cho các thực thể.

Nó có thể trông như thế này:

Chúng tôi mới bắt đầu cảm thấy tác động của tìm kiếm dựa trên thực thể trong SERPs vì Google chậm hiểu ý nghĩa của từng thực thể.

Thực thể được hiểu từ trên xuống theo mức độ liên quan xã hội.Những cái có liên quan nhất được ghi lại trong Wikidata và Wikipedia, tương ứng.

Nhiệm vụ lớn sẽ là xác định và xác minh các thực thể đuôi dài.Cũng không rõ Google kiểm tra tiêu chí nào để bao gồm một thực thể trong Sơ đồ tri thức.

Trong Hangout dành cho quản trị viên web ở Đức vào tháng 1 năm 2019, John Mueller của Google cho biết họ đang nghiên cứu một cách đơn giản hơn để tạo các thực thể cho tất cả mọi người.

“Tôi không nghĩ chúng ta có câu trả lời rõ ràng. Tôi nghĩ rằng chúng tôi có các thuật toán khác nhau để kiểm tra một cái gì đó tương tự và sau đó chúng tôi sử dụng các tiêu chí khác nhau để kéo toàn bộ sự việc lại với nhau, tách nó ra và nhận ra những thứ nào thực sự là thực thể riêng biệt, cái nào chỉ là biến thể hoặc thực thể ít tách biệt hơn… Nhưng cho đến nay như tôi lo ngại, tôi đã thấy điều đó, đó là điều chúng tôi đang làm việc để mở rộng điều đó một chút và tôi tưởng tượng rằng nó cũng sẽ giúp dễ dàng nổi bật hơn trong Sơ đồ tri thức. Nhưng tôi không biết kế hoạch chính xác là gì ”.

NLP đóng một vai trò quan trọng trong việc mở rộng thách thức này.

Ví dụ từ bản trình diễn diffbot cho thấy NLP có thể được sử dụng tốt như thế nào để khai thác thực thể và xây dựng Sơ đồ tri thức.

NLP trong tìm kiếm của Google ở ​​đây để duy trì

RankBrain được giới thiệu để giải thích các truy vấn và thuật ngữ tìm kiếm thông qua phân tích không gian vectơ mà trước đây chưa được sử dụng theo cách này.

BERT và MUM sử dụng xử lý ngôn ngữ tự nhiên để giải thích các truy vấn tìm kiếm và tài liệu.

Ngoài việc giải thích nội dung và truy vấn tìm kiếm, MUM và BERT đã mở ra cánh cửa cho phép cơ sở dữ liệu tri thức như Sơ đồ tri thức phát triển trên quy mô lớn, do đó thúc đẩy tìm kiếm ngữ nghĩa tại Google.

Những phát triển trong Google Tìm kiếm thông qua các bản cập nhật cốt lõi cũng liên quan chặt chẽ đến MUM và BERT, và cuối cùng là NLP và tìm kiếm ngữ nghĩa.

Trong tương lai, chúng ta sẽ thấy ngày càng nhiều kết quả tìm kiếm dựa trên thực thể của Google thay thế cho việc lập chỉ mục và xếp hạng dựa trên cụm từ cổ điển.

Ý kiến ​​được trình bày trong bài viết này là của tác giả khách mời và không nhất thiết phải là Search Engine Land.Nhân viên tác giả được liệt kê ở đây.