Thứ Bảy, 23 tháng 3, 2019

Cách Rank Brain thay đổi Tìm kiếm thực thể

Đầu tuần này, tin tức đã chia sẻ về RankBrain của Google  , một hệ thống máy học, cùng với các yếu tố thuật toán khác, giúp xác định kết quả tốt nhất sẽ là gì cho một bộ truy vấn cụ thể.

Cụ thể, RankBrain dường như có liên quan đến xử lý và sàng lọc truy vấn, sử dụng nhận dạng mẫu để thực hiện các truy vấn tìm kiếm phức tạp và / hoặc mơ hồ và kết nối chúng với các chủ đề cụ thể.
Rankbrain-mind-kiến thức-schachinger

Điều này cho phép Google phục vụ kết quả tìm kiếm tốt hơn cho người dùng, đặc biệt trong trường hợp hàng trăm triệu truy vấn tìm kiếm mỗi ngày mà công cụ tìm kiếm chưa từng thấy trước đây.

Không thể xem nhẹ, Google đã nói  rằng RankBrain là một trong những tín hiệu xếp hạng quan trọng nhất trong số hàng trăm tín hiệu xếp hạng mà thuật toán tính đến.

( Lưu ý:  RankBrain có nhiều khả năng một “xử lý truy vấn” hơn một sự thật Đó là “yếu tố xếp hạng.” Hiện không rõ ràng như thế nào chính xác chức năng RankBrain như một dấu hiệu xếp hạng, vì những thường được gắn liền với nội dung một cách nào đó.)

Tuy nhiên, đây không phải là thay đổi lớn duy nhất để tìm kiếm trong bộ nhớ gần đây. Trong vài năm qua, Google đã thực hiện khá nhiều thay đổi quan trọng đối với cách hoạt động của tìm kiếm, từ cập nhật thuật toán đến bố cục trang kết quả tìm kiếm. Google đã phát triển và thay đổi thành một loài động vật khác nhiều so với trước đó là Penguin và tiền Panda .

Những thay đổi này cũng không dừng lại ở tìm kiếm. Công ty đã thay đổi cách cấu trúc. Với chiếc ô Bảng chữ cái mới và riêng biệt , Google không còn là một sinh vật, hay thậm chí là một sinh vật chính.

Ngay cả giao tiếp từ Google đến SEOWebmaster cũng phần lớn đi theo con đường của dodo . Matt Cutts không còn là thông tin đáng tin cậy của Google, Google và thông tin đáng tin cậy đã trở nên khó khăn. Vì vậy, nhiều thay đổi trong một thời gian ngắn như vậy. Có vẻ như Google đang đẩy mạnh.
Kết quả hình ảnh cho google rankbrain

Tuy nhiên, RankBrain khác nhiều so với những thay đổi trước đó. RankBrain là một nỗ lực để tinh chỉnh kết quả truy vấn của tìm kiếm thực thể dựa trên Sơ đồ tri thức của Google  . Mặc dù tìm kiếm thực thể không phải là mới, nhưng việc bổ sung thuật toán học máy hoàn chỉnh cho các kết quả này chỉ khoảng ba tháng.

Vậy tìm kiếm thực thể là gì? Làm thế nào điều này hoạt động với RankBrain? Google sẽ đi đâu?

Để hiểu bối cảnh, chúng ta cần quay lại một vài năm.

Chim ruồi

Sự ra mắt của thuật toán Hummingbird là một sự thay đổi căn bản. Đó là sự đại tu của toàn bộ cách Google xử lý các truy vấn hữu cơ. Qua một đêm, việc tìm kiếm đã đi từ việc tìm kiếm các chuỗi của Nhật Bản.

Hummingbird đến từ đâu? Thuật toán Hummingbird mới ra đời từ những nỗ lực của Google để kết hợp tìm kiếm ngữ nghĩa vào công cụ tìm kiếm của nó.

Đây được cho là bước đột phá của Google vào không chỉ học máy, mà cả sự hiểu biết và xử lý ngôn ngữ tự nhiên (hay NLP). Không cần nhiều hơn cho những từ khóa phiền phức đó - Google sẽ chỉ hiểu ý của bạn là gì khi nhập vào hộp tìm kiếm.

uy nhiên, chúng tôi đã hai năm và bất kỳ ai sử dụng Google đều biết giấc mơ tìm kiếm ngữ nghĩa đã không được thực hiện. Không phải Google đáp ứng bất kỳ tiêu chí nào, nhưng Google không vượt quá định nghĩa đầy đủ.

Ví dụ, nó sử dụng cơ sở dữ liệu để xác định và liên kết các thực thể. Tuy nhiên, một công cụ ngữ nghĩa sẽ hiểu cách ngữ cảnh ảnh hưởng đến các từ và sau đó có thể đánh giá và giải thích ý nghĩa.

Google không có sự hiểu biết này. Trên thực tế, theo một số người, Google chỉ đơn giản là tìm kiếm điều hướng - và tìm kiếm điều hướng không được định nghĩa là có ý nghĩa về mặt ngữ nghĩa.

Vì vậy, trong khi Google có thể hiểu các thực thể và mối quan hệ đã biết thông qua định nghĩa dữ liệu, khoảng cách và học máy, thì nó vẫn chưa thể hiểu ngôn ngữ tự nhiên (con người). Nó cũng không thể dễ dàng diễn giải sự liên kết thuộc tính mà không cần làm rõ thêm khi các mối quan hệ đó trong kho lưu trữ của Google có tương quan yếu hoặc không tồn tại. Sự làm rõ này thường là kết quả của đầu vào người dùng bổ sung.

Tất nhiên, Google có thể tìm hiểu nhiều định nghĩa và mối quan hệ này theo thời gian nếu đủ người tìm kiếm một tập hợp các thuật ngữ. Đây là nơi mà máy học (RankBrain) đi vào hỗn hợp. Thay vì các bộ truy vấn tinh chỉnh người dùng, máy sẽ đưa ra dự đoán tốt nhất dựa trên ý định nhận thức của người dùng.

Tuy nhiên, ngay cả với RankBrain, Google không thể diễn giải ý nghĩa như con người và đó là phần Ngôn ngữ tự nhiên của định nghĩa ngữ nghĩa.

Vì vậy, theo định nghĩa, Google KHÔNG phải là một công cụ tìm kiếm ngữ nghĩa. Thế nó là gì?
Kết quả hình ảnh cho google rankbrain

Di chuyển từ những chuỗi dây đến những thứ khác

Như đã đề cập, Google hiện đang rất giỏi trong việc hiển thị dữ liệu cụ thể. Cần một bản báo cáo thời tiết? Điều kiện giao thông? Đánh giá nhà hàng? Google có thể cung cấp thông tin này mà không cần bạn phải truy cập trang web, hiển thị ngay trên đầu trang kết quả tìm kiếm. Những vị trí như vậy thường dựa trên Biểu đồ tri thức  và là kết quả của việc Google chuyển từ các chuỗi của Google về các thứ khác.

Việc chuyển từ các chuỗi của mạng Cameron sang các thứ khác, rất tốt cho các tìm kiếm dựa trên dữ liệu, đặc biệt là khi nó đặt các bit dữ liệu đó vào Sơ đồ tri thức. Những bit dữ liệu là những người mà thường trả lời ai, cái gì, ở đâu, khi nào, tại sao, và như thế nào câu hỏi của của Google tự xác định “ Micro-Moments .” Google có thể cung cấp cho người dùng thông tin mà họ có thể không có thậm chí biết họ muốn tại Khoảnh khắc họ muốn nó.

Tuy nhiên, sự thúc đẩy này đối với các thực thể không phải là không có nhược điểm. Mặc dù Google đã rất xuất sắc trong việc hiển thị thông tin dựa trên dữ liệu đơn giản, nhưng những gì họ đã không làm nữa là trả lại các câu trả lời có liên quan cao cho các bộ truy vấn phức tạp.

Ở đây, tôi sử dụng các truy vấn phức tạp, một cách đơn giản để chỉ các truy vấn không dễ ánh xạ tới một thực thể, một phần dữ liệu đã biết và / hoặc một thuộc tính dữ liệu

Kết quả là, khi bạn tìm kiếm một tập hợp các thuật ngữ phức tạp, rất có thể bạn sẽ chỉ nhận được một vài kết quả có liên quan và không nhất thiết phải là những thuật ngữ có liên quan cao. Kết quả là nhiều khả năng của một nhà bếp hơn là một bộ các câu trả lời trực tiếp, nhưng tại sao?

Truy vấn phức tạp và ảnh hưởng của chúng đối với tìm kiếm

Bạn muốn xem các truy vấn phức tạp trong hành động? Nhập một tìm kiếm vào Google như bạn thường làm. Bây giờ hãy kiểm tra kết quả. Nếu bạn đã sử dụng một tập hợp các thuật ngữ không phổ biến hoặc không liên quan, bạn sẽ thấy Google ném lên một kết quả nhà bếp cho các mục không xác định hoặc chưa được khai thác. Tại sao lại thế này?

Google đang tìm kiếm các mục mà Google biết và sử dụng máy học (RankBrain) để tạo / hiểu / suy ra các mối quan hệ khi chúng không dễ dàng bắt nguồn. Về cơ bản, khi thực thể hoặc mối quan hệ không được biết đến, Google không thể suy ra ngữ cảnh hoặc ý nghĩa rất tốt - vì vậy nó đoán.

Ngay cả khi thực thể được biết đến, việc không thể xác định mức độ liên quan giữa các mục được tìm kiếm sẽ giảm khi mức độ liên quan chưa được biết. Bạn có nhớ các tìm kiếm mà Google chỉ cho bạn những từ mà nó không sử dụng trong tìm kiếm không? Nó hoạt động như vậy, chúng ta không thấy những cụm từ tìm kiếm bị xóa nữa.

Nhưng đừng hiểu ý tôi .

Chúng tôi có thể thấy điều này trong thực tế nếu bạn nhập lại truy vấn của mình - nhưng khi bạn nhập, hãy nhìn vào hộp thả xuống và xem kết quả nào xuất hiện. Lần này, thay vì truy vấn ban đầu bạn tìm kiếm, hãy chọn một trong những thuật ngữ thả xuống gần giống với ý định của bạn nhất.

Lưu ý kết quả chính xác hơn bao nhiêu khi bạn sử dụng các từ của Google? Tại sao? Google không thể hiểu ngôn ngữ mà không biết từ được định nghĩa như thế nào và nó không thể hiểu mối quan hệ nếu không đủ người đã nói với nó (hoặc trước đó không biết) các thuộc tính có tương quan.

Đây là cách các thực thể làm việc trong tìm kiếm trong các thuật ngữ đơn giản.

Một lần nữa, mặc dù, thực thể là gì?

Nói chung, danh từ - hoặc Người / Địa điểm / Ý tưởng / Sự vật  - là những gì chúng ta gọi là thực thể. Các thực thể được Google biết đến và ý nghĩa của chúng được xác định trong cơ sở dữ liệu mà Google tham chiếu.

Như chúng ta đã biết, Google đã trở nên thực sự xuất sắc khi kể cho bạn tất cả về thời tiết, bộ phim, nhà hàng và điểm số của trận đấu tối qua đã xảy ra. Nó có thể cung cấp cho bạn các định nghĩa và các thuật ngữ liên quan và thậm chí hoạt động như một bách khoa toàn thư kỹ thuật số. Thật tuyệt khi kéo lại các điểm dữ liệu dựa trên sự hiểu biết về thực thể.

Có nằm trong chà. Những điều Google trả lại được biết đến và đã biết, đã ánh xạ hoặc suy ra các mối quan hệ. Tuy nhiên, nếu mục không được ánh xạ dễ dàng hoặc các mục không được ánh xạ với nhau, Google gặp khó khăn trong việc hiểu truy vấn. Như đã đề cập trước đây, Google về cơ bản đoán được ý của bạn.

Vì vậy, làm thế nào điều này làm việc?

Lấy một ví dụ, Trà Iced Trà, chanh chanh chanh và chanh thủy tinh là tất cả các thực thể (những thứ) và những thực thể này có mối quan hệ đã biết. Điều này có nghĩa là khi bạn tìm kiếm các mặt hàng này - [ Trà đá, chanh, thủy tinh ] - Google có thể dễ dàng lấy lại nhiều kết quả có liên quan cao . Google Google biết những gì bạn muốn. Ý định của người dùng rất rõ ràng.

Tuy nhiên, điều gì sẽ xảy ra nếu tôi thay đổi truy vấn thành
Trà đá, Rooibos, Glass
Google vẫn chủ yếu hiểu tìm kiếm này, nhưng nó không rõ ràng như một sự hiểu biết . 
Tại sao? Rooibos không được sử dụng phổ biến cho Trà đá, mặc dù nó là một loại trà.
Bây giờ, điều gì sẽ xảy ra nếu chúng ta thay đổi truy vấn này thành
Trà đá, Goji, Glass
Bây giờ, Google đang bắt đầu ném vào bồn rửa trong nhà bếp . Một số mặt hàng đã chết trên. Một số mặt hàng chỉ liên quan đến trà goji, không phải trà đá. 
Google bối rối.
Bây giờ, nếu tôi thực hiện thay đổi cuối cùng đối với
trà Iced, Sugar Dissolve, Glass
Google sẽ mất gần như mọi hiểu biết về ý nghĩa của bộ truy vấn này. Mặc dù đây là những thành phần trong công thức pha trà ngọt, nhưng bạn sẽ thấy (giữa một vài công thức trà ngọt) một số trang liên quan đến hóa học. 
Tại sao? Google không biết cách lập bản đồ chính xác cho mối quan hệ.
Nhưng điều gì sẽ xảy ra nếu tôi nhìn vào phần thả xuống cho các thuật ngữ khác có ý nghĩa tương tự với tôi như một con người khi Google không còn có thể xác định các thực thể này và mối quan hệ của chúng? Điều gì xảy ra nếu tôi tìm kiếm kết quả đề xuất thả xuống? 
Ly trà đá có đường Các
từ có ý nghĩa duy nhất được thay đổi là đường Sugar thành đường có đường, đường và từ đã bị hòa tan. Tuy nhiên, điều này dẫn chúng ta đến một bộ kết quả Trà ngọt hoàn hảo .

Nhưng tại sao?

Những gì Google có thể làm là hiểu rằng thực tế Trà đá là một thứ gọi là Trà đá . Nó có thể nói rằng Kính thực sự là Kính .

Tuy nhiên, trong ví dụ trước, nó không biết phải làm gì với công cụ sửa đổi  Hòa tan  liên quan đến Trà đá, Đường và Thủy tinh.

Vì truy vấn này có thể đề cập đến đường trong Trà đá hoặc (trong Google mind mind) một giải pháp đường được sử dụng trong phòng thí nghiệm, nó mang lại cho bạn kết quả có Trà đá. Sau đó, nó cung cấp cho bạn kết quả không có Trà đá trong đó nhưng có Đường hòa tan. Sau đó, bạn có một số kết quả với cả hai mặt hàng, nhưng chúng không liên quan rõ ràng với việc pha trà đá.

Những gì chúng ta thấy là các trang rất có thể là kết quả của RankBrain đang cố giải mã ý định. Nó cố gắng xác định mối quan hệ nhưng phải trả lại bồn rửa nhà bếp với kết quả có thể xảy ra vì không chắc chắn về ý định của bạn.

Vì vậy, những gì chúng ta có bây giờ là một tập hợp các thuật ngữ truy vấn mà Google phải đánh giá dựa trên những điều đã biết về các điều (các thực thể). Sau đó, mối quan hệ giữa những điều này được phân tích chống lại các mối quan hệ đã biết, tại thời điểm đó nó hy vọng sẽ có một sự hiểu biết rõ ràng về ý định của bạn.

Tuy nhiên, khi nó hiểu kém về ý định này, nó có thể sử dụng RankBrain để liệt kê cho bạn tập kết quả có thể xảy ra cho truy vấn của bạn. Nói một cách đơn giản, khi họ không thể phù hợp với ý định với kết quả, họ sử dụng một máy để giúp tinh chỉnh truy vấn đó đến xác suất.

Vậy Google sẽ đi đâu?

Mặc dù Google đã thử nghiệm với RankBrain, nhưng họ đã mất thị phần - không nhiều, nhưng vẫn vậy, số lượng tại Mỹ của họ đã giảm. Trên thực tế, Google đã mất khoảng ba phần trăm cổ phần kể từ khi Hummingbird ra mắt , vì vậy có vẻ như những kết quả này không được nhận vì có liên quan hoặc cải thiện hơn (và trong một số trường hợp, bạn có thể nói rằng chúng tồi tệ hơn).

Google có thể phải quyết định xem đó là công cụ trả lời hay công cụ tìm kiếm, hoặc có thể nó sẽ tách những thứ này và làm cả hai.

Không thể tạo ra một công cụ ngữ nghĩa, Google đã xây dựng một công cụ dựa trên thực tế. RankBrain hiện đã được thêm vào để giúp tinh chỉnh kết quả tìm kiếm vì tìm kiếm thực thể không chỉ yêu cầu hiểu các danh từ trong tìm kiếm có ý nghĩa gì, mà còn cả cách chúng có liên quan.

Theo thời gian, RankBrain sẽ trở nên tốt hơn. Nó sẽ học các thực thể mới và các mối quan hệ có khả năng giữa chúng. Nó sẽ trình bày kết quả tốt hơn so với ngày hôm nay. Tuy nhiên, họ đang chạy đua với đồng hồ tích tắc được gọi là chia sẻ của người dùng.

Chỉ có thời gian sẽ trả lời, nhưng thời gian đó có hạn.