搜索策略產(chǎn)品經(jīng)理必知必會
這篇文章對搜索引擎的功能模塊進行了詳細、完整的介紹。從使用查詢到得到結果,整個過程都有詳細的分析。
一個完整的搜索引擎應該有的功能模塊,從用戶使用搜索引擎進行查詢,到最終得到查詢結果,一般需要經(jīng)過5~6個環(huán)節(jié),常見的流程包括建立物料索引、查詢語義理解、召回、粗排、過濾、精排、重排,最終在前端為用戶返回搜索結果。接下來將對每一模塊進行詳盡的介紹。
1.搜索引擎實體識別
實體識別可以理解為搜索引擎對檢索詞的認知。認知首先需要一套標準認知體系。
1.1.實體識別是什么?
實體識別,全稱命名實體識別(NER,named entity recognition),指對檢索詞中具有特定意義的語義實體進行識別,根據(jù)識別的結果構建召回策略和排序策略。
實體識別依賴于我們針對當前業(yè)務場景構建的實體體系,即認知體系。
實體體系即該領域具有特定意義的語義實體。例如電商領域的實體體系可以簡單分為品牌(brand)、一級品類(CATG1)、二級品類(CATG2)、三級品類(CATG3)、尺寸(size)、顏色(color)、產(chǎn)地(origin)等。
1.2.實體體系的構建
構建實體體系時,需要結合業(yè)務的實際情況進行判斷。
2.搜索引擎詞庫
針對每一個領域設置好對應的實體體系后,需要針對實體體系里的每一個實體類別構建詞庫。詞庫中的每一個詞都需要具備詞頻和詞性兩個基本屬性。詞頻用于統(tǒng)計在實際語料里面該詞出現(xiàn)的頻次,后續(xù)其他策略要參考這個指標,詞性表示該詞的性質。
詞庫的構建一般分為兩種:開源詞庫;人工標注。
- 開源詞庫:以網(wǎng)上開源詞庫為基礎,人工二次篩選符合業(yè)務場景的詞,目前開源詞庫有SogouW、THUOCL。
- 人工標注:基于用戶的歷史檢索詞進行人工標注。沒有捷徑,必須不斷積累。
3.搜索引擎物料索引
高效的索引是搜索引擎檢索的基礎,主要有兩種:正排索引;倒排索引。
- 正排索引:遍歷所有物料,查找物料中是否存在與檢索詞相匹配的實體,如果存在,則記錄物料SKU ID(電商),最終查出所有包含該查詢詞的物料。
優(yōu)點:構建索引簡單且迅速,方便管理。后續(xù)加入or刪除,可以直接添加/刪除。
缺點:必須遍歷所有的物料,檢索效率低下。
- 倒排索引:以詞或實體為關鍵詞進行檢索,表中的每一行記錄為包含該索引關鍵詞的物料在平臺上的表示ID。
優(yōu)點:檢索效率極高,可以快速檢索出查詢詞對應的所有物料
缺點:初期構建和后期維護較為復雜,新增/刪除時涉及多條記錄的修改。
- 正排索引與倒排索引的差異:正排索引是物料對關鍵信息的映射,倒排索引是關鍵信息到物料的映射。實際工作中均使用倒排索引進行信息檢索,后使用正排索引進行信息補全。
針對物料構建倒排索引時,物料的信息來源有以下三種:標簽體系;物料標題;物料正文內的實際內容(小紅書)。
4.搜索引擎查詢語義理解
當用戶搜索時,搜索引擎首先要理解用戶的搜索意圖,通過對檢索詞進行一系列智能分析,對檢索詞進行歸一化、糾錯、分詞、實體識別、類目預測,再進行搜索結果的召回和排序。
4.1.歸一化
查詢語義理解的第一步是對檢索詞進行歸一化處理,一般包含以下幾個步驟:大小寫統(tǒng)一。把所有大寫都轉為小寫;將拼音轉為漢字;將英文轉為中文;去除特殊符號。
4.2.糾錯
歸一化處理的下一步是糾錯。檢索詞糾錯是搜索引擎必備的基本功能,有助于提升UE、降低用戶重搜率、擴大召回結果,提升平臺整體搜索效率。
- 中文檢索詞常見的兩種錯誤原因:1.拼音原因 2.知識錯誤
- 檢索詞糾錯方法: 1.基于詞典的方法 2.基于規(guī)則的方法 3.基于N-Gram語言模型的方法
簡單介紹下N-Gram語言模型的基本原理。語言模型是評估文本序列符合人類語言使用習慣程度的模型,用于綜合評估該序列在日常生活中出現(xiàn)的概率和語法上合理的概率,一個語言模型上所有句子出現(xiàn)的概率和為1。
N-Gram語言模型基于馬爾代夫假設,隨意一個詞的概率只和它前面出現(xiàn)的有限N-1個詞有關,基于以上假設的語言模型即為N-Gram。模型基于分詞后的短語進行基于中文編輯距離和拼音編輯距離的相似短語召回。
檢索詞糾錯的評估指標:召回率、過糾率。
- 召回率 = 錯誤檢索詞被糾正的個數(shù)/錯誤檢索詞的個數(shù)
- 過糾率 = 正確檢索詞被糾錯的格式/正確檢索詞的個數(shù)
檢索詞糾錯的觸發(fā)方式:詞典觸發(fā);零少結果觸發(fā);直接針對原始詞進行糾錯
4.3.分詞
在中文中,詞代表具有獨立意義的最小語義單元。檢索詞分詞的目的是將整個檢索詞切分為一個個獨立的詞,然后做進一步處理。然而分詞過程中面臨著同一個語句有多種切分方法、未登錄詞識別等挑戰(zhàn)。
常見的分詞方法有三種:基于詞庫、基于語言模型、基于字
分詞的評估標準:一般用5個指標進行綜合評估,精準率、召回率、F1、未登錄詞召回率和登錄詞召回率。
- 精準率(P) = 實際分詞后得到的正確分詞數(shù)/實際分詞后得到的詞數(shù)
- 召回率(R) = 實際分詞后得到的正確分次數(shù)/正確分詞后得到的詞數(shù)
- F1 = 2PR/(P+R)
- 未登錄詞召回率 = 實際分詞中精準識別的未登錄次數(shù)/語句中出現(xiàn)的未登錄詞總數(shù)
- 登錄詞召回率 = 實際分詞種精準識別的登錄詞總數(shù)/語句種出現(xiàn)的登錄詞總數(shù)
在應用分詞結果時,很多次如“的”“地”“得”等時不具備語義的,對后續(xù)環(huán)節(jié)沒有任何作用,這類詞被稱作停用詞,在最終的分詞結果中予以去除,以減少后續(xù)環(huán)節(jié)的計算量,降低處理復雜度。
4.4.實體識別
當檢索詞經(jīng)過分詞后,我們需要為每一個單詞匹配對應的實體類型,常見的方法有以下兩種:基于詞庫的識別方法;基于序列標注模型的識別方法。(主要用于識別不在詞庫里的實體詞)
在實際工作中,無論使用哪一種實體識別方法,首先都需要構建實體體系,然后在現(xiàn)有的實體體系框架下進行實體識別。
4.5.類目預測
類目預測有助于更好地計算檢索詞和物料之間的相關性,并應用到后續(xù)搜索類目導航功能中。
常見的類目預測方法有以下三種:
基于人工規(guī)則:通過日志信息將熱門檢索詞提取出來,然后人工匹配檢索詞和相關類目。
優(yōu)點:可以實現(xiàn)快速上線
缺點:可拓展性差,人工運營成本較高,在搜索引擎初期使用。
基于用戶行為的數(shù)據(jù)統(tǒng)計
優(yōu)點:利用用戶歷史行為數(shù)據(jù),可以從數(shù)據(jù)中學習,具有一定拓展性。
缺點:對于長尾檢索詞的覆蓋度較低。
基于類目預測模型:前兩種方法的類目預測覆蓋率都很低,拓展性也一般,實際工作中需要構建專門的模型。
1.構建類目預測模型的第一步是構建訓練樣本,在電商領域可以將商品標題或用戶歷史檢索詞與對應類目構成一對,一對代表一條訓練樣本。類目預測模型是一個多分類魔影,一個檢索詞可能對應多個類目,目前行業(yè)內多使用DNN模型進行構建。
2.針對類目預測的相關性設定閾值。
在實際應用時,一般將類目預測模型分為線上、線下兩部分(由于線上模型對實時性要求很高)。
優(yōu)點:泛化性強,對于長尾檢索詞,類目預測的準確率很高。
缺點:線上模型耗時較多,需要設計合理的系統(tǒng)架構。
4.6.查詢改寫
一方面針對簡潔的檢索詞盡可能地擴充召回條件,豐富召回結果,另一方面針對復雜的召回詞精簡條件,提升召回效率。
常見的方法有兩種:
1.基于同義詞的改寫
2.對于長尾檢索詞通過其他輔助行為信息來進行改寫。
5.搜索引擎召回策略
和推薦系統(tǒng)一樣,召回模塊決定了搜索引擎整體效果的上限。搜索引擎常見的召回策略有三種:文本相關性召回;語音相關性召回;個性化召回。
策略一:文本相關性召回——對原始檢索詞進行實體識別后構建查詢語法樹(實體重要性、預測類目召回),再和倒排索引里面的實體進行匹配。(注意匹配規(guī)則)
策略二:語義相關性召回——基于原始檢索詞的隱語義和物料標題信息隱語義向量的相似度進行召回。(構建語義相似度模型、相關性控制模型)
策略三:個性化召回——本質上還是語義相關性召回,更充分考慮了用戶的個性化行為數(shù)據(jù)。
6.搜索引擎粗排策略
粗排邏輯的關鍵在于在召回的上萬個物料中初篩出和檢索詞匹配度較高且用戶比較感興趣的物料,量級由萬到千。為了更好促進用戶轉化和維持平臺整體生態(tài)建設,粗排階段會加入更多考核指標。公式如下
$$Score_粗=a*相關性分+b*質量分+c*轉化效率分$$
在粗排環(huán)節(jié)必須對物料和檢索詞的相關性進行嚴格把控,在召回策略中,一些寬泛的檢索詞可能匹配非常多的物料。在粗排環(huán)節(jié)需要通過相關性分數(shù)進行初步把控,首先需要計算每個物料和檢索詞的相關性。
相關性分數(shù) = a*文本相關性 + b*向量相關性 + c*個性化相關性
物料質量分一方面取決于物料歷史線上表現(xiàn)效果,另一方面取決于物料的創(chuàng)作者和商家對平臺整體生態(tài)建設的貢獻。以電商平臺店鋪星級分為例:簡單四維度權重分布轉化成公式:
店鋪星級分 = a*流量分 + b*轉化分 + c*服務分 + d*售后分
轉化效率分主要由物料的CVR和CTR兩方面評估得出的,為此需要構建專門的CTR和CVR預估模型,目前通用的是DNN算法,只不過相比于推薦場景,在搜索場景模型需要加入更多的檢索詞特征。
補充:因子間耦合嚴重導致因子計算方式的調整會引起超參數(shù)變化,這時可以劃分區(qū)間解決。
7.搜索引擎精排策略
7.1.排序策略與特征
精排環(huán)節(jié)的排序分為相關性排序和多目標排序。
相關性排序:很多公司起初并不具備精細設計排序模塊的能力,一般會將粗排、精排、重排融合在一起,僅通過召回階段的相關性分數(shù)排序。千人一面,但可以保證檢索詞和物料的相關性。
多目標排序:$$Score_精=a*相關性分+b*質量分+c*轉化效率分$$,因子權重與粗排公司不同,更側重轉化效率分,模型特征和網(wǎng)絡結構遠比粗排模型復雜。
在搜索場景中,相比于推薦特征,搜索特征增加了一系列以檢索詞為核心的特征。
7.2.PageRank算法
7.2.1.基本假設:
1.數(shù)量假設:一個網(wǎng)頁被其他網(wǎng)頁鏈接的越多,則該網(wǎng)頁越重要。
2.質量假設:一個網(wǎng)頁被高質量網(wǎng)頁鏈接,則該網(wǎng)頁質量很高
7.2.2.基本算法:
將互聯(lián)網(wǎng)想象一張圖網(wǎng)絡,網(wǎng)絡上每一個節(jié)點(node)就是一個獨立的網(wǎng)頁,如果兩個網(wǎng)頁之間存在超鏈接關系,則它們之間存在一條有方向的邊(edge),每個節(jié)點向外鏈接的節(jié)點數(shù)被稱為該節(jié)點的出度,每個節(jié)點的PageRank值(以下簡稱PR值)表示該節(jié)點的權威性。
8.搜索引擎重排策略
重排環(huán)節(jié)起到的作用和推薦系統(tǒng)一致,也分為全局最優(yōu)策略、用戶體驗策略和流量調控策略。搜索場景中用戶帶有明確的意圖,所以序列優(yōu)化的收益沒有推薦場景大。搜索場景對物料多樣性的要求遠遠不及推薦廠家,搜索場景一般基于檢索詞返回結果,大多數(shù)情況都是相同類目,一般針對同商家、同創(chuàng)作者、同首圖進行打散,也使用推薦策略中講到的滑動窗口法。
搜索和推薦是App的兩大主要流量場,但在電商App中,如淘寶平臺70%左右的GMV都是由搜索場景轉化的哦!
本文由 @乾意 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!