搜索引擎如何實(shí)現(xiàn)用戶圖片檢索的需求滿足
![](http://image.woshipm.com/wp-files/img/33.jpg)
一、什么是需求滿足
1.1 什么是需求滿足
用戶來(lái)搜索“章魚 保羅”,就文本相關(guān)性而言,搜索引擎只要返回和“章魚 保羅”內(nèi)容相關(guān)的結(jié)果就可以了,這樣用戶是否滿意呢?
用戶甲:聽(tīng)說(shuō)章魚帝掛了,來(lái)看看最新結(jié)果,怎么全是8月份的,往后翻頁(yè)中…
用戶乙:今天同事們?cè)谟懻撜卖~哥掛了,章魚哥是啥?我又out了,來(lái)搜索一下章魚帝生平事跡是啥,怎么全是最新的結(jié)果,沒(méi)有章魚哥的介紹啊,變換個(gè)query看看
用戶丙:我是鐵桿球迷,看完章魚哥,再看看足球相關(guān)的吧,魯尼,杰拉德是否又進(jìn)球了,怎么連個(gè)相關(guān)推薦都沒(méi)有,還得我親自輸入。
用戶?。赫覀€(gè)章魚哥的頭像用一下吧,一定很拉風(fēng),怎么全是結(jié)果沒(méi)有方圖呢,這么扁的圖怎么用啊
用戶戊:換個(gè)章魚哥的壁紙,也許下次買彩票能發(fā)大財(cái),咦,怎么全是小尺寸的圖…
(以上信息通過(guò)分析2010-10-27用戶session得出。)
籠統(tǒng)的說(shuō),用戶向搜索引擎表達(dá)他的需求,搜索引擎理解用戶需求,提供各不同的需求下的資源,這整個(gè)過(guò)程可統(tǒng)稱為需求滿足。簡(jiǎn)單說(shuō),就是除了基礎(chǔ)文字相關(guān)性之外的rank工作,都屬于需求滿足的范疇,也就是說(shuō),提供給用戶的檢索結(jié)果,不僅僅要求在字面上是和用戶輸入的文字相關(guān)的,還要滿足用戶的各種不同需求。
需求滿足在rank體系中所處的位置:
1.2 為什么需要需求滿足
用戶通過(guò)query表達(dá)了自己的需求,而對(duì)于大部分query來(lái)說(shuō),尤其是具有隱含需求的query,僅僅字面匹配的查詢結(jié)果未必能夠滿足其需求。目前我們的排序系統(tǒng)是主要是基于文本相關(guān)性這個(gè)維度的,權(quán)值體現(xiàn)了query中的term與obj的相關(guān)程度,在這個(gè)體系下,相關(guān)的結(jié)果未必能夠滿足用戶需求。
例如前面提到的“章魚 保羅”的例子,顯然,這些需求在文本相關(guān)性這個(gè)維度下很難解決,尤其涉及到突發(fā)時(shí)效性需求,泛需求等。
1.3 需求滿足包含哪些工作
從上面的例子中,可以看出,需求滿足需要解決時(shí)效性需求問(wèn)題,多需求問(wèn)題,相關(guān)推薦,size需求,素材類需求,瀏覽引導(dǎo)等問(wèn)題。除了基礎(chǔ)文本相關(guān)性以外的rank策略以及為了這些所做的query分析工作可認(rèn)為屬于需求滿足的工作,另外還包括前端結(jié)果展現(xiàn)與用戶引導(dǎo)瀏覽的工作。
Image需求滿足,按照不同的維度,可以劃分為如下幾個(gè)方面:
a.需求識(shí)別
b.資源建設(shè)
c.需求調(diào)權(quán)
d.結(jié)果組織與推薦
e.用戶引導(dǎo)交互
二、需求滿足如何做
需求滿足要解決的核心問(wèn)題:
需求識(shí)別
資源建設(shè)
需求調(diào)權(quán)
2.1 需求的識(shí)別
2.1.1 需求的類型
識(shí)別query有哪些需求,以及需求的強(qiáng)弱,是最基礎(chǔ)的工作。首先要有需求的體系,能完備的描述各種需求,其次是如何識(shí)別這些需求,把每個(gè)query的需求對(duì)應(yīng)到這個(gè)體系中去。
基于統(tǒng)計(jì)的需求識(shí)別
通過(guò)對(duì)大量的數(shù)據(jù)統(tǒng)計(jì)分析,可以識(shí)別出query有哪些方面的共性??晒┓治龅臄?shù)據(jù)很多,比如用戶行為數(shù)據(jù),點(diǎn)擊反饋,檢索結(jié)果等。
比如:搜索“章魚 保羅 壁紙”,通過(guò)統(tǒng)計(jì)用戶點(diǎn)擊圖片的長(zhǎng)寬數(shù)據(jù),發(fā)現(xiàn)用戶點(diǎn)擊的圖片,大部分是長(zhǎng)寬比較大的圖片,而“章魚 保羅 頭像”則恰恰相反。
又比如通過(guò)分析大量用戶的檢索數(shù)據(jù),發(fā)現(xiàn)相當(dāng)部分的用戶在檢索“章魚 保羅”之后,又檢索了足球相關(guān)的關(guān)鍵詞,那么可以識(shí)別“章魚 保羅”和足球有著很高的關(guān)聯(lián)度,在給用戶推薦相關(guān)搜索時(shí),可以插入足球相關(guān)的推薦。
專名&需求詞
判斷query中包含專名或者需求詞等關(guān)鍵詞,是最直接的方式。比如“章魚 保羅 頭像”,用戶在query中顯示的表達(dá)了頭像方面的需求,其中就包含了尺寸方面的需求,頭像是需要小尺寸的圖,如右圖所示,這時(shí)候出一張大的圖片就不符合用戶需求了。
時(shí)效性需求
時(shí)效性需求的識(shí)別,主要是通過(guò)用戶檢索量的突發(fā)以及資源數(shù)的突發(fā)來(lái)判斷。
檢索量的突發(fā),可以通過(guò)累積每個(gè)query的每天的用戶檢索頻率,用連續(xù)多天的用戶檢索頻率,計(jì)算當(dāng)天檢索量和歷史比較,是否有突發(fā),進(jìn)而判斷是否有時(shí)效性需求的強(qiáng)弱。資源數(shù)方面的判斷,可通過(guò)類似的方式挖掘。
比如“章魚 保羅”,在世界杯期間,該query,以及相關(guān)query的檢索量,相比世界杯之前,用戶檢索量有了爆發(fā)性的增長(zhǎng),并且持續(xù)保持在高檢索量的狀態(tài),則可認(rèn)為是有時(shí)效性需求的query。
2.2 需求的滿足
識(shí)別出query有哪些需求,下一步的工作就是提供相應(yīng)的資源。
2.2.1 資源的挖掘
如何獲得滿足需求的資源,是需求滿足的另一個(gè)核心問(wèn)題。在資源上,通過(guò)某一個(gè)或者幾個(gè)特征組合,能夠把滿足要求的資源和不滿足要求的資源區(qū)分開(kāi),找到用戶需求需要的資源,去掉不滿足要求的資源,是主要的工作。
內(nèi)容屬性特征
對(duì)內(nèi)容屬性維度來(lái)說(shuō),可以分為底層的物理特征,中層的物體識(shí)別和高層的語(yǔ)義特征。
對(duì)于底層的物理特征,相對(duì)比較簡(jiǎn)單,包括尺寸,顏色,格式,清晰度飽和度等,中層特征,有人與非人的,色情圖片的,整車的識(shí)別,手機(jī)圖片的識(shí)別等;對(duì)于高層的語(yǔ)義特征,包括場(chǎng)景的識(shí)別,圖片風(fēng)格的識(shí)別,情感的識(shí)別,比如是室內(nèi)還是室外,是否非主流風(fēng)格等,都可以作為資源篩選的特征。
話題屬性維度
話題屬性維度,是指動(dòng)物,植物,帥哥,美女,軍事,體育等等各種不同的話題,我們希望把圖片能按照這樣一個(gè)分類進(jìn)行一個(gè)劃分。
比如,通過(guò)這個(gè)分類,我們可以知道哪些圖片是頭像類的,哪些是壁紙的,哪些是足球體育相關(guān)的。用戶在搜索“章魚 保羅”時(shí),可以推薦足球相關(guān)的資源。
時(shí)效性資源的收錄
時(shí)效性資源,可以很容易的通過(guò)收錄時(shí)間來(lái)判斷,和非時(shí)效性資源區(qū)分開(kāi)。時(shí)效性資源的來(lái)源一般包括新聞?wù)军c(diǎn),各大論壇,bbs等社區(qū)類網(wǎng)站。
2.2.2 需求調(diào)權(quán)
明確了query的需求,挖掘了滿足需求的資源,那么如何把滿足需求的資源rank到前端呢?
對(duì)于各種不同的需求維度,都有自己的調(diào)權(quán)的策略。比如“章魚 保羅 壁紙”,我們識(shí)別出有尺寸方面的需求,那么可以把尺寸比較大的圖片,進(jìn)行加權(quán);又比如時(shí)效性的需求,可以直接在前三頁(yè)插入的時(shí)效性庫(kù)的結(jié)果,這是因?yàn)闀r(shí)效性需求是一個(gè)強(qiáng)需求維度,簡(jiǎn)單的加權(quán),不能保證結(jié)果調(diào)整到前三頁(yè)。
目前這種策略直接疊加的調(diào)權(quán)方式,優(yōu)點(diǎn)是簡(jiǎn)單,直接,缺點(diǎn)也比較多,最大的是不可控,一個(gè)維度上的調(diào)權(quán),會(huì)對(duì)最后結(jié)果造成多大的影響,他說(shuō)的話分量有多大,不知道。
三、結(jié)語(yǔ)
對(duì)于需求滿足未來(lái),要向智能化,自動(dòng)化,多樣化的方向持續(xù)發(fā)展。我們最終的目標(biāo)是把需求滿足這個(gè)方向做沒(méi)了,需求挖掘,資源滿足全部自動(dòng)化,做到“手中無(wú)劍 心中有劍”。
By liukaikui
來(lái)源:http://stblog.baidu-tech.com/?p=95
- 目前還沒(méi)評(píng)論,等你發(fā)揮!