百度即將發(fā)布視覺(jué)搜索:看到一只狗,怎么認(rèn)出它是什么品種
![](http://image.woshipm.com/wp-files/img/97.jpg)
設(shè)想這樣一個(gè)場(chǎng)景:某天你遇到一只狗,很喜歡卻沒(méi)辦法搞清楚是什么品種,怎么才能快速獲得答案?通常這樣的要求可以借助搜索引擎,但在這個(gè)場(chǎng)景下,找出正確形容這只狗的核心關(guān)鍵詞,似乎成了一種更具難度的挑戰(zhàn)。
然而搜索引擎并未失效,只是需要更換一種輸入方式——變文字為圖像。以多媒體的方式發(fā)起搜索,這也正是搜索引擎一貫的演進(jìn)方向。
幾天前機(jī)緣巧合,百度工程師李浩向我展示了尚未在iOS和Android平臺(tái)發(fā)布的新產(chǎn)品——百度移動(dòng)視覺(jué)搜索。這個(gè)技術(shù)將在百度移動(dòng)平臺(tái)客戶(hù)端上實(shí)現(xiàn):通過(guò)手機(jī)攝像頭捕捉的圖像,幫用戶(hù)找到想要的那本書(shū)、那張CD甚至是那只狗。
我的第一反應(yīng)是,移動(dòng)視覺(jué)搜索和之前的PC端的以圖搜圖,有差么?
我得到的答案是:在選取特征表達(dá)方面,這兩個(gè)產(chǎn)品沒(méi)有根本性的差異;而不同之處體現(xiàn)在數(shù)據(jù)庫(kù)和算法方面。幾年前推出的百度識(shí)圖(shitu.baidu.com),只是簡(jiǎn)單的尋找相同圖片,實(shí)用價(jià)值坦白講并不高(最近加強(qiáng)了人臉識(shí)別功能)。
而即將應(yīng)用在手機(jī)端的視覺(jué)搜索,顯然不想變成一種雞肋。
![書(shū)籍封面檢索示例](https://image.woshipm.com/wp-files/2013/03/63550631a533091817faa43946e54b00.jpg)
不同之處首先是縮小了適用范圍。這個(gè)產(chǎn)品將通過(guò)逐個(gè)小類(lèi)目滲透的方式推進(jìn),首先是支持圖書(shū)搜索、然后是支持音樂(lè)CD……這就是上面提到的數(shù)據(jù)庫(kù)變化。新的方式所要處理的數(shù)據(jù)規(guī)模要小得多,這同時(shí)也給算法帶來(lái)更多的靈活性。
數(shù)據(jù)庫(kù)越大,對(duì)算法的要求就約高。搜索算法主要以?xún)蓚€(gè)緯度衡量:一是效果,二是效率。所謂效果就是準(zhǔn)確率和召回率,這兩項(xiàng)關(guān)系到搜索質(zhì)量的好壞;而效率可以理解為單位時(shí)間的處理速度,這直接關(guān)系到一次查詢(xún)所消耗的時(shí)間。
實(shí)際上更小的數(shù)據(jù)庫(kù),使得算法效率可以略作犧牲,換取效果的提升。
效果怎么提升?李浩解釋說(shuō),一是抽取更多的特征表達(dá),更多特征的好處顯而易見(jiàn);二是改進(jìn)索引結(jié)構(gòu),變一級(jí)索引為多級(jí)索引,這可以形象的理解為先搜一遍,然后在這個(gè)結(jié)果上再搜一遍……最后才把結(jié)果返回給用戶(hù)。
差異大抵如此。
![電影海報(bào)檢索示例](https://image.woshipm.com/wp-files/2013/03/a66a78a5f5d95214d95834da431c2574.jpg)
我看到的內(nèi)部測(cè)試版本中,百度移動(dòng)視覺(jué)搜索已經(jīng)涉及了幾個(gè)類(lèi)目:圖書(shū)、音樂(lè)CD、娛樂(lè)海報(bào)、文字識(shí)別、翻譯以及開(kāi)頭提及的:狗。
以iOS平臺(tái)為例,正式發(fā)布后用戶(hù)打開(kāi)“百度搜索”App,點(diǎn)擊搜索框右側(cè)的相機(jī)圖標(biāo),就能彈出相應(yīng)的視覺(jué)搜索功能菜單。比方想要尋找某一圖書(shū),只需要按照前述過(guò)程,對(duì)著一本書(shū)拍一下,就能獲得這本書(shū)的相關(guān)信息:包括多個(gè)網(wǎng)店的售價(jià)。
CD和海報(bào)等也是如此。你不必拍全,只拍一部分也能找到想要的結(jié)果,甚至斜著拍、倒著拍也不影響搜索結(jié)果。這與特征識(shí)別的提取有關(guān),機(jī)器和人的識(shí)別模式顯然不同。產(chǎn)品經(jīng)理會(huì)決定下一步擴(kuò)展到哪個(gè)新的類(lèi)目。
最容易的擴(kuò)展方向還是“剛體”。也是說(shuō),搜索對(duì)象的外型和體積不會(huì)輕易發(fā)生變化。在這種類(lèi)目上,就可以啟動(dòng)機(jī)器學(xué)習(xí)中“非監(jiān)督”模式,即不需要人工干預(yù)、指導(dǎo)機(jī)器的學(xué)習(xí)過(guò)程,這種模式顯得又快又輕松。
衣服就是一個(gè)剛體反例——很容易發(fā)生形變。通過(guò)“有監(jiān)督”的模式,機(jī)器能夠?qū)W習(xí)判斷長(zhǎng)袖短袖等衣服類(lèi)型,然而形變過(guò)大必然會(huì)影響實(shí)際的效果。
其實(shí),開(kāi)頭提到的狗也是反例。
對(duì)于機(jī)器怎么在“有監(jiān)督”模式下學(xué)會(huì)識(shí)別狗,我非常好奇。而過(guò)程似乎也比想象中的簡(jiǎn)單:不需要人為事先給出狗的特征定義,只需要提供足夠的相關(guān)圖片,用以劃上一個(gè)大致的識(shí)別邊界,機(jī)器就會(huì)自己找到判定一只狗的方法。
來(lái)源:http://tech.sina.com.cn/i/csj/2013-03-22/10488172846.shtml
- 目前還沒(méi)評(píng)論,等你發(fā)揮!