唇語識別,真會是語言交互的終極戰(zhàn)場?

1 評論 4170 瀏覽 8 收藏 13 分鐘

自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰(zhàn),甚至可能帶來一場革命。不過,從本文來看,唇語識別還不能快速地普及。

在今年的烏鎮(zhèn)世界互聯網大會上,搜狗展出了一項黑科技——唇語識別,12月14號搜狗在北京又公開演示了這項技術。作為行業(yè)領先的唇語識別系統(tǒng),搜狗在非特定開放口語測試中,通用識別的準確率在60%以上,而在車載、智能家居等垂直場景下,已達到90%的準確率。

雖說搜狗是國內第一家公開演示這項技術的公司,但早在2017年3月,海云數據創(chuàng)始人兼CEO馮一村在亞洲大數據可視分析峰會上,就發(fā)布了重慶市公安科研所與海云數據共同研發(fā)的唇語識別技術,它的中文識別模型準確率已達到70%。

而谷歌DeepMind團隊,在2016年利用BBC視頻對他們的AI系統(tǒng)進行了5000個小時的訓練,測試時唇語識別正確率達到了46.8%。

這并不是場獨角戲,那唇語識別到底是何物?未來又有著怎樣的想象空間?

唇語識別只是語言識別的進化

雖說唇語識別近期才進入公眾視野,但唇語識別技術的發(fā)展可以追溯到上世紀80年代。

當時,語音識別技術迅速發(fā)展,出現了許多實用的語音識別系統(tǒng),然而這些系統(tǒng)抗干擾能力不強,在有背景噪音與交叉談話的情況下,它們的性能會大幅降低。而在自然應用環(huán)境中,噪音現象十分常見,研究者們?yōu)榱私鉀Q上述缺陷,一方面采用降噪技術降低干擾,另一方面開始尋求其它解決方法。

那唇語識別技術是怎么發(fā)展來的呢?語音識別的研究者們突然發(fā)現,其實人類的語言識別系統(tǒng)是由兩個感知過程構成的,聲音雖然是人類語言認知過程中最重要的方式,但在日常交流中,我們還會用眼睛看著對方的口型、對方的表情等,來更加準確的理解對方所講的內容。受此啟發(fā),研究者們開始研究唇語識別。因為唇語識別完全不會受到噪聲干擾,在多人對話中也能有效進行區(qū)分,這就有望解決語音識別的缺陷。事實上也是,將唇語識別與語音識別結合起來能夠大大提高系統(tǒng)的正確率和抗干擾能力,于是唇語識別便有了更多的發(fā)揮空間。

換湯沒換藥,近30年的發(fā)展,核心步驟還是三步

經過研究各類資料發(fā)現,唇語識別技術從攝像頭輸入到理解輸出,中間最重要的是這三個單元——視覺前段、視覺特征提取、以及唇動識別。

(圖為:唇語識別的步驟)

其中,視覺前段包括人臉檢測與唇的檢測和定位,早期檢測方法比較笨拙,不允許人臉自由移動,有些還會手動添加特定標志來跟蹤唇動。目前的檢測方法主要是基于算法,先用人臉檢測算法得到人臉然后有針對性的定位唇動;或者利用最佳閩值二值化算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像。

視覺特征提取是對獲取的唇圖像進行處理得到對應特征,特征提取方法主要分為兩大類:基于像素的方法和基于模型的方法。所謂基于像素的方法,就是利用包含嘴的灰度級圖像或利用經過預處理后得到的特征向量的一類方法。這種方法的缺陷在于對二維或三維的縮放、旋轉、平移、光照變化以及說話人的變化都很敏感,會造成提取過程中特征丟失的情況,不能得到完整的特征信息。而搜狗所用的基于模型的方法就是,對唇的輪廓建立一個模型,將特征信息包含在這個模型之中,并對模型中特征信息的變化用一個小的參數來描述。這類方法的優(yōu)點是重要特征被表示成二維參數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維信息,可能會對后面的識別過程造成影響。

目前唇動識別采用的技術大多是隱馬爾可夫模型,該技術基本思想是,認為唇動信號在極短時間內是線性的,可以用線性參數模型來表示,然后將許多線性模型在時間上串接起來,組成一條馬爾可夫鏈。馬爾可夫鏈可以用來描述統(tǒng)計特征信息的變化,并且這種變化過程與人的唇動過程是相吻合的,所以隱馬爾可夫模型能夠識別唇動并與相應語句匹配轉化成文字。

看似應用方向很多,最重要的還是輔助語音識別

唇語識別技術的應用方向有很多,比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報獲取、個人的身份識別以及公共安全領域等都擁有巨大的應用潛力。但在目前來看最大的應用還是輔助語音識別,畢竟它自誕生之初就是為了解決語音識別的噪音問題而研發(fā)的,這也會使得語音交互更加完善。

說到這里就不得不提到智能音箱,其實除搜狗之外,很多大公司也在布局語音交互,國內有阿里巴巴、百度、科大訊飛,國外有蘋果、谷歌、微軟、亞馬遜。在今年7月阿里巴巴就發(fā)布了一款智能音響天貓精靈,可以接受各種語音指令,搭載中文人機交流系統(tǒng)AliGenie,有望成為家庭智能小助手。在11月16日百度也推出了首款智能音響raven H,其采用19×19的點陣觸摸屏,內置DuerOS 2.0語音交互系統(tǒng),擁有語音和控制器兩種交互方式。其余還有京東的叮咚智能音響,小米的小愛同學,喜馬拉雅的小雅音響等智能音響產品。對于這些公司而言,似乎不出一個智能音響都不好意思說自己在人工智能領域混。

那智能音響到底與唇語識別有啥關系?大廠們紛紛推出智能音響的原因是看到了新型交互方式的大趨勢,但是智能音響能夠滿足需求的場景較少,且智能音響還有兩大頑疾——抗噪音能力與遠場交互能力較低。

根據聲學在線的測試,即便是市面上最主流的智能音響,在抗噪音能力與遠場交互能力上的表現也不盡如人意,5米的中短距離上有很多失誤。

(圖為:5m 距離智能音響喚醒失敗次數統(tǒng)計)

而且,傳統(tǒng)語音交互對輸入音頻要求高,在背景噪音大時很容易失效,若人與機器再隔得遠一點,失效的情況就更加嚴重了。但唇語識別就可以解決這兩個問題。

若要快速普及,還有兩個問題待解

自出現唇語識別技術出現起,就有聲音說唇語識別是語言交互的高階戰(zhàn),甚至可能帶來一場革命。不過,根據觀察,目前來說,唇語識別還不能快速普及。這主要的問題在:

1、攝像頭錄入存在很大的限制,不能完全滿足日常交互需求

在目前的唇語識別系統(tǒng)中,獲得的嘴唇視覺特征信息都是正向的,這就意味著你與它交互時,必須時刻正對著它,第一視角被其牢牢占據,這在真實應用場景下難以達到。要能夠應用更多的場景,應該使人在側著身子說話時也能被檢測識別,這要求在人臉識別、唇的檢測與定位方面研究出更強的定位、跟蹤算法,提高算法的普適性,使之適用于非特定姿勢和位置的識別定位,并且唇動識別技術也要提高,使之能處理非正向的、較不完整的視覺特征信息。

2、識別的準確度也是一個關鍵的問題,在有關安全的場景下,準確度是不容有差的

但我們知道其實口型與拼音序列是一對的多關系,如 zhi、chi、shi對應的口型序列是一樣的,單純利用視覺特征難以區(qū)分,會造成信息識別錯誤,處理這個問題,傳統(tǒng)的技術方法是文法型語言模型,它基于人工編制的語言學文法,這種語言模型一般用于分析特定領域內的語句,無法處理大規(guī)模的真實文本。目前很多識別系統(tǒng)是人工限定的框架,在某一場景中對可能會出現的語句進行了很多設置,這是搜狗唇語識別系統(tǒng)在垂直場景(如車載)中表現得很好的原因,這同樣也是它還不能大規(guī)模應用到其他場景的原因,因為要對所有場景進行設定,幾乎是不可能的。

不過,我們依然要滿懷信心,隨著人類社會的發(fā)展,真實信息越來越多,處理數據的手段也越來越豐富,基于語料庫的統(tǒng)計語言模型發(fā)展迅速,借助于統(tǒng)計語言模型的概率參數,可以估算出自然語言中每個句子出現的可能性,并通過對語料庫進行深層加工、統(tǒng)計和學習,獲取自然語言中的語言知識,從而可以處理大規(guī)模真實文本,并能識別出語言中細微的差別。目前在通用識別場景的準確率只有60%到70%,雖然稍顯不足,但可以預見,隨著大數據與人工智能的發(fā)展,未來的識別準確率會達到更高。

這看起來,一個新的時代正向我們迎面走來。

 

作者:夏汀,微信工眾號:?智能相對論(aixdlun)

本文由 @瀟湘 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 唇語識別,說實話,在實際生活場景中,一無是處。試想一下,一個人走在大馬路上對著一個攝像頭,夸張的擺弄著自己的嘴巴,這不是神經病是什么?

    來自江蘇 回復