沒有NLP技術(shù)背景,如何造一款A(yù)I產(chǎn)品?

2 評(píng)論 4602 瀏覽 41 收藏 6 分鐘

這兩年AI最火的非智能音箱莫屬,為搶占入口,市場上語音產(chǎn)品層出不窮,現(xiàn)已是一片紅海,智能音箱已經(jīng)成大廠們的標(biāo)配產(chǎn)品或是戰(zhàn)略中的一部分。那問題來了,沒有大廠技術(shù)基因,沒有NLP?(Natural Language Processing)?技術(shù)背景的小公司,應(yīng)該怎么做“AI”智能語音產(chǎn)品呢?

一、選擇第三方NLP開放平臺(tái)

NLP技術(shù)沉淀周期過長,投入會(huì)很大,選擇第三方開放平臺(tái)想必是小公司最好的選擇,推薦三個(gè)AI語音開放平臺(tái):

  • 科大訊飛開放平臺(tái);
  • 百度AI開放平;
  • 搜狗云知音。

二、明確技術(shù)分工

上圖是引入單個(gè)NLP的對(duì)接方案,通過任務(wù)分解,可以很清楚知道,哪些是第三方平臺(tái)做的,哪些是我們要做的。

NLP底層識(shí)別交給第三方開放平臺(tái):

  • ASR (Automatic Speech Recognition,自動(dòng)語音識(shí)別):作用是將語音輸入轉(zhuǎn)化為文本文字
  • NLU后臺(tái) (Natural Language Understanding,自然語言理解):開放給使用者的一套自定義語義系統(tǒng)
  • TTS (Text To Speech,文本轉(zhuǎn)語音):用于文本轉(zhuǎn)語音
  • 喚醒模型:預(yù)置喚醒詞,當(dāng)用戶發(fā)出該語音指令時(shí),設(shè)備便從休眠狀態(tài)中被喚醒,并作出指定響應(yīng),喚醒詞需要反復(fù)訓(xùn)練提升喚醒率,降低誤喚醒。
  • OS(Operating System): OS在執(zhí)行層面發(fā)揮的巨大作用,比如:正在執(zhí)行播放音樂,你想關(guān)閉、切換歌曲,這時(shí)候OS就顯示出他的作用了
  • 系統(tǒng)垂類:開放平臺(tái)所帶的系統(tǒng)技能

NLU補(bǔ)充、執(zhí)行干預(yù)、運(yùn)營系統(tǒng)是我們需要做的。

三、談?wù)勎覀円龅膬?nèi)容

底層工作交給開放平臺(tái)之后,我們需要搭建自己的運(yùn)營管理系統(tǒng),開發(fā)自己想要的技能。

技能

相當(dāng)于垂類,簡單的說就是某個(gè)應(yīng)用程序,語音作為入口打開應(yīng)用,像音樂、新聞、天氣、笑話等都屬于技能,比如:講個(gè)笑話,語音產(chǎn)品執(zhí)行打開了“笑話”應(yīng)用,給你返回一條笑話內(nèi)容。

技能決定了產(chǎn)品內(nèi)容的廣度,技能可以是自制,比如:鬧鐘,也可以從第三方合作引進(jìn),像“抖音”、“微信”這樣自帶流量的第三方估計(jì)想必都想接入吧,對(duì)于一個(gè)智能產(chǎn)品來說,技能自然多多益善。至于需要多少,看公司的產(chǎn)品定位、業(yè)務(wù)、成本等因素綜合考慮。

自定義NLU

給你的技能配置語義,基于開放平臺(tái)下建立自己產(chǎn)品的自定義NLU語義內(nèi)容,NLU主要由三個(gè)方面構(gòu)成,語義文本、意圖、參數(shù)。

語義文本(Text)

語義文本設(shè)計(jì)目的是為了能聽得懂用戶聲音,同一個(gè)請(qǐng)求,每個(gè)用戶說法都不一樣。舉個(gè)簡單的例子,比如:幫我放首周杰倫的歌,來點(diǎn)周杰倫音樂,周杰倫的音樂有沒有。設(shè)計(jì)語義文本時(shí),既要使用正規(guī)的主謂賓結(jié)構(gòu),又要考慮到特殊的說法,語義要盡量覆蓋全。

意圖(Intent)

意圖指用戶的具體請(qǐng)求或目的,一個(gè)意圖可以包含多個(gè)語義文本。舉例:明天早上8點(diǎn)叫我起床,定明天早上8點(diǎn)鐘的鬧鐘,都屬于新增鬧鐘意圖。通常意圖依賴于技能,舉例的意圖就屬于鬧鐘技能。

詳細(xì)參數(shù)(Detail)

讀懂用戶說什么后,需要根據(jù)用戶的意圖作出相應(yīng)的反饋,參數(shù)設(shè)計(jì)就顯得特別重要了。NLP平臺(tái)做法是當(dāng)語義文本輸入命中意圖后,通過接口將自定義NLU的參數(shù)傳達(dá)給后臺(tái)。參數(shù)存在的目的是要告訴后臺(tái),接下來你要做什么。

還是用歌曲的例子來說明:

語義告訴后臺(tái),命中MUSIC意圖,執(zhí)行音樂技能,播放作者為“周杰倫”的歌曲。

產(chǎn)品交互規(guī)則

拿到了NLP傳達(dá)的參數(shù)指令,接下來系統(tǒng)要做的是給用戶反饋結(jié)果。

命中到NLP系統(tǒng)自帶的技能,如果你不做干預(yù)的話,系統(tǒng)可以直接給出結(jié)果。

命中不是系統(tǒng)技能意圖或干預(yù)系統(tǒng)自帶技能,需要根據(jù)參數(shù)開發(fā)相應(yīng)的功能。

最后

沒有語音識(shí)別技術(shù)同樣可以打造一款智能語音產(chǎn)品,它可以成為你的產(chǎn)品體系里的一部分。因?yàn)槌錾頉Q定了它的造價(jià)成本會(huì)很高,如果脫離產(chǎn)品體系,將該語音產(chǎn)品單獨(dú)為投入市場,至少在價(jià)格上缺乏競爭力。

 

本文由 @?ivan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 哇,這文章不錯(cuò)

    回復(fù)
  2. 作為同行,我想說,作者僅僅只是把用戶看到的輸入和輸出做了功能性的推導(dǎo),其實(shí)可以將文本或者語音的樣本數(shù)據(jù)人工標(biāo)注,簡單的算法處理,模型訓(xùn)練,過擬合等說一遍,大家應(yīng)該都聽得懂;再深入的ML、DL,模板就可以不用說了

    來自北京 回復(fù)