亚洲一级无码毛片在线观看，国产精品开放色视频，国产亚洲免费视频视频观看，久久人妻综合视频，波多野吉衣人妻无码潮喷av，亚洲A∨一区二区影片，香蕉视频精品小姐福利，超碰97青青久久人人澡

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

產(chǎn)品經(jīng)理視角下的自然語(yǔ)言處理

Jira狂想曲

2020-08-23

6 評(píng)論 10055 瀏覽 53 收藏

14 分鐘

編輯導(dǎo)語(yǔ)：自然語(yǔ)言理解俗稱“人機(jī)對(duì)話”，AI領(lǐng)域分支科學(xué)，以語(yǔ)言學(xué)為基礎(chǔ)，涉及心理學(xué)、邏輯學(xué)、聲學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)。其算法和邏輯的設(shè)計(jì)和實(shí)現(xiàn)自然十分復(fù)雜和困難，作為智能語(yǔ)音系統(tǒng)的產(chǎn)品，本文作者今天從產(chǎn)品的視角和大家簡(jiǎn)單的聊一聊“自然語(yǔ)言理解”及其周邊知識(shí)。

一、名詞解釋

1. 語(yǔ)音交互“三駕馬車”

1）ASR

語(yǔ)音自動(dòng)識(shí)別，把外界的聲音轉(zhuǎn)寫成文字，相當(dāng)于人類的耳朵。

2）NLP

分為NLU和NLG兩部分， NLU負(fù)責(zé)理解內(nèi)容，NLG負(fù)責(zé)生成內(nèi)容。

前者是對(duì)外界輸入的理解，后者是根據(jù)理解的內(nèi)容生成對(duì)應(yīng)的輸出，相當(dāng)于人類的大腦。

3）TTS

語(yǔ)音合成，NLG生成的文字由TTS由不同音色播報(bào)出來(lái)，相當(dāng)于人類的嘴巴。

2. 自然語(yǔ)言理解

1）語(yǔ)料

語(yǔ)料是構(gòu)成訓(xùn)練集和測(cè)試集的基本單位，可以是句子、短語(yǔ)，通過(guò)對(duì)大量語(yǔ)料學(xué)習(xí)幫助模型識(shí)別用戶的意圖。

2）訓(xùn)練集和測(cè)試集

顧名思義前者是用來(lái)訓(xùn)練模型進(jìn)行意圖識(shí)別的，而后者是用來(lái)測(cè)試模型學(xué)習(xí)效果如何的，二者都是由語(yǔ)料構(gòu)成。

3）置信度

人為設(shè)定，超過(guò)了模型的置信度表示模型就會(huì)去理解（結(jié)果可能會(huì)理解錯(cuò)或理解對(duì)），小于置信度，強(qiáng)制模型不去理解。

3. 模型及算法

1）機(jī)器學(xué)習(xí)模型

通過(guò)算法使得機(jī)器能從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律，從而對(duì)新的樣本做出智能識(shí)別或?qū)ξ磥?lái)做出預(yù)測(cè)，相當(dāng)于培養(yǎng)模型“舉一反三”的能力。

2）神經(jīng)網(wǎng)絡(luò)模型

通過(guò)大量的簡(jiǎn)單計(jì)算單元構(gòu)成的非線性系統(tǒng)，在一定程度上模仿了人腦神經(jīng)系統(tǒng)的信息處理、存儲(chǔ)和檢索功能，是對(duì)人腦神經(jīng)網(wǎng)絡(luò)的某種簡(jiǎn)化、抽象和模擬，相當(dāng)于“由淺入深”的學(xué)習(xí)過(guò)程。

二、語(yǔ)音交互的應(yīng)用場(chǎng)景

從目前商業(yè)市場(chǎng)劃分來(lái)看，語(yǔ)音交互主要應(yīng)用場(chǎng)景及細(xì)分賽道眾多：智能家居、車載場(chǎng)景、醫(yī)療場(chǎng)景、教育場(chǎng)景和客服場(chǎng)景等。

從有無(wú)硬件載體上可簡(jiǎn)單粗暴的分為兩大類：

1. 聊天機(jī)器人

產(chǎn)品定位于日常的“人機(jī)閑聊”。

可掌控簡(jiǎn)單或復(fù)雜場(chǎng)景人機(jī)交互，依賴于ASR、NLP和TTS，通常使用嵌入式系統(tǒng)與硬件完成對(duì)接，如常見(jiàn)的天貓精靈、Siri和車載機(jī)器人等，主要應(yīng)用在智能機(jī)器人領(lǐng)域。

2. 語(yǔ)音外呼

產(chǎn)品定位于“完成任務(wù)”，業(yè)務(wù)屬性更強(qiáng)。

上游通過(guò)呼叫中心（FS）、電信運(yùn)營(yíng)商拿到路線和號(hào)碼資源，下游觸達(dá)用戶完成活動(dòng)營(yíng)銷、欠款通知和生活服務(wù)，主要應(yīng)用于智能語(yǔ)音外呼和呼入，通常會(huì)有固定的“業(yè)務(wù)流程“作為客戶引導(dǎo)手段。

目前智能語(yǔ)音行業(yè)由于應(yīng)用場(chǎng)景、業(yè)務(wù)要求、客戶體驗(yàn)或監(jiān)管要求等原因都會(huì)使用封閉問(wèn)答集來(lái)約定與客戶交互的邊界。

如在保險(xiǎn)營(yíng)銷的業(yè)務(wù)中，客戶若是詢問(wèn)了和業(yè)務(wù)不相關(guān)的內(nèi)容（今天氣溫是多少度？晚餐有什么推薦的嗎？）機(jī)器會(huì)使用提前設(shè)定好的固定的“兜底”話術(shù)來(lái)應(yīng)答（你說(shuō)啥，我不懂，請(qǐng)回答業(yè)務(wù)相關(guān)的內(nèi)容）將用戶重新拉回業(yè)務(wù)流程中，而不會(huì)與客戶進(jìn)行“不相關(guān)領(lǐng)域”的閑聊。

由于業(yè)務(wù)屬性的特殊性，客服性質(zhì)的外呼業(yè)務(wù)對(duì)監(jiān)管和用戶投訴格外關(guān)注，B端客戶對(duì)應(yīng)答話術(shù)的要求及意圖識(shí)別的準(zhǔn)確率要求較高。

所以除了使用語(yǔ)料來(lái)訓(xùn)練模型，基本上還會(huì)使用正則表達(dá)式和關(guān)鍵字的策略進(jìn)行意圖匹配的輔助。

三、自然語(yǔ)言理解

NLP（自然語(yǔ)言處理）被譽(yù)為人工智能的掌上明珠，究其原因“交流”在人類社會(huì)演進(jìn)中起到了最重要的作用。

作為“交流”最重要的途徑和方式之一，語(yǔ)言伴隨著人類社會(huì)的發(fā)展，歷久彌新，形成了博大精深、非常復(fù)雜的體系。

不同的職業(yè)領(lǐng)域、不同的歷史時(shí)期、也就是我們常說(shuō)的“自然語(yǔ)言”，就像平常媽媽和你說(shuō)話一樣，不需要完整的語(yǔ)法、不需要主謂賓定狀補(bǔ)的限定，擬人比喻倒裝夸張對(duì)偶各種修辭一起來(lái)。

讓孔子來(lái)理解我們今天的“語(yǔ)言”他其實(shí)也不知道我們?cè)诒磉_(dá)什么意思，更何況是機(jī)器人呢。

和媽媽交互的場(chǎng)景，在機(jī)器人眼里以下對(duì)話可能是這個(gè)樣子的：

媽：“把你那豬窩收拾收拾，和你爹一個(gè)熊樣”！
機(jī)器人的理解：你和你爸都是熊，你倆長(zhǎng)得很像。你養(yǎng)了一只豬，豬窩太亂你需要整理下。

如果沒(méi)有具體的對(duì)話場(chǎng)景，而且對(duì)于一個(gè)沒(méi)有感情的機(jī)器，很難讓他理解我們?nèi)祟惾粘Ｉ钪械恼Z(yǔ)言。

但是，我們可以教他，就像兒童成長(zhǎng)過(guò)程一樣：你媽第一次罵你“和你爹一個(gè)熊樣”你也不知道是什么意思，但是罵的多了加上她罵人時(shí)的表情、語(yǔ)氣、情緒等你就知道了“和你爹一個(gè)熊樣”實(shí)際上是在罵你。

四、理解和優(yōu)化過(guò)程

1. 訓(xùn)練模型

如上圖“不想上班“標(biāo)簽的訓(xùn)練集的語(yǔ)料內(nèi)容，都是表明作者不想上班的意思，并把其中的80%語(yǔ)料作為訓(xùn)練集扔給模型，讓其去學(xué)習(xí)（可以抽象成將復(fù)雜的非向量化的文本內(nèi)容歸一化為可以計(jì)算的數(shù)學(xué)模型，之后再轉(zhuǎn)換為機(jī)器可以理解的0和1，具體的實(shí)現(xiàn)過(guò)程作者也了解過(guò)，其中涉及到很多的數(shù)學(xué)內(nèi)容，較為復(fù)雜感興趣的同學(xué)可自行學(xué)習(xí)）。

最終，機(jī)器可以明白了其中的大部分意思。

2. 測(cè)試模型

不能機(jī)器說(shuō)學(xué)會(huì)了，我們就認(rèn)為它學(xué)會(huì)了，還要使用測(cè)試集對(duì)它進(jìn)行“考試”，使用上述語(yǔ)料中剩余的20%作為測(cè)試集進(jìn)行測(cè)試，得到模型的“識(shí)別率”。

識(shí)別率和“訓(xùn)練集”和“測(cè)試集”中的語(yǔ)料內(nèi)容很大的關(guān)系，需要合理的進(jìn)行分配。

否則結(jié)果會(huì)出現(xiàn)“過(guò)擬合”（考的恰好都是我會(huì)的，不會(huì)的都沒(méi)考，成績(jī)很高）和“欠擬合”（考的都不會(huì)，成績(jī)很低）的現(xiàn)象。

最終考試成績(jī)好，皆大歡喜；考試成績(jī)不好，回家優(yōu)化。

3. 模型結(jié)果優(yōu)化

1）停用詞

“停用詞”指在一句話中沒(méi)有實(shí)際意義，即使去掉對(duì)句子的整體理解（句式除外）也不會(huì)造成影響的詞。

如啊、哦、吧這種語(yǔ)氣詞或是出于具體的業(yè)務(wù)考量可以忽略的詞語(yǔ)，在語(yǔ)料預(yù)處理階段會(huì)將這些詞語(yǔ)忽略掉以增加語(yǔ)料的“純粹性”。

2）添加語(yǔ)料

模型識(shí)別的基礎(chǔ)是語(yǔ)料，盡可能多的添加優(yōu)質(zhì)的語(yǔ)料，保證模型在更好的“教育環(huán)境“下學(xué)習(xí)，通常在業(yè)務(wù)前期的語(yǔ)料積累階段，添加語(yǔ)料是提高準(zhǔn)確率最直接的方法。

理想的場(chǎng)景是在模型訓(xùn)練之前將完整的語(yǔ)料庫(kù)準(zhǔn)備好，以供第一次就可以訓(xùn)練好，但是語(yǔ)料的收集和整理也是耗時(shí)耗力且枯燥的工作，需要大量人工的投入。

3）模型參數(shù)調(diào)節(jié)

參數(shù)（超參數(shù)）不僅僅包括一些數(shù)字的調(diào)整，也包括了相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整和一些函數(shù)的調(diào)整（前面的停用詞也可以理解為預(yù)處理階段的一種參數(shù)），如對(duì)學(xué)習(xí)率、正則化方法、初始化權(quán)值的調(diào)整。

不同的模型類型，可調(diào)節(jié)的參數(shù)不同，需要算法工程師給出具體的優(yōu)化意見(jiàn)。

4. 其他手段

在對(duì)模型的優(yōu)化達(dá)到瓶頸之后，若是還不能達(dá)到理想的正確率，可以從其他方面想辦法和提高，如增加“完全匹配”、“正則表達(dá)式”等其他手段。

1）模型識(shí)別的問(wèn)題

與語(yǔ)料相同的用戶回答可能也不能正確識(shí)別出意圖。

如：語(yǔ)料中有”周六怎么還要加班呢“，客戶也回答”周六怎么還要加班呢“，有時(shí)并不一定會(huì)識(shí)別出“不想上班”的意思。

作者剛開始并不理解為什么會(huì)這樣？

這是因?yàn)槟Ｐ蛯⑺姓Z(yǔ)料都進(jìn)行了向量化，所以對(duì)模型來(lái)說(shuō)是不存在”相同文字“的概念。

我們可以這樣想，模型對(duì)語(yǔ)料的訓(xùn)練集內(nèi)容擬合為一條曲線，離曲線近的內(nèi)容可以識(shí)別出來(lái)，離曲線遠(yuǎn)的內(nèi)容識(shí)別不出來(lái)，完全相同的語(yǔ)料恰巧很遠(yuǎn)。

2）完全匹配

為了規(guī)避這種場(chǎng)景的出現(xiàn)，增加完全匹配，只要和語(yǔ)料完全相同的內(nèi)容在模型之前會(huì)進(jìn)行一輪意圖識(shí)別。

3）正則表達(dá)式

與完全匹配類似，使用正則來(lái)表達(dá)復(fù)雜但是具有統(tǒng)一格式規(guī)范的句子，如<.*不想上班.*>，可匹配“我今天不想上班了”、“他們是一群不想上班的產(chǎn)品經(jīng)理”等，可以理解為完全匹配的一種特殊形式。

正則的使用通?？梢源蟠蟮暮?jiǎn)化對(duì)封閉性問(wèn)題的語(yǔ)料編輯，節(jié)約工作量，適用于封閉性問(wèn)題且需要使用著對(duì)正則有一定的書寫和理解基礎(chǔ)，不適用大規(guī)模的使用。

4.5 未識(shí)別的處理

前面所說(shuō)的方案都是為了提高意圖理解的準(zhǔn)確性，即使加上了完全匹配和正則的情況下，目前不存在實(shí)際場(chǎng)景下100%識(shí)別準(zhǔn)確率的模型，部分內(nèi)容還是會(huì)給出錯(cuò)誤的判斷。

但是在交互過(guò)程，尤其是在真實(shí)業(yè)務(wù)場(chǎng)景（催收、營(yíng)銷、續(xù)保、欠費(fèi)通知、物業(yè)報(bào)修，餐飲訂座）中觸達(dá)用戶中“不懂裝懂”可不是一個(gè)很好的現(xiàn)象。

Question：“你吃飯了嗎？”
Answer：”不想上班就沒(méi)人給你發(fā)工資“

這樣的體驗(yàn)肯定是不行的，不會(huì)的問(wèn)題就說(shuō)不會(huì)，所以我們會(huì)設(shè)置模型的“置信度”。

模型分值高于置信度（參數(shù)的一種），我們相信模型識(shí)別對(duì)，低于置信度的我們會(huì)設(shè)定“兜底”的話術(shù)來(lái)進(jìn)行應(yīng)答，如“主人，我不懂你的意思唉”、“可能是信號(hào)不好，我沒(méi)聽(tīng)清楚”，既靈活的敷衍了自己不明白的尷尬局面，又表達(dá)了你說(shuō)的太難了我不懂的意思。

最后，不論是主動(dòng)學(xué)習(xí)還是被動(dòng)接受，語(yǔ)音交互已經(jīng)深入到我們生活的各個(gè)角落，雖然目前語(yǔ)音交互過(guò)程通常會(huì)有“所聞非所答”、“這個(gè)機(jī)器人真笨”的感覺(jué)，發(fā)展過(guò)程中出現(xiàn)的坑，總會(huì)前赴后繼的被填平并駐成山峰。

希望文章會(huì)各位在對(duì)自然語(yǔ)言理解的過(guò)程中有一定的幫助。

本文由 @Jira狂想曲原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Pexels，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

Jira狂想曲

讓我們一起搖擺

2篇作品 16313總閱讀量

旅游博主，卷入“反向旅游”賽道

02-228541 瀏覽

03-092933 瀏覽

如何運(yùn)用費(fèi)茨定律簡(jiǎn)化交互設(shè)計(jì)？

03-035347 瀏覽

拼多多創(chuàng)始人黃崢自述+演講+采訪稿匯總17篇 | 系列3

01-066206 瀏覽

國(guó)貨營(yíng)銷，抖音小紅書B站會(huì)怎么選？

11-24728 瀏覽

評(píng)論

StAra

看完就想起了自己上學(xué)的時(shí)候做文本挖掘的亞子??

最近回復(fù)
1. Jira狂想曲作者回復(fù)StAra
  
  ????
  
  最近回復(fù)
G_Sophia

作者前半部分講的自然語(yǔ)言處理的一些知識(shí)，通過(guò)形象的比如，簡(jiǎn)單易懂，很適合想要初步了解這塊知識(shí)的人，后面關(guān)于模型優(yōu)化那塊感覺(jué)還可以出個(gè)后續(xù)。“離曲線近的內(nèi)容可以識(shí)別出來(lái)，離曲線遠(yuǎn)的內(nèi)容識(shí)別不出來(lái)，完全相同的語(yǔ)料恰巧很遠(yuǎn)?！薄@里的“完全相同的語(yǔ)料恰巧很遠(yuǎn)”不是很明白

最近來(lái)自廣東回復(fù)
1. Jira狂想曲作者回復(fù)G_Sophia
  
  謝謝關(guān)注，在工作中我也會(huì)再深入了解算法和其中的應(yīng)用的，爭(zhēng)取后面出個(gè)后續(xù)
  
  最近來(lái)自廣東回復(fù)
CARRIE

產(chǎn)品在其中主要承擔(dān)哪些工作呢？需要理解機(jī)器學(xué)習(xí)的算法嗎？

最近回復(fù)
1. Jira狂想曲作者回復(fù)CARRIE
  
  AI產(chǎn)品經(jīng)理是要深入懂得算法的，我只了解NLP的淺層的問(wèn)題，畢竟有時(shí)候要和開發(fā)去討論如何進(jìn)行優(yōu)化。
  產(chǎn)品在其中的工作有2方面：
  1、熟悉業(yè)務(wù)：意圖和功能都是為業(yè)務(wù)服務(wù)的，每個(gè)業(yè)務(wù)上算法模型大同小異的，但是業(yè)務(wù)層面有很大的差別，首先要將業(yè)務(wù)了解清楚，為之后的流程設(shè)計(jì)做好鋪墊；（40%）
  2、協(xié)調(diào)資源：各個(gè)階段下的協(xié)調(diào)資源，包括前期的收集整理語(yǔ)料，中期的模型訓(xùn)練和測(cè)試，后期的持續(xù)優(yōu)化運(yùn)營(yíng)等（60%）
  
  最近來(lái)自廣東回復(fù)