自然語言處理,到底在“處理”些什么?

0 評論 11981 瀏覽 49 收藏 9 分鐘

隨著自然語言處理技術(shù)的發(fā)展,計算器對文字對處理能力也達到了一個新的層次。本文中,筆者將為我們解答:自然語言處理究竟擁有什么“能力”,結(jié)合具體應(yīng)用場景能做哪些事兒?技術(shù)邊界在哪?

一、詞法分析

基于大數(shù)據(jù)和用戶行為的分詞后,對詞性進行標(biāo)注、命名實體識別,消除歧義 。

識別文本中具有特定意義的實體,主要包括:人名、地名、職位名、產(chǎn)品名詞等。

實體識別是信息提取、問答系統(tǒng)、句法分析、機器翻譯等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具,作為結(jié)構(gòu)化信息提取的重要步驟。

應(yīng)用場景:各大手機廠商語音助手

以分詞和詞性標(biāo)注為基礎(chǔ),分析語音命令中的關(guān)鍵名詞、動詞、數(shù)量、時間等,快速理解用戶命令的含義,迅速反饋提高用戶體驗。

二、文本分類

對文章按照內(nèi)容類型(體育、教育、財經(jīng)、社會、軍事等等)進行自動分類,為文章聚類、文本內(nèi)容分析等應(yīng)用提供基礎(chǔ)支持。

文章分類對文章內(nèi)容進行深度分析,輸出文章的主題一級分類、主題二級分類,在個性化推薦、文章聚合、文本內(nèi)容分析等場景具有廣泛的應(yīng)用價值。

三、文本糾錯

識別文本中有錯誤的片段,進行錯誤提示并給出正確的建議文本內(nèi)容,在搜索引擎、語音識別、內(nèi)容審查等功能更好運行的基礎(chǔ)模塊之一,文本糾錯能顯著提高這些場景下的語義準(zhǔn)確性和用戶體驗。

應(yīng)用場景:寫作類平臺

在內(nèi)容寫作平臺上內(nèi)嵌糾錯模塊,可在作者寫作時自動檢查并提示錯別字情況。從而降低因疏忽導(dǎo)致的錯誤表述,有效提升作者的文章寫作質(zhì)量,同時給用戶更好的閱讀體驗

四、獲取摘要

實現(xiàn)文本內(nèi)容精簡提煉,從長篇的文章中自動提取關(guān)鍵句和關(guān)鍵段落,構(gòu)成摘要內(nèi)容,進而生成指定長度的新聞?wù)?/p>

應(yīng)用場景:

(1)智能寫作

通過對大量的新聞文本進行語義分析和快速摘要,可以快速形成熱點匯總類、新聞聚合類、事件盤點類的新聞稿件,進行自動寫作和輔助寫作,提升新聞生產(chǎn)效率。

(2)語音播報

語音播報場景往往有嚴(yán)格的字?jǐn)?shù)要求,新聞?wù)軌蜃詣由煞献謹(jǐn)?shù)規(guī)范且表達通順的信息,在提升用戶體驗的同時,也提升了播報效率。

五、情感分析

能夠?qū)ξ谋拘畔⑦M行“情感”上的正向、負(fù)向及中性進行評價。

情感分析一般根據(jù)不同行業(yè)語料進行標(biāo)注,根據(jù)不同的模型獲得最佳的情感判斷準(zhǔn)確率。

應(yīng)用場景:

(1)評論分析與決策

通過對產(chǎn)品多維度評論觀點進行傾向性分析,可幫助商家進行產(chǎn)品分析,輔助用戶進行消費決策。

(2)評論分類

通過對評論進行情感傾向性分析,將不同用戶對同一事件或?qū)ο蟮脑u論內(nèi)容按情感極性予以分類展示。

(3)輿情監(jiān)控

通過對需要輿情監(jiān)控的實時文字?jǐn)?shù)據(jù)流進行情感傾向性分析,把握用戶對熱點信息的情感傾向性變化。

六、關(guān)鍵詞提取

對文本信息進行核心關(guān)鍵詞分析,是內(nèi)容推薦算法的核心。實施手段之一是根據(jù)分詞后某個詞在文章中的出現(xiàn)次數(shù)越多,權(quán)重越高,但是,在每篇文章中,往往出現(xiàn)次數(shù)最多是“的”“是”“在”等等,這些詞稱為“停用詞”,表示對結(jié)果毫無用處,必須過濾掉的詞。

另外,在其他有實際意義的詞中,又會遇到一些問題。

比如:在《中國蜜蜂養(yǎng)殖》這篇文章中,“中國”“蜜蜂”“養(yǎng)殖”三個詞出現(xiàn)的次數(shù)一樣多,但很顯然,我們更想要的標(biāo)簽是后面兩個詞。

應(yīng)用場景:

(1)各大內(nèi)容分發(fā)平臺——基于內(nèi)容推薦算法

通過對文章的關(guān)鍵詞計算再結(jié)合用戶行為特征兩者之間就能進行匹配和推薦,進而實現(xiàn)精準(zhǔn)內(nèi)容推薦。

(2)話題聚合

根據(jù)文章計算的關(guān)鍵詞權(quán)重,聚合相同標(biāo)簽的文章,便于用戶對同一話題的文章進行全方位的信息閱讀。

七、文本審核

判斷一段文本內(nèi)容是否符合網(wǎng)絡(luò)發(fā)文規(guī)范,識別文本中是否包含違禁類型里面的關(guān)鍵字/詞,能夠?qū)崿F(xiàn)自動化、智能化的文本審核,大幅節(jié)省內(nèi)容審核的人力成本。

應(yīng)用場景:

(1)用戶信息審核

對網(wǎng)站的注冊信息進行檢測,過濾篩查用戶提交注冊的用戶名或網(wǎng)名昵稱,避免通過用戶名的方式惡意推廣。

(2)用戶評論監(jiān)控

對網(wǎng)站用戶的評論信息檢測,一旦發(fā)現(xiàn)用戶提交惡意垃圾內(nèi)容,可以做到文本的自動審核與過濾,保證產(chǎn)品良好用戶體驗

(3)文章內(nèi)容審核

媒體文章的文本內(nèi)容審核,自動識別文章中可能存在的推廣、反動、色情信息,避免已發(fā)布文章的線上風(fēng)險

八、人與人工智能

“我們把香蕉給猴子,因為它們餓了”和“我們把香蕉給猴子,因為它們熟透了”有同樣的結(jié)構(gòu)。

但是代詞“它們”在第一句中指的是“猴子”;在第二句中指的是“香蕉”。

如果不了解猴子和香蕉的屬性,無法區(qū)分,這就是電腦只能處理“字符串”,而人可以解決“意義”。

#專欄作家#

動物園園長,微信公眾號:首席吹牛官,人人都是產(chǎn)品經(jīng)理專欄作家?;ヂ?lián)網(wǎng)圈十八線作詞人,國家一級退堂鼓表演藝術(shù)家。顏良而文丑,歡迎交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!