新聞行業(yè)中,自然語言理解技術(shù)該如何應用?
在信息爆炸時代下,要想快速獲取有價值的內(nèi)容非常困難,這一點在新聞行業(yè)中尤為明顯,而本文提到的自然語言理解技術(shù)將會是一個不錯的解決建議。
自然語言理解技術(shù)在新聞行業(yè)中的應用
現(xiàn)如今,人類生活在一個信息大爆炸的時代。我們每個人每天所接受的新聞信息量對于一個生活在一百年前的人來說,是無法想象的。
然而,相較于一百年前的人,我們同樣只有一雙眼睛,我們一天所擁有的時間同樣只有24小時。因此,如何在有限的時間內(nèi)獲得盡可能多的,有價值的新聞信息,成為了當下最值得人們關(guān)注的問題之一。面對這一棘手的問題,人工智能技術(shù)為我們帶來了有效的解決方案
本文將分別從新聞媒體機構(gòu)和新聞讀者這兩類群體的視角出發(fā),盤點當前自然語言理解(NLP)技術(shù)在新聞媒體領(lǐng)域中的部分應用。看看人工智能技術(shù)如何幫我們更加從容地面對這信息焦慮的時代。
1. 面向新聞媒體公司的應用
目前,全球的媒體機構(gòu)都在努力尋求以最佳的方式將最新和最有趣的信息分享給自己的讀者,于是,“新聞推送服務(wù)”的質(zhì)量就成了各家新聞媒體的核心競爭力。
“新聞推送服務(wù)”旨在有效地向新聞讀者提供最相關(guān)和最有價值的新聞內(nèi)容。 為了實現(xiàn)這樣的服務(wù),系統(tǒng)需要分析和判斷用戶的偏好并與找到相關(guān)的新聞內(nèi)容,而這樣的任務(wù)需要處理大量的數(shù)據(jù)。 這樣的數(shù)據(jù)處理任務(wù)恰恰是自然語言理解技術(shù)(NLP)所擅長的。
新聞媒體公司往往需要兩種不同類型數(shù)據(jù)的采集,來創(chuàng)建有效的新聞推送服務(wù)。
第一類是新聞信息的數(shù)據(jù)。
我們需要獲得有關(guān)新聞的文本,音頻和視頻內(nèi)容信息,內(nèi)容信息包括主題,關(guān)鍵字,情感,以及實體。這些數(shù)據(jù)將用于新聞知識圖譜的構(gòu)建,新聞知識圖譜能夠?qū)π侣剝?nèi)容進行快速搜索,并通過內(nèi)容關(guān)聯(lián)信息獲得有效的推薦。
第二類是用戶行為的數(shù)據(jù)。
我們需要收集用戶在互聯(lián)網(wǎng)上所產(chǎn)的時間序列數(shù)據(jù)。 通過對用戶行為的跟蹤,算法將結(jié)合收集到的數(shù)據(jù)以及相關(guān)的元數(shù)據(jù)來學習用戶的行為習慣,了解用戶的興趣點。將用戶感興趣的新聞內(nèi)容有針對性的傳遞給用戶。
不同的公司將推送服務(wù)建立在不同的數(shù)據(jù)導向上,其業(yè)務(wù)模式的特色也有所不同:
以新聞信息數(shù)據(jù)為導向的公司善于做新聞內(nèi)容分類和摘要提取。
這類公司讓用戶自主選擇感興趣的新聞話題,然后通過深度學習和NLP技術(shù)分析大量的新聞數(shù)據(jù),整理來自不同網(wǎng)站和其他非結(jié)構(gòu)化來源的信息,并根據(jù)不同的主題,關(guān)鍵字,人名和企業(yè)自動對新聞進行分類,快速找到用戶感興趣的新聞內(nèi)容。
以用戶行為數(shù)據(jù)為導向的公司更多的是聚焦在用戶的習慣和興趣點上。
這類公司通過深度學習算法,通過一段時間對用戶查閱新聞的跟蹤學習后,掌握用戶的閱讀偏好,再直接依靠NLP技術(shù)分析新聞文本的內(nèi)容,理解新聞的含義,將用戶的閱讀偏好與新聞內(nèi)容相匹配,實現(xiàn)個性化新聞推送服務(wù)。
2. 面向新聞讀者的應用
對于新聞讀者來說,智能的“新聞推送服務(wù)”可以有效的控制所接受新聞的數(shù)量,幫助用戶節(jié)省查找新聞的時間。然而,真實世界中,每天都會產(chǎn)生出大量的假新聞,這些新聞內(nèi)容往往扭曲現(xiàn)實,存在偏見。不少新聞媒體為了謀求利益,只關(guān)注新聞的瀏覽量,而忽略了新聞內(nèi)容的質(zhì)量和真實性。
人工智能技術(shù)在賦能媒體公司實現(xiàn)個性化新聞推送的同時,也在嘗試為新聞讀者排除掉垃圾信息和虛假新聞。NLP技術(shù)能夠分析特定新聞項目的偏見和歧義,以幫助讀者將假新聞位從海量的信息中分離出來。
目前,NLP技術(shù)在新聞質(zhì)量的檢測的工作上有兩個方面的應用。一個是對虛假新聞的鑒別工作,另一個是對偏見新聞觀點的判別工作。
假新聞鑒別的應用主要是依靠兩種實現(xiàn)方式。
一種方式是通過NLP技術(shù)對新聞信息的上下文語境進行全局理解,分析某個新聞觀點與其所在的整篇新聞內(nèi)容的關(guān)聯(lián),判斷真實新聞和虛假新聞之間的差異。 當前流行的方法之一是TF-IDF(術(shù)語頻率 – 逆文檔頻率)矢量化器,該技術(shù)用于判斷一個詞在文章中的重要性。
另一種方式是直接通過信息距離算法對比不同新聞來源的新聞內(nèi)容,針對同一個新聞報道向讀者提供不同的解釋和分析角度,從而幫助用戶將新聞中的謊言與事實分開。
新聞偏見判別的應用其實算是假新聞鑒別的一個進階版應用。在真實生活中,大部分新聞報道或多或少都會存在偏見色彩。即使是針對同一個事件的報道,只要稍微調(diào)整報道中所使用的語言,就可以反映出截然不同的觀點。
然而,市場上目前就新聞偏見的問題并沒有成熟的解決方案。NLP技術(shù)在這一問題上做了很多科研方面的嘗試,其思路是通過訓練一組向量機(SVM)模型,從不同的維度對一條新聞的內(nèi)容進行打分,計算每個評判要素的得分,然后得出該條新聞偏見程度的分數(shù)。這樣的模型只能識別出具有明顯偏見色彩的新聞,在真實的應用場景中還并不成熟。
總結(jié)
今天,在這個信息過量的時代,我們迫切的想要找到一個有效的方法,來獲取自己感興趣,并且高質(zhì)量新聞信息。自然語言理解技術(shù)正在不斷的優(yōu)化我們獲取新聞的方式,并幫助我們把控新聞的質(zhì)量。
- 對于新聞媒體公司來講,NLP技術(shù)可用于對新聞內(nèi)容進行分類,根據(jù)讀者的興趣和喜好實現(xiàn)個性化新聞推送服務(wù)。
- 對于廣大新聞讀者來說,依靠NLP技術(shù)可以鑒別出新聞內(nèi)容的真?zhèn)危瑥亩槐患傩侣労蛶в衅娚实男侣勊垓_。
以目前新聞產(chǎn)生總量的發(fā)展趨勢來看,未來我們的生活當中將會出現(xiàn)遠比現(xiàn)在更多的新聞信息。幸運的是,海量的新聞數(shù)據(jù)恰恰可以更好的推進NLP技術(shù)在新聞媒體領(lǐng)域的應用。屆時,NLP技術(shù)將進一步加速其在各種新聞服務(wù)中的部署和落地應用。
本文由 @單贏 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
您好,我想轉(zhuǎn)載您這篇文章,可以嗎
謝謝您對這篇文章感興趣。我本人非常歡迎您與我交流和轉(zhuǎn)發(fā)這篇文章,但是我不太清楚“人人都是產(chǎn)品經(jīng)理”的平臺是否對轉(zhuǎn)載有其他限制
那能不能加我微信啊 xc-0523 ,謝謝您??