聽懂用戶們在說什么——UGC文本分析怎么做?
編輯導(dǎo)語:文本分析對于用戶研究來說十分重要,本文作者分享了UGC文本分析的具體方法邏輯,從獲取評論數(shù)據(jù)、預(yù)處理評論數(shù)據(jù)、分析評論數(shù)據(jù)、主題分析展開闡述,感興趣的一起來學(xué)習(xí)一下吧,希望對你有幫助。
如果你的評論區(qū)僅有10條用戶評論,你可以很輕松地了解他們對這個產(chǎn)品/商品的態(tài)度如何以及表達(dá)了什么想法。但是,如果是100條,是不是需要稍微花點(diǎn)時間,變得吃力了?
如果是1000條,恐怕需要附上一些數(shù)據(jù)篩選的方式,一條一條看就不太適合了。即使1000條可以勉強(qiáng)人力處理,但問題是,如果評論的數(shù)量擴(kuò)大到了10000條,別說讀懂了,就連翻頁都得好長時間,人力就捉襟見肘了。
這時候你需要運(yùn)用一些文本分析的方法,來幫助你讀懂海量的評論文本究竟在表達(dá)什么。
一、獲取評論數(shù)據(jù)
最樸實無華的方式當(dāng)然是Crtl C+Crtl V,將每一條數(shù)據(jù)手動復(fù)制到Excel表格當(dāng)中。但正如上文所言,人力是有上限的,請讓我結(jié)合自身經(jīng)驗來分享一下高效點(diǎn)的方法。
1. 如果你想通過編程的方法
在大家都是技術(shù)大佬的內(nèi)網(wǎng),我不敢班門弄斧,只簡單地推薦一下學(xué)習(xí)路徑、科普一下相關(guān)概念。
做網(wǎng)絡(luò)爬蟲最易用的語言應(yīng)該非python莫屬,因為上手的門檻很低,在掌握了一系列基本語法,會定義函數(shù)后,就可以安裝beautiful soup庫來開始爬蟲之旅。網(wǎng)絡(luò)上的免費(fèi)課程非常地多,讓人眼花繚亂。
如果你自制力足夠,學(xué)習(xí)能力夠強(qiáng),其實隨便一搜,python的基礎(chǔ)語法對你來說一定不算難。但如果你學(xué)習(xí)的時候需要一些交互,趣味對你來說是必要的話,我會推薦你選擇風(fēng)變編程的課程,在線編程,即學(xué)即反饋是它的最大優(yōu)點(diǎn)。學(xué)習(xí)時間上來看,30小時是足夠了的。
2. 如果你想通過無代碼的方法
市面上越來越多的不用使用代碼就可以實現(xiàn)網(wǎng)絡(luò)爬取的工具,讓本懶人很是快樂。
1)八爪魚采集器
八爪魚應(yīng)該是目前中文互聯(lián)網(wǎng)曝光度最高的網(wǎng)絡(luò)抓取工具。
- 優(yōu)點(diǎn):具有一定數(shù)量現(xiàn)成的采集模版,有專門的問題解決qq群。
- 缺點(diǎn):自定義采集做得并不是很好用,具有一定的上手門檻。
2)后羿采集器
很低調(diào)但是很好用的一款網(wǎng)絡(luò)爬蟲工具。
- 優(yōu)點(diǎn):智能采集很智能,識別準(zhǔn)確度高,同時自定義流程上手也較為簡單。
- 缺點(diǎn):價格昂貴,免費(fèi)版的網(wǎng)速實在令人汗顏。
3)集搜客
- 優(yōu)點(diǎn):集文本分析的部分功能于一體,可以一站式實現(xiàn)較多需求;
- 缺點(diǎn):爬蟲功能實在不好用,遠(yuǎn)不如后裔采集器。
如果你的爬取要求不是很復(fù)雜的那種,個人推薦使用后羿采集器來爬取,慢就慢點(diǎn),大不了,開著電腦給它掛一晚上?
二、預(yù)處理評論數(shù)據(jù)
1. 評論內(nèi)容分詞與去詞
1)分詞是什么,為什么這樣做
Why?我爬取下來了咋還要分詞,「分詞」又是個什么東東?速速聽我說來,我們都知道,計算機(jī)和人腦的區(qū)別在于理性與感性,計算機(jī)為了更高效地處理數(shù)據(jù),需要做出一些更符合計算機(jī)運(yùn)行邏輯的加工,分詞就是其中一種。
舉個栗子:我今天駕駛寶馬的汽車前往商場了。
經(jīng)過分詞處理后:我/今天/駕駛/寶馬/的/汽車/前往/商場/了。
就是這樣,經(jīng)過了分詞的文本,將更利于計算機(jī)來進(jìn)行統(tǒng)計分析。
在分詞系統(tǒng)的推薦上,我認(rèn)為NLPIR-ICTCLAS漢語分詞系統(tǒng)會比較好使,這是它的官網(wǎng),有下載地址以及簡單的功能介紹。
2)去詞呢
與分詞同一步調(diào)的,是「去詞」。去詞一般來說是去除停用詞(Stopwords),意指可以忽略的詞。在文本分析中,一些特定的詞語或字不提供信息價值(或提供很少),而為了提高效率,產(chǎn)出更可直接用于解讀的分析結(jié)果,我們會選擇在正式的文本分析前,將它們?nèi)コ簟?/p>
同樣舉個栗子,這里經(jīng)過分詞的句子:我/今天/駕駛/寶馬/的/汽車/前往/商場/了。
經(jīng)過去除停用詞后,它變成了:我/今天/駕駛/寶馬/汽車/前往/商場(一些停用詞表中,「我」以及「今天」都在其列,為了方便理解,舉的例子并未去除這兩個詞)。
就是這樣,去除停用詞的目的在于提高信息密度,提高計算機(jī)分析產(chǎn)生結(jié)果的效率以及方便人為解讀結(jié)果。
去詞一般不會成為一項專門的流程,而是被混在分詞過程中。停用詞表是需要額外準(zhǔn)備(一般分詞的系統(tǒng)中也會自帶停用詞表),百度一搜,會有很多的停用詞表,csdn和github上也可以隨意下載,不做贅述。
三、分析評論數(shù)據(jù)
做完評論文本數(shù)據(jù)的預(yù)處理后,就進(jìn)入到具體的分析階段了。文本分析的方法與目的是高度相關(guān)的,因此難以全部囊括,就簡單聊幾個通用的、容易上手的。
注:下文幾個分析方法并不存在直接的次序關(guān)系。
1. 情感分析
「情感分析」,顧名思義是用來判斷文本情感傾向的,一般來說會分為積極、中性與消極情感,也可以根據(jù)打分的高低,分一分極端積極/消極的情況。
但是如果想要細(xì)化到喜怒哀懼悲嗔愛就難以通過簡單的三方工具做到了,需要自己構(gòu)建詞庫,暫且不提,菜鳥本人也在修煉ing。
用一些工具/平臺來實現(xiàn)情感分析,那么精度只能說差強(qiáng)人意而已,不能做到盡善盡美,簡單推薦罷。
- 首先是很古老的一個軟件,rost cm6。是由武漢大學(xué)在很久之前編寫的,據(jù)我所知往后的(十)幾年里并沒有進(jìn)行任何更新。
- 上文提到的可以用于網(wǎng)絡(luò)爬取的集搜客也可以進(jìn)行情感分析,而且據(jù)它介紹,自己的情感分析準(zhǔn)度要比rost cm6高上不少以期獲得用戶的青睞。
好用的軟件只推薦這兩個,因為市面上能直接拿來用的工具實在太少。但是如果加一步調(diào)用api的話,其實百度開放平臺/訊飛開放平臺/騰訊云智以及一些大神們都有很成熟的解決方案,想必精度也會更高。
2. 詞頻分析
講道理,詞頻分析很難稱得上什么高大上的分析方法,只是把詞語出現(xiàn)的頻率直白地展現(xiàn)出來而已。一段文本在經(jīng)歷過去除停用詞、分詞之后,便都是落單的詞語了,數(shù)數(shù)數(shù)出來就行。上文提到的NLPIR分詞系統(tǒng)、rost cm6、集搜客都能很輕松地做到。
額外提一嘴,在這個過程中,詞頻分析的精度取決于分詞的精度。如果你發(fā)現(xiàn)詞頻分析的結(jié)果不是很讓人滿意,不妨多試試幾套分詞系統(tǒng),然后也可以自定義一下詞庫,避免特定的詞語被分開。
舉個栗子:「夏日泳池」「冬日泳池」作為某個酒店專門的兩個泳池,我們會更期待他們以組合的形式而非「夏日」「冬日」以及「泳池」的形式出現(xiàn)。
至于如何讓詞頻分析可視化一點(diǎn),好看一點(diǎn),自然是做一張大家都熟悉的詞云圖,這里推薦Wordart
https://wordart.com/create,純凈免費(fèi)無廣告,便民實用。
3. 網(wǎng)絡(luò)語義共現(xiàn)
「語義網(wǎng)絡(luò)共現(xiàn)」的目的在于可視化的展現(xiàn)詞語與詞語之間的關(guān)系。而生成一個語義網(wǎng)絡(luò)共現(xiàn)圖的的基礎(chǔ)在于建立起詞語的共現(xiàn)矩陣。行文至此,感受到不動用編程手段的話,能使用的工具越發(fā)寥寥。
關(guān)于語義網(wǎng)絡(luò)共現(xiàn),仍然需要祭出rost cm6,它有一個很方便的功能,可以一鍵式生成語義網(wǎng)絡(luò)。
一鍵生成的語義網(wǎng)絡(luò)會有兩個問題:
- 一是精度不夠好,因為rost cm6本身的分詞做得不是很好,自然影響到后續(xù)的共現(xiàn)矩陣的構(gòu)建,可以導(dǎo)入已經(jīng)分好詞的文件代替它,可以做到一定程度上的優(yōu)化;
- 第二個是圖片不夠美觀,這個問題的優(yōu)化措施是,將rost cm6生成的共現(xiàn)矩陣導(dǎo)出,再將這個表格導(dǎo)入到Gephi軟件中生成語義網(wǎng)絡(luò)共現(xiàn)圖,會好看很多。
(圖源google)
四、主題分析
或許再難避開編程手段,我做到主題分析的這一步,使用的是Python的現(xiàn)成代碼,做簡單的調(diào)參來滿足自己的需求。功能實現(xiàn)的主要過程離不開一個模型,其名為「lda」。
「lda」的功能描述為試圖找到兩類物體或事件的特征的一個線性組合,以能夠特征化或區(qū)分它們(據(jù)百度)。
親測在短文本分析的領(lǐng)域,無論是中文還是英文都表現(xiàn)地挺差的,搜索了解到,原因可能出現(xiàn)在
短文本的特征稀疏性上。
因此,在面對短文本居多的評論領(lǐng)域,不太推薦使用lda來做主題聚類分析。
所以,如果是游記類的長文本,可以嘗試用lda主題聚類來做分析,但在短文本的數(shù)據(jù)集中,lda的表現(xiàn)難稱優(yōu)秀。而我在這一方面也并未具備見解性的看法,便不斗膽做推薦分享了。
本文由 @ 我叫徐知魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 unsplash,基于 CC0 協(xié)議
嗚嗚嗚,大佬寫的好清楚。