干貨| 如何利用Social Listening從在線垂直社區(qū)提煉有價值的信息?

14 評論 11850 瀏覽 64 收藏 58 分鐘

在本文中,筆者將焦點集中在對互聯(lián)網(wǎng)在線垂直社區(qū)的內(nèi)容挖掘上,并且利用了多種數(shù)據(jù)挖掘方法和商業(yè)模型,以汽車之家的口碑?dāng)?shù)據(jù)挖掘為例,進一步對Social Listening的分析方法和應(yīng)用場景進行分析與闡述。

在筆者之前的文章《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》中曾提到,Social Listening可以幫助企業(yè)實現(xiàn)如下圖所示的幾個商業(yè)目標(biāo),這引起了一些新媒體、咨詢從業(yè)者濃厚的興趣,他們強烈要求筆者繼續(xù)對Social Listening的分析方法和應(yīng)用場景做進一步的闡述。

作為回應(yīng),筆者將在本文中對該主題做進一步的延展,聚焦到對互聯(lián)網(wǎng)在線垂直社區(qū)的內(nèi)容挖掘上。在本文的第二部分,筆者將利用多種數(shù)據(jù)挖掘方法和商業(yè)模型,以一個實際案例來聊聊Social Listening是如何從垂直社區(qū)中挖掘出商業(yè)價值的。

一、分析背景:從互聯(lián)網(wǎng)垂直社區(qū)的數(shù)據(jù)中“淘金”

1.1 垂直社區(qū)蘊含著更具商業(yè)價值的信息

從目前社會化媒體的發(fā)展格局來看,門戶網(wǎng)站日漸式微,微博、微信、抖音等社交網(wǎng)絡(luò)玩得風(fēng)生水起。根據(jù)消費者的關(guān)系輕重來看,社交網(wǎng)絡(luò)是由關(guān)系引發(fā)起討論,因此討論的時效性比較短,消費者的注意力也會比較分散;而垂直社區(qū)則是由興趣引發(fā)話題和討論,因此時效性較長,消費者粘性也較高。

從更深層次來講,垂直社區(qū)和第一代大而全的綜合性網(wǎng)站(搜狐、網(wǎng)易、新浪等)或包羅萬象的社交網(wǎng)絡(luò)(微博、微信、抖音等)不同,垂直網(wǎng)站將注意力集中在某些特定領(lǐng)域或某種特定需求,提供有關(guān)這個領(lǐng)域或需求的全部深度信息和相關(guān)服務(wù)。

最后,基于垂直社區(qū)內(nèi)容的垂直搜索可以幫助消費者提高搜索信息的效率和質(zhì)量。隨著互聯(lián)網(wǎng)消費者和網(wǎng)上內(nèi)容的急劇增長,由通用信息源向?qū)S眯畔⒃吹倪^渡是很自然的。舉個例子來說,某人如果想在Baidu或者Google上找個靠譜點的美容醫(yī)院就像是大海撈針,因為搜索引擎上的廣告多,且內(nèi)容分布較零散,不容易找到符合消費者需求的專業(yè)信息。但是,如果直接在某知名的X氧網(wǎng),情況可能會好不少,因為垂直搜索一下,大量專業(yè)機構(gòu)、從業(yè)者和海量點評可供選擇和參考。搜索領(lǐng)域有句明言:消費者無法描述道他要找什么,除非讓他看到想找的東西。這個過程有點像找對象,“碰運氣”是消費者搜索行為的最大的特征,而基于垂直社區(qū)的垂直搜索引擎就可以幫助消費者提升“運氣”。

一言以蔽之,社會化媒體中的垂直社區(qū)是移動互聯(lián)網(wǎng)時代的“寵兒”,沉淀有大量的優(yōu)質(zhì)且專業(yè)的內(nèi)容,因而吸聚了大批用戶,隨之而來的是海量的UGC,這給Social Listening提供了可供挖掘的礦藏,從中提煉出改進產(chǎn)品、提升品牌價值的insight來。

1.2 各領(lǐng)域較知名的垂直社區(qū)

互聯(lián)網(wǎng)流量也遵循“冪次法則”,即80%的用戶(注意力)集中在20%的網(wǎng)站上,大量的用戶UGC也集中在這小部分網(wǎng)站上,對于行業(yè)垂直社區(qū)而言,更是如此。

所以,筆者在做Social Listening的時候,特別關(guān)注頭部的行業(yè)垂直社區(qū),這些行業(yè)頭部媒體/平臺較為專業(yè),擁有最多的、精準(zhǔn)的目標(biāo)用戶群,分析上面的用戶UGC能發(fā)掘出用戶對產(chǎn)品的反饋和用戶痛點,甚至可以由內(nèi)容反推出目標(biāo)人群畫像,可謂是玩法多多。

以下是筆者梳理的若干有影響力的行業(yè)(移動)垂直社區(qū),其中的UGC是Social Listening的重要分析信源:

  • 旅游類:攜程網(wǎng)、驢媽媽、馬蜂窩、貓途鷹
  • 汽車類:汽車之家、愛卡汽車
  • 互聯(lián)網(wǎng)技能類:人人都是產(chǎn)品經(jīng)理、運營派
  • 互聯(lián)網(wǎng)資訊類:虎嗅、36氪、鈦媒體
  • 醫(yī)療美容類:新氧網(wǎng)、悅美網(wǎng)、更美網(wǎng)
  • 攝影類:蜂鳥網(wǎng)
  • 女性類:辣媽幫、她社區(qū)、美柚
  • 母嬰類:寶寶樹、寶寶知道、媽媽幫
  • 財經(jīng)類:雪球、財新網(wǎng)
  • 在線音樂類:蝦米、網(wǎng)易云音樂
  • 音頻分享:喜馬拉雅、蜻蜓FM
  • 點評類:大眾點評
  • ……

除此之外,淘寶、京東、網(wǎng)易考拉海購等電商平臺也紛紛開通了內(nèi)容頻道,針對不同的商品品類和人群打造內(nèi)容生態(tài),吸聚擁有特定需求的人群,這些都是極具分析價值的Social Listening信源。

下面,筆者將從X車之家上的口碑評論數(shù)據(jù)出發(fā),利用各種數(shù)據(jù)挖掘技術(shù),對凱迪拉克這個汽車品牌做產(chǎn)品反饋和品牌形象方面的挖掘分析,力求得出make sense的結(jié)論。

二、從凱迪拉克在汽車之家的口碑?dāng)?shù)據(jù)中挖掘出有價值的信息

2.1 數(shù)據(jù)獲取

本文的數(shù)據(jù)獲取來源為汽車之家。那為什么選擇汽車之家作為分析對象呢?

汽車之家成立于2005年6月,成立至今已有14年的歷史,它為汽車消費者提供選車、買車、用車、換車等所有環(huán)節(jié)的全面、準(zhǔn)確、快捷的一站式服務(wù),是基于汽車專業(yè)內(nèi)容的垂直社區(qū),是全球訪問量最大的汽車網(wǎng)站。因此,它上面能集中大量優(yōu)質(zhì)的用戶UGC,可以“傾聽”到用戶關(guān)于汽車及其品牌的“聲音”。

在這里,筆者獲取的是汽車之家上“口碑頻道”的數(shù)據(jù),是關(guān)于購車消費者買車后的評論。該頻道提供的數(shù)據(jù)維度豐富,包括汽車各方面的評分及其文字評論、曬圖,以及各帖子的互動數(shù)據(jù)等。

下圖是一條口碑評論的截圖,可以看到一條口碑評論由許多結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)維度組成:

筆者在這里進行數(shù)據(jù)采集的根據(jù)是Python中的Scrapy,它是Python下的一個快速、高層次的web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。獲取的數(shù)據(jù)對用戶和帖子詳情信息做了處理,不涉及到用戶隱私,且本分析不作商業(yè)用途,僅供學(xué)習(xí)探討。

獲取的口碑評論量為30w+,其中凱迪拉克下的評論有12,900條,存儲在SQL SERVER2017中,以下是數(shù)據(jù)的存儲效果:

2.2 分析目的

以下是筆者接下來分析挖掘的重點內(nèi)容,主要集中在凱迪拉克的產(chǎn)品反饋品牌調(diào)性方面:

1) 了解消費者的購車目的,從用途/使用場景角度進行分析

2)了解消費者的購車原因,從汽車的幾個重要維度,如安全性,操控,動力,油耗等

3)了解消費者比較重要的購車因素,即用戶比較關(guān)注哪些汽車功能或汽車器件

4)分析消費者眼中的品牌調(diào)性,與事先設(shè)定的品牌調(diào)性有何差異

5)在上述分析中加入競品分析,分析其異同點

2.3 數(shù)據(jù)特征及分類

現(xiàn)在,根據(jù)分析目的對獲取到的數(shù)據(jù)的字段進行分類和挑揀,選擇部分可作為分析的數(shù)據(jù):

1)評級類數(shù)據(jù):

  • comfortableness_score(舒適性評分)
  • internal_score(內(nèi)飾得分)
  • maneuverability_score(操控性得分)
  • oil_score(油耗評分)
  • power_score(動力評分)
  • apperance_score(外觀評分)
  • costefficient_score(性價比評分)
  • space_score(空間評分)
  • Satisfaction (滿意度)

2)半結(jié)構(gòu)化數(shù)據(jù):

  • purpose (購車目的/用途)
  • bought_Address(購買地址)
  • brand_name (品牌名稱)
  • buy_date(購買日期)
  • buy_price(購買價格)
  • carowner_levels(車主等級)
  • prov_name(省份名稱)
  • city_name(城市名稱)
  • Comment_count(評論數(shù))
  • Helpful_count(有用數(shù))
  • Visit_count (瀏覽量)
  • product_name(產(chǎn)品名稱)
  • pub_date(發(fā)布日期)

3)文本類數(shù)據(jù):

  • apperance_feeling(外觀感受)
  • comfortableness_feeling (舒適性感受)
  • costefficient_feeling (性價比感受)
  • maneuverability_feeling (操控性感受)
  • internal_feeling (內(nèi)飾感受)
  • power_feeling (動力感受)
  • oil_feeling (油耗感受)
  • space_feeling(空間感受)
  • car_defect(車輛缺陷)
  • car_merit(車輛優(yōu)點)
  • review_summary (評論總結(jié))
  • bought_reason (購買原因)

本文分析所用到的數(shù)據(jù)主要是文本類數(shù)據(jù)和小部分的半結(jié)構(gòu)化數(shù)據(jù)。

2.4 消費者購車目的分析

在“消費者目的”分析中,筆者選取了寶馬、捷豹、奔馳、凱迪拉克和路虎這5個汽車品牌作為分析對象,想要知曉消費者在這5個汽車品牌的使用場景上有什么不同,這也是汽車廠商較為關(guān)注的方面 — 自己的產(chǎn)品定位于消費者心智中的定位是否一致,宣傳策略是否需要強化或者調(diào)整。

在口碑頻道的評論中,存在“購車目的”這一字段,是一個半結(jié)構(gòu)化的選項,評論者可以選填自己喜歡購買小車的應(yīng)用場景,官方提供了10個候選項:

  • 購物
  • 接送小孩
  • 拉貨
  • 跑長途
  • 泡妞
  • 賽車
  • 商務(wù)接送
  • 上下班
  • 越野
  • 自駕游

從上圖中可以看到,消費者可以同時填寫多個購車目的標(biāo)簽。所以,在正式分析之前,需要對該標(biāo)簽數(shù)據(jù)進行拆分,出現(xiàn)多個標(biāo)簽的行要拆解成多行,對結(jié)果進行透視表統(tǒng)計,最后整理成交叉列聯(lián)表。結(jié)果如下表所示:

從上面的表格中,我們可以看到,寶馬、捷豹、凱迪拉克和路虎這4個汽車品牌的主要購車目的是“上下班”,用于上下班通勤,而奔馳的主要購車目的集中在“泡妞”上,購車目的不單純……

然而,上面的表格并沒有完全挖掘出多元關(guān)聯(lián)數(shù)據(jù)中的價值,此時該對應(yīng)分析(Correspondence Analysis)出馬了!

對應(yīng)分析(Correspondence Analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表(也就是上表)來揭示變量間的聯(lián)系,它可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系,是一種強有力的數(shù)據(jù)可視化技術(shù) 。

對應(yīng)分析主要應(yīng)用在市場細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計算機工程等領(lǐng)域中。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。

對應(yīng)分析的基本思想是將一個列聯(lián)表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。

它最大特點是能把眾多的樣例(這里是汽車品牌)和眾多的變量(這里是購車目的)同時作到同一張圖解上,將樣例的大類及其屬性在圖上直觀而又簡潔地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉(zhuǎn)等復(fù)雜的數(shù)學(xué)運算及中間過程,可以從因子載荷圖上對樣例進行直觀的分類,而且能夠指示分類的主要參數(shù)(主因子)以及分類的依據(jù),是一種直觀、簡單、方便的多元統(tǒng)計方法。

得到對應(yīng)分析二維坐標(biāo)圖以后,要想作出正確的解讀,還需要使用點“小手段”:

從坐標(biāo)軸中心向任意汽車品牌連線(具有方向,是一條射線),指向汽車品牌的方向為正向,然后將所有的使用場景往這條連線及其正反延長線作垂線,(使用場景的)垂點越靠近該連線及其延長線的正向方向,就代表該使用場景對于該汽車品牌而言更常見。

下圖是將上表數(shù)據(jù)映射到二維坐標(biāo)系的可視化呈現(xiàn)(點擊圖片放大看高清大圖):

轉(zhuǎn)換后的可視化結(jié)果更能發(fā)現(xiàn)一些有趣的事實:

  • 捷豹、凱迪拉克和寶馬從使用場景(購車目的為購物、上下班、商務(wù)接送、接送小孩等)上來說,幾乎是重疊的,彼此是競爭對手;
  • 奔馳最突出的使用場景還是泡妞(射線正向上離得最近),其他使用場景并不突出(在射線負(fù)向上);
  • 路虎的越野特性還是最突出的,跑長途和自駕游的特性也較突出。

由分析的結(jié)果可知,凱迪拉克的使用場景比較泛,當(dāng)然原因也有可能在于筆者分析的是品牌而不是具體的車系和車型,分析的粒度較粗,筆者將會在文末聊到這一點。

2.5 了解消費者關(guān)注的典型話題

這里,筆者將凱迪拉克口碑?dāng)?shù)據(jù)的兩個字段 — Car_defect(車輛缺陷)、Car_merit(車輛優(yōu)點)整合到一起,對評論內(nèi)容進行一個“鳥瞰式”的分析,迅速識別出汽車消費者較為關(guān)注的話題。

此處的分析基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實現(xiàn)。相較于K-means、Spectral clustering、Agglomerative clustering、DBSCAN等傳統(tǒng)聚類算法,筆者特別欣賞它的3大特性:

  • 不需要設(shè)定聚類數(shù),有算法自動算出來簇群數(shù)
  • 可以較好的處理數(shù)據(jù)中的噪音
  • 可以找到基于不同密度的簇(與DBSCAN不同),并且對參數(shù)的選擇更加魯棒(Robust,模型更加健壯)

基于自動聚類形成的關(guān)鍵詞詞云,能自然的反映評論數(shù)據(jù)中的潛在結(jié)構(gòu)和語義特征,由此能準(zhǔn)確且清晰的知曉消費者對于汽車及其功能、器件的關(guān)注側(cè)重點。

對于生成的可視化結(jié)果,可以這樣解讀:

  • 字體大小表示詞匯的權(quán)重值大小,注意,這里的權(quán)重非詞頻數(shù),而是TF-IDF值,更能表示該詞匯在評論中的重要性
  • 顏色代表不同的話題
  • 詞匯之間距離越近,說明它們在同一語境中出現(xiàn)的頻率較高,越具有語義相關(guān)性,比如“胎噪”、“輪胎”、“啃胎”、“噪音”、“隔音”等詞匯挨得很近,我們能迅速聯(lián)想到是胎噪導(dǎo)致噪音或者隔音效果差,而不是汽車發(fā)動機或者車廂內(nèi)組件老化產(chǎn)生的摩擦聲引起的。

下圖是自動聚類出來的結(jié)果,自動聚為12個主題:

為了將各主題的界限劃分得更清晰些,筆者給每個主題加了虛線框(點擊圖片放大看高清大圖):

上圖中,較為突出的是11個主題,按其重要性程度(字體大小、主題詞數(shù))選出TOP5,根據(jù)其中的關(guān)鍵詞可以推測消費者的熱門討論內(nèi)容,依次是:

  • 外觀:汽車的整體設(shè)計,主要是外形,買車的消費者大都是“顏控”
  • 空間:后排空間、儲物空間和后排座椅是大家比較關(guān)注的方面,另外,一家人出行的時候,空間問題就容易突顯
  • 動力:發(fā)動機、汽車起步(油門、起步)、提速/加速問題是動力這一主題下消費者較為關(guān)心的方面
  • 配置:汽車配置這塊,消費者對導(dǎo)航系統(tǒng)和內(nèi)部的顯示屏較為關(guān)心
  • 內(nèi)飾:內(nèi)飾這塊,消費者反映較多的是材質(zhì)的塑料感

由于筆者不是汽車行業(yè)的從業(yè)人員,平時也不開車,所以對該領(lǐng)域的關(guān)鍵詞不太敏感。不過,如果是這方面的從業(yè)者,根據(jù)詞匯之間的關(guān)聯(lián)性(距離遠近),會有可能從總體上發(fā)現(xiàn)一些業(yè)務(wù)相關(guān)問題。

2.6 從“車輛缺陷”中識別凱迪拉克的重要產(chǎn)品缺陷

剛才的關(guān)鍵詞云是一個“鳥瞰式”的分析,可以在較短的時間內(nèi)抓住海量評論的重點。但是,如果我們想要進一步了解消費者對于凱迪拉克的哪些缺點比較關(guān)注,也就是挖掘消費者關(guān)于凱迪拉克的產(chǎn)品缺陷的典型意見,這就涉及到分析Car_defect(車輛缺陷)這個字段了。

這里,筆者想找到凱迪拉克的12,900條負(fù)面評價中最具代表性的差評,思路如下:

1)抽取語句中的主觀性信息(形容詞、副詞、習(xí)語,反映消費者的評價),和客體信息(名詞,主要是汽車各器件、功能、使用場景等,排除掉人名、地名、時間等實體)。

2)對每條評論中代表主觀性信息和客體信息的詞匯的TF-IDF值進行累加,得到每個評論語句的重要性得分。

3)對這些評論進行聚類,最終形成了10個規(guī)模較大的簇群,數(shù)量較少的被當(dāng)做噪音處理,盡管它們具有一定的長尾價值。

4)在每個簇群中,找出重要性得分最高的語句,且詞匯數(shù)限定在100個以內(nèi),字?jǐn)?shù)太多,觀點不明確,重點不突出,對于后續(xù)瀏覽者的影響力也有限。

以下是按照上述思路挖掘出的TOP10典型意見,代表了購買凱迪拉克的用戶對于凱迪拉克車輛缺陷中的10個方面較為不滿:

  • 30多萬的車標(biāo)配的鹵素大燈,沒有前后雷達讓人有點無語
  • 提速沒有傳說快!倒車后視鏡顯示太模糊!A柱有點擋視線!
  • 儲物空間明顯不夠用 比起我家之前的小6子少太多,特別是手機完全不知道怎么搞
  • 基本沒有,硬要找的話可能是有時會有點異響
  • 6AT確實老了點,算是夠用吧。
  • 最不中意的就是排擋桿,巨丑
  • 暫時沒有,再就是新車油耗有點高。有點薄,準(zhǔn)備去做鍍晶。
  • 這個也不算是不滿意吧,因為后輪驅(qū)動的原因,中間的隆起實在是有點影響乘坐,后備箱也因為這樣子不是很大平時東西多的時候都要放在后座。
  • 底盤確實硬一點,舒適度差了一點~
  • 感覺這個車的音響效果并不如想象中的好。

上面這些典型缺陷可以作為汽車廠商接下來產(chǎn)品改進的重要考量。

對于“30多萬的車標(biāo)配的鹵素大燈,沒有前后雷達讓人有點無語”這個典型觀點,利用基于LSI的相似語句檢索,可以看到最相關(guān)的若干信息,看看在這個話題下,用戶具體的槽點和痛點是哪些(點擊圖片放大看高清大圖):

2.7 從“購車原因”評論中挖掘凱迪拉克的優(yōu)劣點

“購車原因”跟之前的“購車目的”還不一樣,后者說的是消費者買車的使用場景,買車用來干嘛;而“購車原因”指的是汽車品牌的某些方面(比如外觀、動力、油耗等)對消費者有強大吸引力,從而促成下一步的購車行為。對于本部分分析,筆者用到的是口碑?dāng)?shù)據(jù)中的Bought_reason(購買原因)字段,它一般出現(xiàn)在口碑評論的最后一部分,如下圖所示:

值得注意的是,該部分的分析要比之前的購車目的分析困難不少,原因在于:

  • 該部分僅有評論,沒有結(jié)構(gòu)化或半結(jié)構(gòu)化的標(biāo)簽,不便于統(tǒng)計分析;
  • 如果需要給評論打標(biāo)簽的話,促使消費者買單的原因往往不只一個,比如消費者買車可能是因為汽車的油耗低、動力強勁及性價比低,這就是一個多標(biāo)簽分類問題了。

具體情形,如下圖所示:

鑒于此種情況,筆者采用基于機器學(xué)習(xí)的文本多標(biāo)簽分類(Multi-Label Classification)模型。要提高本模型的預(yù)測效果,除了要做好文本預(yù)處理,同時也要在模型的構(gòu)建中充分考慮標(biāo)簽之間的關(guān)聯(lián)性,采用融合模型,再用GridSearchCV找到最優(yōu)參數(shù),如此才有可能獲得較好的預(yù)測效果。

用于訓(xùn)練模型的評論有7,000條,用于測試模型效果的評論有3,489條,模型的評估結(jié)果如下圖所示:

可以看到,該模型的準(zhǔn)確率、召回率以及FI Score尚可,在實際的文本挖掘中基本可用。下面用訓(xùn)練好的文本多標(biāo)簽分類模型對凱迪拉克的Bought_reason(購買原因)下的每一條評論的標(biāo)簽進行預(yù)測,結(jié)果如下圖所示(點擊圖片放大看高清大圖):

將預(yù)測的結(jié)果保存到csv中:

注意,上述結(jié)果中,有些評論不在已有的標(biāo)簽范圍內(nèi),比如“沒辦法,買奔馳就是為了裝X,泡妹子,購車愉悅指數(shù)120!”,對于這種情況,返回的是空值。如果要得到更為精確的結(jié)果,就需要人工標(biāo)注大量數(shù)據(jù),再次訓(xùn)練分類模型,這就是另一個問題了,不在本文的討論范圍之內(nèi)。

跟之前分析“購車目的”的方法一致,先構(gòu)建交叉列聯(lián)表,然后再繪制對應(yīng)分析圖,結(jié)果如下:

從上圖的垂點距離射線“坐標(biāo)軸中心—>凱迪拉克”正向方向的遠近可以看到,消費者購買凱迪拉克的主要原因在于它的價格優(yōu)勢,也就是性價比高,其次是動力和配置,這些都可以看做是凱迪拉克在市場上的優(yōu)勢。由于“坐標(biāo)軸中心—>路虎”這條射線和“坐標(biāo)軸中心—>凱迪拉克”射線的夾角最小,所以它們的優(yōu)勢趨同。同時,在射線“坐標(biāo)軸中心—>凱迪拉克”負(fù)向方向的末端,可以看到操控是購買誘因中最弱的一項,由此可知,與其它4個競品相比,凱迪拉克的操控性能還有待提高。

“操控性”即汽車的操縱與控制性能。我們在駕駛汽車時的操控行為無非是加速、制動、轉(zhuǎn)向。如果要看到消費者關(guān)于操控性能的具體“槽點”在哪里,可以針對Maneuverability_Feeling ?(操控性感受)這個字段進行典型差評查找,好奇心又驅(qū)使筆者去查了一波:

  • 這車的操控不好與同價位的轎車相比,另外原來要買鉻灰米內(nèi),廠家不排產(chǎn)米內(nèi),浪費我一個月,比較生氣, 0.942013
  • 太大了,轉(zhuǎn)向不太靈敏,對于我這種手法不好的人不太友好, 0.6233139
  • 懸掛太硬,過沉降路段體驗不好,甚至于驚險, 0.511822
  • 才提車買發(fā)現(xiàn)太多缺點,有一點就是它比我以前開的鋒范大太多了,停車有時候不好停,上次還因為車身太大,被擦過一次保險杠,以后過了首保再來說說吧,0.34865487

2.8 從“購車原因”中挖掘出重要的購車影響因素

在這部分分析中,筆者將所有文本類字段進行合并,做進一步文本挖掘,看看具體是哪些因素誘發(fā)消費者購買凱迪拉克的。筆者的做法是,從每條語句中抽取TF-IDF最高的TOP15關(guān)鍵詞,主要是汽車實體詞(描述汽車零部件、特性、配置相關(guān)的詞匯)、功能或者評價詞。

然后按詞匯順承關(guān)系(時間先后順序,箭頭指向方為向后提及)做詞匯共現(xiàn)分析,去詞頻數(shù)較高的若干詞匯,最后形成下圖(點擊圖片放大看高清大圖):

從上圖可以看到,外觀、座椅、儲物空間、發(fā)動機、方向盤、后備箱是凱迪拉克購車者較為關(guān)注的方面,至于是好的評價還是差的評價,現(xiàn)在還未可知。這些關(guān)鍵詞節(jié)點的“Betweenness Centrality (中介性核心性)”較高,該詞學(xué)術(shù)的解釋是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡(luò)中的其他成員,特別是位于兩成員之間路徑上的那些成員,它們對這兩個非鄰接成員的相互作用具有某種控制和制約作用“,在評論中經(jīng)常與其它汽車器件共同出現(xiàn),說明這些器件是購車者較為關(guān)注的方面。如果想看到消費者關(guān)于這些器件的具體看法,可以采用上述LSI檢索相關(guān)的語句,筆者在這里就不做贅述。

2.9 基于微博數(shù)據(jù)的消費者興趣挖掘

了解消費者的興趣愛好對于打造品牌調(diào)性、營銷內(nèi)容創(chuàng)作及投放渠道選擇都有幫助,是產(chǎn)品市場調(diào)研和競品分析中的重要事項。

這里,筆者先挖掘出汽車品牌對于人群的興趣圖譜,然后結(jié)合使用與滿足理論(Uses and Gratifications)對結(jié)果進行解讀,為內(nèi)容創(chuàng)作和媒體投放方面提供思考方向。

對于消費者的興趣愛好的挖掘,筆者會用到新浪微博的消費者個性標(biāo)簽數(shù)據(jù)。該部分?jǐn)?shù)據(jù)基于關(guān)鍵詞命中,也就是說,采集到的標(biāo)簽數(shù)據(jù)僅針對提及目標(biāo)汽車品牌的微博用戶。

在這里,筆者采用的標(biāo)簽數(shù)據(jù)涉及到5個品牌,即凱迪拉克、寶馬、奔馳、路虎和捷豹,時間跨度為近一個月。

數(shù)據(jù)預(yù)處理方式跟前面的一致,最終得到如下對應(yīng)圖譜:

比照之前對應(yīng)分析圖譜的分析方法,我們可以得到與各個汽車品牌典型且最為接近的微博消費者興趣標(biāo)簽:

  • 凱迪拉克:星座命理、汽車、美甲、韓劇、內(nèi)地綜藝等
  • 寶馬:心靈雞湯、歌手、娛樂明星、搞笑段子、人生感悟等
  • 奔馳:美女帥哥、網(wǎng)絡(luò)模特、模特、重口味、網(wǎng)紅草根等
  • 路虎:投資、汽車資訊、歌手、旅游出行、A股、軍事等
  • 捷豹:體育、美女帥哥、電子競技、日韓明星、模特等

可以看到,這幾個汽車品牌的關(guān)注人群的興趣大體上都呈現(xiàn)娛樂化的特點,影視、明星方面的興趣較多,這也與微博娛樂化的平臺特性有關(guān)。

挖掘出汽車品牌所對應(yīng)人群的興趣愛好以后,可采用使用與滿足理論(Uses and Gratifications)對結(jié)果進行深度解讀和應(yīng)用。

使用與滿足理論是一種以受眾為中心的理論,側(cè)重于對大眾傳播的理解。雖然其理論框架來自傳統(tǒng)媒體,并遠遠早于互聯(lián)網(wǎng)和社會化媒體,但其理論假設(shè)使其完全適用于互聯(lián)網(wǎng)和社會化媒體研究。該理論假設(shè)可以概括為:

  • 在選擇媒體和內(nèi)容時,受眾是積極的參與者,會根據(jù)個人目標(biāo)選擇媒體和閱讀傾向;
  • 媒體渠道彼此之間競爭,還與其他資源競爭,以獲得受眾的關(guān)注;
  • 人們在選擇媒體和內(nèi)容時,是主動、自我清醒且受動機驅(qū)動的,這使得他們能夠清楚的表達選擇媒體的原因。

基于這些假設(shè),該理論認(rèn)為受眾會積極的尋求滿足,而滿足的類型將推動他們對社會化媒體及內(nèi)容的選擇,因而媒體選擇是目標(biāo)導(dǎo)向和實用驅(qū)動的,也就是受眾的需求要被所選擇的社會化媒體滿足。滿足類型背后往往潛藏著更為個性化的內(nèi)在需求,E·卡茨、M·格里維奇和H·赫斯將其歸納為5個大類:

1. 認(rèn)知需求——獲得信息、知識和理解,如上知乎提問或者瀏覽感興趣的話題、母嬰論壇找育兒知識等;

2. 情感需求——情緒的、愉悅的或美感體驗,如快手、抖音上看美女直播;

3. 個人整合需求——加強信心,穩(wěn)固身份地位,如通過加入線上圈子,觀察同類的言行,并通 ?過這種方式獲得身份認(rèn)同;

4. 社會整合需求——如利用即時通訊軟件與熟人、生人進行交流,發(fā)展或維護人際關(guān)系;

5. 舒解壓力需求——逃避或轉(zhuǎn)移注意力,主要是娛樂活動,包括各種真人秀節(jié)目、網(wǎng)絡(luò)游戲等。

利用使用與滿足理論對上述各汽車品牌的興趣標(biāo)簽結(jié)果進行分析,大體上可以得出如下結(jié)果:

  • 凱迪拉克:舒解壓力需求
  • 寶馬:舒解壓力需求、情感需求
  • 奔馳:情感需求
  • 路虎:個人整合需求
  • 捷豹:舒解壓力需求、情感需求

上述結(jié)果反映了各汽車品牌用戶在媒體選擇時的內(nèi)在需求,在內(nèi)容制作和媒體選擇時可以作為參考。比如,凱迪拉克可以選擇舒解壓力需求的內(nèi)容頻道或者社會化媒體(比如即刻、一條等,舉個例子,不是打廣告哦),內(nèi)容制作上可采用游記類主題,音樂可以采用舒緩的輕音樂,圖片風(fēng)格則是小清新…

當(dāng)然,上述興趣標(biāo)簽還可以有另一種用途 —利用Censydiam消費動機模型挖掘汽車品牌消費者進行消費時的情感驅(qū)動因素。詳情可參看筆者之前的文章《當(dāng)數(shù)據(jù)分析遭遇心理動力學(xué):用戶深層次的情感需求浮出水面(萬字長文,附實例分析)》。

此外,從競品分析的角度,對應(yīng)分析圖還可以作如下解讀:

  • 向量的夾角大小:

從向量夾角的角度看不同品牌之間的相似情況。上圖中任意兩個汽車品牌向量之間的夾角越小,代表這兩個汽車品牌的消費者興趣愛好相近,實際上反推出品牌調(diào)性的趨同。這里可以看到,奔馳和捷豹的在微博上的關(guān)注人群的興趣愛好趨同,由此反推出品牌調(diào)性較為接近。凱迪拉克和其他4個汽車品牌之間的品牌調(diào)性差異較大,個性較鮮明。

  • 距離坐標(biāo)軸的遠近:

從統(tǒng)計學(xué)上來看,品牌越靠近坐標(biāo)軸中心,越?jīng)]有特征;越遠離坐標(biāo)軸中心,說明特征越明顯。

從品牌角度來考慮,說明越遠離中心的汽車品牌,消費者越是容易識別,說明品牌特征(特點、特色)很明顯;越靠近中心的品牌,消費者越是不容易識別,要說明品牌定位有問題,沒有顯著的特征可以識別,差異化還不夠。從這一點來看,凱迪拉克和捷豹的品牌個性較為鮮明,奔馳的品牌定位最為模糊。

了解了品牌在潛在消費者心中的品牌形象以后,如果發(fā)現(xiàn)跟預(yù)期接近,繼續(xù)加強這方面的投入即可,如果發(fā)現(xiàn)偏離預(yù)期,就需要及時調(diào)整思路了,在社會化媒體平臺上發(fā)布能反映品牌調(diào)性的內(nèi)容,引發(fā)關(guān)注人群的互動,長此以往,可以對塑造特定的品牌印象起到一定幫助。

2.10 基于評論內(nèi)容的品牌調(diào)性挖掘

現(xiàn)今這個消費時代,消費者的消費模式逐步從實用主義消費過渡到象征性消費,從僅注重產(chǎn)品的功能和質(zhì)量,轉(zhuǎn)變?yōu)楦⒅仄放婆c自身品位、氣質(zhì)的契合度,從這個方面來講,品牌越來越成為消費者的自我延伸。

與此同時,與早期產(chǎn)品和品牌宣傳事實信息、功能化描述及產(chǎn)品訴求不同,強調(diào)品牌調(diào)性的情感式營銷聚焦于產(chǎn)品、服務(wù)和品牌的“人格化”因素,展現(xiàn)品牌的“人性化特征”逐漸成為社會化媒體語境下強化傳播和建立關(guān)系的主要手段,更為人性化的積極互動在社交媒體體驗中的重要性越來越突出。

如果品牌與追隨它的消費者保持持續(xù)的“人性化交流”,那么,相對于硬性推銷方式,這種注重消費者關(guān)系維護的營銷方式更能打動消費者,同時也能夠鼓勵消費者積極參與并長期追隨。

為營造消費者與品牌之間積極互動的條件,品牌必須不斷采用“擬人化”的方式來進行營銷傳播,使品牌具有人的性格和氣質(zhì),這就涉及到“品牌調(diào)性”的話題了。

比較常規(guī)的做法是,品牌會用“擬人化”的方式在社會化媒體上去宣揚產(chǎn)品和服務(wù)的獨特品質(zhì),這種方式可能是活潑的,也可能是清新的,抑或是高貴的…總之,品牌會著力打造一個屬于自己的品牌個性和風(fēng)格,從而與消費者在情感上產(chǎn)生聯(lián)結(jié),催生出大量擁簇。

然而,品牌所創(chuàng)造的品牌調(diào)性是通過各類媒介及內(nèi)容呈現(xiàn)的,其中的重要信息隨著表現(xiàn)的形式或者傳播層級的遞增而消減,最終反饋到消費者腦海中的可能是另一番景象,可能會產(chǎn)生一定的品牌個性認(rèn)知偏差。因此,品牌運營者需要經(jīng)常性的進行消費者品牌調(diào)性印象調(diào)研,及時了解消費者對于品牌個性的認(rèn)知情況,視理解偏差的程度進行調(diào)整或優(yōu)化。

在本文中,為了測量消費者對于凱迪拉克的品牌調(diào)性的實際認(rèn)知情況,筆者采用千家品牌實驗室改良過的品牌個性模型。千家品牌實驗室向忠宏近六年來對20個行業(yè)領(lǐng)域1000多個品牌的持續(xù)監(jiān)測與品牌個性的分析,提取出一些中國本土化的品牌個性詞匯,這些新增的品牌個性語匯對應(yīng)的品牌人格通過合并到三個品牌層面,最終也并入了Aaker提出的品牌個性的五個維度中。

下面是筆者進行品牌個性挖掘的實際步驟:

1)將凱迪拉克口碑?dāng)?shù)據(jù)中的所有文本類數(shù)據(jù)(外觀感受、 舒適性感受、性價比感受、操控性感受、內(nèi)飾感受、動力感受、油耗感受、空間感受、車輛缺陷、車輛優(yōu)點、評論總結(jié)、購買原因等)進行合并;

2)經(jīng)過自然語義分析,即“實體/屬性—情感詞”抽取分析,得到7035個“物件詞+情感詞”組合:

3)去除掉功能性的形容詞,保留跟品牌調(diào)性相關(guān)的情感詞。剔除掉描述汽車器件及功能的形容詞,如“漆面+不薄”、“起步+很肉”、“氣味+難散”、“真皮+柔軟”等,其中的觀點詞/形容詞對于描述品牌個性意義不大,而要保留擬人化的觀點詞,如“腰線”+“剛勁”中的剛勁,“體型+嬌”中的“嬌”;

4)根據(jù)品牌個性維度語匯庫,對保留下來的品牌調(diào)性形容詞進行歸類統(tǒng)計。結(jié)果如下所示:

5)對統(tǒng)計結(jié)果進行旭日圖可視化呈現(xiàn),反映2個層級的品牌調(diào)性占比關(guān)系。結(jié)果如下圖所示(點擊圖片放大看高清大圖):

從最終結(jié)果可以看到,凱迪拉克的品牌調(diào)性偏于教養(yǎng),主要在于高貴、精致、迷人的氣質(zhì);其次是其“刺激”的一面,主要在于其活潑的個性。

我們不妨從百度百科上的凱迪拉克品牌史概略來看待這個結(jié)果:

“一百多年來,凱迪拉克汽車在行業(yè)車內(nèi)創(chuàng)造了無數(shù)個第一,締造了無數(shù)個豪華車的行業(yè)標(biāo)準(zhǔn);可以說凱迪拉克的歷史代表了美國豪華車的歷史。在韋伯斯特大詞典中,凱迪拉克被定義為“同類中最為出色、最具聲望事物”的同義詞;被一向以追求極致尊貴著稱的倫敦皇家汽車俱樂部冠以“世界標(biāo)準(zhǔn)”的美譽。 凱迪拉克融匯了百年歷史精華和一代代設(shè)計師的智慧才智,成為汽車工業(yè)的領(lǐng)導(dǎo)性品牌。

一款美國汽車可以很狂野,也可以很豪華,但是如果想要很尊貴就比較難了。不過卡迪拉克就是一個例外,他的創(chuàng)始人為了紀(jì)念底特律的奠基者、法國貴族安東尼凱迪拉克,就將其家族的徽章作為了車標(biāo)?,F(xiàn)在的卡迪拉克車標(biāo)已經(jīng)有了很大的變化,比如少了象征著三圣靈的黑色小鳥和鑲嵌著珍珠的王冠,只是由桂冠環(huán)繞著經(jīng)典的盾牌形狀,而盾牌形狀則由各種顏色的小色塊組成,其中紅色代表勇氣,銀色代表純潔的愛,藍色代表探索?!?/p>

如此看來,挖掘的結(jié)果較能反映事實情況,與品牌發(fā)展歷程相符。

結(jié)合使用與滿足理論和品牌調(diào)性分析,可以對于內(nèi)容的規(guī)劃、制作,以及渠道的投放提供參考,輔助決策。比如,分析汽車品牌跟網(wǎng)紅的調(diào)性以及粉絲群體是否契合,找到合適的品牌代言人。

最后再來一個稍微扯淡點的分析,讓思路再飛一會兒~

2.11 基于語義相關(guān)性搜索的品牌形象聯(lián)想

接著前面的分析,假如我們想著力打造上述品牌個性中的某個方面,比如凱迪拉克想突出“現(xiàn)代”的調(diào)性,那我們該如何去操作呢?

首先,我們得有思路 :結(jié)合品牌所附著的產(chǎn)品特性和策劃者的意愿,找到通向目標(biāo)品牌調(diào)性的那條“認(rèn)知鏈條”,即說服消費者接受品牌個性的內(nèi)容要符合消費者的認(rèn)知規(guī)律,符合邏輯。

在這里,筆者利用基于預(yù)訓(xùn)練詞向量模型的語義相關(guān)性搜索,從154,800(12個文本數(shù)據(jù)字段*12900條凱迪拉克相關(guān)的口碑評論 )條汽車評論中挖掘出品牌和目的品牌調(diào)性之間的最短認(rèn)知關(guān)聯(lián)路徑,用科學(xué)的方法發(fā)掘出構(gòu)建品牌調(diào)性認(rèn)知路徑的線索。

這樣說起來太抽象,筆者舉一個實際例子來說明吧,比如我們想找到’原始森林’到’凱迪拉克’的認(rèn)知路徑,基于中文維基百科這個語境,結(jié)果如下:

print?(morph(‘原始森林’, ‘凱迪拉克’))

原始森林–>自然保護區(qū)–>野生動物–>野生–>馬鹿–>棕熊–>野性–>野馬–>克萊斯勒–>凱迪拉克

從上面的結(jié)果可以看出,如果偏要將原始森林和凱迪拉克建立關(guān)聯(lián),最合理(同時也是最短)的路徑就是中間這塊【自然保護區(qū)–>野生動物–>野生–>馬鹿–>棕熊–>野性–>野馬–>克萊斯勒】。

上述是基于維基百科的語境得出的結(jié)果,接下來是基于154,800條汽車評論數(shù)據(jù),做3個跟品牌調(diào)性聯(lián)想路徑挖掘。

print?(word_morph(‘凱迪拉克’, ‘活潑’))

凱迪拉克–>XT5–>XTS–>凱迪–>承襲–>無余–>展露–>中正–>素雅–>雅致–>高雅–>活潑

print (word_morph(‘凱迪拉克’, ‘精致’))

凱迪拉克–>漢蘭達–>中級轎車–>最出色–>百里挑一–>出眾–>精密–>精美–>精致

print (word_morph(‘凱迪拉克’, ‘迷人’))

凱迪拉克–>獨樹一幟–>標(biāo)新立異–>前衛(wèi)–>曼恩–>棱角分明–>線條美–>妖嬈–>銷魂–>迷人

上面的標(biāo)記顏色的詞匯是比較有意義的“線索”,可以以此展開聯(lián)想,發(fā)揮創(chuàng)意,進行內(nèi)容創(chuàng)作。

結(jié)語

筆者在進行社會化媒體數(shù)據(jù)挖掘的實操中,有如下2點思考:

1. 分析粒度的問題

在本文中,筆者是從品牌的角度進行分析,粒度還是粗了些,因為不同的品牌會針對不同的受眾開發(fā)不同的車系/車型,混雜在一起分析出來的結(jié)果會比較混雜,尤其是品牌定位這塊會不精確。

理想的做法應(yīng)該針對具體的series_name(2017款28T時尚型、2017款28T技術(shù)型、2018款28E四驅(qū)技術(shù)型、2018款28E四驅(qū)鉑金版),或是spec_name(2017款 28T 時尚型、2017款 28T 技術(shù)型、2018款 28E 四驅(qū)技術(shù)型、2018款 28E 四驅(qū)鉑金版),這樣去做分析,指向性更強一些,結(jié)論更加鮮明。

2. 水軍或虛假信息的問題

筆者之前在網(wǎng)上檢索汽車之家的相關(guān)訊息時,發(fā)現(xiàn)一些讀者戲稱其為“水軍之家”、“軟文之家”,部分讀者覺得上面的信息“人工鑿痕”較明顯,各大廠商為了宣傳自己的新車無所不用其極。

僵尸橫行,水軍泛濫,作假成風(fēng),在這種情況下,社交媒體數(shù)據(jù)挖掘還有意義嗎?

在筆者看來,是有的。

2018年10月份,麻省理工學(xué)院的Zakaria el Hjouji,?D. Scott Hunter等學(xué)者發(fā)表了《The Impact of Bots on Opinions in Social Networks》,該研究通過分析 Twitter 上的機器人在輿論事件中的表現(xiàn),證實了社交網(wǎng)絡(luò)機器人可以對社交網(wǎng)絡(luò)輿論產(chǎn)生很大的影響,不到消費者總數(shù)1%的活躍機器人,就可能左右整個輿論風(fēng)向。

麻省理工學(xué)院研究組的這項工作,最大的發(fā)現(xiàn)是,影響社交網(wǎng)絡(luò)輿論所需要的機器人,其實是很少的。少數(shù)活躍的機器人,可以對網(wǎng)絡(luò)輿論產(chǎn)生重大影響。

雖然社交媒體機器人不會帶來物理威脅,但它們卻可能有力影響到網(wǎng)絡(luò)輿論。在微博里,各類水軍已經(jīng)經(jīng)常出現(xiàn)在營銷造勢、危機公關(guān)中。雖然你能一眼識別出誰是水軍,但仍然可能不知不覺地被他們影響。

這些機器人看似僵尸,發(fā)起聲來,比人類響亮得多,可能只要幾十個幾百個就足夠扭轉(zhuǎn)輿論!

所以,從社會化媒體數(shù)據(jù)挖掘的角度來看,信息的真實性并不重要,只要文章、帖子或者評論能影響到瀏覽者或受眾,具有一定的(潛在)影響力,這類社媒數(shù)據(jù)數(shù)據(jù)就值得去挖掘。

更進一步說,跟銷售數(shù)據(jù)反映消費者決策價值、搜索數(shù)據(jù)反映消費者意圖價值相比,雖然社會化媒體文本數(shù)據(jù)的價值密度最低,好比是蘊藏金子和硅、卻提煉極為困難的沙子,但由于它在互聯(lián)網(wǎng)領(lǐng)域的分布極為廣泛,且蘊含著對客觀世界的細(xì)節(jié)描述和主觀世界的宣泄(情緒、動機、心理等),其最大價值在于潛移默化地操控人的思想和行為的影響力,通過社會化媒體挖掘,我們可以得到對目標(biāo)受眾具有(潛在)影響力的商業(yè)情報。淘沙得金,排沙簡金,最終得到的分析結(jié)果用以預(yù)判受眾的思考和行為,為我們的生產(chǎn)實踐服務(wù)。

此時,先賢Marcus Aurelius在《沉思錄》中那句名言在耳畔響起,仿佛他在2000多年前就已經(jīng)預(yù)言到我們所面臨的困境:

Everything we hear is just an opinion, not the fact;Everything we see is just a perspective, not the truth.

我們所聽到的一切,只是人們的主觀意見,并非客觀事實;我們所看見的一切,只是事物的冰山一角,并非本來真相。

參考資料:

數(shù)據(jù)來源:汽車之家口碑頻道,2016.05-2018.12 ;新浪微博,2019.04 – 2019.05

數(shù)據(jù)處理和分析工具:Excel、Gephi、Python

蘇格蘭折耳喵,《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠比數(shù)值型分析重要?。ㄉ希?/a>

蘇格蘭折耳喵,《在運營中,為什么文本分析遠比數(shù)值型分析重要?一個實際案例,五點分析(下)》

蘇格蘭折耳喵,《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》

蘇格蘭折耳喵,《干貨|作為一個合格的“增長黑客”,你還得重視外部數(shù)據(jù)的分析!》

蘇格蘭折耳喵,《以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘》

蘇格蘭折耳喵,《當(dāng)數(shù)據(jù)分析遭遇心理動力學(xué):用戶深層次的情感需求浮出水面(萬字長文,附實例分析)》

蘇格蘭折耳喵,《文本挖掘從小白到精通(三)—主題模型和文本數(shù)據(jù)轉(zhuǎn)換》

蘇格蘭折耳喵,《文本挖掘從小白到精通(四)—文本相似度檢索》

TZ橘子,簡書,《如何進行品牌形象定位分析?》

集智俱樂部,虎嗅,《MIT研究組:別瞧不起僵尸粉,它們真能左右輿論》

Zakaria el Hjouji,?D. Scott Hunter,?Nicolas Guenon des Mesnards,?Tauhid Zaman,《The Impact of Bots on Opinions in Social Networks》

Hiroshi Ishikawa?著,郎為民?譯,《社交大數(shù)據(jù)挖掘》

百度百科詞條.對應(yīng)分析

百度百科詞條.凱迪拉克標(biāo)志

百度百科詞條.品牌個性

百度百科詞條.垂直網(wǎng)站

使用與滿足理論.MBA智庫百科

黃善晴,微信公眾號【騰訊大講堂】,垂直社區(qū)產(chǎn)品:如何把相類似的用戶都聚集起來?

傅瑞棟,站長之家,《移動互聯(lián)網(wǎng):論壇已死,社區(qū)新生》

#專欄作家

蘇格蘭折耳喵(微信公眾號:Social Listening與文本挖掘),人人都是產(chǎn)品經(jīng)理專欄作家,數(shù)據(jù)PM一只,擅長數(shù)據(jù)分析和可視化表達,熱衷于用數(shù)據(jù)發(fā)現(xiàn)洞察,指導(dǎo)實踐。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 作者您好,請問文章中hdbscan的聚類算法,您用的是什么樣的數(shù)據(jù)格式進行訓(xùn)練的,如何能夠產(chǎn)生群體比較分明的簇,通過直接分詞向量化去聚類,出來的結(jié)果僅是把相似的詞聚在一起,而不是語義相似的

    來自上海 回復(fù)
    1. 1、這個算法不需要訓(xùn)練,是無監(jiān)督的’
      2、聚完類后,相似詞聚合也很簡單

      來自香港 回復(fù)
  2. “社交媒體數(shù)據(jù)挖掘還有意義嗎?”一直對social media的數(shù)據(jù)有這個懷疑,但作者的解釋終于終結(jié)了我的糾結(jié)。非常感謝~

    回復(fù)
    1. 找到有影響力的社交媒體數(shù)據(jù),并分析之,去水、預(yù)處理、各類行之有效的分析方法,以及必要的業(yè)務(wù)知識,知易行難,這塊璞玉不好雕琢哪

      回復(fù)
  3. “自然語義分析= 屬性 情感詞”請問這種分析方法是行業(yè)普遍的分析方法嗎?

    回復(fù)
    1. 不常用,之前一直人工,代價太大

      回復(fù)
  4. 很棒呢,想起之前實習(xí)那會兒,類似的場景下,一條條數(shù)據(jù)一個個去歸納統(tǒng)計的痛

    來自浙江 回復(fù)
    1. 里面的一些算法也涉及人工智能,模型訓(xùn)練好后,算是自動化的操作

      回復(fù)
  5. ? 厲害!

    來自福建 回復(fù)
  6. 辛苦了,數(shù)據(jù)黨表示很贊

    來自廣東 回復(fù)
  7. 受教了,寫的很細(xì)。

    回復(fù)
    1. ??

      來自上海 回復(fù)
  8. 這個真的厲害了

    來自浙江 回復(fù)
    1. ??

      來自上海 回復(fù)