【干貨】用大數(shù)據(jù)文本挖掘,來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢
對于當(dāng)下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價(jià)值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題和潛在趨勢。
2016年底以來,國內(nèi)共享單車毫無征兆的就火爆了起來,彼時(shí)一張手機(jī)截屏躥紅網(wǎng)絡(luò)—在這張截圖上,24個(gè)共享單車應(yīng)用的圖標(biāo)霸滿了整個(gè)手機(jī)屏幕,昭示著共享單車市場搶奪大戰(zhàn)的激烈和殘酷。
再看看一組來自易觀千帆的數(shù)據(jù):共享單車領(lǐng)域兩大巨頭—摩拜單車和ofo近一年的客戶端用戶增長數(shù)據(jù),二者的用戶增長曲線別無二致,都是一路高歌猛進(jìn),共享單車領(lǐng)域的火爆勢頭在短時(shí)間內(nèi)不會遏止。
同時(shí),在全國各大城市,在街頭巷尾,在居民小區(qū)和創(chuàng)業(yè)園區(qū),排滿了各種顏色的共享單車,仿佛一夜之間,共享單車如“千樹萬樹”的梨花一般,盛開到了泛濫成災(zāi)的地步了。
與此同時(shí),各種亂象也是接踵而至,觸目驚心:人為肆意毀壞單車、車身亂貼小廣告、街上隨意停放…
對于當(dāng)下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價(jià)值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題和潛在趨勢。
同時(shí),筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產(chǎn)品和運(yùn)營的過程中能派上用場。對于文本挖掘的相關(guān)知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:《數(shù)據(jù)運(yùn)營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>、《在運(yùn)營中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》。
以下是本文的行文路線圖和所涉及的文本挖掘方法。
1.數(shù)據(jù)采集和預(yù)處理
在數(shù)據(jù)采集部分,筆者想采集跟共享單車關(guān)聯(lián)性強(qiáng)的文本數(shù)據(jù),筆者沒有去寫爬蟲去爬取數(shù)據(jù),而是用到了XXX“信息監(jiān)測”中的“數(shù)據(jù)導(dǎo)出”功能,根據(jù)設(shè)置的關(guān)鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標(biāo)題、發(fā)布時(shí)間、媒體名稱、正文及正文分詞等數(shù)據(jù)下載下來,省去文本數(shù)據(jù)的清洗和預(yù)處理過程,直接進(jìn)行文本挖掘部分。
在這里,筆者選取了市場上主流的26個(gè)共享單車品牌,再加上關(guān)鍵字“共享單車”,形成如下的關(guān)鍵詞檢索邏輯:
共享單車+(永安行 |ofo|小鳴單車 |小藍(lán)單車 |智享單車 |北京公共自行車 |騎點(diǎn) |奇奇出行 |CCbike |7號電單車 |黑鳥單車 |hellobike |酷騎單車 |1步單車 |由你單車 |踏踏 |Funbike單車 |悠悠單車 |騎唄 |熊貓單車 |云單車 |優(yōu)拜單車 |電電Go單車 |小鹿單車 |小白單車 |快兔出行 |摩拜單車 | 綠游GreenBike)
筆者選取2017-3-1~2017-6-30之間的數(shù)據(jù),經(jīng)由上面的檢索關(guān)鍵詞,可以得到我們想要的數(shù)據(jù),為節(jié)省時(shí)間,筆者僅選取“新聞”這一信息來源的文本數(shù)據(jù)作為分析對象,因?yàn)檫@部分的數(shù)據(jù)比較符合要求,包含的噪音較小。結(jié)果顯示如下:
導(dǎo)出數(shù)據(jù)之后,結(jié)果如下:
上面圈紅的字段是比較重要的分析維度,注意,導(dǎo)出的文章正文數(shù)據(jù)已經(jīng)經(jīng)過系統(tǒng)分詞和去停用詞處理,直接省去了文本預(yù)處理所要耗費(fèi)的時(shí)間。
筆者再對其中的數(shù)據(jù)進(jìn)行去重處理—去掉“標(biāo)題/微博內(nèi)容”和“正文切詞”相同的部分,再從“發(fā)布日期”中提取出“月份”字段(用于后面的按月份分類文本),最終得到如下結(jié)果:
由此,原先的數(shù)據(jù)量從30W+的數(shù)據(jù)量減少到88,291條數(shù)據(jù)。
2 常規(guī)描述性數(shù)據(jù)統(tǒng)計(jì)
在正式的文本分析之前,筆者再對上述預(yù)處理后的數(shù)據(jù)進(jìn)行描述性分析,先從表層獲得這些數(shù)據(jù)的直觀印象。
首先是這4個(gè)月有關(guān)共享單車的文章數(shù)量的分布情況,如下圖所示:
可以看到,中間兩個(gè)月的發(fā)布文章數(shù)量最多,3月份的數(shù)量最少。
經(jīng)統(tǒng)計(jì),共有4056個(gè)媒體發(fā)布了跟共享單車有關(guān)的文章,在Excel中使用“數(shù)據(jù)分析-描述統(tǒng)計(jì)”對這些媒體發(fā)文數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),得出如下結(jié)果:
由此可見,在文章總數(shù)88,291篇、發(fā)文媒體4,056個(gè)的情況下,平均每個(gè)媒體的發(fā)文數(shù)約為22篇(21.66),其中的中位數(shù)為3篇,眾數(shù)為1篇,最大發(fā)文數(shù)為4,815篇。結(jié)合下面的直方圖,數(shù)量分布呈現(xiàn)明顯的左偏態(tài),主要集中在“0-300篇”這個(gè)區(qū)間內(nèi)(其中絕大部分為1篇)。
再來展示發(fā)文數(shù)量TOP30媒體的情況。排名榜首的是突襲網(wǎng),它是一個(gè)信息資訊“大雜燴”(上面有各類轉(zhuǎn)載過來的信息和琳瑯滿目的廣告,而且經(jīng)常不標(biāo)明信息來源……),其次是騰訊新聞、搜狐媒體平臺、新浪和網(wǎng)易這樣的綜合信息門戶網(wǎng)站。有點(diǎn)意外的是,漢豐網(wǎng)(www.kaixian.tv)的關(guān)于共享單車的發(fā)文量竟然排在第四位,它原名“開縣新聞網(wǎng)”,原本是一個(gè)地方性質(zhì)的媒體,于2010年成立,為把網(wǎng)站建設(shè)為報(bào)紙、電視、電臺“三網(wǎng)合一”的網(wǎng)絡(luò)媒體,漢豐網(wǎng)全面整合開縣主流媒體資源,單從發(fā)文信息量這點(diǎn)來說,該網(wǎng)站發(fā)展著實(shí)迅猛。
對于接下來的文本數(shù)據(jù)挖掘,筆者用到的是Python,以及常用的數(shù)據(jù)科學(xué)分析包,如jieba、sklearn、gensim、snownlp等。
3 關(guān)鍵詞提取
在這部分,筆者除了對上述經(jīng)分詞處理的正文文本進(jìn)行詞頻統(tǒng)計(jì)的同時(shí),還用到了信息檢索領(lǐng)域里的TF-IDF(Term Frequency–Inverse Document Frequency)關(guān)鍵詞統(tǒng)計(jì)方法:它用以評估一字/詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。
由此可見,在提取某段文本的關(guān)鍵信息時(shí),關(guān)鍵詞提取較詞頻統(tǒng)計(jì)更為可取,能提取出對分析文本具有重要意義的關(guān)鍵詞。
根據(jù)上面的闡述,權(quán)重值大小與詞頻數(shù)不呈正比。對這88,291篇文章的關(guān)鍵詞提取和詞頻統(tǒng)計(jì)如下。
從上表可以看出,提取出的關(guān)鍵詞跟共享單車的關(guān)聯(lián)性很明顯,大致上有如下幾類:
- 共享單車的品牌及其創(chuàng)始人:“小黃車”(ofo)、“摩拜單車”、“永安行”、“小鳴(單車)”、“胡瑋煒”、“戴威”等。
- 投融資、資本運(yùn)作:“資本”、“投資”、“融資”、“戰(zhàn)略”、“資金”、“金融”、“商業(yè)”、“投資人”、“合伙人”等。
- 政府對共享單車行業(yè)的監(jiān)管:”政府”、”規(guī)范”、”監(jiān)管”、”車管”、’城管“、‘機(jī)動(dòng)車”、”車道”、“秩序”、”政策”等。
- 共享單車運(yùn)營相關(guān)(包括其中出現(xiàn)的問題):”投放”、”運(yùn)營”、”停車”、”支付”、”手機(jī)”、”擁堵”、”街頭”、”開鎖”、”地鐵站”、”環(huán)境”等。
然后根據(jù)這些詞的詞頻大小制作出共享單車形狀的個(gè)性化詞云,顯示如下:
關(guān)鍵詞的提取只是獲取這些文本訊息的“初の印象”,好戲還在后頭!
4 LDA主題模型
如果小伙伴們覺得上面筆者用關(guān)鍵詞劃分主題的做法有點(diǎn)扯淡,表示不服,那么筆者將拿出LDA主題模型來“回?fù)簟蹦悖僮髦?,先來簡單科普下LDA主題模型到底啥玩意。
由于LDA屬于概率主題模型的子類,那就先從“概率主題模型”說起:
概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領(lǐng)域得到了非常廣泛的應(yīng)用,在文本分類、信息檢索等相關(guān)領(lǐng)域取得了非常好的應(yīng)用效果。概率主題模型的基本原理認(rèn)為文檔是若干主題的混合概率分布,而每個(gè)主題又是一個(gè)關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項(xiàng)方法當(dāng)中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。
LDA是一種典型的無監(jiān)督(也就是說,我們事先不知道每段文本里面說的是啥,每個(gè)文本沒有啥標(biāo)簽)、基于統(tǒng)計(jì)學(xué)習(xí)的詞袋模型,即它認(rèn)為一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文檔中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標(biāo)注的海量電子文檔。
類似Kmeans聚類,LDA模型的主題數(shù)也需要人工來確定,筆者在嘗試了多個(gè)主題數(shù)之后,確定了最終的主題數(shù),從下面的LDA可視化圖形可以看出,主題數(shù)為6時(shí),很多主題所涵蓋的關(guān)鍵詞出現(xiàn)嚴(yán)重的重疊,而分成10個(gè)主題后,情況得到好轉(zhuǎn),話題區(qū)分度尚能接受。
下圖“打印”出這10個(gè)主題及其下轄的20個(gè)關(guān)鍵詞,以“權(quán)重值*詞匯”的累加形式呈現(xiàn),各個(gè)權(quán)重值其實(shí)是該詞匯在指定主題下出現(xiàn)的概率大小,也可以理解為該詞對該主題的“貢獻(xiàn)”程度,比如TOP0中的“孩子”前的權(quán)重系數(shù)為0.008,表明在TOP0的話題下,“孩子”被“抽中”的概率為0.008。依次類推,各個(gè)詞語w在主題T下出現(xiàn)的概率分布稱之為詞分布,這個(gè)詞分布也是一個(gè)多項(xiàng)分布。
對于上圖中的主題詞列表(表示與各個(gè)潛在主題最為相關(guān)的一些詞語),筆者還進(jìn)行了可以點(diǎn)擊交互的可視化展示,可以看到每個(gè)主題下的關(guān)鍵詞在該話題下及總的文本中的占比情況,從中可以看出某個(gè)詞對于該主題的重要程度如何。如下圖中TOP1下的關(guān)鍵詞“摩拜”,在該主題中出現(xiàn)的概率最大,重要性最高,紅色條柱代表它在TOP1下的比重,而藍(lán)色條柱的是它在整個(gè)文本(88,291篇文章)中的比重。某個(gè)詞對該主題重要性最顯著的情況是:藍(lán)色條柱更短、紅色條柱越長,這類詞更能對主題進(jìn)行區(qū)隔。
將上述TOP及其下轄的主題詞進(jìn)行整理,排除主題中的“噪音”(明顯跟主題不相關(guān)的詞匯異常點(diǎn)),根據(jù)其中的詞匯構(gòu)成(不僅僅是下列展示的20個(gè)關(guān)鍵詞,還包含后續(xù)的若干主題關(guān)鍵詞)及相關(guān)媒體報(bào)道,得出這10個(gè)主題的大致“內(nèi)涵”:
主題對應(yīng)的具體內(nèi)容如下表所示:
?5 文檔聚類
接下來采用的是基于譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結(jié)果。
先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)進(jìn)行雙重聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個(gè)關(guān)鍵詞構(gòu)成某個(gè)主題。
在正式分析前,現(xiàn)將先前Excel中的正文分詞文本按月份進(jìn)行分類,將其單獨(dú)放進(jìn)所屬的月份文件夾下,操作如下圖所示。
最終的結(jié)果是,系統(tǒng)自動(dòng)形成的幾個(gè)文檔簇群,以及每個(gè)簇群下面最重要的TOP30關(guān)鍵詞。結(jié)果如下圖所示:
翻譯一下,說人話就是:
上面的每一個(gè)Bicluster類別都可以看做是一個(gè)話題,這里可以量化的看到每個(gè)話題在總文本中的成分占比(通過文檔數(shù)量或關(guān)鍵詞數(shù)量來判定),也可以了解該話題在這4個(gè)月上的成分分布情況。從上圖中可以看到,3-6月這四個(gè)月間的若干文本在Biclusters下分為4個(gè)話題??梢钥吹剑贐iclusters聚類的話題區(qū)分度明顯要好于上述的LDA主題模型,而且很神奇的是,類別相近的詞匯會自動(dòng)聚集在一個(gè)話題下,橫跨這8W+個(gè)文檔!
上面四個(gè)話題可以很容易的得出:
- Biclusters類別0:共享單車相關(guān)的創(chuàng)投、資本和競爭相關(guān),行業(yè)的視角
- Biclusters類別1:共享單車相關(guān)的行政監(jiān)管、整治,政府的視角
- Biclusters類別2:共享單車運(yùn)營中出現(xiàn)的各種社會問題,社會的視角
- Biclusters類別3:共享單車方面的負(fù)面信息,很多已經(jīng)上升到違法違規(guī),甚至觸犯刑法的層面了,法律的視角
由上面的數(shù)據(jù),還可以得到這4個(gè)話題在總文本中的占比情況。
從上圖可以看出,Biclusters類別1的比重最大,也就是4個(gè)月間關(guān)于共享單車行政監(jiān)管方面的文章較多,共享單車在市場運(yùn)營過程中的各類問題已然引起社會和有關(guān)部門的高度重視,各種行業(yè)亂象亟待整治和肅清。
將話題和月份進(jìn)行交叉分析,可以看到每個(gè)月份下關(guān)于共享單車報(bào)道的話題構(gòu)成情況。
比如,4月份有關(guān)共享單車的各種社會問題的媒體報(bào)道較多,而6月份對共享單車行業(yè)方面的報(bào)道居多。剩下的請小伙伴們看表說話,自行腦補(bǔ),我就不廢話咯。
6 情感分析
筆者在新浪微輿情“信息監(jiān)測”上觀察到,3~6月間關(guān)于共享單車的負(fù)面信息的走勢情況,顯然,這段時(shí)間內(nèi)的負(fù)面信息一直處于一個(gè)較高的水平,平均每天好幾W的負(fù)面新聞報(bào)道量。
緊接著,筆者使用機(jī)器學(xué)習(xí)的方法,對這8W多條文章的標(biāo)題進(jìn)行本地的情感分析,以便獲得媒體對共享單車報(bào)道的“情感傾向”的總體情況。
這里的“情感傾向”是以一個(gè)介于0~1之間的“情感極性值”來表征—如果某條評論的情感極性值越接近于0,說明它的負(fù)面情感傾向越明顯,越接近于1,說明它的正面情感傾向越明顯,而取值在0.5左右徘徊,這說明這種情感傾向不明顯,是為“中性”。筆者將情感傾向值的取值區(qū)間0~1細(xì)分為3個(gè)子區(qū)間,分別對應(yīng)不同的情感傾向。詳細(xì)操作請參考《用數(shù)據(jù)全方位解讀<歡樂頌2>》的2.1部分。
經(jīng)整理,將其制作成直方圖的形式呈現(xiàn):
從上面的直方圖可以看出,情感極性值絕大部分在0.2上的分布最多,而這個(gè)分值處在負(fù)面情感度的左端,很低的水平。根據(jù)上圖顯示,如果要給這段時(shí)間內(nèi)共享單車的總體情感傾向評級(5個(gè)級別,“極其負(fù)面”、“比較負(fù)面”、“中性”、“比較正面”、“極其正面”)的話,那么這個(gè)評級接近于“極其負(fù)面”。
以下是關(guān)于共享單車“三元”情感傾向的占比情況。
由此,再次印證了這段時(shí)間內(nèi)關(guān)于共享單車的各類負(fù)面報(bào)道不斷。
不過,話又說回來,這些都是來自媒體的聲音,而媒體有喜好報(bào)道負(fù)面訊息的傳統(tǒng),缺少了廣大網(wǎng)民發(fā)聲,對共享單車的輿情分析難免會存在信息失真。對此,筆者選擇了社會化媒體中具有重大影響力的新浪微博作為分析對象,對上面的網(wǎng)民情緒進(jìn)行總覽。關(guān)于社會化媒體方面的大數(shù)據(jù)分析,小伙伴們可以參看《如何利用Social Listening從社會化媒體中“提煉”有價(jià)值的信息?》
下面幾張圖來自新浪微輿情的“情緒地圖”部分,數(shù)據(jù)來源為新浪微博,為保持時(shí)效性,時(shí)間區(qū)間為近三日。
整體上看,與媒體的報(bào)道不同,絕大部分網(wǎng)民對于共享單車的“泛濫成災(zāi)”是持“喜悅”情緒的,由上面的LDA主題模型可以了解到,“便利出行”是形成這種贊許態(tài)度的原因之一。
7 LSI文本相似度索引
在上面的主題分析和文本聚類分析中,“融資”這個(gè)關(guān)鍵詞出現(xiàn)了若干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資”這個(gè)關(guān)鍵詞去找尋與其最相關(guān)的TOP20新聞標(biāo)題。在這里,筆者不采用直接通過關(guān)鍵詞查找的方法去尋找這些相關(guān)標(biāo)題,而是通過語義上的關(guān)聯(lián)性去尋找,也就是說,即使這些語句不包含“融資”二字,只要體現(xiàn)這個(gè)含義就是我要尋找的目標(biāo)。
鑒于此,筆者采用了基于LSI(Latent Semantic Index,潛在語義索引)的方法去查找文本相似度最高的20個(gè)語句,大致上比較文本向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細(xì)的原理推導(dǎo),小伙伴們可以自行Google腦補(bǔ)。
經(jīng)過分析,找到了跟“融資”語義最相關(guān)的20條新聞??梢钥吹?,里面很多沒有包含“融資”二字,但意義上都有體現(xiàn)資本運(yùn)作,比如“共享單車又掀起新一輪‘互掐’”這條新聞,里面有這樣的論述:“公開資料顯示,截至2017年4月,兩家公司共計(jì)融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元”,第二個(gè)“…ofo共享單車獲4.5億美元”,也是講的融資方面的新聞,剩下的相似語句以此類推。
從這些新聞標(biāo)題來看,共享單車領(lǐng)域的競爭不僅出現(xiàn)在用戶獲取和地盤爭奪上,在資本領(lǐng)域的也是刀光劍影,撕得不可開交。
由此可以看到,計(jì)算機(jī)通過LSI算法變得“聰明”了不少,在某種程度上,能“理解”自然語言了!
8 Word2vec
最后進(jìn)行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進(jìn)行詞向量模型訓(xùn)練,然后用來進(jìn)行關(guān)聯(lián)詞分析。
Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個(gè)個(gè)詞向量(WordVector),以使這些詞匯在便于被計(jì)算機(jī)識別和分析的同時(shí),還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。類似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。
首先,筆者對共享單車的2大巨頭—摩拜單車、ofo(小黃車)及其各自CEO的相關(guān)詞匯感興趣,分析結(jié)果如下:
從上圖可以看出,跟“胡瑋煒”、“摩拜”最相關(guān)的詞匯是“陳偉鴻”,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業(yè)于浙江大學(xué)城市學(xué)院新聞系,在《每日經(jīng)濟(jì)新聞》、《新京報(bào)》、《商業(yè)價(jià)值》等媒體做過記者和報(bào)道。也就是說,他們有著類似的從業(yè)經(jīng)歷,而且在6月25日的央視《對話》節(jié)目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。
值得注意的是,出現(xiàn)在關(guān)聯(lián)詞列表中的 “(王)曉峰”,曾任職Uber上海城市總經(jīng)理,是摩拜單車大股東李斌“邀請”來擔(dān)任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經(jīng)營層面缺乏經(jīng)驗(yàn),由此業(yè)界傳聞“王曉峰是資本派來的管家”不脛而走。“曉峰”后面緊隨“昆侖決”,根據(jù)語境來講,這里的“昆侖決”應(yīng)該不是實(shí)指青海衛(wèi)視的那項(xiàng)世界職業(yè)搏擊賽事,而是用以隱喻共享單車行業(yè)競爭激烈的現(xiàn)狀,而且這種具有畫面感的語義聯(lián)想在媒體的報(bào)道中比較頻繁。
而ofo及其創(chuàng)始人最相關(guān)的詞依次是摩拜單車、胡瑋煒、(王)曉峰、CEO、小藍(lán)單車、悟空(單車)這些詞,多是對手。也涉及了其海外擴(kuò)張戰(zhàn)略的相關(guān)詞匯,如“全球”“海外”“投放”等。
而跟“摩拜”和“ofo”相關(guān)的詞多是反映這個(gè)行業(yè)現(xiàn)階段的特征,如“(圈地)投放”“(爭搶)用戶”、“入駐(城市、小區(qū)和國外等)”、“公司”、“數(shù)量”、“市場”和“大戰(zhàn)”等,還有它們的對手“小藍(lán)單車”“小鳴(單車)”、“哈羅單車”等。
加入“大戰(zhàn)”之后預(yù)測出來的關(guān)聯(lián)詞匯,就更能反映共享單車這個(gè)行業(yè)競爭的硝云彈雨了,在用戶和資本領(lǐng)域競爭的火藥味十足。
結(jié)語
在上面的各類文本挖掘中,反復(fù)出現(xiàn)一些關(guān)鍵詞和主題,如“亂象”、“監(jiān)管”、“愈演愈烈”等,給筆者一個(gè)最直觀的印象是“山雨欲來風(fēng)滿樓”,共享單車這個(gè)行業(yè)已經(jīng)到了“洗牌”的時(shí)間了:
經(jīng)過幾個(gè)月的火熱期,共享單車領(lǐng)域硝煙彌漫,競爭的號角此起彼伏,在共享單車將觸角伸向城市各個(gè)角落的同時(shí),各類社會亂象、人性考驗(yàn)和法治問題接踵而至,政府也被迫由先前的大力倡導(dǎo)到謹(jǐn)慎的規(guī)范引導(dǎo),行業(yè)的集聚特征也越來越明顯,或許可以大膽猜想一下,像之前的團(tuán)購、拼車和外賣這些領(lǐng)域,由資本推動(dòng),從“千帆競過”到“百團(tuán)大戰(zhàn)”,再是“三足鼎立”,最后“三家歸晉”?
欲知后事如何,我們姑且看之。
參考資料及分析工具:
- ?新浪微輿情,信息監(jiān)測、情緒地圖(數(shù)據(jù)采集及來源,情緒分析)
- 易觀千帆(APP用戶數(shù)據(jù))
- Gensim官網(wǎng),https://radimrehurek.com/genism
- PiotrBojanowski,EdouardGrave, Armand Joulin ,TomasMikolov,Enriching Word Vectors with Subword Information
- 勞鑫,馬寶君,張楠,萬巖,基于概率主題建模和深度學(xué)習(xí)的公眾輿情分析
- YoavGoldberg,wordembeddings—what, how and whither
- AnnaHuang,SimilarityMeasures for Text Document Clustering
- Python(jieba、snownlp、gensim、sklearn、wordcloud)
#專欄作家#
蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
這位老師做的工作感覺差不多和我上篇文章做的工作差不多了,老師我覺得你可以去發(fā)個(gè)SCI試試哈哈哈,想問一下老師還有比LDA更優(yōu)秀的主題建模模型推薦么?因?yàn)榘l(fā)現(xiàn)現(xiàn)在很多研究的文章都使用LDA,不知道能不能有些新意?所以想問問大牛關(guān)于這種現(xiàn)象的看法?謝謝解答,最近看到您的文章作為一個(gè)小小的本科生很有啟發(fā)!
折耳貓老師,您好。我最近要帶領(lǐng)一群中學(xué)生做關(guān)于普通人群對于共享單車的安全意識的調(diào)查,您寫的一些資料,比如對于“安全”“法律”之類的數(shù)據(jù),對我很有幫助,雖然我不會用于其他的一些網(wǎng)絡(luò)宣傳途徑,只是用于教學(xué)上,也會備注您的名字,希望獲得您的授權(quán)。
好的,沒問題的。
好厲害,好像學(xué),不知道怎么開頭
很多圖感覺這里做出來的顏色撘配很好呀!厲害厲害
絕大部分是excel做的哦
好厲害呀,我也想做個(gè)類似的調(diào)查,能不能把使用的所有工具都分享下啊,從分詞開始
這得會coding才行。。。
感覺好像很厲害。。 但是仔細(xì)看了會覺得,似乎這個(gè)結(jié)論不需要大數(shù)據(jù)挖掘也可以得出啊。。 而且如果說數(shù)據(jù)更精確,也是由收集的信息有關(guān),但是1 這些新聞本身客觀度如何?準(zhǔn)確度如何? 2 新浪微博網(wǎng)民所發(fā)布的內(nèi)容,一是會來吐槽的網(wǎng)民本身占用戶數(shù)量比例多少?二是人一般都是更傾向于宣泄負(fù)面的情緒,而對體驗(yàn)良好的東西反而很少主動(dòng)去談,那這樣本身就會使判斷往負(fù)面傾斜。 我的意思是,洞察力似乎并不一定要由大數(shù)據(jù)得來,因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的。
好吧,遇到真噴子了,那我,勉為其難的來逐條回應(yīng)你吧:1 寫這篇文章我只是舉一個(gè)實(shí)例,真正產(chǎn)生業(yè)務(wù)價(jià)值的數(shù)據(jù)分析文章,那是付費(fèi)的,涉及商業(yè)機(jī)密我不會放在這里的;2 如果你在公司做產(chǎn)品,做運(yùn)營,你無憑無據(jù),說這個(gè)產(chǎn)品應(yīng)該這么做,很符合常規(guī)嘛,同時(shí)會聽你的嗎?貌似對和實(shí)際對是兩碼事,需要用洞東西支撐的;3 我用的根本不是新浪微博的數(shù)據(jù),是各個(gè)主流媒體的長文章,不是網(wǎng)民發(fā)的,相對客觀;3 “洞察力似乎并不一定要由大數(shù)據(jù)得來,因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的”,恕我爆粗,大數(shù)據(jù)預(yù)測不準(zhǔn),難道你用屁股決策就準(zhǔn)嗎?現(xiàn)在天氣預(yù)報(bào)也是基于大數(shù)據(jù),谷歌利用大數(shù)據(jù)預(yù)測流感,而且準(zhǔn)確率相當(dāng)高,你每天購物的商品推薦,機(jī)票預(yù)訂,都跟大數(shù)據(jù)有關(guān)…如果因噎廢食,不能接受新事物,那還是回去做山頂洞人吧。。。
well , 首先我要說我不是來噴,只是提出質(zhì)疑進(jìn)行探討。。 然后您回答的前3點(diǎn)我接受,最后一點(diǎn),“因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的”這句確實(shí)是我考慮欠缺,商品推薦這些確實(shí)精準(zhǔn),但我這句話實(shí)際上想表達(dá)的意思是,洞察力是無法由大數(shù)據(jù)得來的,就像您第2點(diǎn)所說,大數(shù)據(jù)是個(gè)支撐,但不能成為出發(fā)點(diǎn),就好比科學(xué)家提出一個(gè)假設(shè),然后大量收集數(shù)據(jù)進(jìn)行驗(yàn)證,然而這個(gè)假設(shè)本身并不是從大數(shù)據(jù)得來的。也就是說大數(shù)據(jù)更適合做已有的產(chǎn)品的延伸優(yōu)化,很難有創(chuàng)新性的突破。另外您舉的幾個(gè)例子除了商品推薦,其他的都是作用于物,而非人。而對于任何產(chǎn)品而言,人才是核心,物只是輔助。最后您如何看待“許多公司、尤其是傳統(tǒng)公司還沒有從大數(shù)據(jù)項(xiàng)目獲得預(yù)期的結(jié)果,或者還沒有獲得相當(dāng)高的投資回報(bào)率。大數(shù)據(jù)投入后收入平均僅僅增加了區(qū)區(qū)的6%。”?
補(bǔ)充一句,我并不是要全盤否定數(shù)據(jù)分析,我也是在學(xué)習(xí)中,但也許因?yàn)檫€是菜鳥,很多東西考慮不周,看到有疑惑的地方就直接評論了,如果有冒犯之處請見諒。
首先,我也要說聲對不起,有些表達(dá)是過激了。我想說的是,有批判性思維很好,但當(dāng)對某個(gè)領(lǐng)域不太熟的時(shí)候,不要輕易下結(jié)論,尤其是給予否定。其次,我從來都不否定人的主觀能動(dòng)性,人腦思考的重要性,諾基亞的slogan“科技以人為本”,說是要用科技服務(wù)人類,同時(shí)人類在科技的使用上居于主導(dǎo)地位,這是沒有任何問題的。我想說的是,大數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代的基礎(chǔ)設(shè)施,是原料不是結(jié)果,如何分析,從中獲得洞察,那才是具有科技含量的,我不知道你如何定義洞察,我理解的洞察是,只要能從雜蕪的、無規(guī)律的數(shù)據(jù)和信息獲得有價(jià)值的信息,發(fā)現(xiàn)人腦難以處理和分析出的東西,那就是insight,那就是洞察,當(dāng)今很多實(shí)例已經(jīng)印證了這一點(diǎn),我不想再舉實(shí)例了。最后說一句,“許多公司、尤其是傳統(tǒng)公司還沒有從大數(shù)據(jù)項(xiàng)目獲得預(yù)期的結(jié)果,或者還沒有獲得相當(dāng)高的投資回報(bào)率。大數(shù)據(jù)投入后收入平均僅僅增加了區(qū)區(qū)的6%”,這不是大數(shù)據(jù)或者數(shù)據(jù)挖掘的不足,很多時(shí)候是使用人的無能。
嗯,是的,在量的方面人腦的處理遠(yuǎn)不及計(jì)算機(jī),這點(diǎn)確實(shí)可以很好的彌補(bǔ)人腦的不足。我的質(zhì)疑確實(shí)提的過早,還是先去好好學(xué)習(xí)一下。感謝前輩愿意探討~
看到結(jié)語,才懂你想表達(dá)什么。。?!按髷?shù)據(jù)文本挖掘”是本身太高深,還是所挖掘的文本太凌亂~~
我也看不懂你說的是什么,你這是想褒還是想貶,文章要表達(dá)什么,開篇已經(jīng)說明白了,你翻回再仔細(xì)看看?
反正看不懂,就知道很高大上
哈哈
贊一個(gè)
應(yīng)屆生打算做運(yùn)營,給看跪了。。。
別害怕,我寫的這些又不是運(yùn)營必須掌握的
非常好!大部分都是正在用的,大神如有時(shí)間,能不能更多介紹下“譜聯(lián)合聚類算法”這個(gè)的使用?謝謝!
這個(gè)非常艱深,我看的是國外的外文文獻(xiàn),到現(xiàn)在還是初窺門徑,建議重視它的實(shí)用價(jià)值和具體操作,背后的數(shù)學(xué)原理還是。。。
你這數(shù)據(jù)分析技能點(diǎn)都點(diǎn)這么高了?給跪!
沒事,一年前這塊我也不會呢
沒事,工作中的需求會推著你往前走的 ??
求推薦一些入門書籍和網(wǎng)站吧,我最近也在自學(xué)這個(gè)方面呢
書看得少,國外的博客看得多,根據(jù)工作實(shí)際去有針對性的檢索有價(jià)值的信息就好。
國外的博客?翻墻看是嘛
是的,用翻墻軟件即可
給跪,雖然有些地方不懂,但是感覺很高大上呢~
等工作或?qū)W習(xí)中有實(shí)際需求了,你就懂了
@折耳貓,往往人人噴子多,caff的回復(fù)真誠些
沒事,就是希望大伙們多提點(diǎn)意見,我好改進(jìn)嘛,哈哈
大神,我服,順便問下大神的python技能點(diǎn)到多少了?
沒多少,入門不到一年,但每天都用
厲害了,但是看不懂
有實(shí)際需求了,你就會看懂了
哎,運(yùn)營都像搞研究一樣
干啥都得琢磨和研究,不然就會像驢子拉磨一樣,干N年沒有實(shí)際提升,一直路徑依賴。
恕我直言,你的結(jié)論是啥?
結(jié)論文末有哈,這篇文章的本意是想介紹常用的文本挖掘方法,至于案例,那是插播的??????
感覺理論和工具都挺充實(shí)的,但是結(jié)論的話似乎可以再挖掘下!
結(jié)論其實(shí)仔細(xì)看完就會不言自明,既然都這么說,我有時(shí)間把結(jié)尾再修繕下??????
嗯,非常好,我反正看不懂 ??
??????
這廣告插播插的。。。
喵~ 你微信號多少,來一發(fā)。 ??
g18818233178 ??