微博核心傳播者挖掘與傳播規(guī)模預測研究
摘要:基于30條熱門微博的全部傳播數(shù)據(jù)及參與傳播的賬號關(guān)系,本報告利用數(shù)據(jù)挖掘方法量化地評估出各主題微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)的結(jié)構(gòu)特征、傳播特征、內(nèi)容特征,并以此建立全面、系統(tǒng)的綜合評價體系,再結(jié)合PageRank算法思想,提出了一種有效的核心傳播者挖掘算法,從而精準地評估各條微博中各節(jié)點的影響力差異,識別核心傳播者。最后依據(jù)核心傳播者的行為集合建立傳播模型,預測了單條微博的傳播規(guī)模。
由中國新聞史學會計算傳播學研究委員會與微熱點大數(shù)據(jù)研究院聯(lián)合舉辦的第二屆傳播數(shù)據(jù)挖掘競賽已圓滿落幕,15支戰(zhàn)隊盡顯風采。以下為“核心用戶挖掘與傳播規(guī)模預測”選題優(yōu)秀作品《社交媒體時代核心用戶識別與傳播規(guī)模預測分析》,由來自中國傳媒大學“豬頭DD的BoysandGirls天天有錢”精彩呈現(xiàn)。
一、引言
作為一種基于用戶關(guān)系信息分享、傳播以及獲取的社交平臺,當前微博已成為中國最重要的公共空間,而微博的核心傳播者起著輿論引導甚至改變輿情發(fā)展方向的重要作用。微博核心傳播者的挖掘?qū)π畔⒌膫鞑ヅc演化的深度分析、輿情監(jiān)控和引導都具有重要意義。另一方面,也為提供個性化服務(wù)以及差異廣告的投遞提供便利。如何挖掘微博核心傳播者,成為我們關(guān)注的議題。
二、問題的提出與分析
挖掘核心傳播者是本報告的核心議題。在此背景下,提出以下四個子問題:
- 核心傳播者如何定義,存在什么樣的特征?
- 未知個體身份信息的情況下,基于30條熱門微博的全部傳播數(shù)據(jù)及參與傳播的賬號關(guān)系,如何對核心傳播者的關(guān)鍵特征進行有效量化?
- 如何基于量化的關(guān)鍵特征建立全面系統(tǒng)的評價體系并精準地評估各條微博中各節(jié)點的影響力差異,并識別核心傳播者?
- 在有限的信息中如何較準確地刻畫出核心傳播者的行為畫像,進而建立有效的模型預測單條微博的傳播規(guī)模?
三、研究過程與方法
3.1 微博核心傳播者概念辨析
本報告中的“微博核心傳播者挖掘”和“意見領(lǐng)袖挖掘”不同。在《人民的選擇》中,拉扎斯菲爾德(Lazarsfeld)首次提出“意見領(lǐng)袖”。意見領(lǐng)袖作為媒介信息的影響的中繼和過濾環(huán)節(jié),對大眾傳播效果產(chǎn)生重要影響,是大眾傳播中不可缺少的一部分。
關(guān)于微博意見領(lǐng)袖挖掘的研究眾多,但當前大多數(shù)挖掘意見領(lǐng)袖是基于微博整個的傳播環(huán)境而言。
本研究從給定的數(shù)據(jù)集里找“核心傳播者”,非嚴格意義上的“意見領(lǐng)袖”,不考慮用戶評論、點贊、活躍度等因素。筆者基于研究范圍,將本文的微博核心傳播者定義為:在微博信息傳遞中,對輿論的發(fā)展能起到關(guān)鍵性的導向作用,具有影響他人態(tài)度和行為的能力,能加快傳播速度并擴大影響的用戶。
3.2 核心傳播者影響力特征
基于對用戶節(jié)點的深度分析,綜合用戶節(jié)點的各類屬性,本研究基于30條熱門微博的全部傳播數(shù)據(jù)及參與傳播的賬號關(guān)系,選取用戶的結(jié)構(gòu)特征、傳播特征和內(nèi)容特征作為用戶影響力特征,并以此建立綜合評價體系:
3.2.1 結(jié)構(gòu)特征
結(jié)構(gòu)特征體現(xiàn)了用戶本身因素和所在網(wǎng)絡(luò)拓撲的結(jié)構(gòu)因素,通??梢杂煞劢z數(shù),關(guān)注數(shù),中心度等屬性表示。附錄A圖1顯示了一個社交網(wǎng)絡(luò)拓撲圖。但由于數(shù)據(jù)集所限,同時為了提高準確度,本研究將用戶的結(jié)構(gòu)特征指標歸結(jié)為以下兩點:
(1)用戶關(guān)注數(shù)。關(guān)注數(shù)代表用戶能力范圍內(nèi)的信息接受度,核心傳播者的關(guān)注數(shù)應(yīng)該在一個合理區(qū)間內(nèi)。
(2)用戶粉絲數(shù)。因粉絲數(shù)在數(shù)據(jù)集中未給出,本研究使用倒排索引法從用戶關(guān)注集合中反向找出用戶粉絲集合。附錄A圖2顯示了該方法得到的用戶粉絲數(shù)符合冪律分布,且獲取的用戶為實際參與到傳播行為的“激活用戶”,是粉絲中對傳播貢獻最為顯著的部分,故可將該結(jié)果用于構(gòu)建用戶結(jié)構(gòu)特征指標。
3.2.2 傳播特征
用戶的傳播特征即用戶在信息傳播過程中的傳播行為特征,通常表現(xiàn)為在一段時間內(nèi)發(fā)布的微博數(shù)和微博被點贊、被轉(zhuǎn)發(fā)和被評論的數(shù)量等。同樣因數(shù)據(jù)集所限,只將特征固定在轉(zhuǎn)發(fā)數(shù)。同時,我們通常認為,當用戶發(fā)布的微博被非粉絲轉(zhuǎn)發(fā)條數(shù)越多,說明其影響力不局限于固定受眾,影響力可能越大。因此,本研究將傳播特征區(qū)分為粉絲轉(zhuǎn)發(fā)數(shù)和非粉絲轉(zhuǎn)發(fā)數(shù)。
3.2.3 內(nèi)容特征
在意見領(lǐng)袖挖掘問題中,用戶的影響力不能簡單地從結(jié)構(gòu)特征和行為特征衡量,還需要從語義內(nèi)容角度去評價特定用戶對于某一話題的觀點[1],內(nèi)容特征參考以下兩點:
(1)文本相似度。微博社交網(wǎng)絡(luò)大量的“灌水”、“刷數(shù)據(jù)”的行為使得許多轉(zhuǎn)發(fā)行為在內(nèi)容上與原內(nèi)容無關(guān),表達價值有限,因而引入文本相似度以衡量轉(zhuǎn)發(fā)文本與原微博在內(nèi)容上的相關(guān)程度,具有與原微博較高相似度的轉(zhuǎn)發(fā)文本才能真正傳播觀點和內(nèi)容,方能實現(xiàn)核心傳播者所應(yīng)具備的“擴大影響”以及“引導輿論走向”的職能要求。
(2)內(nèi)容情感傾向。在微博社交網(wǎng)絡(luò)中,原創(chuàng)微博會引發(fā)大量的轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)內(nèi)容綜合體現(xiàn)了眾人的褒貶情感。識別信息傳播過程中傳播者的主流情感態(tài)度, 有利于篩選出引導輿論發(fā)展方向、對其他受眾施加顯著影響的真正核心傳播者。
3.3 核心傳播者的指標權(quán)重
以結(jié)構(gòu)特征、傳播特征、內(nèi)容特征為分析指標,運用模糊層次分析法確定指標權(quán)重。模糊層次分析法(FAHP)判斷指標元素權(quán)重相較傳統(tǒng)的層次分析法具有計算過程復雜度低與計算結(jié)果分辨率高等優(yōu)點,有利于提高排序與決策的科學性。
3.4 核心傳播者挖掘算法
3.4.1 評價體系各指標量化方法
結(jié)構(gòu)特征和傳播特征數(shù)據(jù)能夠較為容易地從數(shù)據(jù)集中獲得。在內(nèi)容特征方面,對于情感指數(shù),首先需要對用戶的轉(zhuǎn)發(fā)文本的情感極性進行分類。本文采用LSTM神經(jīng)網(wǎng)絡(luò)訓練了10萬條帶有正負情感標記的微博轉(zhuǎn)發(fā)、評論文本數(shù)據(jù)集,經(jīng)過五輪訓練,準確率高達94%,損失函數(shù)則低至0.37(見附錄A圖3),具有較好的預測效果。
隨后,由于模型的預測結(jié)果實際是文本內(nèi)容為正向及負向的雙向可能性,嘗試以情感極性的期望描述情感的強烈程度。(文本情感極性分析流程見附錄A圖4)眾多研究表明網(wǎng)絡(luò)的負面情緒往往相比正向情緒具有更大的傳播效果,因而得到公式:
文本相關(guān)度則利用TF-IDF算法獲取。由于微博轉(zhuǎn)發(fā)文本主要針對熱點事件、話題開展討論,共輸入1000余篇完成分詞的新聞文本構(gòu)造出詞典并構(gòu)建TF-IDF模型,最后以此進行原微博文本與轉(zhuǎn)發(fā)文本的相似度匹配。
3.4.2 預處理問題
在內(nèi)容屬性挖掘過程中,本研究首先對轉(zhuǎn)發(fā)文本的非漢字詞組、標點、用戶昵稱等進行了過濾。由于每種特征數(shù)據(jù)具有不同的量綱,因此采用min-max標準化對數(shù)據(jù)進行線性轉(zhuǎn)換,將結(jié)果映射到(0,1)之間。轉(zhuǎn)換函數(shù)為:
綜上得到綜合評價指數(shù)計算公式:
3.4.3 改進的PageRank算法
三維度的綜合評價體系可以有效評估一個節(jié)點本身的直接影響力,然而用戶的影響力與傳播效果除了本身的直接影響,還應(yīng)包括傳遞本節(jié)點觀點的后續(xù)節(jié)點傳播所帶來的間接影響。由此,本研究嘗試引入網(wǎng)頁排名算法PageRank 思想:
其中,Vn,Vn-1代表一系列節(jié)點組成pagerank值向量,M為N×N概率轉(zhuǎn)移矩陣。相較于傳統(tǒng)微博影響力研究針對粉絲-關(guān)注網(wǎng)絡(luò)進行PageRank計算,本研究創(chuàng)新性地將PageRank思想引入微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)。PageRank算法的思想與微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)相吻合。因此本研究將構(gòu)建由轉(zhuǎn)發(fā)者指向被轉(zhuǎn)發(fā)者的有向關(guān)系圖。
但PageRank的弊端在于過分看重外部鏈接的間接價值而忽視了節(jié)點本身的直接價值,前文所述三維度指標體系恰好可以較為全面評價一個節(jié)點本身的直接影響力和價值。參考陳淑娟[2]、馮勇[3]等的研究思路,本研究將節(jié)點i的綜合評價指數(shù)I作為權(quán)重參數(shù)乘至到PageRank轉(zhuǎn)移概率矩陣中第i列(即為所有節(jié)點鏈接到節(jié)點i的概率加權(quán)),從而影響PageRank的迭代結(jié)果。
本處數(shù)學處理的意義可解釋為:當一個轉(zhuǎn)發(fā)用戶的自身影響力與傳播價值較高,任何對他進行二次轉(zhuǎn)發(fā)的節(jié)點將有更大的概率將流量引向該用戶。
綜上,改進后的用戶影響力(User Influence, UI)的矩陣表達式如下:
其中AIndex為本微博各轉(zhuǎn)發(fā)節(jié)點綜合評價指數(shù)所組成的N×N對角矩陣,Vn為n次迭代后得到的N個節(jié)點的UI值組成的向量。
3.5 預測單條微博傳播規(guī)模
3.5.1 核心傳播者的信息傳播動力學建模
信息在社交媒體中的傳播模式呈現(xiàn)出去中心化的特點,核心傳播者在信息傳播過程中帶動了大量的二次傳播[4]。本研究對核心傳播者帶動的信息傳播模式進行可視化(附錄A圖5)發(fā)現(xiàn),絕大多數(shù)的核心傳播者的轉(zhuǎn)發(fā)能夠迅速引起大量的二次轉(zhuǎn)發(fā),之后轉(zhuǎn)發(fā)數(shù)迅速下降,進入到慢速傳播狀態(tài),直至轉(zhuǎn)發(fā)數(shù)極低或者為零。
由此,本研究對核心傳播者的信息傳播模型借由Wang等人[5]的思想:在信息傳播初期,單位時間內(nèi)核心傳播者帶動的轉(zhuǎn)發(fā)數(shù)為冪律衰減函數(shù),隨后核心傳播者的影響力和信息新鮮度下降,轉(zhuǎn)發(fā)數(shù)又呈現(xiàn)出指數(shù)衰減。因此將核心傳播者的信息傳播過程表示如下:
其中,F(xiàn)0,α,τ為預估參數(shù)。F0為用戶初始影響力,在本研究中,其決定因素為結(jié)構(gòu)特征;α為核心傳播者的影響力衰減速度,τ為核心傳播者影響力的持續(xù)時間,二者的大小是信息傳播過程中多種因素交織的結(jié)果,在本研究中簡化為由結(jié)構(gòu)特征、內(nèi)容特征和微博轉(zhuǎn)發(fā)時間決定。3.5.2 預測單條微博傳播規(guī)模
本研究將數(shù)據(jù)集中的30條熱門微博分為訓練集和測試集,其中訓練集內(nèi)微博數(shù)量為22,用來得到各個核心傳播者的參數(shù);測試集內(nèi)微博數(shù)量為8,用來預測核心傳播者的單條微博傳播規(guī)模。
對訓練集中的所有核心傳播者分別用公式(6)進行非線性最小二乘擬合,得到各個核心傳播者的信息傳播模型參數(shù),并利用相關(guān)系數(shù)R2進行擬合效果的評價。由于測試集中的核心傳播者不一定出現(xiàn)在訓練集中,所以當預測一個新的核心傳播者的傳播規(guī)模時,需要計算其與已知核心傳播者的差異。
本研究選用粉絲數(shù)、關(guān)注數(shù)、情感值、文本相關(guān)值和轉(zhuǎn)發(fā)時間距原微博發(fā)布時間的時間間隔五個特征來度量用戶屬性。對數(shù)據(jù)用式(2)進行標準化處理,得到用戶之間的距離計算公式為:
其中,x1k、x2k分別為用戶1和用戶2在第k維度的特征值。選取與當前核心傳播者距離最小的核心傳播者的參數(shù)作為前者的參數(shù),從而預測當前核心傳播者單條微博的傳播規(guī)模。綜上,本研究的研究思路與流程如附錄A圖6所示。
四、研究結(jié)果與發(fā)現(xiàn)
4.1 數(shù)據(jù)集
本研究使用微博提供的基于30條熱門微博的全部傳播數(shù)據(jù)及參與傳播的賬號關(guān)系,附錄B表1為數(shù)據(jù)的基本概要,附錄A圖7為30條微博的主題分類。
4.2 綜合評價體系的構(gòu)建
本研究邀請了傳播學和大數(shù)據(jù)方向的專家進行對評價體系進行研判,被調(diào)查者結(jié)合輿情傳播理論和自身經(jīng)驗對影響指標因素,進行最小、中間、最大比值的三值評分,進而通過三角模糊法進行模糊層次分析,表1和附錄A圖8為得到的各指標權(quán)重。
4.3 核心傳播者挖掘結(jié)果
綜合評價體系中,結(jié)果特征、傳播特征均通過python的pandas等數(shù)據(jù)分析庫在源數(shù)據(jù)中進行定向抓取。情感分析采用keras進行LSTM模型的訓練并利用模型挖掘。以第26條微博“少年的你”數(shù)據(jù)結(jié)果為例,按PageRank排名取前十位核心傳播者見附錄B表2。
4.4 核心傳播者挖掘結(jié)果驗證與對比分析
為驗證核心傳播者挖掘算法的有效性,本研究嘗試通過微博文本內(nèi)容手動檢索實際微博及挖掘出的核心用戶的有效信息,利用檢索結(jié)果以及微熱點分析結(jié)果,開展如下對比分析。
4.4.1 核心用戶信息溯源
以第26條微博為例,本研究根據(jù)用戶的轉(zhuǎn)發(fā)數(shù)據(jù)以及文本內(nèi)容于微博平臺進行信息溯源,并完成以下驗證:
(1)關(guān)鍵轉(zhuǎn)發(fā)者大多擁有一定規(guī)模粉絲量。最小粉絲規(guī)模2000+,最大粉絲規(guī)模45.6萬+;
(2)關(guān)鍵轉(zhuǎn)發(fā)者為該相關(guān)話題知名賬號,大多擁有新浪官方認證、活躍用戶、粉絲大咖等標識。例如用戶@我親愛的擁有和虛無(即附錄B表3核心轉(zhuǎn)發(fā)者排名第二,用戶ID為b672fadcb306797bbba44cae1ecf576 5);
(3)分析所得賬號的發(fā)博頻率和轉(zhuǎn)發(fā)互動率均有較好表現(xiàn)。例如用戶@赤頰(即附錄B表3核心轉(zhuǎn)發(fā)者排名第九,用戶ID為4cd45eb84d5a48e142011b8 1af4f044f)。
綜上,在用戶粉絲規(guī)模、賬號特征和屬性、賬號活躍度和粉絲互動率等方面進行綜合評測,認為以上關(guān)鍵轉(zhuǎn)發(fā)者符合本研究的核心傳播者意義。
4.4.2 與微熱點進行對比分析
本研究依托微博分析工具微熱點(微輿情)對原始微博進行“微博傳播分析”,結(jié)果見附錄A圖9,與本研究結(jié)果對比可得:前十名的核心傳播者中,前五名結(jié)果一致,六至十名用戶一致但排名稍有變動,原因為研究方法與微熱點統(tǒng)計方法存在差異。
即微熱點中各引爆點的參考依據(jù)僅為二次轉(zhuǎn)發(fā)數(shù)量這一指標,而本研究所使用的方法,除此之外加入對用戶關(guān)注及粉絲數(shù)、是否為粉絲轉(zhuǎn)發(fā)、文本相關(guān)度及內(nèi)容情感的參考,使得其更符合本研究對核心傳播者的定義。本研究作法也使得數(shù)據(jù)的參考價值局不限于單條微博,在微博的大輿論環(huán)境中,考慮核心傳播者本身所具備的能量。
綜上,綜合判定該研究方法所得結(jié)果符合要求并具有一定通用性。
4.5 單條微博規(guī)模預測結(jié)果
在得到所有已知核心傳播者之后,便可以對訓練集中的核心傳播者模型參數(shù)進行擬合并存儲,然后對測試集中的核心傳播者的傳播規(guī)模進行預測。
具體流程如附錄A圖10所示。其中,為更合理地預測實時消息,在當前核心傳播者轉(zhuǎn)發(fā)微博后,等待10分鐘,獲取其該微博的被轉(zhuǎn)發(fā)數(shù),用如下公式計算其相對初始影響力:
其中F0為數(shù)據(jù)庫中核心傳播者的初始影響力,N10為數(shù)據(jù)庫中核心傳播者在10分鐘內(nèi)的被轉(zhuǎn)發(fā)數(shù)。之后便可用公式(6)計算當前核心傳播者的傳播規(guī)模。附錄A圖11為對測試集中的一條微博的8位關(guān)鍵傳播者進行的傳播規(guī)模預測,觀察可知本方法較好地預測了各個核心傳播者的傳播規(guī)律與規(guī)模,在最終傳播規(guī)模的預測上,8位關(guān)鍵傳播者實際引發(fā)了1152次轉(zhuǎn)發(fā),而根據(jù)模型預測的最終值為1340,準確率達到83.68%。
五、研究結(jié)論和討論
實驗及分析比對結(jié)果表明,本研究能夠準確挖掘到核心傳播者,所提模型和方法,也能夠較好地刻畫意見領(lǐng)袖在消息傳播過程中所起到的作用,能夠較好地對單條微博的傳播趨勢和規(guī)模進行預測,這對于微博中公眾輿論的引導以及廣告定點投放等具有重要意義。
在構(gòu)建模型和挖掘核心傳播者的過程中,我們也可以發(fā)現(xiàn),核心傳播者具有區(qū)別于其他普通傳播者的特征,例如:一定數(shù)量的粉絲規(guī)模和關(guān)注數(shù),發(fā)布的博文質(zhì)量更高,能夠帶動更大的轉(zhuǎn)發(fā)量等。
由于篇幅限制,部分研究方法細節(jié)和實驗結(jié)果說明難以得到充分展示。
本研究也存在不足之處:第一,模糊層次分析法包含專家的主觀判斷,無法徹底避免評價的主觀性;第二,研究缺乏更全面的用戶行為數(shù)據(jù)且數(shù)據(jù)量較小,所以難以更精準地挖掘出核心傳播者,傳播規(guī)模預測效果有待進一步提高。這些將是本研究的未來改進方向。
參考文獻
[1]Song K,Wang D,F(xiàn)eng S,et al.Detecting opinion leader dynamically in Chinese news comments[A].Web-Age Information Management[M].Berlin Heidelberg: Springer,2012. 197-209[2] 陳淑娟,徐雅斌.面向主題社團的意見領(lǐng)袖挖掘方法[J/OL].計算機工程與應(yīng)用:1-11[2020-05-31].http: //kns.cnki.net/kcms/detail/11.2127.TP.20200109.1653.006.html.
[3]馮勇,馬宇光,劉建.微博營銷中融合行為分析的重要用戶發(fā)現(xiàn)方法[J].小型微型計算機系統(tǒng),2019,40(0 8):1646-1651.
[4] 高金華,劉悅,程學旗.去中心化的微博傳播動力學建模[J].中國科學:信息科學,2018, 048(011):P.1575-1588.
[5] WANG Chenxu, GUAN Xiaohong, QIN Tao, ZHOU Yadong. Modeling on Opinion Leader’s Influence in Microblog Message Propagation and Its Application[J]. Journal of Software, 2015, 26(6): 1473-1485
附錄A
圖1 社交網(wǎng)絡(luò)拓撲圖
圖2粉絲數(shù)分布情況
圖3 LSTM神經(jīng)網(wǎng)絡(luò)進行情感分類的準確率與損失函數(shù)
圖4 文本情感極性分析流程
圖5一條典型的核心傳播者帶動的微博的傳播模式
圖6 本研究的研究思路與流程
圖7 30條微博主題分類
圖8 各指標權(quán)重可視化
圖9 微熱點分析意見領(lǐng)袖圖
(截至截圖時間2020年05月26日數(shù)據(jù))
圖10 傳播規(guī)模預測流程
圖11 單條微博核心傳播者傳播規(guī)模預測結(jié)果
圖12 30條微博部分核心傳播者傳播規(guī)模預測結(jié)果
附錄B
本文由 @數(shù)據(jù)鍋 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
這學期學了數(shù)據(jù)挖掘課程,講到作者提到的一些方法,運用得真好??
寫的挺好的,這類方法應(yīng)該也能運用到識別煽動輿論的人群中惡意助推者和被煽動者之間的特征,有助于政府或官方在處理公共事件時精準打擊切斷傳播途徑。
太牛了!這是碩士論文?
太專業(yè)了,看不懂啊??