干貨|微信230萬社群生命周期研究

1 評(píng)論 8966 瀏覽 155 收藏 10 分鐘

最近讀了一篇arXiv上的文章,是清華大學(xué)和騰訊公司的一批人運(yùn)用微信群組數(shù)據(jù)做的研究。剛好,我目前對(duì)社群這塊興趣異常濃厚,所以就認(rèn)真讀了一下這篇文章,于是做筆記如下。先說說我看到的這篇文章的亮點(diǎn)吧:

  1. 據(jù)作者說,這是第一篇用騰訊微信數(shù)據(jù)來做分析的學(xué)界文章,這個(gè)理由絕對(duì)牛,太霸氣了。要做研究就得這樣,找別人沒有分析過的牛數(shù)據(jù)。微信,大家都知道了,目前是全球第二大即時(shí)通訊軟件,月活用戶已經(jīng)6億了,分析這個(gè)數(shù)據(jù)絕對(duì)牛。我們學(xué)界一直鼓勵(lì)騰訊的哥哥姐姐們開放這塊數(shù)據(jù)呀,能出不少有意思的研究;
  2. 這大概也是第一個(gè)(至少為數(shù)不多)研究由即時(shí)通訊組成群組的文章。在中國(guó),社群這個(gè)概念方興未艾,但是查遍各類英文文獻(xiàn),似乎沒有對(duì)應(yīng)英文詞。對(duì)社群劃分的一種特征就是由即時(shí)通訊(手機(jī)移動(dòng)互聯(lián)網(wǎng))構(gòu)成的群,它會(huì)比社交網(wǎng)絡(luò)、傳統(tǒng)的論壇、網(wǎng)絡(luò)社區(qū)具有更高的黏性;
  3. 用群的結(jié)構(gòu)特征預(yù)測(cè)群組發(fā)展動(dòng)態(tài)。這個(gè)好像已經(jīng)是目前機(jī)器學(xué)習(xí)研究社交媒體、群組一種很常規(guī)、標(biāo)準(zhǔn)的范式了,但個(gè)人接觸這樣的研究不多,所以覺得很有意思。

0、文章基本信息

作者:Jiezhong Qiu?, Yixuan Li?, Jie Tang?, Zheng Lu?, Hao Ye?, Bo Chen?, Qiang Yang?, and John E. Hopcroft?

單位:?Department of Computer Science and Technology, Tsinghua University ?Department of Computer Science, Cornell University?Tencent Corporation, Beijing, China.??Department of Computer Science, Hong Kong University of Science and Technology

標(biāo)題:The Lifecycle and Cascade of Social Messaging Groups

下載地址:http://arxiv.org/abs/1512.07831

好,下面我想詳細(xì)敘述一下這篇文章的幾個(gè)有意思的地方

1、數(shù)據(jù)集

首先,關(guān)于數(shù)據(jù)(沒辦法,現(xiàn)在數(shù)據(jù)在研究中的作用太重要了)

作者用了微信的群組記錄,從15年7月26日到8月28的34天數(shù)據(jù),包括230萬個(gè)群。數(shù)據(jù)內(nèi)容包括:

群組活動(dòng)(誰在什么時(shí)間在什么群組活躍)、用戶的集合、邀請(qǐng)記錄(誰于什么時(shí)刻邀請(qǐng)了誰加入群),以及朋友關(guān)系數(shù)據(jù)(誰和誰在什么時(shí)刻成為好友)

2、群組的兩類生命周期

微信群按照功能和時(shí)間長(zhǎng)短可以分為兩種:基于事件建立的臨時(shí)群,和基于組織和長(zhǎng)期社會(huì)關(guān)系建立的長(zhǎng)期群,這在群的生命活躍時(shí)間長(zhǎng)度分布上體現(xiàn)得很明顯,如下圖所示:

我們看到,臨時(shí)群組的生命周期大概不會(huì)超過5天,而長(zhǎng)期的群組會(huì)在一個(gè)月以上。

3、群結(jié)構(gòu)特征的演化

接下來,作者主要研究了群的結(jié)構(gòu)。所謂的結(jié)構(gòu),就是指群內(nèi)成員之間由好友關(guān)系構(gòu)成的社會(huì)關(guān)系網(wǎng)絡(luò)。如下圖所示:

如圖(a),這是一個(gè)群內(nèi)的社交網(wǎng)絡(luò)。作者主要用了兩個(gè)指標(biāo)來度量群的結(jié)構(gòu),一個(gè)是開放三角形的比例,所謂的開放三角形就是形如圖(a)中ADC這三個(gè)節(jié)點(diǎn)形成的局域結(jié)構(gòu);另一個(gè)是封閉三角形的比例,如圖中的ABC;還有就是連邊的密度,就是連變數(shù)除以C_n^2,即這些點(diǎn)全聯(lián)通時(shí)候的連邊數(shù)。

然后,作者看這三個(gè)指標(biāo)的演化。也很簡(jiǎn)單,它首先在起始點(diǎn)計(jì)算了這些指標(biāo),然后在一月后再計(jì)算這些指標(biāo),得到b、c、d這三張圖。然后分別就長(zhǎng)期和短期(藍(lán)色和綠色)的結(jié)構(gòu)指標(biāo)進(jìn)行了比較。假如結(jié)構(gòu)沒有變化,那么曲線會(huì)落到斜45度對(duì)角線上。現(xiàn)在看來長(zhǎng)期群相對(duì)于短期來說變化是更大的。說明長(zhǎng)期群更受這些結(jié)構(gòu)因素影響。

4、邀請(qǐng)層次樹

由于微信的邀請(qǐng)好友機(jī)制是任意群組中的人員都能邀請(qǐng)。這樣,從第一個(gè)建群的人開始,他就可以邀請(qǐng)其他人,然后這些入群后的人又可以邀請(qǐng)……,這就構(gòu)成了一個(gè)級(jí)聯(lián)性的樹狀結(jié)構(gòu)。比較長(zhǎng)期群和短期群,它們的樹狀深度是不一樣的,如下圖:

長(zhǎng)期群結(jié)構(gòu)更深,短期群更扁平。

在這個(gè)樹中,節(jié)點(diǎn)是人,連邊是邀請(qǐng)關(guān)系。我們可以用一種叫做“結(jié)構(gòu)病毒性”Structural virality)也叫Wiener指數(shù)的指標(biāo)來刻畫這個(gè)樹的形狀。Wiener指數(shù)定義為平均任意兩個(gè)節(jié)點(diǎn)的距離。它越大說明樹越深長(zhǎng)。在此,我想到了樹的異俗標(biāo)度律指標(biāo)也能計(jì)算這個(gè)玩意,參見

http://wiki.swarma.net/index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B

5、生命周期預(yù)測(cè)

接下來,作者嘗試用群組的靜態(tài)特征,包括結(jié)構(gòu)特征(局域網(wǎng)絡(luò)結(jié)構(gòu))、成員的人口特征(如性別、年齡等)來對(duì)群組的壽命進(jìn)行預(yù)測(cè)。基本套路是把一部分群數(shù)據(jù)作為訓(xùn)練集,運(yùn)用SVM(支持向量機(jī))來進(jìn)行預(yù)測(cè),但預(yù)測(cè)不是重點(diǎn),重點(diǎn)看精度。結(jié)果發(fā)現(xiàn),結(jié)構(gòu)特征起的作用最大。預(yù)測(cè)準(zhǔn)確度能在60%以上。而且我們甚至只用1天的數(shù)據(jù)就能預(yù)測(cè)很好了。如下表

6、成員入群特征及其預(yù)測(cè)

最后,作者分析了什么樣的人更容易被邀請(qǐng)入群,以及什么樣的人容易邀請(qǐng)成功。并且也用結(jié)構(gòu)特征加以預(yù)測(cè)。如下圖所示:

這個(gè)圈里面的節(jié)點(diǎn)都是群組內(nèi)的,藍(lán)色的節(jié)點(diǎn)表示在某時(shí)刻發(fā)出邀請(qǐng)的人,紅色的節(jié)點(diǎn)表示被邀請(qǐng)的人。白色的節(jié)點(diǎn)表示邊緣節(jié)點(diǎn)(沒有入群,但是已經(jīng)是群內(nèi)某成員的朋友)。虛線表示的朋友關(guān)系,藍(lán)色箭頭表示的是邀請(qǐng)關(guān)系。

接下來,作者看看什么樣的人更容易被邀請(qǐng)加入群。他們通過兩個(gè)指標(biāo)來計(jì)算,一個(gè)是這個(gè)節(jié)點(diǎn)的所有朋友中已經(jīng)加入了該群的人數(shù);第二個(gè)指標(biāo)是這個(gè)人的結(jié)構(gòu)多樣性,定義為這個(gè)人為中心的一級(jí)近鄰構(gòu)成的朋友關(guān)系網(wǎng)絡(luò)中聯(lián)通集團(tuán)的數(shù)量。如下圖所示:

如左圖所示以V為中心的局部網(wǎng)絡(luò),藍(lán)色節(jié)點(diǎn)是已經(jīng)入群的,所以k=4。另外,如果將V和所有連遍去掉,那么會(huì)剩下3個(gè)聯(lián)通子圖,所以它的結(jié)構(gòu)多樣性為3.

然后,我們來看一個(gè)節(jié)點(diǎn)被邀請(qǐng)的概率隨k和結(jié)構(gòu)多樣性指標(biāo)如何變化。由(b)會(huì)發(fā)現(xiàn),被邀請(qǐng)概率首先隨著k增長(zhǎng)而增長(zhǎng),但是如果k過大了,那么就會(huì)出現(xiàn)震蕩的情況,所以k的預(yù)測(cè)性變差。另一方面,由(c)會(huì)發(fā)現(xiàn),被邀請(qǐng)入群的概率會(huì)隨著結(jié)構(gòu)多樣性變大而衰減。無論這個(gè)中心節(jié)點(diǎn)有多少個(gè)朋友。也就是一個(gè)人交朋友的情況越單一,它加入一個(gè)新群的概率就會(huì)越大。

最后,作者對(duì)一個(gè)人是否會(huì)邀請(qǐng),以及是否可能接受到邀請(qǐng)來進(jìn)行預(yù)測(cè)。發(fā)現(xiàn)準(zhǔn)確度能達(dá)到95以上。而且群組的歷史特征對(duì)于預(yù)測(cè)誰會(huì)邀請(qǐng)別人特別有效,而如果要預(yù)測(cè)哪一個(gè)人被邀請(qǐng),那么局部的結(jié)構(gòu)特征就很重要。而用戶的人口特征相對(duì)來說不重要。

 

作者:jack

原文地址:http://www.swarma.org/swarma/detail.php?id=18739#rd

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這么牛逼的帖子 最近在研究“視頻號(hào) 私域 社群”對(duì)品牌的影響, 可以加微信 15201405290

    來自廣東 回復(fù)