“微博大數(shù)據(jù)”可以這么玩,讓你聽到雅安人的真實(shí)聲音
自從4月20日之后,大家打開微博以后,時間軸上全是關(guān)于雅安和地震的微博和信息,這么多天來,大家已經(jīng)習(xí)慣于從微博獲取地震的信息,一起為雅安祈福、加油,感覺是通過微博與跟雅安人民一起經(jīng)歷地震的傷痛和感動。 但是,大家有沒有認(rèn)真想過,在關(guān)于雅安地震的微博中,哪些是雅安人民的真實(shí)心聲,而哪些是謠言呢?許多人,肯定會說,好多微博大部分網(wǎng)友都驗(yàn)證過,謠言肯定會被過濾或者粉碎。而冷酷的事實(shí)卻是,新浪微博作為弱關(guān)系的信息網(wǎng)絡(luò),度的分布是呈冪率分布的,少數(shù)中心節(jié)點(diǎn)的鏈接數(shù)大大多于普通節(jié)點(diǎn)。 這樣的結(jié)果導(dǎo)致我們在微博上看到的信息都是大V主導(dǎo)的信息,或者是是他發(fā)布的,或者是他加工的。而這些大V有沒有到過雅安呢?相信大多數(shù)是沒去過的,都是在那里坐而論道。所以他們傳播的信息,到底是不是真正雅安人的心聲,是否真實(shí),我們都要打一個大大的問號。 同時,一個不容忽視的問題是,作為真正的雅安災(zāi)區(qū)群眾的發(fā)出的微博,因?yàn)楸旧硖柼。瑩碛械逆溄訑?shù)(粉絲數(shù))有限,他們的聲音在微博的海量數(shù)據(jù)里,卻很容易被忽略了。相信大部分人,關(guān)注了這么多天雅安地震的微博信息,卻不會關(guān)注一個雅安本地人吧。 有沒有辦法,把雅安本地人的微博匯集到一起,做一個實(shí)時更新的頁面,讓大家真正了解雅安當(dāng)?shù)厝苏嬲男穆暷亍N覐氖滦吕宋⒉?shù)據(jù)挖掘的朋友@肖培征 和@張文浩等一幫人,正是基于這個想法,做了一個“雅安之聲”的站點(diǎn),專門匯聚了雅安本地網(wǎng)友的微博,通過他們的視角還原現(xiàn)場最真實(shí)的情況。 為什么做雅安之聲 據(jù)肖培征講,他創(chuàng)業(yè)的方向是微博運(yùn)營和數(shù)據(jù)挖掘,雅安地震時,本能的反映是對雅安地區(qū)網(wǎng)友的微博進(jìn)行數(shù)據(jù)分析。馬上從庫里找出所在地是雅安的一萬多微博用戶,調(diào)用新浪微博開放接口掃描數(shù)據(jù)。 每一條微博,都是一個悲慘的畫面,我猶如置身雅安,心情沉重又無奈,不知道能為災(zāi)區(qū)同胞做點(diǎn)什么。 各大互聯(lián)網(wǎng)公司行動迅速,但都一窩蜂的做尋人。尋人雖然是剛需,但我再做意義不大。 隨著時間的推進(jìn),雅安多數(shù)地區(qū)電力、通訊逐步恢復(fù),兩天之后,雅安網(wǎng)友發(fā)布的微博數(shù)量逐漸增多,我的信息也越來越豐富。但是打開電視看直播,打開微博看大V發(fā)布的信息,卻與我看到的視角完全不同。 大量的救災(zāi)信息淹沒了雅安本地網(wǎng)友的內(nèi)容,沒有專用數(shù)據(jù)挖掘工具,在微博通過關(guān)鍵字搜索等很難找到。也許有人需要這些信息,應(yīng)該發(fā)揮優(yōu)勢做個容易使用的產(chǎn)品,讓普通網(wǎng)友能迅速找到這些信息。 雅安之聲解決的問題 救援人員點(diǎn)擊“緊急”按鈕查看被標(biāo)注的微博,迅速找到求助信息及時救助。通過關(guān)鍵字如“帳篷”等搜索微博,精確找到物資缺乏的災(zāi)民,為救援物質(zhì)調(diào)配起到查漏補(bǔ)缺的作用。 一線記者可以通過“給力”“氣憤”兩個按鈕迅速獲取新聞線索,幫助現(xiàn)場采訪。未能到達(dá)災(zāi)區(qū)的記者,可以通過微博內(nèi)容了解現(xiàn)場情況獲取一手新聞素材。 網(wǎng)友可以觀看原汁原味的微博直播。內(nèi)容由雅安本地網(wǎng)友創(chuàng)造,未經(jīng)媒體或微博大V加工,保持了原汁原味。這里有反應(yīng)災(zāi)情的揪心內(nèi)容,也有反應(yīng)日常生活的普通內(nèi)容,更加鮮活。 產(chǎn)品開發(fā) 這些信息的第一用途肯定是救災(zāi),如何讓救援人員迅速找到重要信息,信息重要程度用神馬參數(shù)衡量呢? 已經(jīng)是22日中午了,黃金救援時間都過去60個小時了,他們沒有時間去思考重要程度的算法,那需要大量時間不斷的試錯改進(jìn),而現(xiàn)在最缺的就是時間,必須找到電風(fēng)扇吹空肥皂盒這種笨拙但簡單有效的方法。 肖培征想到了眾包,在微博下面設(shè)幾個按鈕,讓普通網(wǎng)友看直播時捎帶著標(biāo)注重要性,于是便有了這張草圖。 幾天的積累,他們的雅安微博用戶ID已經(jīng)增長到一萬八千個,用開放接口完整輪詢一遍需要幾個小時,信息更新速度太慢。與死神賽跑每一秒都要爭取,這個時間是無法容忍的。 他們求助新浪官方,新浪免費(fèi)給他們開通了開放平臺之外的“訂閱”接口。從開始溝通到正式開通,總共只用了58分鐘,效率非常高。但是訂閱接口也有數(shù)量限制且官方無法更改模塊,依然不能滿足我一萬八千個ID的需求量,而且ID數(shù)量還在不斷增加。 肖用@勤娘紙 賬號發(fā)了條微博,招募志愿者請求同行幫助。平時打的頭破血流的競爭對手,迅速表態(tài)放下恩怨,共享資源解決難題。 開發(fā)人員連軸轉(zhuǎn),從畫出草圖到產(chǎn)品測試,只用了20個小時,晚上測試修改完畢第一版正式上線。 23日19:49微博發(fā)出鏈接,迅速被轉(zhuǎn)發(fā)四百多次,他們收到網(wǎng)友評論和私信大量反饋。從反饋中發(fā)現(xiàn),物資調(diào)配信息需求最強(qiáng)烈,因?yàn)辄S金救援時間已過,救援隊(duì)伍的主攻方向是發(fā)放帳篷等救援物資。 產(chǎn)品存在的問題集中在兩點(diǎn),第一、設(shè)定的按鈕“重要”沒有引起網(wǎng)友的重視,被標(biāo)注的次數(shù)不多,導(dǎo)致重要信息沒有篩選出來。第二、標(biāo)注“重要”的微博是按照標(biāo)注次數(shù)排序,這樣排在最前面的反而是幾個小時之前的信息。 24日凌晨一點(diǎn),他們更新了第二版,將按鈕改為“緊急”“給力”“氣憤”三個,排序規(guī)則改為12小時內(nèi)的微博按時間排序,12小時候后的按標(biāo)注次數(shù)排序。并且添加了關(guān)鍵字搜索功能,方便救援人員根據(jù)物資情況精確查找。 三十多個小時的時間,他們更新了兩個版本,改了四次算法,加上@獨(dú)到網(wǎng) 的接口級別較高,微博同步延遲時間壓縮到5分鐘左右。 此時,雅安之聲已經(jīng)是一個有用、能用的產(chǎn)品了。 當(dāng)你打開網(wǎng)站,就會看到兩萬多雅安網(wǎng)友五分鐘之前的發(fā)的全部微博,可以很方便的找到你需要的信息。 只是網(wǎng)站不太好看,志愿者中沒設(shè)計(jì)人員。 實(shí)際效果 根據(jù)北大可視化小組@曉如微博 標(biāo)注的雅安微博用戶分布圖,我們的數(shù)據(jù)可以全面反映雅安情況,包括曾經(jīng)被忽視的天全等縣,以及一些偏遠(yuǎn)的鄉(xiāng)鎮(zhèn)。 宣傳雅安之聲的微博被轉(zhuǎn)發(fā)489次,理論上凈覆蓋人數(shù)460萬,@桔子水晶吳海 @酒紅冰藍(lán) @丁來峰 @白玉峰 等關(guān)鍵人物參與了轉(zhuǎn)發(fā)。 24日晚十點(diǎn)鐘左右檢查PV,發(fā)現(xiàn)這幾天@獨(dú)到網(wǎng) 的PV沒有任何增長。大家一直忙著看用戶反饋改產(chǎn)品,竟然沒檢查CNZZ的統(tǒng)計(jì)。 22:38分修復(fù)后,顯示15分鐘內(nèi)119人在線,瀏覽次數(shù)為250次。第一微博宣傳的四百多次轉(zhuǎn)發(fā)是在23日,第二這個時間段不是高峰期,我們大致推斷24日PV在一萬以上,23日PV在五萬以上。 數(shù)據(jù)的意義 截止24日,2.1萬雅安網(wǎng)友中的七千多人在地震后發(fā)出14萬條微博,活躍用戶高達(dá)35%,平均每個用戶以每天4條的高頻率發(fā)布微博。之前有微博活躍度下降,微信將取代微博,甚至微博已死等言論,但關(guān)鍵時刻還是微博頂上去了,微博在信息擴(kuò)散的速度上的確優(yōu)于微信。 國外已經(jīng)可以通過社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘預(yù)測流感趨勢,監(jiān)測災(zāi)難時期的民眾恐慌情緒等。他們會對抓取的原始數(shù)據(jù)進(jìn)行分析,期望能夠?yàn)榫葹?zāi)工作總結(jié)經(jīng)驗(yàn)教訓(xùn)。水平有限,不敢說一定能成功,但做一下探索,失敗了也能讓后來者避開陷阱少走彎路。 雅安之聲地址:http://www.doodod.com/doodod/yaanzhisheng 本文來源于鈦媒體,轉(zhuǎn)載時有刪改。