修正調(diào)研數(shù)據(jù) 擴展使用限度
![](http://image.woshipm.com/wp-files/img/100.jpg)
緣起——網(wǎng)絡調(diào)查具有先天的優(yōu)劣勢
最近一個季度做了N多調(diào)研項目,結項之余,不由自主地對比了一下網(wǎng)絡調(diào)查與傳統(tǒng)調(diào)查的優(yōu)劣,詳見下圖:
有了這些先天的優(yōu)劣勢,網(wǎng)絡調(diào)查一般執(zhí)行的周期較短,但時常為了樣本均衡,會采用脈沖式投放,收集數(shù)據(jù)的時間會適當延長一些。在我主導的網(wǎng)絡調(diào)研項目中,投放的樣本量一般都有幾十萬,一是為了能夠快速收集足夠多的調(diào)研樣本,二是考慮到低響應率的問題。
如此大的投放量,而網(wǎng)絡調(diào)研中又有很多不可控的因素,最終使用的有效調(diào)研樣本量相對較低,他們到底是否能夠有效代表總體呢?我想這個問題可以一分為二來看,在相同的執(zhí)行條件下,只針對性地研究特殊用戶的調(diào)研,有效調(diào)研樣本在達到一定量的前提下,代表性偏差一般不大;需要推斷網(wǎng)站全體用戶的調(diào)研,雖然有效調(diào)研樣本也能達到一定量,但代表性還是會打折扣,尤其是對淘寶用戶而言。
加權——彌補網(wǎng)絡調(diào)研數(shù)據(jù)先天的劣勢
統(tǒng)計學中關于隨機抽樣的理論中講過,一個研究隨機抽取多少樣本與總體的大小無關,而主要與最大允許誤差和置信區(qū)間有關。但真正執(zhí)行的時候,未必會這么理想,尤其是在人力財力有限的條件下,隨機抽取的投放樣本與有效調(diào)研樣本之間,受響應率和認真填答的積極性等因素影響,會存在偏差。
那么在推斷網(wǎng)站全體用戶的調(diào)研中,就需要引入加權的思想,適當?shù)募訖嗫梢允箻颖镜年P鍵結構,調(diào)整到與總體的關鍵結構相一致,從而提升樣本的應用范圍,所得結論會更嚴謹更具推廣性;針對特殊用戶的調(diào)研,也可以對樣本進行加權,更有效地發(fā)揮樣本的代表性。
加權的經(jīng)典場景(例子中引用的數(shù)據(jù)均為虛擬數(shù)據(jù),僅作為說明問題的案例,與真實數(shù)據(jù)無關)
A場景:常常遇到這樣的問題:產(chǎn)品經(jīng)理想要了解全體買家對某一個產(chǎn)品的使用體驗、需求或滿意度,也要比較初級買家和高級買家。
一般而言,隨機抽取條件下,95%的置信度、5%的最大允許誤差,推及目標總體所需樣本量為384個,此處為計算方便,近似為400個。
事先已知,全網(wǎng)初級買家與高級買家的比例為39:1,高級買家所占比例僅為2.5%。若按照隨機抽樣原則抽取投放樣本,為保證高級買家對比時滿足統(tǒng)計需要,至少應有400個調(diào)研樣本。那么,隨機填答的前提下,總體調(diào)研樣本至少需要16000個,響應率按照5%計算,需要投放的樣本量達到32萬。這只是理想狀態(tài)下的情況,事實上高級買家的響應率更低,這就使得需要投放的總體樣本量更大,工作中又不能經(jīng)常投放如此大量的用戶?!虑拔覀儫o法保證統(tǒng)計要求,怎么辦?
B場景:若要推及全體賣家對某一產(chǎn)品的使用體驗,如果隨機抽取了20萬投放樣本,最終有效調(diào)研樣本有4000個。經(jīng)過數(shù)據(jù)匹配可知,調(diào)研樣本的開店時間分布與總體存在較大差異,而該研究中開店時間是非常重要的指標?!潞笪覀儫o法保證統(tǒng)計要求,怎么辦?
不論是事前還是事后,為使得研究有效,應該保證統(tǒng)計要求;調(diào)研理論與現(xiàn)實執(zhí)行常常存在很大差距,這也是不爭的事實。因此,研究中引入加權的思想,非常重要也很有必要。
加權的前提
樣本加權是為了推及總體情況,主要用于兩種情形:
加權的準備
范欣珩 于 杭州翠苑三區(qū)
如何加權——單變量比例加權
為了比較初級買家與高級買家之間對某一產(chǎn)品的體驗差異,采用非等比隨機抽樣,事先增加了高級買家的抽中比例。?
當需要推及總體買家對這一產(chǎn)品的體驗情況時,需要對數(shù)據(jù)進行加權,結果如下:
上表第d列 (S/P) 是用各級別買家在調(diào)研樣本中占的比例除以其在總體中占的比例,其值越接近1,說明該級別買家在調(diào)研樣本中的比重越合適;反之,其值越背離1,其在調(diào)研樣本中的比重越不合適。
若恰巧各組的這一比值均接近1,可以近似等同總體分布,而不對調(diào)研樣本進行加權。本例顯然需要對調(diào)研樣本進行加權。
首先要確定加權的起點在哪里?這里有三種選擇:
1)以S/P的最小值(本例0.69)為起點,將其他組的S/P值都降低到這個水平,因此叫做Scale-down weighting(“水落石出”法)。其結果是將原調(diào)研樣本縮小S/P最小值倍(本例0.69,原調(diào)研樣本7200人,每組權重為0.69/d列相應值,加權后減至4968),放水過多,不合適
2)以S/P的最大值(如本例的8.33)為起點,將其他組的S/P值都提高到這個水平,這種策略叫做Scale-up weighting(“水高船漲”法)。其結果也就是將原來的調(diào)研樣本放大S/P最大值倍(本例8.33倍,原調(diào)研樣本7200人,每組權重為8.33/d列相應值,加權后會增至59976人),可見水分太大,不可取。
3)以S/P的加權平均值為起點,將大于1的S/P值調(diào)低至1而將小于1的S/P值調(diào)高至1,因此叫做Zero-sum weighting(“有增有減但總數(shù)不變”法)。加權后的樣本數(shù)與原調(diào)研樣本相同、還是7200(見表第f列)。可見這種方法相比之下最合理,學術界和調(diào)查業(yè)界通常都用它來加權。
比例加權需要注意的幾個問題:
1)加權只能調(diào)整樣本各組之間的相對比例、并不會產(chǎn)生任何新的信息。
2)一個重要細節(jié)是如果S/P值中有小于0.5(也即P/S值或權數(shù)大于2)的,則不能靠過分灌水來解決問題。這時的對策有三個:
l 增加那些采樣不足的(under-sampled)組別的case數(shù)量(上策)
l 用S/P值最小值(Scale-down的策略)來加權(最保守、浪費資源、但不犯I類錯誤)
l 前兩者的結合,即增加部分case數(shù)然后按新的最小S/P值來加權
3)如果那些采樣不足的(under-sampled)組case數(shù)量太少(一般不能少于30),需要按2)同樣的原則來處理。
對于2)和3)中提到的情況,另外一種變通的方法就是重新劃分組,此法省時省力。
4)經(jīng)過加權的樣本,能夠推算總體的常規(guī)統(tǒng)計量,但計算誤差時則不能用加權樣本直接計算。
5)為了便于解釋,上述例子只涉及一個變量(買家級別)的加權。實際上,研究買家除了級別,注冊時長、月成交量/額等也很重要。所以需要用多個變量同時加權 (weighted by several variables simultaneously)。
(本小節(jié)以上內(nèi)容參考了香港城市大學祝建華博士的BLOG文章《如何對樣本進行加權?》http://zjz06.ycool.com/post.2695611.html,在此表示感謝,愿祝老師健康、筆耕不輟!)
總結一句話:在隨機抽樣的前提下,比例加權的本質就是將調(diào)研樣本分布修正為等比隨機抽樣分布。
如何加權——單變量推及量加權
為什么用推及量加權:
1) 上小節(jié)提到的獲取總體參數(shù)的變通方法:在總體中用簡單隨機抽樣抽取一定數(shù)量的樣本,能夠獲得一個較大的樣本,用來推及總體依然帶有少許誤差。用加權處理的調(diào)研樣本推及這個大樣本群體的行為和態(tài)度更為恰當,有時候需要直觀的知道這個大樣本群體中每種劃分的組內(nèi)有多少人。
2)比例加權的運算方法有些麻煩;而推及量加權的運算方法簡便。
推及量加權的依據(jù):
1)加權的前提與比例加權相同:修正非等比隨機抽樣NPPS和等比隨機抽樣PPS
2)兩種方法等價:
比例加權:Pn%/Sn%
推及量加權:Pn/Sn=(Pn%*P)/(Sn%*S)=(Pn%/Sn%)*P/S 由于每一組case相對于比例加權都擴大了P/S倍,即每一個樣本都擴大了P/S倍。絕大部分研究結果都以比例呈現(xiàn),而計算比例的時候,每一個樣本擴大的P/S倍沒有影響,因此推及量加權適用。
推及量加權需要注意的事項與比例加權相似,此不贅述。
如何加權——多變量推及量加權
加權的步驟和方法相同
單變量加權時,以買家級別組為例,需要分別統(tǒng)計三組的總體比例(量)和調(diào)研樣本的比例(量)
多變量加權時,各個變量進行交叉,如三組級別、三組注冊時長、三組月成交量,即組合出27組,分別統(tǒng)計這27組的總體比例(量)和調(diào)研樣本的比例(量)
總結一句話:多變量加權實際上就是單變量加權的復雜版。
如何加權——實際操作
通過EXCEL和SPSS對數(shù)據(jù)進行加權:
1)通過SPSS計算總體中大樣本的有關參數(shù)和調(diào)研樣本相應的統(tǒng)計量
2)將結果放入EXCEL進行整理,注意單變量或多變量交叉后的對應,并批量編寫SPSS命令
3)將命令拷貝到記事本,再拷到SPSS的Syntax中運行命令
范欣珩 于 杭州翠苑三區(qū)
來源:http://ued.taobao.com/blog/2010/06/30/weight1/
- 目前還沒評論,等你發(fā)揮!