數(shù)據(jù)分析中的數(shù)據(jù)清洗怎么做?
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。本文作者詳細(xì)地講解了數(shù)據(jù)清洗的步驟,歡迎感興趣的伙伴們閱讀。
數(shù)據(jù)分析整個(gè)框架里面比較關(guān)鍵除了模型本身以外,更多依賴的是豐富高質(zhì)量的數(shù)據(jù)源。在數(shù)據(jù)收集時(shí)需要捕獲有關(guān)源的關(guān)鍵元數(shù)據(jù),如來源、大小、時(shí)效性和相關(guān)內(nèi)容的額外知識(shí)。迭代地識(shí)別當(dāng)前數(shù)據(jù)資產(chǎn)基礎(chǔ)和這些數(shù)據(jù)源的差距,使用分析、可視化、 挖掘或其他數(shù)據(jù)科學(xué)方法探索這些數(shù)據(jù)源,以定義模型算法輸入或模型假設(shè)。
由于原始數(shù)據(jù)中或多或少存在一些缺失、損壞的臟數(shù)據(jù)。如果不處理會(huì)導(dǎo)致模型失效。就好比,一個(gè)水平很高的廚師,給到的原材料如果不衛(wèi)生不干凈,那也很難做出一道讓人滿意的菜品。因此在整合數(shù)據(jù)建立模型之前, 應(yīng)先評(píng)估數(shù)據(jù)的質(zhì)量。對(duì)數(shù)據(jù)進(jìn)行清洗。
當(dāng)然,數(shù)據(jù)清洗除了能保障高質(zhì)量的數(shù)據(jù)輸出之外。也能夠同步對(duì)數(shù)據(jù)探索。數(shù)據(jù)清洗和數(shù)據(jù)探索的作用是相輔相成的,通過數(shù)據(jù)探索,檢閱數(shù)據(jù)的特征描述、分布推斷以及結(jié)構(gòu)上的優(yōu)化,能更好的為數(shù)據(jù)清洗選擇合適的清洗方法。而數(shù)據(jù)清洗后的數(shù)據(jù)則可以更有效的進(jìn)行數(shù)據(jù)探索。本文重點(diǎn)講解數(shù)據(jù)清洗的一些方法和注意事項(xiàng)。接下來,介紹數(shù)據(jù)清洗的兩個(gè)重要部分:異常值判別和缺失值處理。
01 異常值判別
數(shù)據(jù)清洗的第一步是識(shí)別會(huì)影響分析結(jié)果的“異?!睌?shù)據(jù),然后判斷是否剔除。異常值通常有以下幾個(gè)表現(xiàn):
(1)缺乏完整性
完整性即記錄數(shù)量名稱是否完整,內(nèi)部數(shù)據(jù)由于屬于企業(yè)內(nèi)部自己生產(chǎn)的數(shù)據(jù),相對(duì)而言比較好掌控檢查。而如果是采購的外部數(shù)據(jù),例如:城市土地人口宏觀數(shù)據(jù)或者某城的二手房交易數(shù)據(jù),則完整性需要外部數(shù)據(jù)供應(yīng)商提出相應(yīng)保障。
(2)缺乏準(zhǔn)確性
收集的數(shù)據(jù)必須要能夠正確反映業(yè)務(wù)需求,否則分析結(jié)論會(huì)對(duì)業(yè)務(wù)造成誤導(dǎo)。這方面的檢查,需要首先理解業(yè)務(wù)背景,第二需要判斷收集的此類數(shù)據(jù)以及數(shù)據(jù)項(xiàng)是否可以轉(zhuǎn)換為分析項(xiàng)目所需數(shù)據(jù)。如果部分?jǐn)?shù)據(jù)不符合業(yè)務(wù)邏輯,或者數(shù)據(jù)準(zhǔn)確性很差,則對(duì)數(shù)據(jù)分析造成很大的影響。
(3)缺乏唯一性
數(shù)據(jù)的唯一性應(yīng)該從兩個(gè)角度檢查,常見的錯(cuò)誤是多個(gè)數(shù)據(jù)一個(gè)編碼,例如產(chǎn)品住宅,產(chǎn)品商鋪都是同一編碼,或者同時(shí)一個(gè)實(shí)物對(duì)應(yīng)多個(gè)編碼。如果導(dǎo)入系統(tǒng),系統(tǒng)需要能夠識(shí)別,否則將會(huì)影響分析主體的唯一性。
目前常用的識(shí)別異常數(shù)據(jù)的方法有物理判別法和統(tǒng)計(jì)判別法:
物理判別法:根據(jù)人們對(duì)客觀事物、業(yè)務(wù)等已有的認(rèn)識(shí),判別由于外界干擾、人為誤差等原因造成實(shí)測(cè)數(shù)據(jù)偏離正常結(jié)果,判斷異常值。例如常見的年月日基本信息,顯示值為:1900年1月1日。這種判別方式需要人工干預(yù),檢查的工作量較大,如果沒有找到數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系容易出錯(cuò)漏處理。
統(tǒng)計(jì)判別法:通過系統(tǒng)設(shè)定一個(gè)置信概率,并確定一個(gè)置信上下限,凡超過此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,自動(dòng)判定為異常值。這種方法高效明確,且不會(huì)遺漏錯(cuò)誤臟數(shù)據(jù)。常用的方法有:拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則、t檢驗(yàn)等。(具體描述查看下圖)
這種系統(tǒng)判別并進(jìn)行刪除異常值的方式雖然高效,但也存在風(fēng)險(xiǎn)。因?yàn)槊總€(gè)方法不盡相同,得出的異常值也有可能存在偏差。為了減少這種誤刪的概率,可以將多種統(tǒng)計(jì)判別方法結(jié)合使用,并且要找出異常值出現(xiàn)的原因。是手工錄入錯(cuò)誤還是數(shù)據(jù)接收過程中出錯(cuò)。同時(shí),如果發(fā)現(xiàn)有多個(gè)異常值,建議逐個(gè)刪除,即刪除一個(gè)后再進(jìn)行檢驗(yàn)。
02 缺失值處理
在數(shù)據(jù)缺失嚴(yán)重的情況下,分析結(jié)果會(huì)失真。因此需要將缺失值進(jìn)行填補(bǔ),傳統(tǒng)方式檢查出來的空值有人工進(jìn)行補(bǔ)充,但是需要補(bǔ)充人員找到相關(guān)資料檢驗(yàn)無誤后再進(jìn)行填補(bǔ)。當(dāng)然如果對(duì)于結(jié)果要求并不是特別大,且我們能通過數(shù)據(jù)找到規(guī)律的情況下,可以采用合理的方法自動(dòng)填補(bǔ)空缺值。例如:可以根據(jù)身份證號(hào)碼,自動(dòng)判斷人員的性別。常見的方法有平均值填充、K最近距離法、回歸法、極大似線估計(jì)法等。(具體描述查看下圖)
值得注意的是,數(shù)據(jù)收集的過程中,如果對(duì)于某個(gè)字段要求必輸,則可以通過系統(tǒng)導(dǎo)入時(shí)自動(dòng)判斷是否為null,如果為null則導(dǎo)入不成功,從源頭控制數(shù)據(jù)質(zhì)量。
當(dāng)然,我們?cè)谧鰯?shù)據(jù)分析的過程中,也要看數(shù)據(jù)量的大小。一般情況下數(shù)據(jù)量越大,異常值和缺失值對(duì)整體分析結(jié)果的影響會(huì)逐漸變小。所以,在“大數(shù)據(jù)”模式下,如果異常值和缺失值較小的情況下,可以忽略減輕部分工作量,而側(cè)重對(duì)數(shù)據(jù)結(jié)構(gòu)合理性進(jìn)行分析。
03 格式內(nèi)容清洗
如果數(shù)據(jù)是由系統(tǒng)日志而來,那么通常在格式和內(nèi)容方面,會(huì)與元數(shù)據(jù)的描述一致。而如果數(shù)據(jù)是由人工收集或用戶填寫而來,則有很大可能性在格式和內(nèi)容上存在一些問題,簡(jiǎn)單來說,格式內(nèi)容問題有以下幾類:
1、字段顯示格式不一致
這種問題通常與輸入端有關(guān),在整合多來源數(shù)據(jù)時(shí)也有可能遇到,將其處理成一致的某種格式即可。
2、內(nèi)容中有不該存在的字符
某些內(nèi)容可能只包括一部分字符,比如身份證號(hào)是數(shù)字+字母,中國(guó)人姓名是漢字(趙C這種情況還是少數(shù))。最典型的就是頭、尾、中間的空格,也可能出現(xiàn)姓名中存在數(shù)字符號(hào)、身份證號(hào)中出現(xiàn)漢字等問題。這種情況下,需要以半自動(dòng)校驗(yàn)半人工方式來找出可能存在的問題,并去除不需要的字符。
3、內(nèi)容與該字段應(yīng)有內(nèi)容不符
姓名寫了性別,身份證號(hào)寫了手機(jī)號(hào)等等,均屬這種問題。但該問題特殊性在于:并不能簡(jiǎn)單的以刪除來處理,因?yàn)槌梢蛴锌赡苁侨斯ぬ顚戝e(cuò)誤,也有可能是前端沒有校驗(yàn),還有可能是導(dǎo)入數(shù)據(jù)時(shí)部分或全部存在列沒有對(duì)齊的問題,因此要詳細(xì)識(shí)別問題類型。
格式內(nèi)容問題是比較細(xì)節(jié)的問題,但很多分析失誤都是栽在這個(gè)坑上,比如跨表關(guān)聯(lián)或VLOOKUP失?。ǘ鄠€(gè)空格導(dǎo)致工具認(rèn)為“張三”和“張 三”不是一個(gè)人)、統(tǒng)計(jì)值不全(數(shù)字里摻個(gè)字母當(dāng)然求和時(shí)結(jié)果有問題)等等,需要大家重點(diǎn)關(guān)注。
專欄作家
成于念,微信公眾號(hào):Laosiji,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注互聯(lián)網(wǎng)+行業(yè)、數(shù)字化轉(zhuǎn)型落地。專注領(lǐng)域包括IT數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)應(yīng)用和最佳企業(yè)數(shù)據(jù)案例實(shí)踐分享。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
辛苦了