什么是“軟數(shù)據(jù)”?
軟數(shù)據(jù),那些不易量化、依賴主觀判斷的信息,如消費者信心指數(shù)和專家預(yù)測,與硬數(shù)據(jù)如GDP增長率和失業(yè)率形成鮮明對比。本文深入剖析軟數(shù)據(jù)的來源、特點及其在數(shù)據(jù)分析中的關(guān)鍵作用,探討如何將這些易變、主觀的信息轉(zhuǎn)化為可信賴的洞察。
由比爾恩門編寫的《數(shù)據(jù)湖倉》這本書中,除了提到數(shù)據(jù)湖倉是下一代數(shù)據(jù)倉庫和數(shù)據(jù)湖,目的是滿足復(fù)雜多變的現(xiàn)代信息系統(tǒng)的需求。還提到了數(shù)據(jù)質(zhì)量的重要性,通過檢查輸入錯誤、解決鍵的非兼容性問題以及維護良好的文檔編制來提高數(shù)據(jù)的質(zhì)量和可信度。
進入到數(shù)據(jù)湖倉的數(shù)據(jù)本質(zhì)上來說都是可信的,如果數(shù)據(jù)不真實不準確,理論來說就不應(yīng)該把這些數(shù)據(jù)存入到數(shù)據(jù)湖倉中。
這里面就提到一個概念,如果我們接觸到結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)和物聯(lián)網(wǎng)生成的數(shù)據(jù)時,通常不會對數(shù)據(jù)的真實性產(chǎn)生質(zhì)疑,這部分數(shù)據(jù)容易量化、約定俗成的、且有固定的計算公式的數(shù)據(jù)就統(tǒng)稱為“硬數(shù)據(jù)”(hard data)
當然,除了這部分可信的數(shù)據(jù)外,絕大部分數(shù)據(jù)是需要進行真實性的確認,我們就稱為“軟數(shù)據(jù)”(soft data)。軟數(shù)據(jù)是指那些不易量化、沒有固定計算公式、主要依賴于主觀判斷和觀察得到的信息和數(shù)據(jù)。這些數(shù)據(jù)通常來自調(diào)查問卷、專家評估、媒體報道等,與硬數(shù)據(jù)相對,后者主要包括官方統(tǒng)計數(shù)據(jù)、財務(wù)報表等具體的數(shù)字信息。比爾恩門認為軟數(shù)據(jù)主要是指來自電子表格、互聯(lián)網(wǎng)或政府的數(shù)據(jù)。這部分數(shù)據(jù)需要對其真實性、完整性進行確認,確認完成后才能存入湖倉的基礎(chǔ)數(shù)據(jù)中。
從書中去理解什么是軟數(shù)據(jù)確實有點費勁,原因就是太多的名詞導(dǎo)致我們在概念上容易混淆,其次是這些名詞定義如果沒有普及拉通的前提下,很容易雞同鴨講,無法讓對方理解你到底在表達什么意思。那么接下來我就嘗試著理解一下,比爾恩門對于軟數(shù)據(jù)來源的定義:
1,電子表格數(shù)據(jù)。我們經(jīng)常會將電子表格數(shù)據(jù)作為導(dǎo)入導(dǎo)出,初始化到系統(tǒng)中去。但是,我們并不能確定電子表格里面的數(shù)據(jù)是否真實可靠,因為填寫的過程中,你并不清楚填寫的人到底有沒有填寫對應(yīng)正確的填寫內(nèi)容。
其次,電子表格還存在一個問題,就是沒有可用可靠的元數(shù)據(jù)。雖然表格包含列和行,但是很難對表格的上下文情景進行關(guān)聯(lián)。比方說1977,是一個數(shù)字,但是它到底代表1977年,還是1977個,還是1977萬……所以,表格里面的1977如果缺少了上下文情景,則毫無意義。所以我們在提取文本數(shù)據(jù)的時候,通過文本ETL,一個關(guān)鍵點就是能否獲取數(shù)據(jù)的上下文情境。
2,互聯(lián)網(wǎng)數(shù)據(jù)。則更是五花八門了,雖然現(xiàn)在對于互聯(lián)網(wǎng)數(shù)據(jù)以及規(guī)避了很多涉及到個人隱私的問題,但是大部分我們獲取到互聯(lián)網(wǎng)的數(shù)據(jù)都是一次性的,如果互聯(lián)網(wǎng)數(shù)據(jù)進行了更新,那么這部分數(shù)據(jù)的時效性則無法保證?;ヂ?lián)網(wǎng)的數(shù)據(jù)由于沒有準確的來源,或者由于帶有很強的個人主觀性,往往就會被其他人質(zhì)疑。
3,政府數(shù)據(jù)。政府數(shù)據(jù)為什么也被納入到“軟數(shù)據(jù)”里面了呢?政府數(shù)據(jù)一般都應(yīng)該是可信的數(shù)據(jù),但是我理解比爾恩門想要表達的就是這類數(shù)據(jù),實際也存在一定的欺騙性,或者說這類數(shù)據(jù)也有可能失真。
比方說披露的某企業(yè)的資產(chǎn)現(xiàn)金流在某季度大幅的增長,我們?nèi)绻R單方面看到這些數(shù)據(jù),或許會認為該企業(yè)的生產(chǎn)經(jīng)營狀況相比較之前是有所增長的。雖然這個結(jié)果也是真實的,但是往往我們忽略了整個財報隱藏的一些問題?;蛟S該企僅僅只是通過變賣固定資產(chǎn),變賣手頭上的一些資產(chǎn)導(dǎo)致的現(xiàn)金流增長,實際的主營業(yè)務(wù)收入還是持續(xù)下降的。
從我們對待數(shù)據(jù)的真實性角度來看,在數(shù)據(jù)進入湖倉之前,都應(yīng)該進行確認,它們的可信度。從“軟數(shù)據(jù)”到“硬數(shù)據(jù)”的過程,一定是去偽存真的過程。
- 軟數(shù)據(jù)是如何進行計算的,究竟進行了哪些計算?
- 在收集和計算的過程中,選擇了哪些數(shù)據(jù),排除了哪些數(shù)據(jù)?
- 什么時候收集的數(shù)據(jù),數(shù)據(jù)什么時候獲取的?又計劃在什么時候更新的?
- 在互聯(lián)網(wǎng)上找到的數(shù)據(jù),它的來源是什么?
- 誰進行了計算?在哪里進行了計算?
最后可以舉一個簡單的例子,對軟數(shù)據(jù)和硬數(shù)據(jù)進行一個概念上的定義。一個股市的投資者和分析師通常會結(jié)合軟數(shù)據(jù)和硬數(shù)據(jù)來做出決策。例如,在評估股市趨勢時,除了關(guān)注公司的財報數(shù)據(jù)(硬數(shù)據(jù)),也會參考市場情緒、行業(yè)趨勢等(軟數(shù)據(jù))。
總之,軟數(shù)據(jù)雖然存在局限性,但在數(shù)據(jù)分析中扮演著重要的角色。理解軟數(shù)據(jù)的特點和局限性,能幫助我們更好地解讀數(shù)據(jù),做出決策。
本文由人人都是產(chǎn)品經(jīng)理作者【老司機聊數(shù)據(jù)】,微信公眾號:【老司機聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!