這篇文章把數(shù)據(jù)講透了(一):數(shù)據(jù)來源
編輯導讀:隨著“數(shù)智化”時代的到來,我們生活中的方方面面都離不開數(shù)據(jù),而你真的了解數(shù)據(jù)嗎?本文將為你重新解讀數(shù)據(jù)的概念和價值,以及數(shù)據(jù)的價值是如何在“數(shù)智化”時代下一步一步得到運用與升華的。因內容頗多,我將分幾期為大家進行講解。
一、前言
我們日常生活中經常會聽到這樣的問題:你有數(shù)據(jù)支撐嗎?你的數(shù)據(jù)來源是哪兒?數(shù)據(jù)噪聲大嗎?
那么這里的“數(shù)據(jù)”究竟是怎樣的存在?
百度百科對數(shù)據(jù)定義很簡單:數(shù)據(jù)(data)是事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。
而仔細想想,我們日常中所指的數(shù)據(jù)真的是data嗎?其實,我們更多指的是已經形成體系、有邏輯結構和實用性的“數(shù)據(jù)知識”。
所以,我們也不能把數(shù)據(jù)當作一個簡單的概念,但其實“數(shù)據(jù)”里面還有很多學問。
下面先給大家引出四個“數(shù)據(jù)”相關的名詞概念,后面我會分別闡述它們“價值變現(xiàn)”的方法論。
你真的了解data、information、kownledge、insight是什么嗎?
- data(菜市場買來的菜):簡單的事實,未處理的,無組織的,原始的。
- information(折菜、洗菜):經過結構化組織、處理的數(shù)據(jù),要根據(jù)“情景和語境”使其具有相關性和實用性。
- kownledge(下鍋炒菜):是通過學習和經驗聯(lián)系在一起的信息地圖,具有預測和決策和概括的能力。
- insight(已經到能教別人做菜的程度):準確而深刻地理解復雜問題或情況的能力(是可以借助工具實現(xiàn)的)。
今天,小陳就帶大家看看數(shù)據(jù)的來源及其具體類型,畢竟知己知彼,方能百戰(zhàn)不殆,有了今天的鋪墊我們才能在后面幾期的學習中,能容易上手~
二、數(shù)據(jù)來源(菜市場)
如果說,data是我們烹飪所需的原材料,那么確定數(shù)據(jù)來源就好比我們出去買菜之前要先確定去哪家菜市場買菜一樣;而且“菜市場”也是術業(yè)有專攻的!買海鮮去海鮮市場、買家禽要去禽類市場…數(shù)據(jù)也是一個道理,要通過你所需的領域,具體篩選數(shù)據(jù)來源,畢竟保證數(shù)據(jù)質量是烹飪佳肴的第一步~
就像前面所述,數(shù)據(jù)是一個龐大的概念,我們想要利用好,首先要知道數(shù)據(jù)的類型,根據(jù)類型再去判斷來源和收集數(shù)據(jù)。
1. 按照結構化程度區(qū)分數(shù)據(jù)來源
1)非結構化數(shù)據(jù)
非結構化數(shù)據(jù),是數(shù)據(jù)的最簡形式;我們身邊時時刻刻都有非結構化數(shù)據(jù)的身影且?guī)缀跬偈挚傻茫淖?、圖片、聲音或視頻都屬于非結構化數(shù)據(jù),這類數(shù)據(jù)通常存儲在文件存儲庫中(小白們,可以把它看作是計算機硬盤驅動器上一個組織良好的目錄)。
但,從這種形狀的數(shù)據(jù)中提取價值通常是最困難的;因為我們首先需要從描述或抽象數(shù)據(jù)中提取結構化特性(例如,要使用文本,我們可能需要提取主題以及文本對主題的正面或負面評價,而一千個讀者就會有一千個哈姆雷特,這類信息是極具主觀色彩的)。
目前,非常流行的文本挖掘技術,它的數(shù)據(jù)來源就是我們此處所說的非結構化數(shù)據(jù)。
2)結構化數(shù)據(jù)
結構化數(shù)據(jù),顧名思義,是定義良好的表格數(shù)據(jù)(行和列),這意味著我們知道有哪些列以及它們包含什么類型的數(shù)據(jù);這些數(shù)據(jù)通常存儲在數(shù)據(jù)庫中,在數(shù)據(jù)庫中,我們可以使用SQL語言進行結構化數(shù)據(jù)的篩選,并輕松創(chuàng)建數(shù)據(jù)集用于我們的數(shù)據(jù)科學解決方案。
3)半結構化數(shù)據(jù)
半結構化數(shù)據(jù),介于非結構化和結構化數(shù)據(jù)之間,它雖然定義了一致的格式,但是結構不是很嚴格,比如數(shù)據(jù)的一部分可能是不完整的或者是不同的類型;半結構化數(shù)據(jù)通常存儲為文件,但是,某些類型的半結構化數(shù)據(jù)(如JSON或XML)可以存儲在面向文檔的數(shù)據(jù)庫中。
2. 按照數(shù)據(jù)私密性區(qū)分數(shù)據(jù)來源
1)組織內的數(shù)據(jù)源(封閉數(shù)據(jù)源)
查找數(shù)據(jù)的第一個地方是組織內部,大多數(shù)企業(yè)目前都有ERP、CRM、工作流管理等系統(tǒng)在運行,這類系統(tǒng)通常使用數(shù)據(jù)庫以結構化的方式存儲數(shù)據(jù);這些數(shù)據(jù)庫包含大量的數(shù)據(jù),您可以很容易地從中提取價值;例如,通過工作流管理系統(tǒng),您可以輕松地了解業(yè)務流程中的瓶頸,或者通過使用來自ERP系統(tǒng)的數(shù)據(jù),您可以進行銷售預測。
2)公開的數(shù)據(jù)源(開源數(shù)據(jù)源)
除了對內非公開數(shù)據(jù)以外,許多組織接收和發(fā)送大量的文件、圖片、聲音或視頻,這些在公網上傳播留存的數(shù)據(jù)則為公開的數(shù)據(jù)源;例如,你可以想象,一家保險公司收到了很多可能附有圖片的索賠(紙質的或PDF格式的),這些文件通常在處理前手動轉換為更結構化的格式;但是,在這種轉換中會丟失一些信息,當嘗試改進我們的數(shù)據(jù)科學解決方案時,我們可以使用這些文件來提取額外的數(shù)據(jù),比如情景概述。
后續(xù),我們可以使用這些額外的數(shù)據(jù)改進欺詐性索賠檢測,這就是公開數(shù)據(jù)源的價值。
除此之外,其實業(yè)界還有很多數(shù)據(jù)來源分類法,例如是否為實時數(shù)據(jù)、一手數(shù)據(jù)or二手數(shù)據(jù)來源….
三、結語與下期預告
本期,小陳通過一個“買菜”的例子,讓大家對“數(shù)據(jù)”這個龐大的體系有了一個洞察,并通過“菜市場”這樣一個比喻,讓大家對數(shù)據(jù)來源有了一個整體的認識。
下期,小陳講在數(shù)據(jù)來源的基礎上,為大家講解如何利用常用工具進行數(shù)據(jù)清洗和采集!
本文由 @小陳同學ing. 原創(chuàng)發(fā)布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!