關(guān)于數(shù)據(jù)采集:你需要了解這些

8 評(píng)論 10693 瀏覽 26 收藏 15 分鐘

導(dǎo)讀:通過(guò)上一系列《10分鐘帶你了解數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系》,我們了解了目前較為流行的幾種發(fā)生在企業(yè)業(yè)務(wù)活動(dòng)中數(shù)據(jù)存儲(chǔ)方式的區(qū)別與聯(lián)系。有了“鍋碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我們就需要進(jìn)行數(shù)據(jù)采集。

一、數(shù)據(jù)采集的必要性

數(shù)據(jù)采集是數(shù)據(jù)分析挖掘的根基:

數(shù)據(jù)分析與挖掘過(guò)程中比較基礎(chǔ)且重要的一個(gè)環(huán)節(jié)是數(shù)據(jù)采集,再好的特征選取,建模算法,沒(méi)有了優(yōu)質(zhì)的元數(shù)據(jù),也會(huì)“巧婦難為無(wú)米之炊”。

采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限:

經(jīng)驗(yàn)告訴我們?cè)鯓訌臍v史數(shù)據(jù)的展現(xiàn)和分析過(guò)程中得到有用知識(shí),不管你是通過(guò)報(bào)表或多維分析得到企業(yè)各領(lǐng)域指標(biāo)相關(guān)性,還是通過(guò)挖掘模型的實(shí)施來(lái)根據(jù)歷史數(shù)據(jù)預(yù)測(cè)企業(yè)未來(lái)發(fā)展,這一切都是基于企業(yè)歷史數(shù)據(jù)的。沒(méi)有數(shù)據(jù)質(zhì)量基礎(chǔ)的保證,展現(xiàn)得多華麗的走勢(shì)圖表都是垃圾。

如下圖所示,garbage in , garbage out(垃圾進(jìn),垃圾出),指如果將錯(cuò)誤的、無(wú)意義的數(shù)據(jù)輸入計(jì)算機(jī)系統(tǒng),計(jì)算機(jī)自然也一定會(huì)輸出錯(cuò)誤、無(wú)意義的結(jié)果。(該諺語(yǔ)在數(shù)據(jù)分析領(lǐng)域也同樣適用)

garbage in garbage out(垃圾進(jìn)垃圾出)

二、數(shù)據(jù)采集方式

數(shù)據(jù)采集方式按照線上采集,線下采集兩大類進(jìn)行分類,下面對(duì)于每種采集方式及相關(guān)技術(shù)進(jìn)行簡(jiǎn)單的介紹。

1. 線上采集

1)開放數(shù)據(jù)

開放數(shù)據(jù)指的是互聯(lián)網(wǎng)中面向所有人公開的數(shù)據(jù),其中包括面向特定行業(yè)公開的數(shù)據(jù),各級(jí)政府公開的數(shù)據(jù)以及網(wǎng)頁(yè)中相關(guān)的內(nèi)容數(shù)據(jù),例如下圖所示為北京市公共數(shù)據(jù)開放平臺(tái)。

獲取開放類數(shù)據(jù),我們可以使用爬蟲技術(shù),這里簡(jiǎn)單介紹一下爬蟲技術(shù)。

爬蟲技術(shù)是一種可以使開發(fā)人員自動(dòng)化,系統(tǒng)化收集互聯(lián)網(wǎng)上相關(guān)數(shù)據(jù)的技術(shù),爬蟲不是內(nèi)容的生產(chǎn)者,而是內(nèi)容的搬運(yùn)者。關(guān)于爬蟲技術(shù)的各類學(xué)習(xí)資料在網(wǎng)上可以說(shuō)是“汗牛充棟”,筆者在這里就不展開說(shuō)了,但是這里關(guān)于爬蟲要講的就是爬蟲的安全問(wèn)題,一定要遵守相關(guān)法律,切記不要觸碰紅線。

a. 個(gè)人信息,商業(yè)秘密與國(guó)家秘密是數(shù)據(jù)爬取的紅線。

b. 遵守職業(yè)道德,控制爬蟲訪問(wèn)頻次,不要干擾被爬方的正常業(yè)務(wù)活動(dòng)。

c. 遵守robots協(xié)議,做到什么能爬,什么不能爬。

2)第三方平臺(tái)數(shù)據(jù)

比如說(shuō)開發(fā)者想獲取相關(guān)各類金融數(shù)據(jù),除了可以利用爬蟲技術(shù)外,我們可以通過(guò)某第三方平臺(tái)提供的API接口來(lái)調(diào)取相關(guān)數(shù)據(jù),例如下圖所示為Toshare大數(shù)據(jù)開放平臺(tái),開發(fā)者可以獲取各類金融數(shù)據(jù)。

筆者曾接到過(guò)這樣一個(gè)任務(wù),獲取某市所有的禁止機(jī)動(dòng)車左轉(zhuǎn),禁止機(jī)動(dòng)車右轉(zhuǎn),禁止機(jī)動(dòng)車掉頭的路段,在沒(méi)有條件獲取準(zhǔn)確的數(shù)據(jù)時(shí),我們可以通過(guò)高德或百度的地圖開放平臺(tái)的API接口,分別在路口處設(shè)置起訖點(diǎn),通過(guò)對(duì)比機(jī)動(dòng)車與步行的路徑規(guī)劃距離來(lái)分析該路口是否禁左,禁右,禁掉頭,如下圖所示為百度開放平臺(tái),我們可以在這里通過(guò)API接口,完成各類數(shù)據(jù)采集。

對(duì)應(yīng)的功能有相應(yīng)的服務(wù)文檔講解如何使用,大家有興趣可以打開網(wǎng)址進(jìn)行嘗試。

3)物理數(shù)據(jù)

物理數(shù)據(jù)指的是用戶在物理世界產(chǎn)生的數(shù)據(jù),例如用戶使用手機(jī)時(shí)手機(jī)的各類傳感器(指紋傳感器:記錄用戶指紋用于解鎖手機(jī)或支付等行為,陀螺儀:通過(guò)角動(dòng)量守恒原理記錄角速度用于手機(jī)導(dǎo)航等行為)

相較于日常應(yīng)用,物理數(shù)據(jù)大量存在于傳統(tǒng)制造業(yè)中,一般有如下幾類數(shù)據(jù)采集方式:

各類傳感器:

正如上面提到的手機(jī)中各類傳感器,傳統(tǒng)制造業(yè)中的傳感器品類繁多,涵蓋光敏,氣敏,力敏,磁敏,聲敏等不同類別的工業(yè)傳感器,這部分的數(shù)據(jù)盡管單條數(shù)據(jù)內(nèi)容很少,但是頻率非常高。

RFID技術(shù):

RFID(Radio Frequency Identification,射頻識(shí)別)技術(shù)是一種非接觸式的自動(dòng)識(shí)別技術(shù),通過(guò)射頻信號(hào)自動(dòng)識(shí)別目標(biāo)對(duì)象并獲取相關(guān)的數(shù)據(jù)信息。利用射頻方式進(jìn)行非接觸雙向通信,達(dá)到識(shí)別目的并交換數(shù)據(jù)。

RFID技術(shù)可識(shí)別高速運(yùn)動(dòng)物體并可同時(shí)識(shí)別多個(gè)標(biāo)簽,操作快捷方便。如下圖所示,我們用手機(jī)的NFC讀取的電子標(biāo)簽數(shù)據(jù),可以看到ISO/IEC 14443-3(Type A),這個(gè)是當(dāng)前電子標(biāo)簽的協(xié)議,目前大部分公交卡,一卡通,門禁卡等都是基于ISO 14443 Type A協(xié)議的,下方則是該電子標(biāo)簽的詳細(xì)信息,如果配合專業(yè)的讀寫器及特定的軟件可讀性會(huì)更好,在這里只是為大家展示一下。

由于各類設(shè)備品牌類型繁多,廠家和數(shù)據(jù)接口各異,有可能一套生產(chǎn)線的設(shè)備來(lái)自于好幾個(gè)國(guó)家,數(shù)據(jù)采集一直是傳統(tǒng)制造業(yè)的痛點(diǎn)。

4)APP數(shù)據(jù)

我們?nèi)粘I钪?,在各類App,Web端應(yīng)用,小程序上的操作行為稱為事件,例如打開某個(gè)電商App→瀏覽某個(gè)商品→查看商品信息,評(píng)論→放入購(gòu)物車→下單→支付→查看物流信息→確認(rèn)收貨→對(duì)商品進(jìn)行評(píng)價(jià)。當(dāng)事件被觸發(fā)時(shí),我們想進(jìn)行監(jiān)控,那么只需要研發(fā)為事件植入監(jiān)控代碼,這樣每當(dāng)事件觸發(fā)時(shí),后臺(tái)就可以采集該事件的相關(guān)信息,上傳到服務(wù)器。

關(guān)于數(shù)據(jù)埋點(diǎn),是互聯(lián)網(wǎng)業(yè)務(wù)中比較重要的一部分,由于篇幅所限,這里簡(jiǎn)單的介紹一下,這里筆者現(xiàn)挖個(gè)坑,后續(xù)會(huì)專門出一個(gè)系列,詳細(xì)與讀者對(duì)數(shù)據(jù)埋點(diǎn)進(jìn)行探討與交流。一般來(lái)說(shuō),埋點(diǎn)類型分為Web埋點(diǎn)和App埋點(diǎn),其中主要的埋點(diǎn)技術(shù)又分為有埋點(diǎn)技術(shù),無(wú)埋點(diǎn)技術(shù),可視化埋點(diǎn)等。

  • 有埋點(diǎn)技術(shù):開發(fā)手動(dòng)在程序中寫代碼實(shí)現(xiàn)埋點(diǎn),通過(guò)用戶觸發(fā)某個(gè)行為后,程序自動(dòng)發(fā)送數(shù)據(jù);
  • 無(wú)埋點(diǎn)技術(shù):前端自動(dòng)采集全部事件,當(dāng)事件觸發(fā)時(shí)就會(huì)調(diào)用相關(guān)接口上報(bào)數(shù)據(jù),流量與采集數(shù)量教育龐大。
  • 可視化埋點(diǎn):近年主流的埋點(diǎn)趨勢(shì),以前端可視化的方式,通過(guò)可視化的界面拖拽配置實(shí)現(xiàn),由于活動(dòng)控件元素都帶有唯一標(biāo)識(shí)。通過(guò)埋點(diǎn)配置后臺(tái),將元素與要采集事件關(guān)聯(lián)起來(lái),可以自動(dòng)生成埋點(diǎn)代碼嵌入到頁(yè)面中。

2. 線下采集

關(guān)于線下采集數(shù)據(jù),筆者認(rèn)為更傾向于主觀性數(shù)據(jù)的采集,因?yàn)槎?,客觀的數(shù)據(jù)公共場(chǎng)所面對(duì)面的線下采集,易使被采集者產(chǎn)生戒備感,非常容易造成數(shù)據(jù)采集準(zhǔn)確程度非常差,影響數(shù)據(jù)質(zhì)量,比如:筆者讀書時(shí)參與過(guò)線下的數(shù)據(jù)采集,某市交通規(guī)劃部門在火車站,地鐵換乘站等交通樞紐隨訪乘客去填寫出行調(diào)查問(wèn)卷,盡管問(wèn)卷設(shè)計(jì)的如何規(guī)范與精良,在填寫完成后進(jìn)行獎(jiǎng)勵(lì)等方法,乘客填寫接受程度依舊很低。

所以后期此種采集方式也在調(diào)整改革,例如:定量,客觀數(shù)據(jù)采用線上收集,通過(guò)與三大運(yùn)營(yíng)商合作,利用手機(jī)信令與基站的關(guān)系精確獲得乘客們的出行記錄。

另外,同學(xué)們經(jīng)常在商場(chǎng),超市看到各類銀行宣傳辦信用卡的活動(dòng)點(diǎn),在現(xiàn)場(chǎng)填寫資料,辦理信用卡都可以獲得禮品獎(jiǎng)勵(lì),但是盡管如此通過(guò)觀察行人接受程度較差,筆者的學(xué)校/公司食堂也舉辦過(guò)類似的活動(dòng),但對(duì)比之下填寫調(diào)查問(wèn)卷的意愿更為強(qiáng)烈。

線下采集數(shù)據(jù)的方式有很多種,例如:問(wèn)卷調(diào)查,用戶訪談,實(shí)地調(diào)研,焦點(diǎn)小組,用戶反饋等等,接下來(lái)選取幾個(gè)常用的方式進(jìn)行介紹。

1)問(wèn)卷調(diào)查

問(wèn)卷調(diào)查是目前廣泛采用的調(diào)查形式,根據(jù)調(diào)研目的設(shè)計(jì)問(wèn)卷,并采用抽樣方式確定調(diào)查樣本,完成調(diào)查。問(wèn)卷調(diào)查的步驟一般為:確定用戶及樣本量(根據(jù)調(diào)查目標(biāo)選擇符合特征的用戶,盡可能多的涵蓋符合目標(biāo)的各類人群)——設(shè)計(jì)調(diào)查問(wèn)卷框架——發(fā)放問(wèn)卷(試調(diào)研/正式調(diào)研)——匯總數(shù)據(jù),撰寫報(bào)告

2)用戶訪談

用戶訪談是用戶研究中非常常用的一種方式,運(yùn)用有目的,有計(jì)劃,有方法的口頭交談向用戶了解事實(shí)的方法。一般用戶訪談的步驟為:確定調(diào)研的目標(biāo)與內(nèi)容——確定用戶和樣本——確定訪談與提綱——進(jìn)行訪談——匯總報(bào)告

三、采集數(shù)據(jù)類別

當(dāng)我們通過(guò)上述方式采集數(shù)據(jù)后,獲取的數(shù)據(jù)一般有三種類型,即結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)。關(guān)于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),我們?cè)谏衔摹?0分鐘帶你了解數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)的區(qū)別與聯(lián)系(二)》提過(guò),大家有興趣可以點(diǎn)擊查看。

那么何為半結(jié)構(gòu)化數(shù)據(jù)呢?

半結(jié)構(gòu)化數(shù)據(jù),顧名思義就是介于結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫(kù))和非結(jié)構(gòu)化數(shù)據(jù)(聲音,視頻)之間的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。下圖所示就是JSON簡(jiǎn)單實(shí)例,我們可以觀察發(fā)現(xiàn)其存儲(chǔ)這某些書籍信息,一般日志文件,XML文檔,JSON文檔等就是半結(jié)構(gòu)化數(shù)據(jù)。

四、小結(jié)

本文帶領(lǐng)大家快速了解各類數(shù)據(jù)采集方式,各類采集技術(shù)固然重要,但要結(jié)合所在行業(yè),所在企業(yè)規(guī)模情況進(jìn)行選取,減少“殺雞焉用牛刀”的情況出現(xiàn)。

隨著國(guó)家安全重要性及居民個(gè)人隱私觀念的提升,在保證數(shù)據(jù)采集的精確性的同時(shí),更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶隱私問(wèn)題的情況以及涉及到國(guó)家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。

筆者在寫這篇文章時(shí),朋友正好像我推送微信公眾號(hào)的一片關(guān)于Flightradar24涉及信息安全違規(guī)下架的文章,筆者與朋友對(duì)無(wú)線電以及AIS系統(tǒng)較為感興趣,深知此類數(shù)據(jù)的重要性。

本篇文章就寫到這里,關(guān)于數(shù)據(jù)分析,數(shù)據(jù)產(chǎn)品相關(guān)的知識(shí)筆者會(huì)繼續(xù)與大家分享交流,文中不準(zhǔn)確的地方歡迎并希望大家批評(píng)指正。

 

本文由 @快樂(lè)的給予 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. IOTOS通采引擎(PBOX)是一款物聯(lián)網(wǎng)邊緣計(jì)算智能硬件,側(cè)重子系統(tǒng)接口協(xié)議轉(zhuǎn)換,可用于工業(yè)或信息化系統(tǒng)集成項(xiàng)目中,向下打通多設(shè)備系統(tǒng)、向上提供標(biāo)準(zhǔn)數(shù)據(jù)接口。內(nèi)置多種接口協(xié)議驅(qū)動(dòng),支持即插即用、一鍵適配。結(jié)合特有的生態(tài)化驅(qū)動(dòng)開發(fā)技術(shù)服務(wù),可實(shí)現(xiàn)高效率、低成本、低門檻解決物聯(lián)網(wǎng)多源異構(gòu)數(shù)據(jù)接入繁瑣的問(wèn)題,為上層系統(tǒng)提供統(tǒng)一支撐。

    來(lái)自湖北 回復(fù)
  2. 期待埋點(diǎn)的文章 關(guān)注你了哈哈哈

    來(lái)自浙江 回復(fù)
  3. 隨著國(guó)家安全重要性及居民個(gè)人隱私觀念的提升,在保證數(shù)據(jù)采集的精確性的同時(shí),更應(yīng)注意數(shù)據(jù)采集中如何保護(hù)用戶隱私問(wèn)題的情況以及涉及到國(guó)家關(guān)鍵基礎(chǔ)設(shè)施相關(guān)數(shù)據(jù)的安全性。

    來(lái)自湖北 回復(fù)
  4. 數(shù)據(jù)分析如果用的不好,會(huì)有大亂子的,我們要注意使用。

    來(lái)自云南 回復(fù)
  5. 雖然爬蟲技術(shù)十分方便好用,但是運(yùn)用時(shí)一定要遵守法律法規(guī),不能做觸犯法律紅線的事情。

    來(lái)自陜西 回復(fù)
  6. 半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,它并不符合關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。

    來(lái)自廣東 回復(fù)
  7. ”采集的數(shù)據(jù)決定了數(shù)據(jù)分析挖掘的上限“這句話說(shuō)的好,任何的結(jié)論都需要堅(jiān)實(shí)的論據(jù)支撐

    來(lái)自江西 回復(fù)
  8. 爬蟲一定不能觸及法律紅線,爬蟲技術(shù)雖然便捷,但是也有很大的隱患

    來(lái)自江西 回復(fù)