什么是“數(shù)據(jù)”?

0 評論 2026 瀏覽 4 收藏 9 分鐘

我們總是說產(chǎn)品搖動數(shù)據(jù)分析,但就“數(shù)據(jù)”這個詞匯而言,有多少人能清晰地弄明白?這篇文章,作者就給我們科普一下,數(shù)據(jù)的完整定義,到底是什么。

我們?yōu)槭裁匆v數(shù)據(jù)?

《大數(shù)據(jù)時代》中提到:雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負債表,但這只是一個時間問題。

數(shù)據(jù)的價值不言而喻。

我們要如何認識數(shù)據(jù)?

從基礎開始,懂來源、懂記錄,抽絲剝繭,將虛無縹緲具體化。從身邊的數(shù)據(jù)作為切入點,進行歸納總結。

那么,什么是數(shù)據(jù)?

表現(xiàn)形態(tài)的角度來說:數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。

它是可識別的、抽象的符號。它不僅指狹義上的數(shù)字,還可以是具有一定意義的文字、字母、數(shù)字符號的組合、圖形、圖像、視頻、音頻等,也是客觀事物的屬性、數(shù)量、位置及其相互關系的抽象表示。

生產(chǎn)要素的角度來說:數(shù)據(jù)已成為數(shù)字經(jīng)濟時代的新型生產(chǎn)要素。

我們稱現(xiàn)在為“大數(shù)據(jù)時代”。

數(shù)據(jù)的種類有哪些?

不同的劃分角度會有不同的類型。比較常用的是:

  • 定時數(shù)據(jù):一般是時間相關的內容,如年、月、日等。
  • 定位數(shù)據(jù):一般是坐標、地址描述,如經(jīng)緯度,省市等。
  • 定性數(shù)據(jù):指事物的屬性。定性數(shù)據(jù)分為兩種:一種是無遞增遞減關系的,如渠道號、手機系統(tǒng)等;另一種是有遞增遞減關系的:優(yōu)等生、中等生、差生等。
  • 定量數(shù)據(jù):衡量事物量級的度量值,一般用來比較大小,如年齡28歲,身高182等。

舉個栗子:

某酒店前臺倩倩2024年6月27日14:00在某酒店大廳,通過發(fā)票系統(tǒng)開具了3張豆豆公司主體的發(fā)票,涉及開票金額2000元。

那么,上述案例中

  • 定時數(shù)據(jù)是:2024年6月27日14:00;
  • 定位數(shù)據(jù)是:某酒店大廳;
  • 定性數(shù)據(jù)是:發(fā)票系統(tǒng)、豆豆公司主體;
  • 定量數(shù)據(jù)是:3張、2000元。

我們的世界充盈著無窮無盡的數(shù)據(jù),不同的數(shù)據(jù)于不同的對象而言有不同的意義,有些是有效的,有些可能是無效的。

因此,數(shù)據(jù)是有“質量”的。

那么,什么是“質量好”的數(shù)據(jù)呢?

“質量好”的數(shù)據(jù)是可用的,能夠通過一定的加工處理產(chǎn)生一定的價值。

它們具有準確性、真實性、完整性、唯一性、一致性、關聯(lián)性。

準確性:也叫可靠性,是用于分析和識別哪些是不準確的或無效的數(shù)據(jù),不可靠的數(shù)據(jù)可能會導致嚴重的問題,會造成有缺陷和糟糕的決策。

場景一:數(shù)據(jù)采集是否重復或遺漏。

場景二:字段是否拋送正確,比如手機號列中是否都是手機號。

真實性:數(shù)據(jù)必須真實準確的反映客觀的實體存在或真實的業(yè)務,真實可靠的原始統(tǒng)計數(shù)據(jù)是統(tǒng)計工作的靈魂,是管理工作的基礎,是經(jīng)營者進行正確經(jīng)營決策必不可少的依據(jù)。

場景一:原始數(shù)據(jù)是否反應真實客觀事實。例如是否包含測試和自充數(shù)據(jù),是否包含機器人數(shù)據(jù)等。

場景二:統(tǒng)計是否真實。為了達到某種目的導致的數(shù)據(jù)統(tǒng)計造假。典型案例:人有多大膽,地有多大產(chǎn)。

完整性:數(shù)據(jù)中想要分析的角度是否齊全,主要是事件或者維度。

場景一:事件是否完整。例如支付服務測試環(huán)境產(chǎn)生的真實支付訂單信息是否傳給數(shù)據(jù)中心。

場景二:字段是否完整。例如,銀行流水需要知道是哪個銀行,是否有此標識。

唯一性:用于識別和衡量重復的、冗余的數(shù)據(jù),如果重復的數(shù)據(jù)統(tǒng)計出來的結果一致還好,如果不一致,就會陷入無窮無盡的核對數(shù)據(jù)中。

場景一:事件是否唯一,一條行為數(shù)據(jù)不要重復拋送;如用戶支付了1次,但支付表里記錄了2次。

場景二:字段是否唯一。如單個事件中,兩個以上字段都表示同一含義,為了保證數(shù)據(jù)的易用性,則要廢棄其中之一。

一致性:所有系統(tǒng)的數(shù)據(jù)不存在信息含義及內容結構的沖突。

場景一:同一個數(shù)據(jù),要保證統(tǒng)計口徑的一致性。如收入,有的地方剔除手續(xù)費,有的地方未剔除手續(xù)費。

場景二:表示相同內容但是字段名不一致,如channel,channelid,market_channel。

關聯(lián)性:數(shù)據(jù)關聯(lián)性問題是指存在數(shù)據(jù)關聯(lián)的數(shù)據(jù)關系缺失或錯誤。

場景一:用戶標識是否一致。如游戲用戶的登錄與充值行為,用戶id是否是一樣的。

場景二:用戶屬性字段是否一致。如用戶啟動行為的渠道號與注冊行為的渠道號以及支付行為的渠道號是否一致。

不同產(chǎn)品會有各種不同類型的數(shù)據(jù)。如C端產(chǎn)品,有注冊數(shù)據(jù)、登錄數(shù)據(jù)、啟動數(shù)據(jù)、激活數(shù)據(jù)、充值數(shù)據(jù)、會員數(shù)據(jù)等;B端產(chǎn)品有注冊、登錄數(shù)據(jù)、組織數(shù)據(jù)、賬套數(shù)據(jù)等等。

數(shù)據(jù)種類紛繁復雜,縱橫交錯,在識別和運用數(shù)據(jù)的過程中,我們一般會遇到哪些困難?

以財務數(shù)據(jù)為例:

  • 數(shù)據(jù)孤島:煙囪式信息系統(tǒng)互為孤島,“表哥表姐”多信息系統(tǒng)取數(shù),埋頭整數(shù)。
  • 數(shù)據(jù)口徑不統(tǒng)一:數(shù)據(jù)統(tǒng)計口徑不統(tǒng)一,同一指標名稱對應著不同的定義與計算方法。
  • 數(shù)據(jù)清洗難:數(shù)據(jù)在流動中缺乏質量保障及數(shù)據(jù)校驗,應用系統(tǒng)使用需要大量清洗工作。
  • 數(shù)據(jù)離線:數(shù)據(jù)線下手工采集,難免出現(xiàn)錯誤,又難以識別,返工重做等情況極易發(fā)生。
  • 數(shù)據(jù)質量差:多業(yè)務單位收集數(shù)據(jù),模板難標準化,返回的數(shù)據(jù)質量差,匯總工作量大。
  • 主數(shù)據(jù)不規(guī)范:主數(shù)據(jù)未統(tǒng)一維護,業(yè)務與業(yè)務,業(yè)務與財務各執(zhí)一套話語體系。

這些困難要如何應對?

通過指標規(guī)范建立主數(shù)據(jù)標準,對接多業(yè)務系統(tǒng)獲取源數(shù)據(jù)并進行數(shù)據(jù)清洗,將清洗后數(shù)據(jù)通過映射關系轉換為標準數(shù)據(jù),而后依據(jù)統(tǒng)計規(guī)則對標準數(shù)據(jù)進行匯總統(tǒng)計。

實現(xiàn)企業(yè)內外部數(shù)據(jù)的治理、采集、加工、應用全流程。

圖源:中興新云

本文由 @簡諳 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!