大數(shù)據(jù)產(chǎn)品經(jīng)理必備的數(shù)據(jù)挖掘知識概述(一)認識數(shù)據(jù)

4 評論 11314 瀏覽 108 收藏 9 分鐘

數(shù)據(jù)挖掘是大數(shù)據(jù)產(chǎn)品經(jīng)理必備的技能,本文作者將會為大家詳細地分享一些數(shù)據(jù)挖掘的相關(guān)知識。

了解數(shù)據(jù)挖掘知識是大數(shù)據(jù)產(chǎn)品經(jīng)理必備的技能,經(jīng)過了一段時間的對《數(shù)據(jù)挖掘》一書的深入學習,以及所負責項目中用到的數(shù)據(jù)挖掘內(nèi)容,使我對數(shù)據(jù)挖掘有了更深一步的認識,但自認為還是小白階段。

路漫漫其修遠兮,在這里,先將總結(jié)出來的數(shù)據(jù)挖掘常見知識點與大家分享(也像大家推薦《數(shù)據(jù)挖掘》一書,本分享大多知識來源于此),后面陸續(xù)更新更多的知識點及項目案例。希望能與君共勉!

(此分享僅包含基礎概念知識,旨在幫助大數(shù)據(jù)產(chǎn)品經(jīng)理快速了解數(shù)據(jù)挖掘知識,并能在工作中與算法和開發(fā)團隊順利合作,對于更深入的研究如統(tǒng)計學等知識后面有機會再與大家分享~)

第一部分 認識數(shù)據(jù)(1.1 認識數(shù)據(jù) 1.2 數(shù)據(jù)可視化 1.3數(shù)據(jù)相似性和相異性)

第二部分 數(shù)據(jù)預處理

第三部分 數(shù)據(jù)倉庫相關(guān)知識

第四部分 頻繁模式、關(guān)聯(lián)和相關(guān)性

第五部分 分類挖掘

第六部分 聚類分析

第七部分 離群點檢測

以上各部分,我將陸續(xù)與大家分享我的學習內(nèi)容

第一部分 認識數(shù)據(jù)

1.1 認識數(shù)據(jù)

1.1.1 數(shù)據(jù)對象

什么是屬性:是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。在文獻中,屬性、維、特征和變量可以互相地使用。機器學習文獻更傾向于使用術(shù)語“特征”,而統(tǒng)計學家則更愿意使用術(shù)語“變量”。數(shù)據(jù)挖掘和數(shù)據(jù)庫的專業(yè)人士則用“屬性”。例如,描述顧客對象的屬性可能包括customer_ID、name和address.

屬性向量:用來描述一個給定對象的一組屬性稱作屬性向量(或特征向量)。涉及的屬性(或變量)的數(shù)據(jù)分布稱作“單變量”,分布涉及兩個屬性為“雙變量”等等。

1.1.2 屬性類型

屬性類型:一個屬性的類型由該屬性可能具有的值得集合決定。屬性可以是標稱的、二元的、序數(shù)的或數(shù)值的。

(1)標稱屬性

標稱屬性的值是一些符號或是事物的名稱。每個值代表某種類別、編碼或狀態(tài),因此標稱屬性又被看做是分類。這些值,不必具有意義的序。

例如:hari_color(頭發(fā)顏色)和marital_status(婚姻狀況),是兩個描述人的屬性。hari_color(頭發(fā)顏色)可能為黑色、棕色、紅色、赤褐色、白色、灰色等、屬性marital_status的值可能是單身、已婚、離異和喪偶。hair_color和marital_status都是標稱屬性,他們是無有意義的序。

(標稱屬性是有意義的序,并且不是定量的,因此,給定一個對象集,找出這種屬性的均值(平均值)或中位數(shù)(中值)沒有意義。然后,意見有意義的事情是使該屬性最常出現(xiàn)的值,這個值稱為眾數(shù),是一種中心趨勢度量,后面我們將會介紹到)

(2)二元屬性

二元屬性是一種標稱屬性,只是兩個類別或狀態(tài):0或1,其中0通常表示該屬性不出現(xiàn),二1 表示出現(xiàn)。二元屬性又稱布爾屬性,如果兩種狀態(tài)對應于true和false的話。

(3)序數(shù)屬性

序數(shù)屬性其可能的值之間具有有意義的序或秩評定。其值如小、中、大;成績A+、A、A-、B+;軍階有列兵、一等兵、專業(yè)軍士、下士、中士等;

序數(shù)屬性的中心趨勢可以用它的眾數(shù)和中位數(shù)(有序序列的中間值)表示,但是不能定義均值。

(4)數(shù)值屬性

以上介紹的標稱、二元和序數(shù)屬性都是定性的。即,他們描述對象的特征,而不給出實際大小的數(shù)量。而數(shù)值屬性是定量的,即她可度量的量,用整數(shù)或?qū)崝?shù)值表示。數(shù)值屬性可以是區(qū)間標度的或比例標度的。

(5)離散屬性與連續(xù)屬性

機器學習領(lǐng)域開發(fā)的分類算法通常把屬性分成離散的或是連續(xù)的。每種類型都可以用不同的方法處理。離散屬性具有優(yōu)先或無限可數(shù)個值,可以用或不用整數(shù)表示。如屬性hari_color、smoker、medical_test和drink_size都有有限個值,因此是離散的。

如果屬性不是離散的,則它是連續(xù)的。連續(xù)屬性一般使用浮點變量表示。

1.1.3 數(shù)據(jù)的基本統(tǒng)計與描述

(1)中心趨勢度量:均值、中位數(shù)和眾數(shù)

均值:數(shù)據(jù)集的最常用、最有效的數(shù)值度量是均值。

這對應于數(shù)據(jù)庫系統(tǒng)提供的內(nèi)置聚集函數(shù)average(SQL的avg())。

有時對于每個值可以有一個權(quán)重相關(guān)聯(lián),權(quán)重反應他們所依附的對應值的意義、重要性或出現(xiàn)的頻率,公式如下:

這稱做加權(quán)算數(shù)均值加權(quán)平均。

中位數(shù):對于傾斜(非對稱)數(shù)據(jù),數(shù)據(jù)中心的更好度量是中位數(shù)。中位數(shù)是有序數(shù)據(jù)值得中間值。它把數(shù)據(jù)較高的一半與較低的一半分開的值。

假定給定某屬性X的N個值按遞增排序,如果N是奇數(shù),則中位數(shù)是該序集中的中間值;如果N是偶數(shù),則中位數(shù)不唯一,它是最中間的兩個值和它們之間的任意值。在X是數(shù)值屬性的情況下,嘉定約定,中位數(shù)取做最中間兩個值的平均值。

眾數(shù):眾數(shù)是另一種中心趨勢度量。數(shù)據(jù)集的整數(shù)是集合中出現(xiàn)最頻繁的值。因此,可以對定性和定量屬性確定眾數(shù)。可能是最高頻率對應多個不同值,導致多個眾數(shù)。具有一個、兩個、三個眾數(shù)的數(shù)據(jù)集合分別稱為單峰的,雙峰的和三峰的。一般地,具有兩個或更多眾數(shù)的數(shù)據(jù)集是多峰的。在另一種極端的情況下,如果每個數(shù)據(jù)值僅出現(xiàn)一次,則它是沒有眾數(shù)的。

(2)度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標準方差、離群點

極差:設某數(shù)值屬性集合,極差位其最大值(max())與最小值(min())之差。

分位數(shù):假設屬性X的數(shù)據(jù)以數(shù)值遞增排序,想象我們可以挑選某些數(shù)據(jù)點,以便把數(shù)據(jù)分布劃分成大小相等的連貫集。如圖:

四分位數(shù):3個數(shù)據(jù)點,他們把數(shù)據(jù)分布劃分成4個相等部分,使得每部分表示數(shù)據(jù)分布的四分之一。通常稱為四分位數(shù)。

方差和標準方差:方差和標準方差都是數(shù)據(jù)散布度量,他們指出數(shù)據(jù)分布的散布程度。低標準方差以為數(shù)據(jù)觀察趨向于非??拷担邩藴什畋硎緮?shù)據(jù)散布在一個大的值域中。

 

本文由 @一毛硬幣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓練營》終于在起點學院(人人都是產(chǎn)品經(jīng)理旗下教育機構(gòu))上線啦!

    本課程非常適合新手數(shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。

    課程會從基礎概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學完后你會掌握怎么建指標體系、指標字典,如何設計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來自廣東 回復
  2. 標稱屬性是無意義的序 是吧?

    來自浙江 回復
  3. 樓主在大數(shù)據(jù)這塊比較通透。能否加一下微信1471905628 我想咨詢幾個問題

    回復
  4. 感覺很高深啊,希望繼續(xù)更新!?。?/p>

    回復