數(shù)據(jù)產(chǎn)品經(jīng)理之?dāng)?shù)據(jù)分析與挖掘
本文主要跟大家講講,如何通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘從數(shù)據(jù)中獲取相關(guān)信息和挖掘價(jià)值,enjoy~
自2014年以來(lái),“大數(shù)據(jù)”連續(xù)六年進(jìn)入國(guó)務(wù)院政府工作報(bào)告,彰顯出國(guó)家對(duì)于大數(shù)據(jù)戰(zhàn)略的重視。作為如今互聯(lián)網(wǎng)+過(guò)程中最火熱的關(guān)鍵詞之一,大數(shù)據(jù)越來(lái)越火,隨之而來(lái)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)的商業(yè)價(jià)值發(fā)掘利用相關(guān)的技術(shù)和知識(shí)越來(lái)越引起政府、企業(yè)和求職者的重視。
其中,作為數(shù)據(jù)產(chǎn)品經(jīng)理必備的專業(yè)知識(shí)之一的數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析,廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘,人們常常提到的數(shù)據(jù)分析是指狹義的數(shù)據(jù)分析,數(shù)據(jù)挖掘和數(shù)據(jù)分析都是從數(shù)據(jù)中提取一些有價(jià)值的信息,但互相的側(cè)重點(diǎn)又有所不同。
前面兩篇文章介紹了數(shù)據(jù)產(chǎn)品經(jīng)理日常工作中必備的知識(shí)之常用的圖表設(shè)計(jì)(數(shù)據(jù)產(chǎn)品經(jīng)理之圖表設(shè)計(jì))和SQL語(yǔ)言(數(shù)據(jù)產(chǎn)品經(jīng)理必備之SQL基礎(chǔ) ?),本篇文章講一講怎么樣通過(guò)數(shù)據(jù)分析與挖掘從數(shù)據(jù)中獲取信息和發(fā)掘價(jià)值。
一、基本概念
(1)數(shù)據(jù)分析
數(shù)據(jù)分析是指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法及工具,對(duì)收集來(lái)的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。
(2)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量的、有噪聲的、不完全的、模糊的和隨機(jī)的數(shù)據(jù)中,通過(guò)統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、有價(jià)值的信息和知識(shí)的過(guò)程。
(3)統(tǒng)計(jì)分析方法
數(shù)據(jù)分析時(shí)需要選擇合適的統(tǒng)計(jì)分析方法進(jìn)行數(shù)據(jù)的分析,常用統(tǒng)計(jì)分析方法有集中趨勢(shì)、離散程度、相關(guān)強(qiáng)度、參數(shù)估計(jì)、假設(shè)檢驗(yàn)等,通過(guò)常用統(tǒng)計(jì)分析方法能夠描述數(shù)據(jù)的特征。
(4)數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘時(shí)需要運(yùn)用數(shù)據(jù)挖掘方法來(lái)從數(shù)據(jù)中挖掘價(jià)值,常用數(shù)據(jù)挖掘的方法有分類、回歸、關(guān)聯(lián)、聚類等,這些方法能夠從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。
二、統(tǒng)計(jì)分析方法
統(tǒng)計(jì)分析方法,按不同的分類標(biāo)準(zhǔn)可劃分為不同的類別,而常用的分類標(biāo)準(zhǔn)是功能標(biāo)準(zhǔn),依此標(biāo)準(zhǔn)進(jìn)行劃分,統(tǒng)計(jì)分析可分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)。
描述統(tǒng)計(jì)是將研究中所得的數(shù)據(jù)加以整理、歸類、簡(jiǎn)化或繪制成圖表,以此描述和歸納數(shù)據(jù)的特征及變量之間的關(guān)系的一種最基本的統(tǒng)計(jì)方法。描述統(tǒng)計(jì)主要涉及數(shù)據(jù)的集中趨勢(shì)、離散程度和相關(guān)強(qiáng)度,最常用的方法有平均數(shù)、標(biāo)準(zhǔn)差、相關(guān)系數(shù)等。
推斷統(tǒng)計(jì)指用概率形式來(lái)決斷數(shù)據(jù)之間是否存在某種關(guān)系及用樣本統(tǒng)計(jì)值來(lái)推測(cè)總體特征的一種重要的統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)包括總體參數(shù)估計(jì)和假設(shè)檢驗(yàn),最常用的方法有Z檢驗(yàn)、T檢驗(yàn)、卡方檢驗(yàn)等。
描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)是統(tǒng)計(jì)分析時(shí)需要用到的方法,二者彼此聯(lián)系,相輔相成,描述統(tǒng)計(jì)是推斷統(tǒng)計(jì)的基礎(chǔ),推斷統(tǒng)計(jì)是描述統(tǒng)計(jì)的升華。
1. 集中趨勢(shì)
集中趨勢(shì)又稱“數(shù)據(jù)的中心位置”、“集中量數(shù)”等,集中趨勢(shì)所反映的是一組資料中各種數(shù)據(jù)所具有的共同趨勢(shì),即資料的各種數(shù)據(jù)所集聚的位置。因此,它是對(duì)變量數(shù)列進(jìn)行分析的首要指標(biāo),它往往作為總體的代表水平同其他與之同質(zhì)的總體進(jìn)行比較。集中趨勢(shì)能夠?qū)傮w的某一特征具有代表性,表明所研究的數(shù)據(jù)在一定時(shí)間和空間條件下的共同性質(zhì)和一般水平。
集中趨勢(shì)分析時(shí)常用的有平均數(shù)、中位數(shù)和眾數(shù)等。
2. 離散程度
離散程度是指一個(gè)分布?jí)嚎s和拉伸的程度。離散程度可以反應(yīng)個(gè)體特例的情況,可以說(shuō)明集中趨勢(shì)的代表性如何,還可在統(tǒng)計(jì)推斷時(shí)用來(lái)計(jì)算誤差的大小。另外,離散程度還被用來(lái)說(shuō)明事物在發(fā)展變化過(guò)程中的均衡性、節(jié)奏性和穩(wěn)定性等問(wèn)題。
離散程度主要有方差、標(biāo)準(zhǔn)差和四分位距等。
3. 相關(guān)程度
相關(guān)程度是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,相關(guān)程度顯示兩個(gè)隨機(jī)變量之間線性關(guān)系的強(qiáng)度和方向,主要研究現(xiàn)象之間是否存在某種依存關(guān)系,并對(duì)具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)情況。
數(shù)據(jù)的相關(guān)程度分析時(shí)常見(jiàn)的相關(guān)系數(shù)有Pearson相關(guān)系數(shù)、Spearman等級(jí)相關(guān)系數(shù)、Kendall等級(jí)相關(guān)系數(shù)、凈相關(guān)、相關(guān)比等。
4. 參數(shù)估計(jì)
參數(shù)估計(jì)是根據(jù)從總體中抽取的隨機(jī)樣本來(lái)估計(jì)總體分布中未知參數(shù)的過(guò)程。在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),對(duì)于知道其分布形式的總體,用若干未知參數(shù)來(lái)表示,研究總體分布,首先就要估計(jì)出參數(shù)的取值,這樣的問(wèn)題就是參數(shù)估計(jì)問(wèn)題。
參數(shù)估計(jì)從估計(jì)形式看,區(qū)分為點(diǎn)估計(jì)與區(qū)間估計(jì);從構(gòu)造估計(jì)量的方法講,有矩估計(jì)、最小二乘估計(jì)、似然估計(jì)、貝葉斯估計(jì)等。
5. 假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)是用于檢驗(yàn)統(tǒng)計(jì)假設(shè)的一種方法。 而“統(tǒng)計(jì)假設(shè)”是可通過(guò)觀察一組隨機(jī)變量的模型進(jìn)行檢驗(yàn)的科學(xué)假說(shuō)。 一旦能估計(jì)未知參數(shù),就會(huì)希望根據(jù)結(jié)果對(duì)未知的真正參數(shù)值做出適當(dāng)?shù)耐普摗?統(tǒng)計(jì)上對(duì)參數(shù)的假設(shè),就是對(duì)一個(gè)或多個(gè)參數(shù)的論述。
假設(shè)檢驗(yàn),又稱統(tǒng)計(jì)假設(shè)檢驗(yàn),是用來(lái)判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。假設(shè)檢驗(yàn)基本原理是先對(duì)總體的特征作出某種假設(shè),然后通過(guò)抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受作出推斷。
假設(shè)檢驗(yàn)的種類包括:t檢驗(yàn),Z檢驗(yàn),卡方檢驗(yàn),F(xiàn)檢驗(yàn)等等。
三、數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘方法按照是否有目標(biāo)變量可分為有監(jiān)督學(xué)習(xí)的預(yù)測(cè)性方法和無(wú)監(jiān)督學(xué)習(xí)的描述性方法。
預(yù)測(cè)性方法通過(guò)對(duì)所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個(gè)或一組數(shù)據(jù)模型,并將該模型用于預(yù)測(cè)未來(lái)新數(shù)據(jù)的有關(guān)性質(zhì),包括分類和回歸。
描述性方法以簡(jiǎn)潔概述的方式表達(dá)數(shù)據(jù)中的存在一些有意義的性質(zhì),分為聚類和關(guān)聯(lián)。
1. 分類
分類是找出數(shù)據(jù)中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型,將數(shù)據(jù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別中。
分類的輸出變量為離散型,常見(jiàn)的分類方法包括(樸素)貝葉斯、決策樹(shù)、邏輯回歸、KNN、SVM、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和邏輯回歸等。
分類可以應(yīng)用到涉及到應(yīng)用分類、趨勢(shì)預(yù)測(cè)中,如用戶分層、用戶商品推薦、用戶流失率、促銷活動(dòng)響應(yīng)等。
2. 回歸
回歸分析反映了數(shù)據(jù)中數(shù)據(jù)的屬性值的特性,通過(guò)函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來(lái)發(fā)現(xiàn)屬性值之間的依賴關(guān)系。它可以應(yīng)用到對(duì)數(shù)據(jù)的預(yù)測(cè)及相關(guān)關(guān)系的研究中去。
回歸的輸出變量為連續(xù)型,常見(jiàn)的回歸方法有線性回歸、多項(xiàng)式回歸、嶺回歸、套索回歸、彈性網(wǎng)絡(luò)回歸等
回歸可以應(yīng)用到銷量預(yù)測(cè)、備貨管理中,如通過(guò)回歸分析對(duì)電商商品的銷售趨勢(shì)作出預(yù)測(cè)。
3. 聚類
聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立抽象概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,探索可能的數(shù)據(jù)屬性之間的相互關(guān)系。
聚類類似于分類,但與分類的目的不同,是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。
細(xì)分市場(chǎng)、細(xì)分客戶群體都屬于數(shù)據(jù)挖掘中的聚類問(wèn)題,例如劃分聚類、層次聚類、密度聚類、網(wǎng)格聚類、基于模型聚類等。
聚類能夠?qū)崿F(xiàn)對(duì)樣本的細(xì)分,使得同組內(nèi)的樣本特征較為相似,不同組的樣本特征差異較大。例如零售場(chǎng)景中對(duì)客戶的細(xì)分,然后針對(duì)不同類別的客戶進(jìn)行對(duì)應(yīng)營(yíng)銷。
4. 關(guān)聯(lián)
關(guān)聯(lián)是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過(guò)程主要包括兩個(gè)階段:
- 第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;
- 第二階段是從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)指的是發(fā)現(xiàn)數(shù)據(jù)的各部分之間的聯(lián)系和規(guī)則,常見(jiàn)的關(guān)聯(lián)分析算法包括Aprior算法、Carma算法,序列算法等。
關(guān)聯(lián)常用于預(yù)測(cè)客戶的需求,例如消費(fèi)者常常會(huì)同時(shí)購(gòu)買哪些產(chǎn)品,從而有助于商家的捆綁銷售。
本文由 @ Eric 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營(yíng)》終于上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營(yíng)等人群。
課程會(huì)從基礎(chǔ)概念,到核心技能,再通過(guò)典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!