大數(shù)據(jù)產(chǎn)品經(jīng)理必備的數(shù)據(jù)挖掘知識(shí)概述(一)認(rèn)識(shí)數(shù)據(jù)之?dāng)?shù)據(jù)可視化

1 評(píng)論 6230 瀏覽 50 收藏 18 分鐘

數(shù)據(jù)經(jīng)過(guò)獲取、存儲(chǔ)、分析之后,最終目的還是為了給用戶進(jìn)行展示,以達(dá)到?jīng)Q策依據(jù)的目的。那么如何有效的將數(shù)據(jù)展示給用戶呢?——數(shù)據(jù)可視化。

以下內(nèi)容承接上一篇文章大數(shù)據(jù)產(chǎn)品經(jīng)理必備的數(shù)據(jù)挖掘知識(shí)概述(一)認(rèn)識(shí)數(shù)據(jù)。

1.2 數(shù)據(jù)可視化

數(shù)據(jù)經(jīng)過(guò)獲取、存儲(chǔ)、分析,其最終目的是為了給用戶進(jìn)行展示,以達(dá)到?jīng)Q策依據(jù)的目的。

那么如何有效的將數(shù)據(jù)展示給用戶呢?數(shù)據(jù)可視化,旨在合理利用圖形清洗有效的表達(dá)數(shù)據(jù)的含義。

本節(jié)我們從一維到多維數(shù)據(jù)開(kāi)始討論一些基本數(shù)據(jù)可視化的表示方法,包括直方圖、散點(diǎn)圖、基于像素的技術(shù)、基本圖符的技術(shù)、幾何投影技術(shù)以及層次可視化和基于圖形的可視化技術(shù),以此討論復(fù)雜數(shù)據(jù)對(duì)象和關(guān)系的可視化展示。(文中知識(shí)大多摘自《數(shù)據(jù)挖掘》一書(shū),感興趣的同學(xué)可以直接閱讀此書(shū))

1.2.1 基本的統(tǒng)計(jì)描述可視化

首先我們先研究常見(jiàn)的基本的統(tǒng)計(jì)描述圖形,包括分位數(shù)圖、分位數(shù)-分位數(shù)圖、直方圖和散點(diǎn)圖。這些圖有助于可視化地審視數(shù)據(jù),對(duì)于數(shù)據(jù)預(yù)處理是有用的。前三種圖顯示一元分布(即,一個(gè)屬性的數(shù)據(jù)),而散點(diǎn)圖顯示二元分布(即涉及兩個(gè)屬性)。

分位數(shù)圖,是一種觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效方法。首先,它顯示給定屬性的所有數(shù)據(jù)(允許用戶評(píng)估總的情況和不尋常的出現(xiàn));其次,它繪制分位數(shù)信息。

如下圖:

分位數(shù)-分位數(shù)圖,或q-q圖對(duì)著另一個(gè)對(duì)應(yīng)的分?jǐn)?shù),繪制一個(gè)單變量分布的分位數(shù)。它是一種強(qiáng)有力的可視化工具,使得用戶可以觀察從一個(gè)分布到另一個(gè)帆布是否漂移。

如下圖顯示給定時(shí)間段內(nèi)兩個(gè)不同部門(mén)銷售的商品的單價(jià)數(shù)據(jù)的分位數(shù)-分位數(shù)圖。每個(gè)點(diǎn)對(duì)應(yīng)于每個(gè)數(shù)據(jù)集的相同的分位數(shù),并對(duì)該分位數(shù)顯示部門(mén)1和部門(mén)2的銷售商品單價(jià)。

通過(guò)上圖,在Q1我們看到部門(mén)1的銷售的商品單價(jià)部門(mén)2低。換言之,部門(mén)1銷售的商品25%低于或等于60美元,而在部門(mén)2銷售的商品50%低于或等于78美元,而在部門(mén)2銷售的商品50%低于或等于85美元。

一般地,我們注意到部門(mén)1的分布相對(duì)于部門(mén)2的一個(gè)漂移,因?yàn)椴块T(mén)1的銷售的商品單價(jià)趨向于部門(mén)2低。

直方圖,或成頻率直方圖,出現(xiàn)久遠(yuǎn)使用廣泛。不做贅述。

盡管直方圖被廣泛應(yīng)用,但是對(duì)于比較單變量觀測(cè)組,它可能不如分位數(shù)圖、q-q圖和盒方圖有效。

散點(diǎn)圖,是確定兩個(gè)數(shù)值變量之間看上去是否存在聯(lián)系、模式或趨勢(shì)的最有效的圖形方式之一。

用于觀察點(diǎn)鏃和離群點(diǎn),或考察相關(guān)聯(lián)系的可能性。如下圖,對(duì)于兩個(gè)屬性X,Y,如果標(biāo)繪點(diǎn)的模式從左下到右上傾斜,則意味X的值隨Y的值增加而增加,暗示正相關(guān),如果標(biāo)繪點(diǎn)的模式從左上到右下傾斜,則意味X隨Y值減小而增加,暗示負(fù)相關(guān)??梢援?huà)一條最佳擬合的線,研究變量之間的相關(guān)性。

散點(diǎn)圖可以用來(lái)發(fā)現(xiàn)屬性之間的相關(guān)性

三種情況,其中每個(gè)數(shù)據(jù)集中兩個(gè)屬性之間都不存在觀察到的相關(guān)性。

基本的數(shù)據(jù)描述圖形展示(如分位數(shù)圖、直方圖和散點(diǎn)圖)提供了數(shù)據(jù)總體情況的有價(jià)值的洞察,有助于識(shí)別噪聲和離群點(diǎn),對(duì)數(shù)據(jù)清理特別有用。

1.2.2 基于像素的可視化技術(shù)

前面討論的是單變量數(shù)據(jù),對(duì)于一個(gè)m維數(shù)據(jù)集,基于像素的技術(shù)在屏幕上創(chuàng)建M個(gè)窗口,每維一個(gè)。記錄的m個(gè)維值映射到這些窗口中對(duì)應(yīng)位置上的m個(gè)像素。像素的顏色反應(yīng)對(duì)應(yīng)的值。諸如此以像素的顏色反映維值稱為基于像素的可視化技術(shù)。

例如,顧客信息表,包含4個(gè)維度:in_come(收入),credit_limit(信貸額度),transaction_volume(成交量)和age(年齡)。我們能夠通過(guò)可視化技術(shù)分析income與其他屬性之間的相關(guān)性嗎?

我們可以對(duì)所有顧客按收入的遞增序排序,并使用這個(gè)序,在4個(gè)可視化窗口安排顧客數(shù)據(jù),如下圖。值越小,顏色越淡。

使用基于像素的可視化,我們可以很容易的得到如下觀察:credit_limit隨income增加而增加;收入處于中部區(qū)間的顧客更可能購(gòu)物;income與age之間沒(méi)有明顯的相關(guān)性;

其他形式,如空間填充曲線、圓弓分割技術(shù)等;(感興趣的同學(xué)可以做更深入的學(xué)習(xí))

一些頻繁使用的二維空間填充曲線;

圓弓技術(shù):a)在圓弓內(nèi)表示一個(gè)數(shù)據(jù)記錄;b)在圓弓內(nèi)安排像素。

1.2.3 幾何投影可視化技術(shù)

對(duì)于基于像素的可視化技術(shù)存在一個(gè)缺點(diǎn)即他們對(duì)于我們理解的多維空間的數(shù)據(jù)分布幫助不大,不是很容易理解。比如他們并不顯示在多維子空間是否存在稠密區(qū)域。

幾何投影技術(shù)可幫助用戶更好的發(fā)現(xiàn)和理解多維數(shù)據(jù)集的有趣投影。幾何投影技術(shù)的首要挑戰(zhàn)是設(shè)法解決如何在二維顯示上可視化高維空間。

散點(diǎn)圖:使用笛卡兒坐標(biāo)顯示二維數(shù)據(jù)點(diǎn)。使用不同的顏色或形狀表示不同的數(shù)據(jù)點(diǎn),可以增加第三維。例如兩個(gè)空間屬性X,Y,而第三維用不同的形狀顯示。通過(guò)這種可視化技術(shù),我們可以看“+”“X”類型的點(diǎn)趨向于一起出現(xiàn)。

二維數(shù)據(jù)集使用散點(diǎn)圖可視化,資料來(lái)源:www.cs.sfu.ca/jpei/public-tions/rareevent-geoinformatica06.pdf

散點(diǎn)圖使用笛卡兒坐標(biāo)系的三個(gè)坐標(biāo)軸,如果也使用顏色,它可是顯示4維數(shù)據(jù)點(diǎn)。如下圖:

三維數(shù)據(jù)集使用散點(diǎn)圖可視化

散點(diǎn)矩陣圖:對(duì)于維數(shù)超過(guò)4的數(shù)據(jù)集,散點(diǎn)圖一般不太有效。散點(diǎn)圖矩陣是散點(diǎn)圖的一種擴(kuò)充,提供每個(gè)維與所有其他維的可視化。

如下圖顯示的是一種花的數(shù)據(jù)集。共450個(gè)樣本,取自3種花。共5個(gè)維度:萼片長(zhǎng)度和寬度、花瓣長(zhǎng)度和寬度,以及種屬。

散點(diǎn)圖矩陣可視化

平行坐標(biāo):隨著維數(shù)的增加,散點(diǎn)圖矩陣變得不太有效。平行坐標(biāo)可以處理更高的維度,其繪制n個(gè)等距離、互相平行的軸,每維一個(gè)。數(shù)據(jù)記錄用折線表示,與每個(gè)軸在對(duì)應(yīng)相關(guān)維值得點(diǎn)上相交,如下圖:


使用平行坐標(biāo)可視化,資料來(lái)源:http://support.sas.com/documentation/cdl/en/grstatproc/61948/THML/default/images/gsgscmat.gif

1.2.4 基于圖符的可視化技術(shù)

基于圖符的可視化技術(shù)使用少量圖符表示多維數(shù)據(jù)集。我們討論兩種圖符技術(shù),切爾諾夫臉和人物線條畫(huà)。

切爾諾夫臉是統(tǒng)計(jì)學(xué)家赫爾曼.切爾諾夫于1973年引進(jìn)的。它把多達(dá)18個(gè)維的數(shù)據(jù)以卡通人臉顯示,有助于揭示數(shù)據(jù)中的趨勢(shì)。

維可以映射到如下面部特征:眼的大笑、兩眼的距離、鼻子長(zhǎng)度、眼球大小、眉毛傾斜、眼睛偏離程度和頭部偏離程度。切爾諾夫臉利用人的思維能力,識(shí)別面部特征的微笑差異并立即消化理解許多面部特征。

缺點(diǎn)是未顯示具體的數(shù)據(jù)值。

切爾諾夫臉,每張臉表示一個(gè)N維數(shù)據(jù)點(diǎn)(n<=18)

已經(jīng)提出非對(duì)稱的切諾夫臉作為原來(lái)技術(shù)的擴(kuò)展,感興趣的同學(xué)可以深入學(xué)習(xí)。

人物線條臉是可視化技術(shù)把多維數(shù)據(jù)映射到5-段人物線條畫(huà),其中每個(gè)畫(huà)都有四肢和一個(gè)軀體。兩個(gè)維被映射到顯示軸(x和y軸),而其余的維映射到四肢和長(zhǎng)度。

下圖顯示人口普查數(shù)據(jù),其中age和income被銀蛇到顯示軸,而其他維被映射到任務(wù)線條畫(huà)。如果數(shù)據(jù)項(xiàng)關(guān)于兩個(gè)顯示維度相對(duì)稠密,則結(jié)果可視化顯示紋理模式,反映數(shù)據(jù)趨勢(shì)。

用人物線條畫(huà)表示的人口統(tǒng)計(jì)數(shù)據(jù),資料來(lái)源:G.Grinstein教授,馬薩諸塞州大學(xué)(費(fèi)弗爾)計(jì)算機(jī)科學(xué)系

1.2.5 層次可視化展示

迄今為止所討論的可視化技術(shù)都關(guān)注同時(shí)可視化多個(gè)維,然而,對(duì)于大型高緯數(shù)據(jù)集,很難同時(shí)可視化所有維,層次可視化技術(shù)把所有維劃分成子集(即子空間),這些子空間按層次可視化。

“世界中的世界”又稱n-Vision,是一種具有代表性的可視化方法。

假設(shè)我們想對(duì)6維數(shù)據(jù)集可視化,其中維是F,X1,….X5,我們想觀察維F如何隨其他維變化,我們可以把所有維固定為某選定的值,比如C3,…C5,然后可以使用一個(gè)三維圖(稱做世界)對(duì)所有維進(jìn)行可視化,如圖,內(nèi)世界的原點(diǎn)位于外世界的點(diǎn)(C3,C4,C5)處;為世界是一個(gè)三維圖,使用為X3,X4,X5。

用戶可以在外世界中交互地改變內(nèi)世界的原點(diǎn)的位置,然后觀察內(nèi)世界的變化結(jié)果。此外,用戶可以改變內(nèi)世界和外世界使用的維。給定更多維,可以使用更多的世界層,這就是該方法稱做“世界中的世界”的原因。

“世界中的世界”又稱n-Vision資料來(lái)源:http://graphics.cs.columbia.edu/projects/AutoVisual/1.dipstick.5.gif

層次可視化方法的另一個(gè)例子是樹(shù)圖(tree-map),它把層次數(shù)據(jù)顯示成嵌套矩形的集合。

例如下圖,顯示了對(duì)Google新聞報(bào)道可視化的樹(shù)圖。所有的新聞報(bào)道組織成7個(gè)類別,每個(gè)顯示在一個(gè)維-顏色的舉行中。在每個(gè)類別內(nèi)(即在最頂層每個(gè)舉行內(nèi)),新聞報(bào)道進(jìn)一步劃分成較小的子類別。

新聞圖:使用屬兔對(duì)Google新聞報(bào)道標(biāo)題可視化。資料來(lái)源:www.cs.umd.edu/class、spring2005/cmsc838s/viz4all/ss/newsmap.png

1.2.6 可視化復(fù)雜對(duì)象和關(guān)系

可視化技術(shù)除了對(duì)于數(shù)值數(shù)據(jù),還包括對(duì)非數(shù)值數(shù)據(jù)的可視化技術(shù),如文本和社會(huì)網(wǎng)絡(luò)可視化已經(jīng)成為可利用的,且備受關(guān)注。

許多可視化技術(shù)專門(mén)用戶非數(shù)值類數(shù)據(jù),如Web上許多對(duì)諸如圖片、博客和產(chǎn)品評(píng)論加標(biāo)簽。

標(biāo)簽云,是用戶產(chǎn)生的標(biāo)簽統(tǒng)計(jì)量的可視化技術(shù)。在標(biāo)簽云中,標(biāo)簽通常按字母次序或用戶指定的次數(shù)列舉。如下圖,顯示了一個(gè)對(duì)Web站點(diǎn)使用的流行標(biāo)簽可視化的標(biāo)簽云。

使用標(biāo)簽云對(duì)Web站點(diǎn)上使用的流行標(biāo)簽可視化。資料來(lái)源:www.flickr.com/photos/tags/2010年1月23日快照

通常,標(biāo)簽云用法有兩種,一是對(duì)于單個(gè)術(shù)語(yǔ),我們可以使用標(biāo)簽的大小表示該標(biāo)簽被不同的用戶用于該術(shù)語(yǔ)的次數(shù),二是在多個(gè)術(shù)語(yǔ)上,可視化標(biāo)簽統(tǒng)計(jì)量時(shí),我們可以使用標(biāo)簽的大小表示該標(biāo)簽使用的次數(shù),即標(biāo)簽的人氣。

除了復(fù)雜的數(shù)據(jù)之外,數(shù)據(jù)項(xiàng)之間的復(fù)雜關(guān)系也可視化提出了挑戰(zhàn)。

例如,下圖使用疾病影響圖來(lái)可視化疾病之間的相關(guān)性。圖中的結(jié)點(diǎn)是疾病,每個(gè)結(jié)點(diǎn)的大小與對(duì)應(yīng)疾病的流行程度成正比。如果對(duì)應(yīng)的疾病具有強(qiáng)相關(guān)性,兩個(gè)結(jié)點(diǎn)用一條邊連接。邊的寬度與兩個(gè)對(duì)應(yīng)的疾病的相關(guān)程度成正比。

NHANES數(shù)據(jù)集中20歲以上的人的疾病影響圖

綜上所述,可視化技術(shù)為探索數(shù)據(jù)提供了有效的工具。我們介紹了一些流行的方法和他們的基本思想。有許多現(xiàn)成的工具和方法。

此外,可視化可以用于數(shù)據(jù)挖掘的若干方面。除了數(shù)據(jù)可視化之外,可視化也可以用于表現(xiàn)挖掘過(guò)程、從挖掘方法得到的模式,以及用戶與數(shù)據(jù)交互??梢暬诰蚴且粋€(gè)重要的研究開(kāi)發(fā)方向。

 

本文由 @一毛硬幣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營(yíng)》終于在起點(diǎn)學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機(jī)構(gòu))上線啦!

    本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營(yíng)等人群。

    課程會(huì)從基礎(chǔ)概念,到核心技能,再通過(guò)典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來(lái)自廣東 回復(fù)