信用卡欺詐數(shù)據(jù)的分析-excel篇

6 評論 13533 瀏覽 65 收藏 11 分鐘

本篇文章為大家提供了數(shù)據(jù)集分析的思路和步驟,同時也分享了自己的經(jīng)驗。

一、背景

反欺詐是一項識別服務(wù),是對交易詐騙、網(wǎng)絡(luò)詐騙、電話詐騙、盜卡盜號等行為的一項風(fēng)險識別。其核心是通過大數(shù)據(jù)的收集、分析和處理,建立反欺詐信用評分和反欺詐模型,解決不同場景中的風(fēng)險問題。

信用卡反欺詐案例的數(shù)據(jù)分析思路

國內(nèi)常見的提供反欺詐服務(wù)的公司有:同盾科技,百融金服,眾安保險的Xmodel,騰訊的天御借貸反欺詐AF,阿里云的云盾,螞蟻金服的蟻盾;模式多為Sass服務(wù),產(chǎn)品形態(tài)為客戶端控制臺+服務(wù)端調(diào)用反欺詐API。

二、數(shù)據(jù)集分析

數(shù)據(jù)樣本為2013年9月歐洲持卡人在兩天內(nèi)進行的284,808筆信用卡交易,其中493筆是欺詐交易。數(shù)據(jù)集非常不平衡,被盜刷占所有交易的0.173%。

它只包含作為PCA轉(zhuǎn)換結(jié)果的數(shù)字輸入變量。不幸的是,由于保密問題,我們無法提供有關(guān)數(shù)據(jù)的原始功能和更多背景信息。

特征V1,V2,… V28是使用PCA獲得的主要組件,沒有用PCA轉(zhuǎn)換的唯一特征是“時間”和“量”。

特征“時間”包含數(shù)據(jù)集中每個事務(wù)和第一個事務(wù)之間經(jīng)過的秒數(shù)。特征“金額”是交易金額,此特征可用于實例依賴的成本認(rèn)知學(xué)習(xí)。特征“類”是響應(yīng)變量,如果發(fā)生被盜刷,則取值1,否則為0。

數(shù)據(jù)來源:https://www.kaggle.com/mlg-ulb/creditcardfraud/kernels

包含:Time(交易時間,需將s轉(zhuǎn)化為hh-mm-ss形式),V1~V28(經(jīng)PCA轉(zhuǎn)換后的數(shù)字變量),Amount(交易金額),Class(交易類型,1為欺詐,0為正常)

三、分析思路

在已知欺詐交易和非欺詐交易的情況下,分析兩類的交易指標(biāo)的四分位數(shù)、最大值、最小值、標(biāo)準(zhǔn)差、方差;四分位數(shù)和最大最小值可以繪制出該指標(biāo)的箱線圖,找出離群點,也可以觀察出該指標(biāo)中數(shù)據(jù)的離散程度;

通過方差觀察該指標(biāo)數(shù)據(jù)的穩(wěn)定程度,通過標(biāo)準(zhǔn)差觀察該指標(biāo)數(shù)據(jù)的偏離程度,一般都應(yīng)符合正態(tài)分布;做出圖形后,觀察欺詐交易在圖形中的分布;

通過時間分析,尋找欺詐交易在哪些時間點發(fā)生的概率更高;

通過金額分析,尋找欺詐交易金額在哪個區(qū)間范圍內(nèi)概率更高,對比非欺詐交易金額的區(qū)間范圍i;

通過對V1~V28的分析,尋找該字段下欺詐交易與非欺詐交易各自的規(guī)則;

通過以上的分析,尋找欺詐交易和非欺詐交易的各自特性,當(dāng)有新的一筆交易進入時,判斷其屬于哪一類的概率更高;

由于數(shù)據(jù)集受限,如果能對單個交易賬戶分析,在數(shù)據(jù)中增加交易地點、交易商戶類別、交易頻率的指標(biāo)都可以使得分析更全面。

四、分析步驟

第一步:檢查數(shù)據(jù),是否有缺失值,數(shù)據(jù)類型是否符合將要進行的分析,結(jié)果為無缺失值,同時將欺詐交易與正常交易區(qū)分為兩個工作表,方便后面分析;數(shù)據(jù)總計為28.4萬條;

第二步:將時間換算為小時,總計為48小時,以1小時為間隔進行分組;

1. 分析交易時間與交易量的關(guān)系

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

正常交易特點:

正常交易分布聚集度明顯,主要集中上午9點-下午23點,在凌晨0點-上午7點交易量較。

欺詐交易特點:

欺詐交易的時間離散度高,但在峰值跡象出現(xiàn)在兩天的凌晨2-3點,第一天的11-12點,在上午7-12點下午2-10點,兩個時間段的總量分別為88筆、97筆,且每1小時的交易量都比較平均。

綜合以上:

凌晨0點-4點間的交易,為欺詐交易的概率高;在上午9點-下午10點間,欺詐交易多偽裝成正常交易。

2. 分析交易金額與交易量的關(guān)系

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

從交易金額與交易量中明顯看出,無論是欺詐交易還是正常交易,單筆交易金額都比較低,大量聚集在100元以下,將交易金額下鉆至0-500元范圍內(nèi),對比欺詐交易與正常交易的特點。

正常交易:

正常交易共284315筆,單筆最大值為25,691.16,其中單筆500元以下的交易共有27.5萬筆,占交易總量的96.8%。

欺詐交易:

欺詐交易共492筆,單筆最大值為2,125.87,單筆金額多為50元以下,總計305筆占欺詐交易總量的62%,其中10元以下共249筆占欺詐交易總量50%,其次為90-100元,總計34筆。

綜合以上:

欺詐交易和正常交易在圖形的趨勢上相似,都聚集于小額交易,單筆交易金額50元以下的為欺詐交易的概率更高。

3. 分析不同交易類型的映射值特點

通過對正常交易與欺詐交易的映射值對比分析,可以建立兩種交易的映射值模型。

這批數(shù)據(jù)的處理過程中著實麻煩,每個字段下有20萬+數(shù)據(jù),excel經(jīng)常出現(xiàn)崩潰,原本我的思路是得出每個映射值的描述統(tǒng)計,使用切片器在數(shù)據(jù)透視表中對不同的映射值對應(yīng)的同一描述統(tǒng)計字段進行視圖。

最后改變策略為取映射值在-1~1之間,相同數(shù)量范圍內(nèi)觀察映射值的特點;其實這樣做是有缺點的,所取某個范圍內(nèi)的樣本不具有普遍代表性。

期間我還嘗試過另一種方法,在每個映射值中隨機抽取500個樣本,輸出描述統(tǒng)計,與欺詐交易的描述統(tǒng)計作比較,在此就不再上圖。

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

信用卡欺詐數(shù)據(jù)的分析

綜合以上:

通過對交易金額、交易時間、交易的映射值進行大量數(shù)據(jù)統(tǒng)計分析,建立欺詐交易和正常交易的模型,當(dāng)一筆交易進入時,在模型中根據(jù)各個特性的得分,得到最終評分,以某閾值為分界點,將交易判定為正常或欺詐。

五、經(jīng)驗分享

1. 在輸出前要明確自己分析的目標(biāo)和思路,可以做模糊假設(shè),在分析的過程中謹(jǐn)慎求證;輸出的結(jié)果要檢查是否為真,是否符合源數(shù)據(jù),避免如數(shù)據(jù)類型的轉(zhuǎn)換過程中出現(xiàn)錯誤;

2. excel中的數(shù)據(jù)透視圖和數(shù)據(jù)分析很好用,在數(shù)據(jù)分析中有其他的方法比如隨機抽樣,回歸等,雖然還不明白,但覺得里面嵌入的功能很多且高級;

3. 本次數(shù)據(jù)分析中,并沒有使用到太多vlookup的關(guān)聯(lián)查詢,在之后的練習(xí)中找一個關(guān)于此類查詢進行練習(xí)。

 

本文由 @Pine 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看不懂,這是解決什么問題的

    回復(fù)
    1. 判斷信用卡交易是否為欺詐交易。本文是在已知交易類別的前提下分析欺詐和非欺詐交易的特點。

      回復(fù)
  2. 可以學(xué)習(xí)下你的文章的數(shù)據(jù)圖表操作方式嗎

    來自四川 回復(fù)
    1. 可以呀,在excel表里選項中增加數(shù)據(jù)分析的功能,可以自動計算出描述統(tǒng)計的字段,包括四分位數(shù),平均值,把數(shù)據(jù)整理后,插入數(shù)據(jù)透視表,在透視表中選擇行列的標(biāo)簽,分組,會自動計算數(shù)值,再插入對應(yīng)的數(shù)據(jù)透視圖

      回復(fù)
  3. 我們支付通道有相關(guān)的風(fēng)控系統(tǒng)

    來自廣東 回復(fù)
    1. 可以私聊互相學(xué)習(xí)一下么

      回復(fù)