回歸模型可解決的決策問題-DeepSeek分析第二篇

0 評論 940 瀏覽 2 收藏 11 分鐘

在數(shù)據(jù)分析和決策支持領(lǐng)域,回歸模型是解決復雜業(yè)務(wù)問題的強大工具。本文通過深入探討回歸模型在預測和解釋變量關(guān)系中的應(yīng)用,展示了如何利用多元線性回歸和邏輯回歸模型解決實際業(yè)務(wù)中的決策問題

在上一篇deepseek生成時間預測模型分析之后,繼續(xù)探索deepseek結(jié)合分析的可能性,讓它用于解決業(yè)務(wù)中常見的決策問題。

常見決策問題

預測問題:已知一部分變量,想要預測另一變量。

  • 比較常見的,比如在知道二手房房屋面積、房齡、地段、房屋新舊程度等因素,想要知道它的售賣價格應(yīng)該定在多少;
  • 又或者知道一個人的收入水平、年齡、性別、歷史信用卡還款及時情況、近期消費金額,想要知道這個人對一筆大額借款的借款概率和違約概率是多少,是借款優(yōu)質(zhì)用戶,還是違約高危用戶?

解釋:在眾多變量中,想要知道這些變量對目標變量的影響程度是多大。

  • 比如在房屋面積、房齡、地段、房屋新舊程度,哪個是對房屋價格影響最大的因素,在重點獲得房源時,應(yīng)該著重關(guān)注哪個?
  • 又或者收入水平、年齡、性別、歷史信用卡還款及時情況、近期消費金額等對判斷優(yōu)質(zhì)/高危的人群,哪個是更重要的因素,在擴展用戶中應(yīng)該重點關(guān)注哪部分用戶?

回歸模型簡介

以上兩個問題,使用多元線性模型和邏輯回歸模型可簡單解決。

簡單看一下兩個模型的數(shù)學表達式:

  1. 線性回歸:Y=β0+β1X1+β2X2+β3X3+···+βkXk
  2. 邏輯回歸:ln(P/(1-P))=β0+β1X1+β2X2+β3X3+···+βkXk ,進行指數(shù)轉(zhuǎn)化即可得到概率公式

其中X為變量,β為參數(shù),以示意圖來理解的話(非數(shù)學表達式對應(yīng)圖形)

簡單解釋上圖:多元線性回歸,就是找到一條線,使得每組x對應(yīng)的預測值y都與真實y距離和最短(垂直距離);邏輯回歸,是找到一條線,可以將兩個不同的類別,準確分到這條線的兩邊,與實際類別相比預測對的個數(shù)越多越好。

邏輯回歸其實是一種特殊的多元線性回歸,它進行了一次指數(shù)轉(zhuǎn)化,把線性回歸結(jié)果值映射到(0,1]上并保持單調(diào),表達的含義為是y的概率,如以會流失的用戶為目標群體,所計算的概率就為用戶流失率。

回歸模型案例實操

舉個例子做個實操,假如在二手車交易平臺,新上架一輛二手車,現(xiàn)在需要填寫參考價格,希望它既能很快賣掉,又可以盡量多賺到錢。

先梳理一下報價的參考信息,車輛的參數(shù)很多如發(fā)動機相關(guān)的排量、智能系統(tǒng)是否有中控屏、車輛輔助配置是否有雷達等,這些同新車參數(shù)一樣,也有一些二手車特有比如行駛里程、上牌年份等。重點挑一下對購買具有決策價值的字段,假如篩了如下這些:

對于二手車預計價格可以用多元線性回歸模型處理,對于未來3年是否保值這類是否問題,可以使用邏輯回歸預測未來3年可保值(p>0.5)的概率。模型選擇之后,可能還需要解決一些疑問:

1. 自變量的處理

  • 年份,它本身是個數(shù)值,但該數(shù)值并沒有任何物理含義,需要加工一下讓它變成距離今天的時間間隔,年份越小,車子越新。
  • 排量,它是能衡量發(fā)動機性能具有物理含義的指標,但多數(shù)情況下車的排量只有幾檔,數(shù)值本身作用不大,需要對它進行效應(yīng)編碼,提取它的序1、2、3、4。
  • 車級別、是否有中控屏或是否BBA等,甚至連數(shù)字都不是,很難放到線性模型里,這時就需要對類別做處理生成虛擬變量,比如以車輛類別的“轎車”作為參考組,SUV和MPV表示如下

2. 參數(shù)估計

  • 線性回歸,通過計算預估值和真實值最小均方誤差,MSE = (1/n) * Σ(y_i – ?_i)^2,其中n是樣本數(shù)量,y_i是真實值,?_i是預測值,數(shù)值越小誤差越小。
  • 邏輯回歸,通過最小化對數(shù)損失 Log Loss = – (1/N) * Σ [y_i * log(p_i) + (1 – y_i) * log(1 – p_i)],log loss越小表示損失越小。

3. 模型評估指標

  • 線性回歸,R2、MSE、調(diào)整R2 ,R2越高越好,MSE越低越好。
  • 邏輯回歸,準確率、AUC-ROC、混淆矩陣、F1分數(shù),AUC越高越好。

4. 模型結(jié)果

【二手車價格預測模型】

價格預測模型公式 Y1 = 22.636+0.069×行駛里程(萬km)-1.8737×上牌距今年間隔+0.3383×新車指導價(萬元)-3.6993×中控屏-4.3435×排量+2.3033×BBA品牌-3.3105×SUV車型+3.5228×MPV車型

假如新上架一輛二手車,對應(yīng)的變量如下,求Y1

  • X1 行駛里程數(shù):12
  • X2 距今上牌年份間隔:6
  • X3 新車指導價:29.75
  • X4 是否有中控屏:1
  • X5 排量:2
  • X6 是否BBA及以上:0
  • X7 SUV車型:0
  • X8 MPV車型:0

預測:可通過變量進行二手車售賣價格為9.89萬元

模型解釋:

  • 回看公式,以X2和X3 這兩個系數(shù)較為顯著的變量來看,X2距今上牌間隔車齡每增加一年,價格就會下降1.87萬;而X3新車指導價每增加1萬元,對于二手車價格就會增加0.3萬元(其他變量是均值的情況下)
  • 而對于X7和X8來說,是在車級別為轎車的基礎(chǔ)上判斷對二手車價格的影響,即相對于轎車而言,如果是SUV則二手車價格會降3萬元,如果是MPV則會增加3.5萬元(當然這里的P值不顯著即該變量其實對結(jié)果影響并沒有那么大)
  • 還要注意的是,這里通過VIF分析和經(jīng)驗判斷,也會發(fā)現(xiàn)一點問題,即行駛里程和上牌距今年間隔具有很強的相關(guān)性,且X2 VIF=16.69,需要做特征選擇或變換。

【二手車是否保值模型】

是否保值預測公式Y(jié)2= ln(p/(1-p)) = -3.4375 + (-0.0293)*行駛里程(萬km) + (0.4238)*上牌距今年間隔 + (0.0200)*新車指導價(萬元) + (1.5857)*中控屏 + (-0.4167)*排量 + (-0.3276)*BBA品牌+ (0.5123)*SUV車型+ (1.6684)*MPV車型

假如新上架一輛二手車,對應(yīng)的變量如下,求Y2

  • X1 行駛里程數(shù):12
  • X2 距今上牌年份間隔:6
  • X3 新車指導價:29.75
  • X4 是否有中控屏:1
  • X5 排量:2
  • X6 是否BBA及以上:0
  • X7 SUV車型:0
  • X8 MPV車型:0

預測:未來保值的概率為0.52

模型解釋

  • X2上牌距今年間隔增加1年,其Odds Ratio=e0.4238≈1.528,即距今車齡增加1年保值的的概率增加52.8% ,當然該指標也沒有那么顯著地影響到是否保值(Odds Ratio= P/(1-P),優(yōu)勢比),車齡越長反而越保值有點反常識的,但仔細思考,新車轉(zhuǎn)手賣成二手車會大幅貶值,時間越長它的貶值幅度反而變緩。由此,也說明該變量更做時間衰減處理,這里就先不展開了。

以上,利用回歸模型進行預測和變量解釋。方法比較簡單,不管是預測還是變量解釋性還有一些調(diào)優(yōu)的空間,在后邊的文章中會再詳細介紹。

但是,可定量衡量自變量對因變量的影響,對一些因素的重要程度進行判斷,已經(jīng)可以幫助我們在紛繁的因素中,找到方向和重點。

作者:小王子和小企鵝,公眾號:小王子和小企鵝 ?

本文由@小王子和小企鵝 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!