買房助手產(chǎn)品思路:大數(shù)據(jù)+機(jī)器學(xué)習(xí)=AI置業(yè)顧問
在萬物聯(lián)網(wǎng)的互聯(lián)網(wǎng)+時代,我們能否用大數(shù)據(jù)與AI技術(shù),為買房這一需求賦能,讓人們的需求在買房助手的助力下更加便捷,更加智能?筆者的一系列產(chǎn)品構(gòu)思證明,這個思路或許能得到實現(xiàn)。
年前的時候我得到了一份某一線城市的二手房源信息,包括了超過數(shù)萬條房屋數(shù)據(jù),而且內(nèi)容十分完整,于是我就想著能用來做點什么,便萌生了設(shè)計一個大數(shù)據(jù)+機(jī)器學(xué)習(xí)的買房助手的產(chǎn)品構(gòu)思。
下文并不會涉及太多復(fù)雜的技術(shù)原理,只是簡述我的產(chǎn)品思路。
一、產(chǎn)品設(shè)計
1. 需求分析:為什么買房
一個人為什么要買房,這是一個與當(dāng)下社會環(huán)境及法律政策、人文環(huán)境、經(jīng)濟(jì)環(huán)境、家庭關(guān)系、自身情況混合在一起的復(fù)雜需求,有可能是剛需,也有可能是投資,還有可能純粹收迫于他人意愿的,想要把這些需求進(jìn)行客觀的整理是很困難的事情,因為這個需求的表現(xiàn)本身就可能很不客觀的。
購房的表象原因很可能是以下四個方面:
剛需
購房者或其親屬需要固定住所、入戶、子女上學(xué)、舊房屋被拆遷或破舊無法居住等原因,產(chǎn)生的剛性需求,買房可以說是為數(shù)不多的解決方案中,社會認(rèn)同性最高的、也是最容易操作、綜合效果最佳的一個方案。
改善型需求
為了改善居住環(huán)境,尋求更寬敞的空間、電梯,更好的醫(yī)療資源、教育資源、交通措施等,一般在已擁有一套房的基礎(chǔ)上,再次購買的房產(chǎn),俗稱買“二套房”。
投資
房產(chǎn)的投資方向有很多,對于住宅而言,主要又分兩種:房租收入、轉(zhuǎn)手收入。
- 房租收入就是依靠房子出租獲得租金的持續(xù)性收入。
- 轉(zhuǎn)手收入則是在購房一段時間后將房屋再次銷售給其他購房者,以獲得的一次性收入,俗稱“找人接盤”。
投資對房子的地理位置、所屬地區(qū)當(dāng)前及未來的經(jīng)濟(jì)、治安、交通、教育、醫(yī)療環(huán)境都比較多的考究。
其他
因為房子的價格對于大部分人而言都是非常高昂的,再加上很多地區(qū)存在限購政策,讓“沖動消費(fèi)”對于普通購房者而言幾乎不可能成為原因。但是不排除依然有此類或其他的購房原因。
刨去現(xiàn)象看本質(zhì),在這些表象原因中我們可以抽取出一些可量化的指標(biāo):
- 房屋自身:房屋的產(chǎn)權(quán)、面積、狀況、是否有小區(qū)、是否有供暖等等
- 政策:是否限購、限售及其他的政策限制如“滿二”、“滿五”、“唯一”,是否可以入戶。
- 教育:是否學(xué)位房、學(xué)區(qū)房,對應(yīng)學(xué)校的評級如“市一級”、“省一級”
- 交通:是否有地鐵、公交、對于有車一族還有是否有車位
- 其他周邊:周邊是否有大醫(yī)院、景區(qū),醫(yī)院又分三甲、衛(wèi)生院等。景區(qū)也有不同的星級評級
- 地區(qū)經(jīng)濟(jì):對于改善型和投資購房者而言這點比較重要,他們可能會去關(guān)注當(dāng)?shù)氐腉DP、未來規(guī)劃,如珠三角、大灣區(qū)等。
- 房屋售價:之所以單獨(dú)列出來,而不放在房屋自身的項目中,一是因為房屋的價格其實是“絕大部分場景下”購房者首先要面對的問題,并直接影響他們對其他指標(biāo)的需求程度;二是房屋的價格/價值是由以上其他指標(biāo)共同影響“塑造”的;三是有些房源是要求購房者一次性付款的,可能會篩掉大部分客戶。
- 自身情況:自身經(jīng)濟(jì)情況、是否擁有購房資格、貸款資格等。
所以我們要順藤摸瓜,弄清楚購房者或決定購房的主要參與人,在他們內(nèi)心,到底哪項是決定因素,哪項是次要因素。
2. 需求匹配:到底要什么
完成了需求分析后,我們就可以從新房大數(shù)據(jù)、二手房大數(shù)據(jù)中,去尋找那些符合條件的房源:
- 可購房類型:住宅、商住兩用、公寓、小產(chǎn)權(quán)(不推薦)
- 可承擔(dān)經(jīng)濟(jì)范圍:單價、總價
- 房屋情況:面積、戶型、朝向、電梯、樓齡、樓況、小區(qū)面積、容積率、綠化率
- 配套教育:幼兒園、小學(xué)、初中、高中、大學(xué),又可以具體細(xì)分學(xué)校的等級
- 配套交通:公交、地鐵、車位、高速路、高鐵、鐵路等
- 其他配套:醫(yī)院、公園、景區(qū)
- 周邊經(jīng)濟(jì)環(huán)境:街道環(huán)境內(nèi)是否有商業(yè)街、大型超市;縣區(qū)定位是否是自貿(mào)區(qū)、金融區(qū);城市定位是否是珠三角、大灣區(qū)等。
因為我拿到的是特定城市的數(shù)據(jù),加上考慮了更多剛需購房的場景,所以關(guān)于景區(qū)、縣區(qū)/城市定位這些更多與改善型、投資購房相關(guān)的內(nèi)容,我后文中不再詳述。
通過讓用戶填寫/輸入上面的條件,就可以搜索出符合他們的需求的房子,并可以通過價格、面積、地鐵、小區(qū)、電梯等進(jìn)行排序或篩選,然后再一個個實地去看看,找出性價比最高的那家,然后買定離手。
這時候你就會說,這特么不就是房天下、鏈家APP能做的么,跟傳統(tǒng)的有啥不一樣?哪里AI了?……
3. AI建議:找出性價比最高、最可靠的房源
我將所有的房源數(shù)據(jù)進(jìn)行整理后,通過不同的數(shù)據(jù)研究方式,對每個房源信息進(jìn)行分析。
線性回歸:初步分析
線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運(yùn)用十分廣泛。
對所有數(shù)據(jù)進(jìn)行線性回歸,可以得到該城市每個區(qū)、每條街道、不同的地鐵線、學(xué)區(qū)房/學(xué)位房、樓齡、是否有電梯等對房價的影響因子。
有了影響因子,我們就可以反推一個房子的價格構(gòu)成比例、是否真的值錢等。但是線性分析只作為一個初步分析的手段,優(yōu)勢是運(yùn)算速度快、數(shù)據(jù)結(jié)果簡單可見,缺點則是判斷房子價值的準(zhǔn)確率并不那么高。
通過將線性分析的結(jié)果告知用戶,可以幫助用戶對比不同的房源價值構(gòu)成,以及當(dāng)前地區(qū)對房價的影響因素,可以作為用戶購房決策輔助工具之一。
聚類:區(qū)域優(yōu)選
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。“物以類聚,人以群分”,在自然科學(xué)和社會科學(xué)中,存在著大量的分類問題。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計分析方法。聚類分析起源于分類學(xué),但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。
通過對房源地理位置進(jìn)行聚類,可以將整個城市劃分出多個生活片區(qū)。我們可以簡單推測/認(rèn)為,如果一個房源在這些片區(qū)中心區(qū)域,將能獲得更好的生活措施保障,如果不在這些片區(qū)中、零散分布的房源所配套的生活措施將較差。
某市二手房源熱力圖
至于為什么要聚類?
這個問題就如同人類文明為什么總是起源于大江河畔,工業(yè)文明為什么總產(chǎn)生在礦產(chǎn)豐富、交通便利的地方一樣。
城市的發(fā)展建設(shè)、人類的生活都遵循著一定的規(guī)律,如果一個地方有遍歷的地鐵,有好的學(xué)校,反過來試問,那個地方要是沒大片住宅沒人口,你會覺得符合常理么?
雖說是常理,就像區(qū)分一個人的性別一樣,只有DNA檢測才是最科學(xué)的手段,其他所有的表征都不能作為最終判斷依據(jù)。
支持向量機(jī):性價比分析
支持向量機(jī)(support vector machines,SVM)是一種二分類模型,它的目的是尋找一個超平面來對樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解。
支持向量機(jī)由于使用了超平面,所以能處理更多線性回歸不能很好解決的復(fù)雜模型。
將所有房源數(shù)據(jù),以除價格以外的各項指標(biāo)作為訓(xùn)練數(shù)據(jù),將價格作為結(jié)果數(shù)據(jù),然后進(jìn)行支持向量機(jī)學(xué)習(xí)。然后使用訓(xùn)練好的模型,對所有房源通過除價格以外的各項指標(biāo)進(jìn)行測試,預(yù)測該房源預(yù)期的價格。
我們將預(yù)測結(jié)果作為該房源的預(yù)期價格,將原價作為該房源的實際價格。
房源值率=預(yù)期價格/實際價格
通過計算房源的值率,就可以知道一個房子是否值這個錢,將步驟2通過條件搜索出來的房源,進(jìn)行是否優(yōu)秀區(qū)域、是否性價比最高兩項指標(biāo)綜合排序,將“真 · 性價比”最高的房源推薦給購房人,這樣的話可以幫購房人省去非常多的時間挨個瀏覽搜索結(jié)果,進(jìn)行對比,然后確認(rèn)優(yōu)先實地去看哪些房子。
我使用某地圖數(shù)據(jù)可視化做的值率分析
房源訂閱:AI好房推薦
房子并不是短時間內(nèi)看幾次就能決定購買的,有可能當(dāng)前所有房源最終購房者都不滿意。但是我們知道了該用戶需要的房源類型后,如果我的房源數(shù)據(jù)庫有新的房源進(jìn)來,我就會用訓(xùn)練好的聚類模型、支持向量機(jī)模型對該房源進(jìn)行“預(yù)測”,看看新房源是否符合設(shè)定的推薦閾值(如值率、離最近的聚類中心距離),如果是,則推送給購房人,反之則不推薦。
另外通過用戶的瀏覽記錄、駐留時間、是否有預(yù)約看房,再結(jié)合“隨機(jī)森林”或其他機(jī)器學(xué)習(xí)方法,從所有房源中找出與之相似的房源推薦給用戶。
決策樹
在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。 Leo Breiman和Adele Cutler發(fā)展出推論出隨機(jī)森林的算法。
假設(shè)某購房者看了200套房源的頁面,但是只預(yù)測看了其中20套房源,我們就可以將這些瀏覽過的房源標(biāo)記為兩類:會預(yù)約、不會預(yù)約,然后進(jìn)行隨機(jī)森林訓(xùn)練,再接著將數(shù)據(jù)庫中新加入或者瀏覽次數(shù)大的、有條件的話也可以將所有數(shù)據(jù)都進(jìn)行一遍預(yù)測,看看是能得到會預(yù)約的結(jié)果,如果會則推薦給該用戶,則有更大的成交可能性。當(dāng)購房者看了更多房源后,通過不斷訓(xùn)練,這個預(yù)測模型將越來越準(zhǔn)確。
4. AI分析:用戶畫像
通過以上的機(jī)器學(xué)習(xí)方法,對房源進(jìn)行分析,找出性價比高的,又或者是類似的房源。我們可以思考一下,是否能用同樣的技術(shù),然后結(jié)合每個用戶看的了不同的房源,然后對用戶進(jìn)行歸類。
如果其中某些用戶最終在我的平臺上完成的購房,然后我就可以根據(jù)這些用戶的看房特征(如瀏覽時間、瀏覽時長、觀看房源的特征、用戶其他的注冊信息、預(yù)約頻率、預(yù)約時間等)進(jìn)行機(jī)器學(xué)習(xí),然后對系統(tǒng)中其他的用戶進(jìn)行分析,預(yù)測這些用戶的潛在購房可能,并進(jìn)行更有針對性的營銷。
同時我們也可以按照用戶看房內(nèi)容,對用戶進(jìn)行偏好劃分,如看了很久不買的,總看某一類房源的、或者有其他潛在共同特征的,然后聚類區(qū)分。最終讓運(yùn)營/中介可以對用戶按標(biāo)簽進(jìn)行“范圍攻擊”,極大的降低了工作成本。
二、總結(jié)
隨著大數(shù)據(jù)及機(jī)器學(xué)習(xí)的不斷發(fā)展,我相信很快就會有類似的工具面世,由于AI將帶來更精準(zhǔn)、高效的房屋推薦策略,現(xiàn)在由各家不同的中介憑直覺帶著你一套套房子的瞎逛的年代可能一去不復(fù)返。
而且現(xiàn)在越來越多房子有VR全景的信息,未來通過機(jī)器視覺對房間內(nèi)部采光、房型設(shè)計、房屋新舊狀況分析也將變得可能,說不定到時候還能將你對房屋的風(fēng)格、顏色喜好輸入進(jìn)去,就能推薦適合你的房屋信息。
本文由 @iCheer 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
你是你媽被你爺爺強(qiáng)奸生的雜種嗎
嗯,有點意思。