零經(jīng)驗轉(zhuǎn)型策略產(chǎn)品,你需要掌握這些知識點(2)
作為一名沒有“搜索/推薦策略”經(jīng)驗的產(chǎn)品經(jīng)理來說,想要轉(zhuǎn)型策略產(chǎn)品有可能嗎?轉(zhuǎn)型路上都要學(xué)習(xí)什么知識與技能呢?筆者將結(jié)合自己成功轉(zhuǎn)型策略產(chǎn)品經(jīng)理的經(jīng)驗,為你分析需要掌握的知識點。
一、推薦策略和算法
當(dāng)我們有了標(biāo)簽體系,采集到了用戶的數(shù)據(jù),我們要從這些數(shù)據(jù)中“讀”出有用信息從而為用戶打上標(biāo)簽,這里會涉及到數(shù)據(jù)挖掘,自然語言處理,語義理解,機器學(xué)習(xí)等技術(shù)。
1. 分詞方法
比如一個用戶看了一篇新聞發(fā)表了一個評論,我們想要了解他說了什么,提取出對我們有用的信息。
這里就涉及到了分詞技術(shù),比如“如果真是計算機就好了”這句話。
說幾種比較簡單的分詞方法,比如按照字典分詞,字典通常采用前綴樹或者后綴樹的數(shù)據(jù)結(jié)構(gòu)存儲,進(jìn)行正向最大匹配。
以上面的為例“如”后跟“果”,“如果”是一個詞語,再看第三個字“如果真”不是一個詞,繼續(xù)向下,發(fā)現(xiàn)都不是一個詞組,那么就在“如果”這里進(jìn)行切分?!坝嬎恪笔且粋€詞,繼續(xù)向下“計算機”也是一個詞語,“計算機就”不是一個詞語,再往下發(fā)現(xiàn)到最后依然組不成詞組,那么在“計算機”這里切分。
以上句子存在的交集型歧義也需要解決,“如果”和“果真”都是詞語,語義理解時計算機語言讀懂句子用到的是“如果”而不是“果真”。
這里還有一種分詞方法是基于統(tǒng)計的分詞方法,即我們常說的貝葉斯分詞,即通過大量語料積累進(jìn)行機器學(xué)習(xí),統(tǒng)計出一個字后面跟另一個字的概率,從而進(jìn)行分詞。
2. 語義理解
語義理解中還要進(jìn)行情感的理解,以及邏輯推理。情感理解,舉個例子,如果是在OTA上定了一個旅店,住了一晚然后給出了評價,比較明顯的情感評價是“環(huán)境太好了”“熱水器真糟糕”。
不易發(fā)現(xiàn)的情感如“提供了早餐”,其實我們可以看出提供早餐是用戶的褒義評價,但可能一般的算法讀不出來。
再比如如果網(wǎng)購的地址填寫的是學(xué)生宿舍,那么算法也需要大量學(xué)習(xí),進(jìn)行推理,從收貨地址是學(xué)生宿舍推理出用戶是學(xué)生,這就像百度的知識圖譜。
3. 用戶畫像
接下來我想聊一下用戶畫像的幾個分類,比如基本信息,如姓名,性別,年齡,生日,星座,設(shè)備號,職業(yè),學(xué)歷,手機號,郵箱等。這類特征是可以長時間不進(jìn)行更新的,比較固定。
但對于這個新聞app有個問題,比如對于社交軟件,用戶樂于填寫個人信息,但對于新聞app,可能100人,有30個人填寫了信息,另外70個人不去填寫。
這里我們?yōu)榱私o這70個用戶打標(biāo)簽,就需要用這30個人做為樣本集,進(jìn)行學(xué)習(xí)。
比如通過學(xué)習(xí),了解男性用戶和女性用戶的特點有什么不同,比如男性用戶早晨更喜歡看時事新聞,晚上喜歡看玄幻小說,女性用戶早上喜歡看娛樂熱點,晚上喜歡看言情小說。通過得出的這些特征,進(jìn)行“標(biāo)簽擴散”,為那70個未填寫性別信息的用戶打上性別標(biāo)簽。
接下來我們說一下興趣愛好和行為特征,這類標(biāo)簽是經(jīng)常變化的,具有時期時效性。
比如我們?yōu)榱酥酪粋€用戶對哪類新聞感興趣,設(shè)計了一個打分加權(quán)模型,每點一個分類的新聞就加一分,線性增長。
比如用戶30天點了156次軍事新聞,就156分,點了45次歷史文章歷史就是45分,我們可以看出用戶最喜歡看的是軍事,其次是歷史。于是我們主要給他推薦軍事,其次是歷史。
但這里有個問題,如果某一天開始,用戶開始對娛樂新聞感興趣了,即他目前更想看的是娛樂新聞,但因為歷史數(shù)據(jù)積累軍事新聞權(quán)重太高,短期內(nèi)算法無法推送娛樂新聞給他,那么線性打分模型是不合適的。
我想這里可以采用指數(shù)模型,比如對某個類別的興趣權(quán)重滿分是10分,前9次每次1分,第10次開始每次在之前基礎(chǔ)上,加9*10的-(n-9)次方,第10次就是9.9,第11次點擊軍事就是9.99,以此類推,讓權(quán)重不斷逼近10。
當(dāng)然我們還要通過其他特征調(diào)整權(quán)重,比如打開頻率,如三天看1次軍事的,還是一小時看3次軍事的。這樣當(dāng)用戶開始對新的類別感興趣的時候,可以更快的得到推薦。
4. 常用算法
這里我們來說一下推薦算法。首先我們會把用戶和新聞分別標(biāo)簽化,來講一下協(xié)同。
比如甲用戶喜歡軍事和娛樂,乙用戶喜歡科技和文學(xué)。甲乙用戶標(biāo)簽化后相似度很高,達(dá)到了一定閾值,那么我們可以認(rèn)為乙用戶喜歡的分類,甲用戶可能也喜歡,于是我們把科技和文學(xué)推薦給了甲用戶。這是基于用戶的協(xié)同。
如果甲喜歡a文章,a和b文章標(biāo)簽化后相似度很高,那么我們猜測甲也會喜歡b文章。
如果有甲乙丙三個用戶,甲乙喜歡a文章也會喜歡b文章,丙喜歡a文章,那么我們根據(jù)“所有喜歡a文章的用戶都會喜歡b文章”可以猜測丙用戶也會喜歡b文章。
基于相似度的推薦涉及到一個公式,這個公式來源于搜索引擎,因為搜索引擎的查詢系統(tǒng)要根據(jù)用戶輸入的關(guān)鍵詞對抓取到的網(wǎng)頁按照相關(guān)度進(jìn)行排序,從而展現(xiàn)在用戶面前。這個模型就是向量空間模型,余弦相似度公式。
我們給用戶打上不同的標(biāo)簽,分配不同的權(quán)重,比如abc三個標(biāo)簽,權(quán)重分別是λ1λ2λ3。每個標(biāo)簽量化到一個坐標(biāo)軸,這樣我們在一個三維坐標(biāo)系可以唯一確定一個向量。同時我們把眾多的新聞也進(jìn)行向量化,得出和用戶標(biāo)簽向量的相似度,推薦排序按照相似度從高到底排序。就實現(xiàn)了推薦。
但這里也會有一些常見問題,比如如果我們標(biāo)簽打的很多,也就是向量維度很多,其中有一些維度就因為數(shù)據(jù)空白太多而影響準(zhǔn)確性。比如如果“轉(zhuǎn)發(fā)”是一個維度,100個用戶只有5個人轉(zhuǎn)發(fā),那么在轉(zhuǎn)發(fā)這個維度上只有5個人有數(shù)值,其他95個人此維度就會被置為空,如果這種維度過多,就影響相似度計算。
面對這樣的情況,我認(rèn)為是否可以把這樣的標(biāo)簽不單獨設(shè)置維度,而是以加權(quán)的形式加到前面維度的權(quán)重上,從而解決這個問題。
5. 一些思考
這里還有一個問題在于,比如還是在旅店,甲旅店評價標(biāo)簽是環(huán)境好5分,設(shè)施齊全5分,有早餐3分。乙旅店環(huán)境好5分,設(shè)施齊全5分。我們顯然知道甲旅店更好一些,因為甲旅店還提供早餐,雖然不是5分滿分,但多了一個服務(wù)。但是如果按照打分模型給標(biāo)簽分配不同的權(quán)重,因為早餐這個標(biāo)簽甲旅店不是5分滿分,所以總評分反而沒有乙旅店高。會存在這樣的例子,所以甲乙旅店標(biāo)簽可能需要進(jìn)行統(tǒng)一化。
最后我們來說一下地理信息,比如我的常駐地是北京,app每天給我推薦北京本地的新聞,有天我去威海旅游了,那么app本地新聞的版塊應(yīng)當(dāng)做到靈敏反應(yīng)。
再來談一下高級標(biāo)簽的模型搭建,比如用戶流失模型,是一天登一次,三天登一次,一周不登一次,一個月不登一次等等,劃分abcd等流失級別。以及活躍度等標(biāo)簽。這種模型更常見的是天氣預(yù)報app,里面的穿衣指數(shù),洗車指數(shù)就通過構(gòu)建模型建立。
二、AB測試實驗設(shè)計和策略效果
1. AB測試
當(dāng)我們設(shè)計了一個策略方案,我們需要分組來測試效果。
比如我們針對通勤場景,從用戶角度出發(fā),感覺在有線環(huán)境下,與無線環(huán)境相比,用戶更少點擊視頻或者純圖的資訊。
因此我們提出假設(shè),設(shè)計策略,即在有線環(huán)境下,減少信息流上視頻和純圖資訊的比例。
將同質(zhì)用戶分組,控制唯一變量,對照組為目前情況,實驗組幾組分別在有線情況下,減少視頻和純圖資訊30%,40%,50%,60%,70%。
同時我們要多加一組和對照組相同的組,進(jìn)行aa測試,以保證沒有其他因素帶來自然波動。后期看數(shù)據(jù)時方便查看。
2. 效果思考
我們設(shè)計好了標(biāo)簽體系,為用戶進(jìn)行了畫像,還做了新聞推薦,那么我們的標(biāo)簽打的如何呢?需要進(jìn)行評估,評估的話就涉及到了量化的指標(biāo)。
比如我們在一批同質(zhì)同標(biāo)簽用戶中,給其中一部分推送他們喜愛的新聞。我們來看他們的點擊次數(shù)和瀏覽時長是否相對另一組用戶要大。如果大,可能我們的標(biāo)簽體系就建設(shè)的不錯。
3. 分析思考
如果一個用戶我們判定他喜愛娛樂-國內(nèi)-xx明星,我們推送了這個明星的另一篇報道給他。他點進(jìn)去沒怎么看就出來了,這一定是我們標(biāo)簽打錯了嗎?
我認(rèn)為不一定,可能他前面看的文章和推薦文章內(nèi)容相似,也可能前面看的文章內(nèi)容篇幅高度文筆都高于后一篇。那么如果我們推薦一篇和他看過的文章內(nèi)容不同,質(zhì)量相當(dāng)?shù)乃信d趣的明星的文章,他依然點進(jìn)去就出來,會是什么原因呢?我認(rèn)為可能會是觀點相反,比如第一篇文章是褒獎此明星的,推薦的是抨擊該明星的,所以用戶跳出。
這里我認(rèn)為文章應(yīng)該有分級機制,比如分一類二類三類,我從面試官處了解到公司確實有。我繼續(xù)問比如同一篇文章是否只有一個通用級別,還是說它是軍事一類,同時屬于歷史三類文章。面試官說是通用的,還沒有細(xì)分。
同時這里也會有個問題,就是沒有作者喜歡自己的文章被分級,而是喜歡讓更多的用戶看到。
還有目前在內(nèi)容標(biāo)簽體系中也會存在內(nèi)容交叉的問題,比如軍事下面的歷史和歷史下面的軍事,這也是需要解決的問題。
同時關(guān)于內(nèi)容標(biāo)簽體系的建立,我認(rèn)為像我開始說到的,關(guān)鍵詞提取和標(biāo)簽體系分開。結(jié)構(gòu)化標(biāo)簽和非結(jié)構(gòu)化標(biāo)簽合作。
提取文中能代表本文內(nèi)容的關(guān)鍵詞,這里我來說一下搜索引擎中的一個tf-idf加權(quán)技術(shù),這個技術(shù)說的是,如果一個詞語再本文中出現(xiàn)的越多,在其他文章中出現(xiàn)的越少,則這個詞語具有很好的代表性。tf是這個詞語在本文中出現(xiàn)的頻率,比如分詞后本文有100個詞,產(chǎn)品經(jīng)理出現(xiàn)了5次,則5/100得到的0.05就是詞頻。
我認(rèn)為內(nèi)容標(biāo)簽關(guān)鍵詞體系的設(shè)計,除了產(chǎn)品,算法,同時也需要運營支持,采用機器+人工的方式。
三、數(shù)據(jù)指標(biāo)、標(biāo)簽可視化
上面有談到數(shù)據(jù)指標(biāo)體系建設(shè),按照業(yè)務(wù)線分開,按照高低優(yōu)區(qū)間分開。接下來應(yīng)當(dāng)按照查看要求,用合適的圖形繪制,比如如果是看數(shù)據(jù)的趨勢可以用點線圖,如果要看數(shù)據(jù)占比可以用扇形圖,如果要看數(shù)據(jù)離散程度同時為數(shù)據(jù)擬合做基礎(chǔ),可以用散點圖。我們把每個需要的指標(biāo)圖形繪制出來。
然后我們需要了解業(yè)務(wù)上的目標(biāo)或者我們的目的,再按照用戶的業(yè)務(wù)邏輯或者分析邏輯進(jìn)行組合。
比如負(fù)責(zé) VIP 商戶的部門想看上個月每個城市 VIP 商戶的銷售額和毛利。我們可以用柱狀圖橫向列出各城市的銷售額和毛利,上面用扇形圖集合分布展示,比如用扇形圖的面積代表銷售額,面積越大銷售額越大,用顏色深淺代表毛利的大小,顏色越深毛利越多。
如果a和b兩個城市扇形圖面積差不多大,但是a城顏色更深,那么我們需要進(jìn)一步分析a城毛利高的原因,從而指導(dǎo)b城盈利。于是我們下鉆到下層頁面,下層頁面可以具體顯示ab兩城米面糧油四個品類的毛利,我們舉例簡單點,比如通過對照,發(fā)現(xiàn)米面糧ab兩城毛利差不多,油這個品類a明顯高于b,那么業(yè)務(wù)人員可以定位到是那個品類的問題,再從也許場景去找到根本原因。
關(guān)于指標(biāo)和標(biāo)簽我認(rèn)為應(yīng)該根據(jù)實際情況組合或者分開設(shè)計。比如可以把報表,圖形,運營工具,標(biāo)簽畫像,接口分開。
當(dāng)我們的原型圖設(shè)計好后可以找需求方確認(rèn),并邀請研發(fā),業(yè)務(wù)一起開評審會,確認(rèn)沒問題后開發(fā)測試上線。
從本質(zhì)上來說做產(chǎn)品的過程都是發(fā)現(xiàn)問題——分析問題——給出方案——落實方案——評估迭代。
但數(shù)據(jù)產(chǎn)品經(jīng)理和其他產(chǎn)品經(jīng)理還是有些區(qū)別的,比如一般的產(chǎn)品可能更注重交互,頁面美觀度,用戶感知等。但數(shù)據(jù)產(chǎn)品更注重邏輯。再比如普通產(chǎn)品如果有問題或者bug如果不是特別緊急可以放在下一版本解決,但是數(shù)據(jù)產(chǎn)品一旦有問題,需要立刻解決從而保證數(shù)據(jù)準(zhǔn)確性。
但無論如何我們都要考慮,用戶是誰,他們有什么特點,產(chǎn)品價值有多大,目前的滿足程度。同時考慮成本與收益的關(guān)系,比如考慮人力成本,資源成本,沉沒成本,用戶成本等。
當(dāng)產(chǎn)品開發(fā)后,我們可以先為部分用戶開放權(quán)限進(jìn)行內(nèi)測,比如跑一周的數(shù)據(jù)如果沒有問題再進(jìn)行公測。同時這里應(yīng)該也要做好用戶權(quán)限的設(shè)計管控,可以把用戶崗位職級——系統(tǒng)模塊角色——具體模塊三者聯(lián)系起來,讓不同部門不同職級不同職責(zé)的用戶看到不同的內(nèi)容。
如果有數(shù)據(jù)質(zhì)疑需要排查??梢苑譃槿?對口徑,查代碼,導(dǎo)明細(xì)。
比如一個業(yè)務(wù)人員說在業(yè)務(wù)系統(tǒng)看到a指標(biāo)的數(shù)值和bi系統(tǒng)上的不一樣。那么我們首先要確定數(shù)據(jù)源和指標(biāo)口徑統(tǒng)計方式是否相同。
一般第一步可以解決絕大多數(shù)的問題。
如果第一步不行,我們可以叫兩個系統(tǒng)的研發(fā)對代碼,看是否代碼有問題,是否用的不是一個數(shù)據(jù)表。
如果第二步依然不行,我們可以導(dǎo)出兩個系統(tǒng)指標(biāo)的明細(xì)數(shù)據(jù)進(jìn)行核查。
四、運營分析與迭代
在運營中我們可能需要通過分析來發(fā)現(xiàn)問題。比如可以通過指標(biāo)邏輯,比如看到銷售額暴跌,影響銷售額的子指標(biāo)是下單商戶數(shù)和客單價,然后再分析這倆指標(biāo),按照指標(biāo)邏輯看看哪里出了問題。也可以按照aarrr模型(獲取,激活,留存,支付,分享)或者漏斗模型(訪問,抵達(dá),瀏覽,咨詢,收藏,下單,支付)或者用戶操作路徑等模型一個個環(huán)節(jié)分析。
還可以按照業(yè)務(wù)場景分析,比如采購,運送,倉儲,分揀,配送,售后等環(huán)節(jié)一步步分析。
再比如有個問題,說一家商場中每天的總營業(yè)額都差不多,某一天其中一家商店的營業(yè)額驟降,商場總得營業(yè)額還是差不多。
那么我們首先應(yīng)該了解這個商店往日占到商場總營業(yè)額的比例,如果比例較高,則表示可能客戶流失到其他商店,所以導(dǎo)致商場營業(yè)額不變而此商店驟降。
如果此商店比例較小,不對商場有什么影響。那么我們考慮內(nèi)外部因素,外部因素比如受到某個事件影響。
內(nèi)部因素可從客戶體驗流程分析,比如商店是否裝修,服務(wù)是否降低,貨品是否過期或缺失,價格是否升高等等。
問題都需要在運營中發(fā)現(xiàn),用戶的增長也需要運營去針對性的做精細(xì)化運營。
五、面試經(jīng)過
那日下午,我去參加面試,那是我第一次應(yīng)試策略崗位,面試官是個很年輕的大哥,后來成了我的領(lǐng)導(dǎo),入職后才知道他也是從那家搜索大廠出來的。
面試開始,他先讓我做自我介紹,再介紹下以往的經(jīng)歷和做過的項目。然后問到我在那家搜索大廠的經(jīng)歷,雖然當(dāng)時我做的不是核心策略,但是懂很多的策略知識,我當(dāng)時也寫在了簡歷上。他覺得我的經(jīng)歷不是很匹配,但看到我簡歷上所寫,就讓我說說自己知道的知識,以及如果讓我做新聞資訊的畫像和推薦我要怎么做。
簡而言之,就是做一場產(chǎn)品思路的陳述。
我覺得這是個機會,就把前文中提前學(xué)到的知識,串起來在面試官面前一步步講解,說出自己的思考和想法。后來面試官問了幾個發(fā)散的問題。持續(xù)了一個小時,再后來涉及到了算法,于是喊了算法工程師來面我,
算法工程師問了我對一些算法的基礎(chǔ)了解,以及說出一些算法面臨的問題該如何調(diào)優(yōu),讓我發(fā)散性的考慮下,我做了陳述。又過了半小時,就是hr的面試。一周后我收到了offer。
對于這次經(jīng)歷,我總結(jié)一下吧。我是個普通高校的畢業(yè)生,因為大廠對做策略的門檻比較高,要么有經(jīng)驗,要么本科985 211或者碩士畢業(yè),所以之前我會被一些大廠卡。
當(dāng)決定一定要向自己熱愛的策略努力的時候,我先自己買書學(xué)習(xí),在網(wǎng)站上看文章學(xué)習(xí),然后做筆記,每次面試前都會過一遍筆記,直到自己可以把那些內(nèi)容背出來。我也買了一塊白板,當(dāng)自己的一塊知識有了架構(gòu)后,給我做研發(fā)的朋友試講一次,讓他也能聽懂。表示我掌握了。
我深知策略需要很強的實踐,只有實踐才能有經(jīng)驗,那些策略的結(jié)果和數(shù)據(jù),不是看書或者想象就能得到的。但在沒有入行之前,我們唯有不停的學(xué)習(xí),拓展知識面,擴充知識儲備。等待每一次面試機會的來臨。
入職后,我的老板也挺喜歡我,帶我一起做了一些策略,我終于轉(zhuǎn)方向成功了。
以上全部就是我這次面試的經(jīng)過和所做的準(zhǔn)備,希望對大家有用。
六、結(jié)語
春已至,生活雖是曲折前進(jìn)的,但每個追求夢想的產(chǎn)品人,都在深情的堅持著。我走過很多路,才有機會和滿是碩士海龜?shù)耐聜冏谝黄疝k公。
我相信執(zhí)著過才知道機會的難能可貴,祝大家都能做到自己喜歡的方向。
#專欄作家#
大鵬,公眾號:一個數(shù)據(jù)人的自留地。人人都是產(chǎn)品經(jīng)理專欄作家《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》作者。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
太難了
還蠻勵志的。。找來算法工程師面試你我也是蠻驚訝的。。。
這個文章是產(chǎn)品經(jīng)理寫的么?感覺門檻好高呀
請推薦一些 適合策略產(chǎn)品經(jīng)理可以看的書, 謝謝!
搜索相關(guān)書籍
走進(jìn)搜索引擎
搜索引擎原理與實踐
這就是搜索引擎:核心技術(shù)詳解
計算廣告 互聯(lián)網(wǎng)商業(yè)變現(xiàn)的市場與技術(shù)
AI相關(guān)產(chǎn)品書籍
人工智能產(chǎn)品經(jīng)理:人機對話系統(tǒng)設(shè)計邏輯探究
人工智能產(chǎn)品經(jīng)理——AI時代PM修煉手冊
產(chǎn)品經(jīng)理進(jìn)化論:AI+時代產(chǎn)品經(jīng)理的思維方法
推薦和算法相關(guān)書籍
推薦系統(tǒng)實踐
推薦系統(tǒng):原理與實踐
NLP漢語自然語言處理原理與實踐
終極算法:機器學(xué)習(xí)和人工智能如何重塑世界
python自然語言處理
美團機器學(xué)習(xí)實踐
用戶網(wǎng)絡(luò)行為畫像
果然是知識儲備全靠看書, 感謝了!