隱私泄露下的數(shù)據(jù)暗網(wǎng),分類標簽中的愛恨一生

3 評論 7971 瀏覽 19 收藏 27 分鐘

談到隱私泄露這個話題,我們總會想起一個畫面——前腳,我們和朋友聊了某個商品;后腳,某平臺就推了相關(guān)產(chǎn)品出來。這時候的你會不會覺得平臺方在“監(jiān)聽”你,竊取你的數(shù)據(jù)?筆者認為事實并非如此,這一切的背后更像是分類標簽造成的。

01

自打人類進化中出現(xiàn)了商業(yè)的那一刻起,營銷,就成為了人類鉆研的核心。交易的本質(zhì)是價值交換,但世界上不存在永遠對等的價值,所以交換中存在套利空間,這些套利空間成就了商業(yè)的價值。

逐利是人的本性,這是刻在基因里的。

如何把一件產(chǎn)品附加上額外的價值,賣給自己的同類,換回更多的金錢,成了最打動人心的事情,比世界和平還要打動人。

畢竟和平是所有人的,而金錢是少數(shù)人的。

越少越珍貴。

縱觀人類歷史的每一個時代,最先進的技術(shù)往往都是最先應(yīng)用于軍事和貿(mào)易,而軍事,很多時候也都是為貿(mào)易所服務(wù)的。

從古至今皆是如此,大數(shù)據(jù)年代也不例外。

在這個人人標簽化的數(shù)字年代,廣告業(yè)前所未有的深入到了我們生活的方方面面,影響了我們的各種決策。

你以為你做出的購買決策是基于自身的意愿,但現(xiàn)實并不一定如此。

作為一個整日與數(shù)據(jù)標簽打交道的風控,反商業(yè)作弊也是我的日常工作,如果不懂商業(yè)廣告的底層邏輯,那么是做不好風控的。

這篇文章將給大家科普大數(shù)據(jù)廣告的精準推送原理,我想為大家展示一下數(shù)據(jù)在合理的策略里可以完成多么恐怖的事情,這是真正的改變世界,或者說是掌控世界。

這里面有謠言,也有真相,更多的是真相與謠言參半。甚至有時候真相比謠言更加魔幻。

02

讓人掏錢,不是一件簡單的事情,哪怕是有技術(shù)的支持。數(shù)據(jù)廣告推送,本身是一個極為復(fù)雜的工程,這里面涉及數(shù)據(jù)采集、數(shù)據(jù)清洗、口徑對齊、數(shù)據(jù)關(guān)聯(lián)、模型訓(xùn)練、策略迭代、場景驗證、流量分配、成本控制、渠道管理等一系列工作。

每家合格的數(shù)據(jù)驅(qū)動的營銷公司,都會有一只數(shù)百到上千人的團隊專門做相關(guān)的工作,數(shù)百個聰明的腦袋996只為做一件事——讓你在不知不覺中心甘情愿的掏錢。

靠一篇文章寫全這些,既不太現(xiàn)實,也沒必要,所以我決定圍繞一個關(guān)于大數(shù)據(jù)廣告非常經(jīng)典的謠言,從辟謠開始,來一步步拆解數(shù)據(jù)廣告推送的基礎(chǔ)知識以及對我們生活的影響。

很多人在網(wǎng)上說自己的的手機被人監(jiān)聽了,原因是自己剛和別人討論了某個話題,沒過多久,手機上就出現(xiàn)了類似信息的廣告。

  • 例如自己口述了想喝奶茶,打開外賣軟件就出現(xiàn)了奶茶推送。
  • 自己說想去歐洲旅游,打開網(wǎng)頁就出現(xiàn)了旅游廣告。
  • 自己談到了某種商品,打開購物APP就出現(xiàn)了類似商品的推送。

所以很多人覺得自己在被自己手上的APP所監(jiān)聽,然后這些監(jiān)聽依據(jù)相關(guān)的關(guān)鍵詞拆解講話的意思,然后就推送給自己各種各樣的廣告,精準不精準不說,著實是嚇人一跳。

有段時間,整個互聯(lián)網(wǎng)都在盛傳某某APP拿錄音權(quán)限就是為了實時監(jiān)控用戶,甚至某些APP還在偷偷錄像用戶云云。

我得承認大家的想象力是很豐富的,在不懂網(wǎng)絡(luò)廣告推送機制的前提下,提出這些猜想某種程度上也是合理的,但這都是謠言。

互聯(lián)網(wǎng)公司不會用這種方式來做所謂的精準推送。

不是他們良心發(fā)現(xiàn),而是這么做沒有性價比。

商人逐利。

03

為什么不用錄音做推送?從用戶角度思考方案,可能只考慮這件事是否能實現(xiàn),監(jiān)聽錄音從技術(shù)上可以實現(xiàn);

但是作為商業(yè)公司評估方案,除了需要考慮能不能實現(xiàn)這一點之外,還要綜合考慮成本,效率以及風險,馬虎不得。

商場如戰(zhàn)場。利用錄音做信息收集,然后做廣告推送,在當下,是一件成本極高,效率極低,風險極高的事情。

不僅要投入大量成本,連毛都賺不回來,還要面臨侵犯用戶隱私的指控,腦子沒冒煙的公司都不會做這件事,即使是冒煙的公司,做到一半就會發(fā)現(xiàn)劃不來,然后不做了。

錄音牽涉的主要問題如下:

1. 錄音功能會讓APP消耗海量手機資源

當一個APP在后臺持續(xù)錄音的時候,不僅是APP本身運轉(zhuǎn)會變得遲緩,更多的是會造成手機本身的耗電量和發(fā)熱大幅增加,一來二去,用戶直接就不使用了,因為一用你的APP手機就不好,市場上可選擇替代品又太多。

當年滴滴和快的大戰(zhàn)的時候,滴滴在關(guān)鍵時刻勝出靠的就是騰訊支持的1000臺服務(wù)器以及數(shù)百名頂尖工程師,比快的早半個月實現(xiàn)了用戶體驗的質(zhì)的飛躍,后面的故事大家都知道了。

2. 錄音文件本身是占用手機存儲空間的,并且占用極大

大家可以自己錄一段30分鐘的錄音看看,這個音頻文件會有多大,一個APP如果持續(xù)錄音,在用戶重度使用的情況下,可能幾天就把手機徹底塞滿了。

這會造成非?;闹嚨暮蠊?/p>

3. 錄音錄下來之后,無法及時處理這些錄音數(shù)據(jù)

如果把錄音處理模型放在本地APP里,那么一個是APP安裝包臃腫,一個是會被競爭對手反編譯,商業(yè)機密直接透明。

把核心能力包在APP本地,是很愚蠢的事情,吃雞為什么外掛屢禁不止,就是因為運算整體在本地文件,無法抵擋本地篡改,所以本地存儲方案不靠譜;如果走實時上傳,那么傳輸過程中需要流量,這造成用戶的流量損耗極為恐怖,并且很容易就被識別出來上傳用戶信息;這些數(shù)據(jù)屬于無用數(shù)據(jù)。

4. 錄音分析來的數(shù)據(jù)價值低,且不準確

如果手機APP監(jiān)聽錄音,那么首先得保障他監(jiān)聽到的是你本人講的話,因為推薦是要對你本人進行操作的,但是在現(xiàn)實生活中,錄音沒法保證只錄某個人的聲音,要錄就是一起錄音,這就導(dǎo)致錄下來的聲音也不知道是誰的。

想想看,我在你身邊走過,沖著隔壁的人大喊一聲“杜蕾斯”。

然后你打開手機給你推薦杜蕾斯,這種沙雕推薦是不是非常魔幻?

這就是無差別錄音帶來的問題。

5. 語義分析在目前依然面臨無法解決的語言本身的問題

人類的語言是一門藝術(shù),漢語更是高階藝術(shù),而機器尚未破解這一藝術(shù)。

如果大家試過錄音轉(zhuǎn)文字,或者語音輸入法,就會發(fā)現(xiàn),機器沒有辦法完整的識別有效的語言場景。

我們來做一個語義識別題:

領(lǐng)導(dǎo):“你這是什么意思?”

小明:“沒什么意思,意思意思?!?/p>

領(lǐng)導(dǎo):“你這就不夠意思了?!?/p>

小明:“小意思,小意思。”

領(lǐng)導(dǎo):“你這人真有意思?!?/p>

小明:“其實也沒有別的意思。”

領(lǐng)導(dǎo):“那我就不好意思了?!?/p>

小明:“是我不好意思?!?/p>

這里面的每一個意思,都是什么意思?

機器根本做不到識別這些內(nèi)容。甚至很多時候你只要講方言或者講話一快,機器就根本不知道你在說什么了。

精準推送的前提是數(shù)據(jù)可靠且精準,錄音絕不在這種數(shù)據(jù)中。

6. 錄音帶來的風險,要遠遠超過收益

錄音這件事情,本身是非常敏感的,要是哪個APP能被明確抓出來在偷偷錄音(目前所有的質(zhì)疑都只是質(zhì)疑,沒有明確的數(shù)據(jù)和代碼證據(jù)),第一個搞他們的不是網(wǎng)民,而是工信部。

這種侵犯隱私的行為,正是抓緊去教育的好時機。而公司只為求財,不想求進監(jiān)獄里。

看到這里,我想很多人對于錄音這種謠言已經(jīng)足夠了解了,但是還是有疑惑自己身上發(fā)生的神奇的事情,沒關(guān)系,我們繼續(xù)講下去,看看真正的數(shù)據(jù)推送是怎么做的。

我們?nèi)绾瓮ㄟ^巧妙的技術(shù)把我們自己困在廣告里。

04

數(shù)據(jù)推送是如何實現(xiàn)的?

一套最最基礎(chǔ)解法是——X+N=Y,這是最簡單的公式。

X是指的用戶特征變量(用戶畫像),N是指變量應(yīng)用(算法,策略),Y是指推送效果(用戶是否購買)。

所有收集來的用戶數(shù)據(jù),經(jīng)過標準化ETL(數(shù)據(jù)處理),再經(jīng)過特征工程,形成有效的X。

有了X之后,N就是如何使用X,讓最終結(jié)果更接近于Y。

這里可以利用算法,也可以使用策略包,目前的主流是使用策略包,因為算法的效果隨機性比較大。

所謂的精準推送,本質(zhì)上其實就是一個用X和N尋找接近Y的過程,所謂的訓(xùn)練模型,只不過是在已知X和Y的情況下,找尋可以讓X更接近Y的算法,找出更好用的N。

單純這么說比較抽象,我舉一個例子大家就明白了。

半佛是一個18歲的美少年,曾經(jīng)在淘寶上買了很多XX品牌的跑鞋,并且經(jīng)常搜索大體重跑鞋。

從廣告推送的角度,針對美少年半佛的推送會這么做。

首先拆解半佛身上的標簽,做成X。

男性,18歲,XX省人,學歷XX,跑鞋,大體重,常用購物平臺,手機型號,APP來源,手機入網(wǎng)時長,話費消費記錄等等,這些標簽都是X,來自于各種各樣的數(shù)據(jù)源。

然后通過過去的購買記錄,找到半佛曾經(jīng)購買過的商品,就是各類跑鞋,做成Y。

一個簡單的用戶畫像就出來了:年輕男性,熱愛跑步,胖,樂意花錢,有品牌傾向性,喜歡在淘寶購物,多數(shù)購物來自于主動搜索。

那么這時候就可以通過一定的策略,給半佛推薦大量的符合他歷史購買習慣的跑鞋(從品牌到型號到價格),如果成交了,就代表算法有效,進一步強化推送;

如果沒有成交,就弱化部分特征,推送新一批跑鞋,只要成交,就依據(jù)成交結(jié)果修正算法。

最終半佛只是無聊刷淘寶,但是最終買了1000雙跑鞋回家,然后又掛到了閑魚上,創(chuàng)造了好幾次GMV。

當然實際應(yīng)用中會比這個公式要復(fù)雜很多,各種變量間的衍生變量,不同用戶間的關(guān)系網(wǎng)絡(luò)變量,同一個用戶在不同場景中要匹配不同的Y,X作為Y,Y作為X,用戶消費心理勾畫,產(chǎn)品要素設(shè)計等等等等,廣告推送可以說是互聯(lián)網(wǎng)最復(fù)雜的應(yīng)用,可能都沒有之一。

因為人的購買欲是不穩(wěn)定的。

上面舉的例子僅僅是復(fù)雜度為1的情況,實際在應(yīng)用中,數(shù)據(jù)和公式的復(fù)雜度基本是10086起。

考慮到本文是科普性質(zhì),所以我只拿最基本的東西來講,大家了解這個數(shù)據(jù)推送的邏輯就可以了,算法本身不是重點。

真正的重點在于精準數(shù)據(jù)的獲取,這才是對我們生活影響最大的。

數(shù)據(jù)時代的我們,一切都可以量化。

05

很多人所謂的自己偶爾說了什么,然后就收到了相關(guān)的廣告,所以懷疑自己被錄音。我理解這種想法,但我要說實現(xiàn)這樣的效果,根本不需要錄音這么麻煩,有的是更精準的方法來獲取你的X。

1. 最基礎(chǔ)的就是你的主動搜索記錄

包括你在搜索引擎上的搜索,你在購物網(wǎng)站的搜索,你在各種APP(不一定要是購物)中的搜索,這些你主動搜索的信息,都是高權(quán)重的X。

如果是網(wǎng)頁端的搜索,那么瀏覽器和搜索引擎都會留存你的cookie,即使你有定期清除瀏覽記錄的習慣或者知道每次上完網(wǎng)清cookie也沒用,現(xiàn)在云計算的發(fā)展已經(jīng)可以做到實時上傳,你清除也沒用。

2. 除開搜索記錄和購物記錄外,最精準的數(shù)據(jù)之一就是手機App List、注冊APP列表

就是你的手機曾經(jīng)安裝過哪些APP,當前手機安裝了什么什么APP,以及每一個APP的打開率,使用時長等等。

這個通過用戶授權(quán)直接讀取APP列表以及通過短信驗證碼反推安裝注冊可以實現(xiàn),即使是號稱IOS,也可以通過APP跳轉(zhuǎn)撞庫的方式來撞出至少48個APP。

每一個APP都是代表了一大串的X,畢竟每個APP都有自己的屬性和目標用戶,這些特征都是很顯著的。

  • 你安裝了拼多多,可能代表你是一個價格敏感型用戶,可以給你推送便宜貨;
  • 你安裝了Bilibili,可能代表你是一個喜歡二次元的用戶,可以給你推薦動漫周邊;
  • 你每天大量時間沉迷在抖音,可能代表你是一個熱衷于Kill Time的人,當然頭條還會用你在抖音中的瀏覽記錄來更精細化的推薦各種二類電商產(chǎn)品。

你用什么APP,某種程度上在機器眼中你就是什么人。

3. LBS地理位置是一個非常有用,但是很多人都會忽略的內(nèi)容

很多所謂的談到奶茶后,打開外賣APP會彈出奶茶店鋪廣告的案例,其實都是因為使用了LBS推送。

大家都知道APP會實時獲取用戶的地理位置,生成與之相關(guān)的X,而外賣店鋪,本身也有自己的業(yè)務(wù)輻射范圍。

當你走入到這個外賣店鋪的輻射圈子的地理位置時,就給你推送相關(guān)的信息,讓你不得不看。

某著名網(wǎng)紅插,就經(jīng)常喜歡對自己門店2公里內(nèi)的外賣APP用戶進行無差別推送,別管你喝不喝,來了就先看個廣告吧。

獲取LBS的途徑有很多,很多時候通過WIFI的固定連接點,也可以識別你是不是在那幢樓辦公或者生活,然后圍繞這一變量給你進行推送。

你在哪里,你就是誰。

4. 聊天記錄讀取、短信讀取太尋常了,我要說的是,輸入法

只要你打字,你的輸入法是知道你鍵入了什么內(nèi)容的,這部分內(nèi)容,都會被留存下來,然后作為你特征變量的一部分,這可比錄音要好多了,因為百分百是你本人打的字,而且文字表達的含義也更加清晰。

某些輸入法,就在做著這樣的事情。

輸入法既然可以監(jiān)控你的錄入,當然也可以直接讀取你的剪貼板,看到你曾經(jīng)讀取過什么。甚至技術(shù)厲害一點的,可以直接監(jiān)控你的鍵盤軌跡,連你曾經(jīng)打出來但是又刪除掉的內(nèi)容都拿到。

哦對了,關(guān)于錄音,有一點是真的,就是當你用輸入法的語音錄入功能的時候,他們確實是知道你的錄音的,只不過不是讀聲音,而是通過錄音轉(zhuǎn)錄文字后的關(guān)鍵詞,是讀文字。

輸入法對于用戶隱私的監(jiān)控與泄露,是非常嚴重的,而且大多數(shù)人都無從感知。

你忘記的,輸入法都記得呢。

5. 手機本身就是一個最大的隱私收集器,在系統(tǒng)廠商和硬件廠商眼中,大家其實都是裸奔的。

再講一個恐怖故事,這些從各種APP,各類輸入法,各種手機中收集來的用戶數(shù)據(jù),都是可以交易的,各家公司都在利用這些數(shù)據(jù)。

隨便舉一個例子。

用戶在今日頭條APP中用百度輸入法輸入【尿不濕】,百度和今日頭條都知道用戶在今日頭條輸入了這個【尿不濕】,他們有了這個數(shù)據(jù),這個數(shù)據(jù)并且是直接關(guān)聯(lián)用戶手機號的,就是說,大家知道是誰,在什么時間,在哪個APP里,輸入了什么。

而這條精準的用戶信息,是可以賣給淘寶或者京東的,淘寶獲取了這個信息后,就可以對這個手機號關(guān)聯(lián)的用戶去進行相關(guān)的推送。

這個市場的體量和交易額遠遠超出所有人的想象,但是知道的人卻寥寥無幾。

06

如果要窮舉各種APP各種手機收集和利用用戶隱私的案例,可能講幾天幾夜也講不完。我來給大家講一個基于數(shù)據(jù)采集的用戶畫像案例吧,看看我們的一生是如何被數(shù)據(jù)拆解的。

下面的文字部分為正常生活描述,括號內(nèi)為獲取這些數(shù)據(jù)的途徑。

  • 小明,在廣告公司上班(通過短信讀取公積金信息,或者支付寶綁定公積金)。
  • 28歲,男性(身份證號拆解)。
  • 本科學歷(學信網(wǎng)接口通過身份證號調(diào)用),外地人(身份證號前6位對比工作所在地)。
  • 租房(租房APP或者代繳水電費賬戶名字與本人不同)。
  • 貸款買了一輛小車(貸款A(yù)PP數(shù)據(jù),支付寶綁定行駛證,每月短信還款提醒)。
  • 平時的消費愛好是買書和拼多多(支付類APP付款記錄),以及打手游(游戲類APP以及賬號體系)。
  • 經(jīng)常去XX網(wǎng)吧通宵(外賣收貨地址,網(wǎng)吧管理軟件用戶體系)。
  • 住在XX小區(qū)(快遞收貨地址,手機LBS活躍圈,WIFI連接熱點)。
  • 偶爾也去旅游(車票酒店購買記錄,異地網(wǎng)紅店消費記錄)。
  • 甚至喜歡看點小電影(瀏覽器記錄,購買付費記錄,轉(zhuǎn)發(fā)記錄)。
  • 朋友很多(好友數(shù),日?;钴S好友數(shù),通話記錄與通訊錄的交集),朋友們的消費水平也一般般。
  • 收入一般般(短信讀取銀行到賬短信,手機話費余額消費賬單)。
  • 有一個女朋友小紅(聊天記錄,通訊錄,通話詳單),已經(jīng)同居(購買大量女性生活用品)。
  • 女朋友公司在XXX(基于小明除家里以外的收貨地址,關(guān)聯(lián)一些女性物品交易記錄)。
  • 快要結(jié)婚了(網(wǎng)上搜索大量與結(jié)婚有關(guān)的信息,下載了婚禮類APP)。
  • 最近可能要當父親了(查看嬰兒用品,網(wǎng)上搜索很多育兒經(jīng))。
  • 最近手頭有點緊(下載了很多借款A(yù)PP,讀取短信可以知道有些下款了,外部可以采購到他的多頭負債情況)。
  • 等等等等等等等(10086個等等)。

如果你是廣告商,你拿到了這些數(shù)據(jù),你可以非常精準的在小明人生的每一個階段,都恰恰好推送一些恰恰好的廣告,很多人可能光看描述就已經(jīng)在構(gòu)思營銷方案了。

而且,這還只是小明一個人的數(shù)據(jù),如果再加上小紅的數(shù)據(jù)、小明朋友的數(shù)據(jù)、小明父母的數(shù)據(jù),最終就會成為一張關(guān)系網(wǎng)。

  • 例如當小紅在搜索孕婦裝的時候,其實就可以給小明推薦奶粉和嬰幼兒保險了。
  • 例如小明在搜索各種片子的時候,其實就可以給小紅推薦一些情趣用品了。

這種關(guān)聯(lián)多如漫天繁星。星空下是我們平凡的人生。如戲一般的人生,劇本不在我們手中。我們只是一顆棋子。

07

斯諾登的棱鏡事件大家都還記得吧,美國政府在全世界范圍搞監(jiān)聽。但要我說,棱鏡那個東西,在大數(shù)據(jù)多維交叉驗證面前,只是上個世紀的玩具。

通過數(shù)據(jù)挖掘和收集,我知道你的愛好,知道你的活動范圍,知道你的詳細信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。

我比你還要懂你。

為什么我國政府近幾年特別重視個人隱私,對于各種濫用隱私行為都是嚴厲的打擊,每年都有大量數(shù)據(jù)從業(yè)者被送進去?

因為當企業(yè)知道用戶的一切的時候,某種程度上,就可以通過推送,來影響用戶的一切。這個影響可以是精準推送賺錢,也可以是做的更多。

還記得美國大選的時候,F(xiàn)aceBook直接倒賣用戶數(shù)據(jù)來監(jiān)控輿情,甚至通過精準推送來影響大選的結(jié)果?

這是一種超越國界的能力。不僅僅是改變世界,甚至是掌控世界。

而回到我們自己。我們的一切,在公司眼中,只是一個個數(shù)據(jù)標簽,是達到他們目的的必要生產(chǎn)資料而已。他們做的就是把我們做成數(shù)據(jù),然后向我們灌輸數(shù)據(jù),從我們身上得到他們想要的東西。

我們一生的歡笑與淚水,開心與難過,認真的思考,謹慎的決策,最終都不過是一組數(shù)據(jù),都是可以被拿來利用的。他們甚至都不屑于支配我們,你會去沖著一堆數(shù)據(jù)使勁兒嗎?他們只需要調(diào)整參數(shù)就可以達到目的。

現(xiàn)在巨頭們已經(jīng)完成了數(shù)據(jù)的合圍,然后通過交易來壟斷這些數(shù)據(jù)。我們的一切都透明了,再技術(shù)飛速進步的年代,錢和權(quán)力都無法阻止這一切發(fā)生,除了死亡外,人類在大數(shù)據(jù)面前也是平等的。

這一切都不是秘密,完全是公開的事情,甚至那些賣數(shù)據(jù)的公司都恨不得自己去打廣告找到更多的買家來買,因為賣的人太多了,市場競爭過于激烈,數(shù)據(jù)量過于飽和。

這魔幻又現(xiàn)實。

數(shù)據(jù)像大白菜一樣擺在那里交易,交易的是我們每個人的人生。我們的一生的故事都在里面,愛也在,恨也在。大數(shù)據(jù)的發(fā)展確實給生活增加了便利,這無可否認。但如何掌握數(shù)據(jù)采集和數(shù)據(jù)應(yīng)用的度?這是一個很大的問題。

更大的問題在于,這種被設(shè)計好的生活,真的是我們想要的嗎?

我還沒有答案,你呢?

 

作者:半佛仙人,微信公眾號:半佛仙人(ID:banfoSB),這是一個神奇的男人,你完全猜不出他會寫出什么,他自己也不知道。

來源:https://mp.weixin.qq.com/s/bJQ_MvHQINZYovkZfsbqLA

本文由@半佛仙人 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看的人脊背發(fā)涼啊…..

    來自北京 回復(fù)
  2. 昨天聽了林子祥的《數(shù)字人生》,今天就看到了你這篇文章。。。

    來自江蘇 回復(fù)
  3. 描述得很nice呀,簡單易懂有意思

    來自北京 回復(fù)