互聯(lián)網(wǎng)“蟲患”難除
編輯導(dǎo)語(yǔ):作為一項(xiàng)計(jì)算機(jī)技術(shù),爬蟲能自動(dòng)且高效地瀏覽互聯(lián)網(wǎng)完成“復(fù)制、抓取”兩個(gè)動(dòng)作,存在于互聯(lián)網(wǎng)生活的方方面面,而廣泛應(yīng)用的背景下,也存在著不少“蟲患”。本文作者分析了這一問題,推薦感興趣的朋友們閱讀。
爬蟲幾乎伴隨著整個(gè)互聯(lián)網(wǎng)的發(fā)展,作為一項(xiàng)計(jì)算機(jī)技術(shù),它能自動(dòng)且高效地瀏覽互聯(lián)網(wǎng)完成“復(fù)制、抓取”兩個(gè)動(dòng)作。如果完全封禁網(wǎng)絡(luò)爬蟲,可能導(dǎo)致互聯(lián)網(wǎng)發(fā)展“寸步難行”;但倘若不設(shè)置任何“屏障”,又可能導(dǎo)致互聯(lián)網(wǎng)淪為“數(shù)字叢林”。
法律難以確定一項(xiàng)“既要…又要…”的規(guī)則來劃定爬蟲合法界限。
robots協(xié)議作為國(guó)際互聯(lián)網(wǎng)通行道德規(guī)范,但卻常常被網(wǎng)絡(luò)惡意訪問者所無視,有的網(wǎng)絡(luò)爬蟲行為直接侵害他人權(quán)益,有的網(wǎng)絡(luò)爬蟲行為直接涉嫌犯罪,更多的網(wǎng)絡(luò)爬蟲行為處于法律灰色地帶之中,圍繞著“爬蟲”與“反爬蟲”成為了互聯(lián)網(wǎng)世界中的“永無休止戰(zhàn)”,目的都是:獲得數(shù)據(jù)。
當(dāng)數(shù)據(jù)權(quán)屬懸而未決,也就注定了網(wǎng)絡(luò)爬蟲戰(zhàn)爭(zhēng)難以落幕。
一、爬蟲經(jīng)過之地,“樂園”還是“焦土”?
網(wǎng)絡(luò)爬蟲是一種“自動(dòng)瀏覽萬(wàn)維網(wǎng)”的網(wǎng)絡(luò)機(jī)器人,它作為一項(xiàng)計(jì)算機(jī)技術(shù),自動(dòng)且高效地瀏覽互聯(lián)網(wǎng)并完成“復(fù)制、抓取”兩個(gè)動(dòng)作。“爬蟲”二字在中文語(yǔ)境帶有“貶義”,不免讓人聯(lián)系成為一類有害之物,必須加以消滅。
但實(shí)際上,網(wǎng)絡(luò)爬蟲是項(xiàng)中立的技術(shù),合理合法地使用,它可以如同蜜蜂擴(kuò)散傳播花粉般,在互聯(lián)網(wǎng)上充當(dāng)著信息自由交換的工具;但如有使用者心懷叵測(cè),它也可以掀起一場(chǎng)“蝗災(zāi)”,讓網(wǎng)站、App瞬間崩潰,或是侵犯?jìng)€(gè)人隱私。
爬蟲技術(shù)最常見運(yùn)用在搜索引擎中,爬蟲可以將自己所訪問的頁(yè)面數(shù)據(jù)保存下來,制作成為索引以便供用戶搜索網(wǎng)頁(yè)。通常而言,搜索引擎爬蟲是網(wǎng)站經(jīng)營(yíng)者樂于接受的,爬蟲訪問會(huì)提升網(wǎng)站的曝光率。但有些時(shí)候,爬蟲并不“受人歡迎”。
2019年,國(guó)內(nèi)外不少網(wǎng)站經(jīng)營(yíng)者抱怨遭遇了一些搜索引擎爬蟲的訪問,因訪問頻率過高,一度令一些網(wǎng)站癱瘓。
“短短一上午時(shí)間就收到了46萬(wàn)次請(qǐng)求,消耗掉服務(wù)器7.42GB流量。這對(duì)平均日活可能都沒有過千的小網(wǎng)站來說,已經(jīng)算得上一次小型的DDoS攻擊。”一位遭遇Bytespider爬蟲網(wǎng)站經(jīng)營(yíng)者對(duì)此感嘆道。
DDos攻擊:指通過大規(guī)模互聯(lián)網(wǎng)流量淹沒目標(biāo)服務(wù)器或其周邊基礎(chǔ)設(shè)施,以破壞目標(biāo)服務(wù)器、服務(wù)或網(wǎng)絡(luò)正常流量的惡意行為。
“通常爬蟲會(huì)定位網(wǎng)站所有的URL鏈接,獲取頁(yè)面里的數(shù)據(jù),再對(duì)數(shù)據(jù)進(jìn)行拆解利用。無論是在網(wǎng)頁(yè)端還是移動(dòng)端,爬蟲都基于這樣的原理。”歐萊雅中國(guó)區(qū)數(shù)字化負(fù)責(zé)人劉煜晨介紹?!皩?duì)于那些小網(wǎng)站或者技術(shù)實(shí)力弱的網(wǎng)站,如果被爬蟲7?24小時(shí)持續(xù)的大量訪問,可能因服務(wù)器無法承受導(dǎo)致網(wǎng)站崩潰?!?/p>
在現(xiàn)實(shí)生活中,其實(shí)很多人都與爬蟲“打過交道”。
比如,逢年過節(jié)之時(shí),為確保能買到回家火車票,有人會(huì)選擇使用“搶票軟件”,這個(gè)軟件就是利用網(wǎng)絡(luò)爬蟲來登錄鐵路售票網(wǎng)絡(luò),并爬取票務(wù)信息,然后輔以批量化、自動(dòng)化和高速化的購(gòu)票流程處理,從而能以毫秒級(jí)的刷新來獲取人工購(gòu)票難以企及的信息和速度優(yōu)勢(shì)。顯然,這種“充錢加塞”的方式顯然對(duì)正常渠道的購(gòu)票者有失公平。
網(wǎng)絡(luò)爬蟲不光消耗“被爬取方”網(wǎng)站的流量,同時(shí)能夠“抓走”網(wǎng)站頁(yè)面的數(shù)據(jù),因此常引發(fā)紛爭(zhēng)。
2016年,百度因大量使用爬蟲抓取大眾點(diǎn)評(píng)的點(diǎn)評(píng)信息,在百度地圖中進(jìn)行展示,后被大眾點(diǎn)評(píng)訴至法院。法院審理認(rèn)為,百度的行為違反了公認(rèn)的商業(yè)道德和誠(chéng)實(shí)信用原則,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。
對(duì)編寫網(wǎng)絡(luò)爬蟲的程序員來說,如果爬到不該爬取的數(shù)據(jù),則存在違法的可能。程序員圈內(nèi)對(duì)此戲稱,“爬蟲寫得好,牢飯吃得早”。
從裁判文書網(wǎng)的檢索結(jié)果來看,利用網(wǎng)絡(luò)爬蟲作為犯罪工具涉及的主要罪名有:
- 侵犯公民個(gè)人信息罪
- 非法獲取計(jì)算機(jī)信息系統(tǒng)罪
- 破壞計(jì)算機(jī)信息系統(tǒng)罪
- 傳播淫穢物品牟利罪
- 侵犯知識(shí)產(chǎn)權(quán)罪
- 詐騙罪等
目前,能夠檢索到50余件相關(guān)判例。
二、robots協(xié)議,一扇虛掩著的門
談?wù)摼W(wǎng)絡(luò)爬蟲,就不可避免地談及robots協(xié)議,它好比你懸掛在酒店房門口“請(qǐng)勿打擾”或者“請(qǐng)即打掃”告示牌,旨在通過代碼來溝通“爬取方”和“被爬取方”之間的“爬取意愿”。
1994年,荷蘭工程師傅馬丁·科斯特(Martijn Koster)起草了robots協(xié)議,而起草這份協(xié)議的初衷,正是由于馬丁·科斯特自建的網(wǎng)站經(jīng)常被爬蟲所淹沒。馬丁·科斯特認(rèn)為,被爬蟲抓取數(shù)據(jù)這件事是把雙刃劍,良好的爬取可以提高網(wǎng)站的曝光率,而惡意的爬取可能會(huì)導(dǎo)致服務(wù)器壓力暴增而導(dǎo)致崩潰。
robots協(xié)議寫法,例如:禁止Google爬蟲User-agent: Googlebot
Disallow: /
馬丁·科斯特起草的robots協(xié)議后來成為互聯(lián)網(wǎng)世界通行的道德規(guī)范,但這份協(xié)議更像是一份“君子協(xié)議”。馬丁·科斯特聲稱,該協(xié)議既不是強(qiáng)制性標(biāo)準(zhǔn),沒有任何強(qiáng)制執(zhí)行力,僅是一項(xiàng)技術(shù)措施,違反它只能放在商業(yè)道德的范疇來評(píng)價(jià)。
2012年11月1日,由中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)牽頭,robots協(xié)議寫入了由12家中國(guó)互聯(lián)網(wǎng)企業(yè)簽署了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》中,此后成為多起“網(wǎng)絡(luò)爬蟲”相關(guān)訴訟案件法院裁判所參考的規(guī)則。
遵循國(guó)際通行的行業(yè)慣例與商業(yè)規(guī)則,遵守機(jī)器人協(xié)議(robots協(xié)議)。
——《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第七條第1款
互聯(lián)網(wǎng)所有者設(shè)置機(jī)器人協(xié)議(robots協(xié)議)應(yīng)遵循公平、開放和促進(jìn)信息自由流動(dòng)的原則,限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由,不利用機(jī)器人協(xié)議進(jìn)行不正當(dāng)競(jìng)爭(zhēng)行為,積極營(yíng)造鼓勵(lì)創(chuàng)新、公平公正的良性競(jìng)爭(zhēng)環(huán)境。
——《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》第八條
而robots協(xié)議被更多人所知曉,起因于2013年的“360訴百度不正當(dāng)競(jìng)爭(zhēng)案”。該案原告奇虎公司指出,2012年8月16日,奇虎公司上線運(yùn)營(yíng)“360搜索引擎”,但百度并未在相關(guān)網(wǎng)站的robots協(xié)議中將“360搜索引擎”列入其“白名單”。故奇虎指控百度的行為構(gòu)成不正當(dāng)競(jìng)爭(zhēng),將其訴至法院,之后百度敗訴。
可能是為了讓人們更好地理解相關(guān)的原理,法院在一審判決中作出了形象的解釋,“robots協(xié)議就相當(dāng)于在博物館入口處懸掛的提示牌,告知游客哪些區(qū)域不對(duì)外開放,提示牌的目的并不是限制游客的正常參觀活動(dòng),而是通過提示游客哪些區(qū)域?yàn)榉菂⒂^區(qū),從而引導(dǎo)游客更有效的參觀游覽。提示牌的內(nèi)容對(duì)所有游客應(yīng)一視同仁,如果要禁止某一類人進(jìn)入?yún)⒂^,則需要有合理、正當(dāng)?shù)睦碛??!?/p>
百度后來提起上訴認(rèn)為,搜索引擎遵循robots協(xié)議就是遵守行業(yè)慣例和公認(rèn)的商業(yè)道德。
robots協(xié)議體現(xiàn)了網(wǎng)站與搜索引擎之間的交易自由,而一審判決以“促進(jìn)信息共享”為由限制互聯(lián)網(wǎng)內(nèi)容提供者自由選擇交易對(duì)象,若要求設(shè)置robots協(xié)議限制通用搜索引擎抓取應(yīng)當(dāng)具有的合理正當(dāng)理由,實(shí)質(zhì)上將廢止robots協(xié)議。
上訴案件經(jīng)過長(zhǎng)達(dá)近六年的審理,二審法院于2020年7月做出維持原判的決定。二審法院認(rèn)為,“百度在缺乏合理、正當(dāng)理由的情況下,以對(duì)網(wǎng)絡(luò)搜索引擎經(jīng)營(yíng)主體區(qū)別對(duì)待的方式,故構(gòu)成反不正當(dāng)競(jìng)爭(zhēng)法第二條規(guī)定所指的不正當(dāng)競(jìng)爭(zhēng)行為。”
經(jīng)營(yíng)者在生產(chǎn)經(jīng)營(yíng)活動(dòng)中,應(yīng)當(dāng)遵循自愿、平等、公平、誠(chéng)信的原則,遵守法律和商業(yè)道德。
——《反不正當(dāng)競(jìng)爭(zhēng)法》第二條
盡管是一項(xiàng)通行規(guī)則,但robots協(xié)議僅是一道“虛掩著的門”,無法在實(shí)質(zhì)上限制爬蟲。
“robots協(xié)議只是文字宣示,不是技術(shù)措施,客觀上無法阻止網(wǎng)絡(luò)機(jī)器人抓取網(wǎng)絡(luò)數(shù)據(jù)?!?/p>
在北京微夢(mèng)創(chuàng)科網(wǎng)絡(luò)技術(shù)有限公司(下稱“微夢(mèng)創(chuàng)科”)與北京字節(jié)跳動(dòng)科技有限公司(下稱“字節(jié)跳動(dòng)”)不正當(dāng)競(jìng)爭(zhēng)糾紛中,一審被告新浪微博所屬的微夢(mèng)創(chuàng)科在上訴狀中如此表示。
在該案中,一審原告字節(jié)跳動(dòng)認(rèn)為新浪微博將其添加至robots協(xié)議的“黑名單”無合理理由,違反了相關(guān)法律規(guī)定和行業(yè)公認(rèn)的商業(yè)道德,構(gòu)成不正當(dāng)競(jìng)爭(zhēng),訴請(qǐng)法院判令微夢(mèng)創(chuàng)科停止不正當(dāng)競(jìng)爭(zhēng)行為、刊登道歉聲明、賠償其經(jīng)濟(jì)損失1億元及制止侵權(quán)的50萬(wàn)元支出。
2017年,微夢(mèng)創(chuàng)科一審敗訴,北京市知識(shí)產(chǎn)權(quán)法院支持字節(jié)跳動(dòng)停止不正當(dāng)競(jìng)爭(zhēng)、刊登道歉聲明的請(qǐng)求,酌定微夢(mèng)創(chuàng)科向字節(jié)跳動(dòng)賠償經(jīng)濟(jì)損失30萬(wàn)元及制止侵權(quán)的34343元支出。
北京市知識(shí)產(chǎn)權(quán)法院的主張與“360訴百度不正當(dāng)競(jìng)爭(zhēng)案”相似。
“本質(zhì)上按照經(jīng)營(yíng)主體來區(qū)分網(wǎng)絡(luò)信息是否可以被抓取,…….此種針對(duì)性的限制措施顯然與行業(yè)公認(rèn)的robots協(xié)議公平、開放和促進(jìn)信息自由流動(dòng)原則不符,與互聯(lián)網(wǎng)行業(yè)普遍遵從的開放、平等、分享、協(xié)作的互聯(lián)網(wǎng)精神相悖,不利于維護(hù)公平參與、理性競(jìng)爭(zhēng)的互聯(lián)網(wǎng)市場(chǎng)競(jìng)爭(zhēng)環(huán)境?!?/p>
四年后,北京市高級(jí)人民法院對(duì)該案作出二審判決,撤銷一審判決,并駁回了字節(jié)跳動(dòng)所有訴訟請(qǐng)求。
法院認(rèn)為,“robots協(xié)議在某種意義上已經(jīng)成為維系企業(yè)核心競(jìng)爭(zhēng)力,維系市場(chǎng)有序競(jìng)爭(zhēng)的一種手段。盡管robots協(xié)議客觀上可能造成對(duì)某個(gè)或某些經(jīng)營(yíng)者的“歧視”,但在不損害消費(fèi)者利益、不損害公共利益、不損害競(jìng)爭(zhēng)秩序的情況下,應(yīng)當(dāng)允許網(wǎng)站經(jīng)營(yíng)者通過robots協(xié)議對(duì)其他網(wǎng)絡(luò)機(jī)器人的抓取進(jìn)行限制,這是網(wǎng)站經(jīng)營(yíng)者經(jīng)營(yíng)自主權(quán)的一種體現(xiàn)?!?/p>
“技術(shù)是中立的,但技術(shù)應(yīng)用永遠(yuǎn)不是中立的?!?/strong>新浪集團(tuán)訴訟總監(jiān)張喆對(duì)此表示,“評(píng)價(jià)爬蟲技術(shù)原理沒有意義,更重要的是爬蟲技術(shù)用來干什么,看它的行為本身是否具有正當(dāng)性?!?/strong>
設(shè)置robots協(xié)議像是一道“虛掩著的門”,盡管協(xié)議用文字向爬蟲宣告“是否接受爬取”以及“可以爬取的范圍”,但它本質(zhì)上僅是并不能阻攔爬蟲訪問。設(shè)置robots協(xié)議的行為在全球各地的司法裁判中也得到不同的評(píng)價(jià)。
2017年,在HiQ訴領(lǐng)英案中,HiQ公司對(duì)領(lǐng)英網(wǎng)站實(shí)施了網(wǎng)絡(luò)爬蟲,但加利福尼亞北區(qū)地區(qū)法院的法官認(rèn)為,這種爬蟲行為并不違反法律,因?yàn)轭I(lǐng)英網(wǎng)站上的數(shù)據(jù)是公開數(shù)據(jù),對(duì)于公開數(shù)據(jù),即使違反對(duì)方設(shè)置的robots協(xié)議,也應(yīng)當(dāng)是被法律允許的。
法官認(rèn)為,爬蟲行為就像在白天推開一家未鎖門的商店進(jìn)去看看,并不能將其認(rèn)定為非法侵入。
法院最后不僅沒有認(rèn)定 HiQ公司的爬蟲行為違法,甚至反過來認(rèn)定領(lǐng)英的反爬蟲技術(shù)違法,要求領(lǐng)英公司移除針對(duì)HiQ的接入壁壘。但目前,該案由美國(guó)最高法院發(fā)回至舊金山第九巡回上訴法院重審。
早年間,以爬蟲技術(shù)訪問他人網(wǎng)站內(nèi)容,視為對(duì)于他人財(cái)產(chǎn)權(quán)的侵犯。
1992年,eBay訴Bidder’s Edge(一家提供拍賣信息的網(wǎng)站)案中,eBay指控Bidder’s Edge未經(jīng)許可復(fù)制了eBay網(wǎng)站的內(nèi)容,eBay已通過robots協(xié)議進(jìn)行限制,但Bidder’s Edge并未遵守。審理此案的法官指出,eBay的服務(wù)器是私有財(cái)產(chǎn),eBay授予公眾可以有條件的訪問,并禁止包括Bidder’s Edge在內(nèi)所采取的自動(dòng)化式的訪問。
審理此案法官認(rèn)為,超出同意的范圍,就構(gòu)成對(duì)他人財(cái)產(chǎn)的侵犯;而Bidder’s Edge的行為明顯超越了eBay允許的使用范圍,構(gòu)成非授權(quán)的使用,是對(duì)eBay財(cái)產(chǎn)的侵犯。法官認(rèn)可robots協(xié)議既是權(quán)利人保護(hù)私有財(cái)產(chǎn)的一種正當(dāng)技術(shù)手段,設(shè)置robots協(xié)議為免受爬蟲騷擾性訪問的通行做法。
如被抓取的數(shù)據(jù)涉及侵犯知識(shí)產(chǎn)權(quán),是否設(shè)置robots協(xié)議則還成為授權(quán)許可與否的判斷,而這點(diǎn)各國(guó)采取的判斷標(biāo)準(zhǔn)則完全不一。
在2006年,美國(guó)的Field訴Google案中,原告布雷克·菲爾德(Blake Field)向法院起訴Google從自建網(wǎng)站中抓取作品侵害其享有的著作權(quán)。但Google辯稱,原告未在其網(wǎng)站中設(shè)置robots協(xié)議,即為默示許可Google的抓取行為。法院支持了Google的觀點(diǎn),未設(shè)置robots協(xié)議的做法視為其默許搜索引擎抓取,Google并未侵權(quán)。
在2017年,比利時(shí)法院與美國(guó)法院的觀點(diǎn)截然相反。在Copiepresse訴Google案中,原告Copiepresse作為一家比利時(shí)的報(bào)業(yè)集團(tuán),因Google利用搜索引擎抓取原告網(wǎng)站中享有著作權(quán)的內(nèi)容,故訴至法院。
Google辯稱原告Copiepresse可以設(shè)置robots協(xié)議的方式來告知搜索引擎的網(wǎng)絡(luò)機(jī)器人可以抓取的范圍,但原告卻沒有這么做,說明原告對(duì)于抓取是默示許可的。最終,比利時(shí)法院認(rèn)為,著作權(quán)屬于排他性權(quán)利,沒有使用robots協(xié)議并不代表默示許可,最終支持了原告的主張。
三、無休止之戰(zhàn):爬蟲與反爬蟲
“現(xiàn)在各行各業(yè)都需要用到爬蟲技術(shù),大到政府部門,小到個(gè)體商戶、科研人員,要發(fā)展大數(shù)據(jù)產(chǎn)業(yè),這些數(shù)據(jù)可能通過各種爬蟲技術(shù)來獲取,再進(jìn)行數(shù)據(jù)清洗、整理、收集、入庫(kù),調(diào)用?!被ヂ?lián)網(wǎng)爬蟲技術(shù)從業(yè)者的支先生對(duì)《財(cái)經(jīng)》E法表示道。
“數(shù)據(jù)分布在互聯(lián)網(wǎng)各個(gè)角落,爬蟲可以將其采集出來,利用數(shù)據(jù)產(chǎn)生價(jià)值。”支先生認(rèn)為,有的平臺(tái)型企業(yè)在初創(chuàng)期可能允許爬蟲爬取數(shù)據(jù),幫助其推廣和宣傳,但發(fā)展具有一定規(guī)模后,它們會(huì)認(rèn)為數(shù)據(jù)已形成獨(dú)特的競(jìng)爭(zhēng)力,從而傾向于保護(hù)數(shù)據(jù),限制爬蟲爬取。“在國(guó)內(nèi),涉及大型平臺(tái)之間的數(shù)據(jù)爬取時(shí),大多以不正當(dāng)競(jìng)爭(zhēng)為由發(fā)起訴訟?!?/p>
爬蟲與反爬蟲之間成為一場(chǎng)無休止之戰(zhàn),發(fā)起攻擊的一方需要思考如何“鋒利其矛”,而防守一方則需要考慮如何“牢固其盾”。
“各個(gè)公司負(fù)責(zé)反爬蟲設(shè)計(jì)的人,一定也是爬蟲高手。”支先生說,最為常見的反爬取手段是限制IP或者限制ID賬號(hào),在發(fā)現(xiàn)賬號(hào)有異常訪問的情況時(shí),就對(duì)其進(jìn)行阻攔。
“但沒有絕對(duì)穩(wěn)固的城墻,只有相對(duì)的安全,如果說一家反爬取能力已經(jīng)達(dá)到80%了,哪怕在上面再往上提高1%,可能又要投入上千萬(wàn)元,甚至上億元,沒有任何意義?!?/p>
最為常見的是,通過“驗(yàn)證碼”進(jìn)行身份驗(yàn)證,像拖動(dòng)圖形滑動(dòng)驗(yàn)證、數(shù)學(xué)計(jì)算、圖形識(shí)別、手機(jī)驗(yàn)證碼等方式,但都各有局限?!跋袷謾C(jī)驗(yàn)證碼。這種防線其實(shí)也能被突破,現(xiàn)在有很多供應(yīng)商提供自動(dòng)驗(yàn)證服務(wù),花費(fèi)大概是每條1分線?!绷硪晃徊辉妇呙呐老x從業(yè)者表示,“爬蟲從技術(shù)角度根本防不住。”
谷歌作為站在爬蟲技術(shù)頂端的公司,在2009年收購(gòu)由卡內(nèi)基梅隆大學(xué)研發(fā)reCAPTCHA人機(jī)驗(yàn)證機(jī)制,并運(yùn)用于反爬蟲領(lǐng)域,如發(fā)現(xiàn)可疑訪問者,需要完成識(shí)別后才可以繼續(xù)訪問網(wǎng)站。十多年間,reCAPTCHA人機(jī)驗(yàn)證機(jī)制也在不斷升級(jí),來對(duì)抗企圖破解繞過驗(yàn)證機(jī)制的爬蟲。
reCAPTCHA人機(jī)驗(yàn)證機(jī)制
從技術(shù)上看,這是一場(chǎng)“道高一尺,魔高一丈”的戰(zhàn)爭(zhēng),但現(xiàn)實(shí)出發(fā),爬取數(shù)據(jù)的一方也并不總是處于主動(dòng)地位。對(duì)于爬蟲從業(yè)者來說,他們很難明確分辨自己的行為是否違法,以及是否會(huì)遭到懲罰。有時(shí)候他們能“置身事外”,引發(fā)的爭(zhēng)議僅發(fā)展為平臺(tái)之間的“不正當(dāng)競(jìng)爭(zhēng)”民事訴訟,但有的時(shí)候他們則可能淪為犯罪行為中的“共犯”。
“對(duì)于我們這些從業(yè)者來說,爬蟲涉及到的法律風(fēng)險(xiǎn)難以把握,很多大公司里崗位職責(zé)分明,技術(shù)人員可能覺得自個(gè)就是一個(gè)寫代碼的,稀里糊涂就被抓了。”支先生對(duì)此表示道。“不管民事侵權(quán)還是犯罪行為,問題背后的根源還是數(shù)據(jù)的權(quán)屬不明晰?!?/p>
倘若將“爬取數(shù)據(jù)”與“入室盜竊”比較,入室行為侵犯了他人私人自治空間,而盜竊行為侵犯他人財(cái)產(chǎn)權(quán);但“爬取數(shù)據(jù)”本身行為部分卻往往發(fā)生于原本開放的網(wǎng)絡(luò)環(huán)境之中,當(dāng)“數(shù)據(jù)權(quán)屬”未明晰時(shí),則很難確定“誰(shuí)因此受到損害”、“誰(shuí)將遭受到懲罰”以及“誰(shuí)有權(quán)能獲得賠償”。
四、爬蟲抓取的數(shù)據(jù)屬于誰(shuí)?
爬蟲爬取的數(shù)據(jù)應(yīng)屬于個(gè)人還是平臺(tái)?在微夢(mèng)創(chuàng)科與字節(jié)跳動(dòng)不正當(dāng)競(jìng)爭(zhēng)糾紛案中,今日頭條認(rèn)為,數(shù)據(jù)應(yīng)屬用戶所有,微博并不具備對(duì)用戶數(shù)據(jù)的任何權(quán)利,因此只要爬蟲是在用戶授權(quán)的情形下進(jìn)行的,那么即使頭條違反了微博的robots協(xié)議,也不違法。
但微夢(mèng)創(chuàng)科認(rèn)為,數(shù)據(jù)應(yīng)屬于平臺(tái)所有,因?yàn)樵谟脩魠f(xié)議中已作出約定:“用戶同意不可撤銷地授權(quán)微博平臺(tái)作為微博內(nèi)容的獨(dú)家發(fā)布平臺(tái),用戶所發(fā)表的微博內(nèi)容僅在微博平臺(tái)上予以獨(dú)家展示?!?/p>
還有一種觀點(diǎn)認(rèn)為,數(shù)據(jù)屬于個(gè)人與平臺(tái)共有。在新浪訴脈脈不正當(dāng)競(jìng)爭(zhēng)案中,法院認(rèn)為,數(shù)據(jù)開放的前提需遵循“用戶授權(quán)+平臺(tái)授權(quán)+用戶授權(quán)”的“三重授權(quán)”模式,即平臺(tái)首先取得用戶同意而收集數(shù)據(jù),在平臺(tái)向第三方授權(quán)使用此類信息時(shí),第三方還應(yīng)當(dāng)明確告知用戶其使用的目的、方式和范圍,再次取得用戶的同意。
這一判決理由意味著,個(gè)人和平臺(tái)對(duì)于數(shù)據(jù)都擁有一定的權(quán)利主張,數(shù)據(jù)在一定程度上為個(gè)人與平臺(tái)所共有。
也有觀點(diǎn)認(rèn)為,互聯(lián)網(wǎng)具有公共屬性。加利福尼亞大學(xué)伯克利法學(xué)院教授奧林·科爾(Orin Kerr)有過經(jīng)典描述,在他看來,互聯(lián)網(wǎng)的一般原則是開放性,這種開放性允許世界上任何人發(fā)布信息或數(shù)據(jù),數(shù)據(jù)可以被任何人訪問,而無需進(jìn)行身份驗(yàn)證。
當(dāng)然,奧林·科爾的觀點(diǎn)并不受企業(yè)歡迎,這些企業(yè)往往認(rèn)為通過經(jīng)營(yíng)活動(dòng)吸引用戶積累數(shù)據(jù),對(duì)整體數(shù)據(jù)資源享有競(jìng)爭(zhēng)性利益。
“不談?wù)摂?shù)據(jù)合法生產(chǎn)者具有控制權(quán),難以對(duì)爬蟲合法性進(jìn)行判斷?!比A東政法大學(xué)法律學(xué)院教授、數(shù)據(jù)法律研究中心主任高富平認(rèn)為,現(xiàn)在國(guó)內(nèi)的判決,基本在競(jìng)爭(zhēng)法的框架下進(jìn)行裁判,即爬蟲目的是否“實(shí)質(zhì)性替代”被爬一方的業(yè)務(wù),成為判斷爬蟲合法性的關(guān)鍵,有損害后果才制止爬蟲行為,總是有它的局限性。
“如果承認(rèn)數(shù)據(jù)生產(chǎn)者具有數(shù)據(jù)的控制權(quán),基于控制權(quán),就可以對(duì)于那些無視r(shí)obots協(xié)議的數(shù)據(jù)爬取者進(jìn)行打擊?!备吒黄奖硎镜?,“更重要的是承認(rèn)數(shù)據(jù)合法生產(chǎn)者可基于商業(yè)目的來開放數(shù)據(jù),以許可使用方式或者其他交換交易等方式,讓數(shù)據(jù)為更多人所使用。”
從國(guó)內(nèi)立法來看,2021年6月頒布的《深圳經(jīng)濟(jì)特區(qū)數(shù)據(jù)條例》首次以立法形式提及了“數(shù)據(jù)財(cái)產(chǎn)權(quán)”的概念,其中第四條作出規(guī)定,認(rèn)可自然人、法人和非法人組織對(duì)其合法處理數(shù)據(jù)形成的數(shù)據(jù)產(chǎn)品和服務(wù)享有法律、行政法規(guī)及本條例規(guī)定的財(cái)產(chǎn)權(quán)益。高富平在接受媒體時(shí)表示,《深圳經(jīng)濟(jì)特區(qū)數(shù)據(jù)條例》將數(shù)據(jù)財(cái)產(chǎn)權(quán)分配給自然人、法人和非法人組織是存在沖突的。
“個(gè)人的數(shù)據(jù)權(quán)應(yīng)該保護(hù)的是個(gè)人的尊嚴(yán)和自由,基本上屬于人格權(quán)范疇,而不是一個(gè)財(cái)產(chǎn)權(quán),如果把個(gè)人的數(shù)據(jù)權(quán)定有財(cái)產(chǎn)權(quán)屬性,那個(gè)人在決定數(shù)據(jù)使用的時(shí)候,他的決定權(quán)就會(huì)和國(guó)家、企業(yè)的相沖突,這里面就會(huì)有權(quán)利“打架”的問題,無法構(gòu)建數(shù)據(jù)的利用秩序?!备吒黄綄?duì)此評(píng)價(jià)。
爬蟲抓取的數(shù)據(jù)屬于誰(shuí)?
中國(guó)人民大學(xué)法學(xué)院副教授丁曉東則認(rèn)為,爬取平臺(tái)數(shù)據(jù)而引發(fā)的數(shù)據(jù)此,無論把平臺(tái)數(shù)據(jù)權(quán)屬歸于哪一方都不合理。有的場(chǎng)景下,屬于個(gè)人數(shù)據(jù)范疇,需要數(shù)據(jù)隱私法的優(yōu)先保護(hù);有的場(chǎng)景下,平臺(tái)數(shù)據(jù)具有類似數(shù)據(jù)庫(kù)的性質(zhì),需要“類似數(shù)據(jù)庫(kù)權(quán)益”的保護(hù);而在其他場(chǎng)景下,平臺(tái)數(shù)據(jù)又具有公共性,需要法律保障數(shù)據(jù)的共享與流通。
假如可能封禁所有網(wǎng)絡(luò)爬蟲的話,互聯(lián)網(wǎng)可能將會(huì)“寸步難行”;倘若又未對(duì)爬蟲設(shè)置任何“屏障”,互聯(lián)網(wǎng)則可能淪為“數(shù)字叢林”,最終侵害到用戶權(quán)益。因此,該如何規(guī)制網(wǎng)絡(luò)爬蟲行為,讓互聯(lián)網(wǎng)既保持自由、開放,又能有序健康發(fā)展,成為互聯(lián)網(wǎng)行業(yè)都面臨挑戰(zhàn)。
當(dāng)數(shù)據(jù)權(quán)屬仍懸而未決時(shí),也就意味著從未無休止爬蟲戰(zhàn)爭(zhēng)仍將繼續(xù)。
作者:殷繼,姚佳瑩;公眾號(hào):財(cái)經(jīng)E法
本文由 @財(cái)經(jīng)E法 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于CC0協(xié)議。
爬蟲雖然十分方便,但是它也有一定隱患,千萬(wàn)不能違反法律法規(guī)。
小編,我感覺此篇文章少一個(gè)段落,爬蟲究竟是什么,有些人第一眼是真的不知道,費(fèi)腦子,下次出現(xiàn)類似的詞語(yǔ)的時(shí)候一定要進(jìn)行解釋。
哈哈哈哈,“爬蟲寫得好,牢飯吃得早”。第一次聽說這個(gè)說法。沒想到爬蟲也是會(huì)違法的。
當(dāng)數(shù)據(jù)權(quán)屬仍懸而未決時(shí),也就意味著從未無休止爬蟲戰(zhàn)爭(zhēng)仍將繼續(xù)。只能說,現(xiàn)在的個(gè)人隱私越來越不隱私了。
任何事情都有雙面性,正確的爬蟲確實(shí)能節(jié)省很多時(shí)間。
為什么我咋感覺人均爬蟲大師,只有我是個(gè)廢物,這項(xiàng)技術(shù)真的有這么普及嗎
太恐怖了,屬實(shí)是沒有想到,但是現(xiàn)在數(shù)據(jù)這么透明,信息什么的最不值錢了
不得不說,爬蟲太智能了,快速又便捷!