網路爬蟲是否合法?

網路爬蟲是否合法?

前言

所有的網站內容皆是歡迎使用者瀏覽,因此使用網路爬蟲的精神是合法的,我們平日使用的 google、 yahoo和百度的搜尋引擎也是這些公司使用網路爬蟲蒐集來的。不過如果過度的使用網路爬蟲和越界者,可能造成非法。

本文大綱

歸屬權

合不合法 ? 必須先回答這樣一個問題:被爬取的數據到底屬於誰。只有討論清楚「歸屬權」,才能在此基礎上討論「授權問題」。

數據歸屬權的確認困難重重。

企業的平台數據中常常包含大量的個人數據,因此平台數據可以被認為是個人所有、平台所有、個人與平台共有,也可以被認為是 Internet 空間的公共數據。

在法律界,各國對數據權屬領域都沒有直接、明確的立法,學界也沒有達成廣泛的共識。但在實務層面,當事人常常會選擇直接繞開這一爭議,從實際情境出發,在已有法律明確規定和保護的範疇內解決問題。-----這是一種尋求司法救濟的有效方式-----。

在美國,法院規制數據爬蟲的法律途徑主要有四種:

  • 非法入侵私人財產(trespass to chattels);
  • 合約違約(breach of contract);
  • 違反著作權(copyright violations);
  • 違反《電腦欺詐和濫用法》(CFAA violations)。

其中,CFAA 在實務中被廣泛援用是近年來的一大趨勢。

這一法案對「故意 未經授權超越授權 存取電腦訊息系統並因此從任何受保護的電腦獲取訊息」的行為創設了民事和刑事責任。

美國最高法院則進一步解釋,CFAA 規定了兩類非法存取受保護的電腦訊息系統進而構成犯罪的行為:

  • 未經授權存取;
  • 雖獲得授權存取但不當使用。

影響合法性的因素之一:數據屬性

問題1:是「公開數據」嗎?

數據是否公開、可存取是影響爬取行為正當性的重要因素。

怎麼定義數據的公開與否?

一般來說,數據控制者採取了技術保護手段的數據屬於不公開數據。舉個例子,在 Facebook v. Power Ventures 案中,以帳號密碼方式保護的使用者數據被明確認定為不屬於公開數據。

對於非公開數據,美國的司法主張:相應的數據爬取行為需要得到數據控制者的授權。

問題2:原始數據還是衍生數據?

數據屬於原始數據還是衍生數據,也是影響數據爬蟲行為合法性的重要因素。

原始數據的所有權歸屬於使用者個人,由使用者本人享有佔有、使用、收益、處分的權利;而衍生數據的所有權因是基於數據價值的「第二次」創造,則歸屬於衍生數據的「創造者」,並由該衍生數據的「創造者」享有佔有、使用、收益、處分等權利。

照此邏輯推論,平台上由使用者直接創造或由使用者行為留下的數據屬於使用者,由企業加工、創造而得的數據屬於企業。

在美國,單純地爬取其他企業平台上公開的原始數據並不違法。

影響合法性的因素之二:授權模式

一般性禁止

數據被抓取方對第三方網路平台改採取的一般性禁止措施主要包括:Robots 協議和 ToS 禁止。前者沒有法律強制力;後者則具有,即違反 ToS 禁止爬取對方企業的數據,有可能構成違約行為,需承擔一定的法律責任。

Robots 協議(或稱機器人協議或拒絕機器人協議)指由網站所有者產生一個指定的文件robot.txt,用以指明網站中哪些目錄下的網頁是不允許爬蟲抓取的,並將這個文件放在網站伺服器的根目錄下。友好的爬蟲者在抓取一個網站的網頁前,往往會先讀取 robot.txt 文件,對於禁止抓取的網頁和數據不進行下載。

一般情況下,被爬取數據的網站都會所說 Robots 協議,而非直接採取技術手段禁止來自某IP地址的存取。不過 Robots 協議只是一個君子協定,並沒有法律上的強制約束力。

制止函及IP壁壘

被抓取數據的網站一旦發現有 IP 違反一般性禁止進行存取,便會發送制止函,同時設置 IP 壁壘禁止相關IP存取。這一行為在美國被認定為撤銷對方繼續存取己方網站的授權。若爬取方繼續數據爬取行為,則會違法。不過,若爬取的是具有公共屬性的數據,被爬取平台的撤銷授權措施則毫無意義。

特殊性授權

簽訂《開發者協議》,利用 Open API (開放應用程式介面)授權是允許第三方網路平台對其數據進行抓取下載的最常用方式。

一般而言,若雙方透過 Open API 進行合作,合作結束即相當於撤銷授權,被撤銷授權方應當按照協議清理非授權使用者的訊息數據。

特殊的默示授權

除了上述授權方式外,還可能存在著特殊的默示授權。

例如,LinkedIn 在長達五年,且沒有任何協議的情況下,一直允許 hiQ 的數據抓取行為,是否屬於默示授權?美國法院對該案的判決傾向於將其認定為默示授權。

在領英案中,hiQ 公司對 LinkedIn 的網站實施了網路爬蟲,但加州北區地區法院的法官認為,這種爬蟲行為並不違反法律,因為領英網站上的數據是公開數據,對於公開數據,即使爬蟲方違反了對方設置的robot協議,也應當被法律允許。這就像在白天推開一家未鎖門的商店進去看看,並不能將其認定為非法侵入。

案例

案例 1:利用網站漏洞使用了爬蟲程序獲取用戶信息(非法獲取計算機信息系統數據罪)

案例 2:在軟件系統中植入爬蟲程序導致數據被刪除(破壞計算機信息系統罪)

案例 3:利用爬蟲程序竊取個人信息並出售(侵犯公民個人信息罪)

案例 4:利用爬蟲技術對視頻網站的影視作品實施聚合鏈接(侵犯知識產權罪)

結論

數據爬蟲行為引起了理論界、實務界的高度關注。其中原因在於:一方面,大數據時代中數據對個人和企業乃至整個社會都有著重要意義;另一方面,實務的立法都在不同程度上與實踐脫節,探索空間廣闊。

截至目前,學界對爬蟲行為的規制尚未提出令人信服的方案,上述所提及的美國CFAA 法案,對當下法律問題的針對性還差強人意。

透過分析已有案例可知,數據屬性和授權模式都會明顯地影響數據爬蟲的合法性。美國基於對公共利益的考慮,認為爬取公開的原始數據無需獲得授權即可進行,而對其他類型的數據會有不同程度的保護。

另外,還有其他因素,如企業對其數據的投入,也可能進入法院衡量數據爬取行為合法性的考慮範疇。至於授權模式,廣泛使用的 Robots 協議並不具有法律強制力,Tos 禁止才具有。

當數據爬取方違反了這些一般性禁止時,對方企業往往會發送制止函,設置 IP 壁壘,如果被爬取的數據屬於需要企業授權的類型,爬取方在接受到此類表示後必須停止爬取行為,否則將承擔法律責任。

再者,如果透過 Open API 等類似方式開展合作,合作終止時便是撤回授權時。最後,在美國,被爬取企業知曉而不阻止爬取的行為可能成立默示許可,給予爬取行為正當性。

整體而言,美國對個人數據訊息的保護經歷了一個相對漫長的發展過程,其態度逐漸向公共利益傾斜。未來,我們還需綜合考量數據屬性、授權模式、爬取方式、被爬取數據的利用方式等眾多因素,建構一個平衡各方利益的法律制度。


參考資料

特色、摘要,Feature、Summary:

關鍵字、標籤,Keyword、Tag:

留言

這個網誌中的熱門文章

Ubuntu 常用指令、分類與簡介

iptables的觀念與使用

網路設定必要參數IP、netmask(遮罩)、Gateway(閘道)、DNS

了解、分析登錄檔 - log

Python 與SQLite 資料庫

Blogger文章排版範本

Pandas 模組

如何撰寫Shell Script

查詢指令或設定 -Linux 線上手冊 - man

下載網頁使用 requests 模組