Scrapy爬蟲框架
Scrapy爬蟲框架 前言 我們前面已經說明各類模組可以執行網路爬蟲設計,針對一般的網頁抓取已經足夠,這裡我們將介紹的 Scrapy ,其實是一個爬蟲框架,是一個快速的高階網頁抓取和網頁淬取框架,用於抓取網站並從其頁面中提取結構化數據。它可用於廣泛的用途,從數據挖掘到監控和自動化測試。適合大型爬蟲設計,我們將簡單以範例說明此框架 。 大綱 安裝 Scrapy 從簡單的實例開始 - 建立 Scrapy 專案 Scrapy 專案框架 Scrapy 專案框架的檔案說明 爬蟲程式設計 Scrapy 定位元素 使用cookie 登入 保存文件為 JSON 和 CSV 檔案 Scrapy 架構圖 數據流 DataFlow Scrapy Components 控件 專題爬取多頁 PTT 資料 安裝 Scrapy 早期在安裝 Scrapy 需要先安裝 Twisted,Twisted 是異步網路請求框架,現在這個 Twisted 安裝已經被整合在 Scrapy 安裝內,讀者可以使用下列方式安裝 Scrapy。 pip install Scrapy 安裝成功後可以看到下列畫面 從上述可以看到 Twisted 也安裝了,若是不知道是否安裝成功,可以使用輸入下列指令了解相關 Scrapy 的模組版本 。 scrapy version 從簡單的範例開始 - 建立 Scrapy 專案 Scrapy 專案框架 這裡我們先用一個簡單的網頁測試 Scrapy 的功能,對於 Scrapy 而言,想要執行設計爬蟲程式必須建立 Scrapy 專案,專案建立方式是使用下列指令: scrapy startproject 專案名稱 此例我們在 Windows PowerShell 環境進入~/scrapyProject 資料夾,然後使用下列指令建立專案: scrapy startproject yahoo 可以看到下列結果 這時 Scrapy 模組就自動在我們的 ~/scrapyProject/yahoo 資料夾下方建立了一系列專案檔案。 上述就是我們建立 Scrapy 專案 yahoo時,模組 Scrapy 自動產生的框架完整結構與內容,有關各個 Python 檔案內容意義,將在下面說明。 Scrapy 專案框架的檔案說明 在 ~/scrapyProject/ ...