Cookie,指某些網站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據(通常經過加密)。
舉個例子,某些網站是需要登錄后才能得到你想要的信息的,不登陸只能是游客模式,那么我們可以利用Urllib2庫保存我們以前登錄過的Cookie,之后載入cookie獲取我們想要的頁面,然后再進行抓取。理解cookie主要是為我們快捷模擬登錄抓取目標網頁做出準備。
我之前的帖子中使用過urlopen()這個函數來打開網頁進行抓取,這僅僅只是一個簡單的Python網頁打開器,其參數也僅有urlopen(url,data,timeout),這三個參數對于我們獲取目標網頁的cookie是遠遠不夠的。這時候我們就要利用到另外一種Opener――CookieJar。
cookielib也是Python進行爬蟲的一個重要模塊,他能與urllib2相互結合一起爬取想要的內容。該模塊的CookieJar類的對象可以捕獲cookie并在后續連接請求時重新發送,這樣就可以實現我們所需要的模擬登錄功能。
這里特別說明一下,cookielib是在py2.7中自帶的模塊,無需重新安裝,想要查看其自帶模塊可以查看Python目錄下的Lib文件夾,里面有所有安裝的模塊。我一開始沒想起來,在pycharm中竟然沒有搜到cookielib,使用了快捷安裝也報錯:Couldn't find index page for 'Cookielib' (maybe misspelled?)

之后才想起來是不是自帶的就有,沒想到去lib文件夾一看還真有,白白浪費半個小時各種瞎折騰~~
下面我們就來介紹一下這個模塊,該模塊主要的對象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它們的關系:CookieJar ―-派生―->FileCookieJar ―-派生― 主站蜘蛛池模板: 谢通门县| 青海省| 碌曲县| 陆川县| 古田县| 兰州市| 明溪县| 彰化市| 林西县| 什邡市| 凤山市| 盐津县| 荥阳市| 宜宾县| 吴堡县| 蒲城县| 六枝特区| 彰化市| 澄迈县| 云阳县| 石棉县| 威宁| 石渠县| 集贤县| 南充市| 侯马市| 错那县| 德化县| 浙江省| 筠连县| 平舆县| 昌乐县| 双峰县| 万宁市| 中山市| 廉江市| 眉山市| 汶川县| 谢通门县| 南投市| 汉阴县|