国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python爬蟲之自動登錄與驗證碼識別

2020-01-04 14:28:10
字體:
來源:轉載
供稿:網友

在用爬蟲爬取網站數據時,有些站點的一些關鍵數據的獲取需要使用賬號登錄,這里可以使用requests發送登錄請求,并用Session對象來自動處理相關Cookie。

另外在登錄時,有些網站有時會要求輸入驗證碼,比較簡單的驗證碼可以直接用pytesser來識別,復雜的驗證碼可以依據相應的特征自己采集數據訓練分類器。

以CSDN網站的登錄為例,這里用Python的requests庫與pytesser庫寫了一個登錄函數。如果需要輸入驗證碼,函數會首先下載驗證碼到本地,然后用pytesser識別驗證碼后登錄,對于CSDN登錄驗證碼,pytesser的識別率很高。

其中的pytesser的下載地址為: pytesser下載

具體代碼如下:

#coding:utf-8import sysimport timeimport urllibimport shutilimport pytesserimport requestsfrom lxml import etreeconfig = {'gid': 1}def parse(s, html, idx): result = {} tree = etree.HTML(html) try:  result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]  result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]  result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0] except IndexError, e:  return None valimg = None valimgs = tree.xpath('//img[@id="yanzheng"]/@src') if len(valimgs) > 0:  valimg = valimgs[0] validateCode = None if valimg:  fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'  config['gid'] = config['gid'] + 1  ri = s.get("https://passport.csdn.net" + valimg)  with open(fname, 'wb') as f:   for chk in ri:    f.write(chk)   f.close()  validateCode = pytesser.image_file_to_string(fname)  validateCode = validateCode.strip()  validateCode = validateCode.replace(' ', '')  validateCode = validateCode.replace('/n', '')  result['validateCode'] = validateCode return resultdef login(usr, pwd, idx): s = requests.Session() r = s.get('https://passport.csdn.net/account/login', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', }) while True:  res = parse(s, r.text, idx)  if res == None:   return False  url = 'https://passport.csdn.net' + res['path']  form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}  if res.has_key('validateCode'):   form['validateCode'] = res['validateCode']  s.headers.update({   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',   'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',   'Content-Type': 'application/x-www-form-urlencoded',   'Host': 'passport.csdn.net',   'Origin': 'https://passport.csdn.net',   'Referer': 'https://passport.csdn.net/account/login',   'Upgrade-Insecure-Requests': 1,   })  r = s.post(url, data=form)  tree = etree.HTML(r.text)  err_strs = tree.xpath('//span[@id="error-message"]/text()')  if len(err_strs) == 0:   return True  err_str = err_strs[0]  print err_str  err = err_str.encode('utf8')  validate_code_err = '驗證碼錯誤'  usr_pass_err = '帳戶名或登錄密碼不正確,請重新輸入'  try_later_err = '登錄失敗連續超過5次,請10分鐘后再試'  if err[:5] == validate_code_err[:5]:   pass  elif err[:5] == usr_pass_err[:5]:   return False  elif err[:5] == try_later_err[:5]:   return False  else:   return Trueif __name__ == '__main__': main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持VEVB武林網。


注:相關教程知識閱讀請移步到python教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 安阳县| 曲沃县| 亳州市| 泽州县| 建水县| 怀集县| 类乌齐县| 扎兰屯市| 大关县| 佛山市| 和顺县| 油尖旺区| 哈尔滨市| 文水县| 靖宇县| 凤凰县| 康马县| 泊头市| 兴城市| 盖州市| 成安县| 融水| 五原县| 临武县| 垦利县| 玉环县| 辛集市| 兰坪| 凤凰县| 永和县| 平乐县| 朝阳市| 常宁市| 图们市| 庆元县| 白河县| 浦城县| 卫辉市| 镶黄旗| 山丹县| 安顺市|