国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python爬蟲DNS解析緩存方法實例分析

2020-01-04 17:16:02
字體:
來源:轉載
供稿:網友

本文實例講述了Python爬蟲DNS解析緩存方法。分享給大家供大家參考,具體如下:

前言:

這是Python爬蟲中DNS解析緩存模塊中的核心代碼,是去年的代碼了,現在放出來 有興趣的可以看一下。

一般一個域名的DNS解析時間在10~60毫秒之間,這看起來是微不足道,但是對于大型一點的爬蟲而言這就不容忽視了。例如我們要爬新浪微博,同個域名下的請求有1千萬(這已經不算多的了),那么耗時在10~60萬秒之間,一天才86400秒。也就是說單DNS解析這一項就用了好幾天時間,此時加上DNS解析緩存,效果就明顯了。

下面直接放代碼,說明在后面。

代碼:

# encoding=utf-8# ---------------------------------------#  版本:0.1#  日期:2016-04-26#  作者:九茶<bone_ace@163.com>#  開發環境:Win64 + Python 2.7# ---------------------------------------import socket# from gevent import socket_dnscache = {}def _setDNSCache():  """ DNS緩存 """  def _getaddrinfo(*args, **kwargs):    if args in _dnscache:      # print str(args) + " in cache"      return _dnscache[args]    else:      # print str(args) + " not in cache"      _dnscache[args] = socket._getaddrinfo(*args, **kwargs)      return _dnscache[args]  if not hasattr(socket, '_getaddrinfo'):    socket._getaddrinfo = socket.getaddrinfo    socket.getaddrinfo = _getaddrinfo

說明:

其實也沒什么難度,就是將socket里面的緩存保存下來,避免重復獲取。
可以將上面的代碼放在一個dns_cache.py文件里,爬蟲框架里調用一下這個_setDNSCache()方法就行了。

需要說明一下的是,如果你使用了gevent協程,并且用上了monkey.patch_all(),要注意此時爬蟲已經改用gevent里面的socket了,DNS解析緩存模塊也應該要用gevent的socket才行。

希望本文所述對大家Python程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 谷城县| 彰武县| 八宿县| 丹阳市| 石屏县| 会东县| 志丹县| 洪湖市| 东源县| 韩城市| 灌云县| 宾阳县| 广昌县| 大渡口区| 临漳县| 灵宝市| 钟祥市| 遂昌县| 孝义市| 平安县| 白朗县| 德兴市| 白玉县| 宁安市| 宝兴县| 绥芬河市| 大埔县| 陇南市| 阜宁县| 涟水县| 北票市| 基隆市| 务川| 故城县| 井陉县| 旬邑县| 新闻| 临颍县| 三台县| 千阳县| 大庆市|