国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python多線程爬蟲(chóng)簡(jiǎn)單示例

2020-01-04 17:39:33
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
這篇文章主要為大家詳細(xì)介紹了Python多線程爬蟲(chóng)簡(jiǎn)單示例,感興趣的小伙伴們可以參考一下
 

 python是支持多線程的,主要是通過(guò)thread和threading這兩個(gè)模塊來(lái)實(shí)現(xiàn)的。thread模塊是比較底層的模塊,threading模塊是對(duì)thread做了一些包裝的,可以更加方便的使用。

雖然python的多線程受GIL限制,并不是真正的多線程,但是對(duì)于I/O密集型計(jì)算還是能明顯提高效率,比如說(shuō)爬蟲(chóng)。

下面用一個(gè)實(shí)例來(lái)驗(yàn)證多線程的效率。代碼只涉及頁(yè)面獲取,并沒(méi)有解析出來(lái)。

 

# -*-coding:utf-8 -*-import urllib2, timeimport threading  class MyThread(threading.Thread):  def __init__(self, func, args):    threading.Thread.__init__(self)    self.args = args    self.func = func   def run(self):    apply(self.func, self.args)  def open_url(url):  request = urllib2.Request(url)  html = urllib2.urlopen(request).read()  print len(html)  return html if __name__ == '__main__':  # 構(gòu)造url列表  urlList = []  for p in range(1, 10):    urlList.append('http://s.wanfangdata.com.cn/Paper.aspx?q=%E5%8C%BB%E5%AD%A6&p=' + str(p))     # 一般方式  n_start = time.time()  for each in urlList:    open_url(each)  n_end = time.time()  print 'the normal way take %s s' % (n_end-n_start)     # 多線程  t_start = time.time()  threadList = [MyThread(open_url, (url,)) for url in urlList]  for t in threadList:    t.setDaemon(True)    t.start()  for i in threadList:    i.join()  t_end = time.time()  print 'the thread way take %s s' % (t_end-t_start)

分別用兩種方式獲取10個(gè)訪問(wèn)速度比較慢的網(wǎng)頁(yè),一般方式耗時(shí)50s,多線程耗時(shí)10s。

多線程代碼解讀:

# 創(chuàng)建線程類,繼承Thread類class MyThread(threading.Thread):  def __init__(self, func, args):    threading.Thread.__init__(self) # 調(diào)用父類的構(gòu)造函數(shù)    self.args = args    self.func = func   def run(self): # 線程活動(dòng)方法    apply(self.func, self.args)  
threadList = [MyThread(open_url, (url,)) for url in urlList] # 調(diào)用線程類創(chuàng)建新線程,返回線程列表  for t in threadList:    t.setDaemon(True) # 設(shè)置守護(hù)線程,父線程會(huì)等待子線程執(zhí)行完后再退出    t.start() # 線程開(kāi)啟  for i in threadList:    i.join() # 等待線程終止,等子線程執(zhí)行完后再執(zhí)行父線程

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助。


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 开封市| 长垣县| 泾川县| 太和县| 武清区| 大连市| 阳新县| 绵阳市| 盖州市| 东安县| 中牟县| 疏勒县| 汝南县| 波密县| 绥宁县| 麻阳| 从化市| 康定县| 德兴市| 霞浦县| 瓮安县| 江永县| 綦江县| 博白县| 英超| 江川县| 喀什市| 醴陵市| 德钦县| 庆城县| 河西区| 怀来县| 大英县| 高雄市| 玉溪市| 望城县| 武穴市| 金山区| 宝清县| 洛宁县| 广昌县|