国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python提取頁面內(nèi)url列表的方法

2020-02-23 01:24:54
字體:
供稿:網(wǎng)友

本文實例講述了python提取頁面內(nèi)url列表的方法。分享給大家供大家參考。具體實現(xiàn)方法如下:

from bs4 import BeautifulSoupimport time,re,urllib2t=time.time()websiteurls={}def scanpage(url):  websiteurl=url  t=time.time()  n=0  html=urllib2.urlopen(websiteurl).read()  soup=BeautifulSoup(html)  pageurls=[]  Upageurls={}  pageurls=soup.find_all("a",href=True)  for links in pageurls:    if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:      Upageurls[links.get("href")]=0  for links in Upageurls.keys():    try:      urllib2.urlopen(links).getcode()    except:      print "connect failed"    else:      t2=time.time()      Upageurls[links]=urllib2.urlopen(links).getcode()      print n,      print links,      print Upageurls[links]      t1=time.time()      print t1-t2    n+=1  print ("total is "+repr(n)+" links")  print time.time()-tscanpage("http://news.163.com/")

希望本文所述對大家的Python程序設(shè)計有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 万全县| 和静县| 福州市| 修水县| 出国| 子长县| 昌图县| 郴州市| 北辰区| 正镶白旗| 祁阳县| 定兴县| 罗城| 德格县| 郑州市| 正蓝旗| 苗栗市| 平原县| 锡林浩特市| 清远市| 丰城市| 青海省| 湟源县| 福州市| 淮阳县| 科尔| 彰武县| 休宁县| 丹巴县| 雷山县| 盐津县| 泾源县| 普宁市| 鄂托克前旗| 石楼县| 建湖县| 铁力市| 绩溪县| 桐城市| 三门峡市| 精河县|