国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

1)②爬取光明網部分旅游新聞

2019-11-14 16:54:32
字體:
來源:轉載
供稿:網友
 1 __author__ = 'minmin' 2 #coding:utf-8 3 import re,urllib,sgmllib 4  5 #根據當前的url獲取html 6 def getHtml(url): 7     page = urllib.urlopen(url) 8     html = page.read() 9     page.close()10     return html11 12 #根據html獲取想要的文章內容13 def func(str):14      result= re.findall(r"<p style=/"TEXT-INDENT: 30px; MARGIN: 0px 3px 15px/">([^<>]*)</p>",getHtml(url),re.M) or re.findall(r"<p>([^<>]*)</p>",getHtml(url),re.M)15      # or re.findall( r"<p style=/"TEXT-JUSTIFY: distribute; TEXT-ALIGN: justify/" align=/"justify/">(.*?)</p>",getHtml(url),re.M)16      artical =''17      for j in result:18          if len(j)<>0:19              j = j.replace("&nbsp;","")20              j = j.replace("<strong>","   ")#去掉<STRONG>,換成"     "21              j = j.replace("</strong>","   ")#去掉</STROGN>換成"     "22              artical = artical + j + '/n'23      return  artical24 25 #html鏈接的標簽是“a”,鏈接的屬性是“href”,也就是要獲得html中所有tag=a,attrs=href 值。26 class URLPaser(sgmllib.SGMLParser):27     def reset(blank):28         sgmllib.SGMLParser.reset(blank)29         blank.urls = []30 31     def start_a(blank,attrs):32         href = [v for k,v in attrs if k == 'href']33         if href:34             blank.urls.extend(href)35 36 iparser = URLPaser()37 socket = urllib.urlopen("http://travel.gmw.cn/node_39034.htm")#打開這個網頁38 39 #fout = file('QQ_art_urls.txt','w')#要把這個鏈接寫到這個文件中40 IParser.feed(socket.read())#分析啦41 42 reg = 'http://travel.gmw.cn/2015-.*' #這個是用來匹配符合條件的鏈接,使用正則表達式匹配43 reg2=  'http://travel.gmw.cn/2014-.*'44 pattern = re.compile(reg)45 patter = re.compile(reg2)46 i= 047 url2=[]48 for url in IParser.urls:#鏈接都存在urls里49     url = "http://travel.gmw.cn/" + url50     if pattern.match(url):51         if url not in url2:52             url2.append(url)53             PRint url54             artical = func(url)55             print artical56             if len(artical)<>0:57               i = i + 158               f = open("gmw/travel/"+str(i) + '.txt','a+')59               f.write(artical)60               f.close()61 62     if patter.match(url):63         if url not in url2:64             url2.append(url)65             print url66             print artical67             if len(artical)<>0:68               i = i + 169               f = open("gmw/travel/"+str(i) + '.txt','a+')70               f.write(artical)71               f.close()

 


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 蒙城县| 乾安县| 乌拉特前旗| 永登县| 天峻县| 隆回县| 左贡县| 桐乡市| 电白县| 江孜县| 沾益县| 吴忠市| 郧西县| 玛曲县| 慈利县| 潜山县| 西盟| 潮州市| 秭归县| 丰镇市| 修水县| 仪陇县| 昌都县| 巴彦淖尔市| 巴塘县| 曲沃县| 太白县| 徐汇区| 林州市| 库尔勒市| 怀集县| 沾化县| 南漳县| 娄烦县| 山丹县| 浙江省| 稻城县| 增城市| 稻城县| 寻乌县| 江阴市|