国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

python爬蟲筆記

2019-11-14 17:42:49
字體:
供稿:網(wǎng)友

初學(xué)python爬蟲,感覺光看看學(xué)不到什么,自己瞎折騰了一個(gè)爬百度貼吧小說。

自己感覺不是很實(shí)用,不過還是寫下來備忘下,也算留個(gè)紀(jì)念。

#! /usr/bin/env/python 27# coding:gbkimport urllib2import redef findurl(i):    pattern=re.compile('/p//d{10}')    Match=re.search(pattern,i).group()    url='http://tieba.baidu.com'+Match+'?see_lz=1'    return urldef findtitle(i):    pattern=re.compile(u'/xb5/xda.+/xd5/xc2.+/xa1/xbf')    title=re.search(pattern,i).group()    return titledef main():    name=raw_input('請(qǐng)輸入貼吧名字:')    fo=open(name+'.txt','w+')    name=urllib2.quote(name)    url='http://tieba.baidu.com/f/good?kw='+name+'&cid=0&pn='    for index in xrange(550,-1,-50):        page=urllib2.urlopen(url+str(index)).read()        pattern=re.compile(u'<a href="/p//d{10}" title="/xb5/xda.+/xd5/xc2.+" t')        result=re.findall(pattern,page)        for each in reversed(result):            #fo.writelines(findtitle(each)+'/n')            article=urllib2.urlopen(findurl(each)).read()            pattern=re.compile('id="post_content.*?>(.*?)</div>')            content=re.search(pattern,article).group()            pattern=re.compile('.+>')            stripl=re.search(pattern,content).group()            result=content.replace('<br>','/n').rstrip('</div>').lstrip(stripl)            fo.writelines(result+'/n')    fo.close()    

  


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 虹口区| 启东市| 灵台县| 和硕县| 佛山市| 宜宾县| 苍南县| 祁连县| 南京市| 万荣县| 津南区| 连南| 民和| 贡觉县| 海南省| 白玉县| 华坪县| 巴林右旗| 抚顺县| 海原县| 志丹县| 乐亭县| 大理市| 大田县| 河北省| 大同市| 寻乌县| 孝昌县| 尼玛县| 通山县| 锡林浩特市| 富裕县| 石狮市| 准格尔旗| 铜山县| 南城县| 佛坪县| 塔城市| 灯塔市| 汽车| 台湾省|