国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python采集百度百科的方法

2019-11-25 17:18:21
字體:
來源:轉載
供稿:網友

本文實例講述了python采集百度百科的方法。分享給大家供大家參考。具體如下:

#!/usr/bin/python# -*- coding: utf-8 -*-#encoding=utf-8 #Filename:get_baike.pyimport urllib2,reimport sysdef getHtml(url,time=10): response = urllib2.urlopen(url,timeout=time) html = response.read() response.close() return htmldef clearBlank(html): if len(html) == 0 : return '' html = re.sub('/r|/n|/t','',html) while html.find(" ")!=-1 or html.find(' ')!=-1 :  html = html.replace(' ',' ').replace(' ',' ') return htmlif __name__ == '__main__':  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)  html = html.decode('gb2312','replace').encode('utf-8') #轉碼  title_reg = r'<h1 class="title" id="[/d]+">(.*?)</h1>'  content_reg = r'<div class="card-summary-content">(.*?)</p>'  title = re.compile(title_reg).findall(html)  content = re.compile(content_reg).findall(html)  title[0] = re.sub(r'<[^>]*?>', '', title[0])  content[0] = re.sub(r'<[^>]*?>', '', content[0])  print title[0]  print '#######################'  print content[0]

希望本文所述對大家的Python程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 石家庄市| 彰化市| 扎赉特旗| 平远县| 新密市| 来凤县| 清远市| 乐清市| 合肥市| 和平县| 绥宁县| 博白县| 章丘市| 永康市| 松阳县| 永修县| 思茅市| 镇安县| 洛南县| 阿拉善左旗| 伊宁市| 太康县| 涿州市| 陕西省| 新建县| 宁都县| 雷波县| 博客| 遵化市| 潍坊市| 涪陵区| 丘北县| 镇康县| 师宗县| 涟源市| 沭阳县| 越西县| 亚东县| 澄城县| 尼木县| 开平市|