国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<form id="v14nb"><tr id="v14nb"></tr></form>

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

python入門實(shí)踐之網(wǎng)頁數(shù)據(jù)抓取

2019-11-14 17:34:03

字體：大中小

來源：轉(zhuǎn)載

供稿：網(wǎng)友

這個不錯。正好入門學(xué)習(xí)使用。

1、其中用到 feedparser：
技巧：使用 Universal Feed Parser 駕馭 rss
http://www.ibm.com/developerworks/cn/xml/x-tipufp.html
請訪問 feedparser.org，詳細(xì)了解 Universal Feed Parser，其中還包括一些下載資料和文檔。

feedparser 實(shí)際下載地址：
http://code.google.com/p/feedparser/downloads/list

2、另外，需要將文件加上 utf-8 的 bom 頭，需要用到 python 寫入十六進(jìn)制字符：
http://linux.byexamples.com/archives/478/python-writing-binary-file/
python 寫入十六進(jìn)制字符
file.write("/x5F/x9D/x3E")
file.close()

3、因?yàn)橐{(diào)試，文件的打開模式改成 w 方便一些。

Python代碼

import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc
class TagParser:
def __init__(self, value):
self.value = value
def get(self, start, end):
regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
return re.findall(regx, self.value)
if __name__ == "__main__":
baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
f = open("test_01.txt", "w")
f.write("/xef/xbb/xbf")
# for ndx in range(0, 56):
for ndx in range(0, 1):
url = baseurl + str(ndx) + ".html"
PRint "get content from " + url
src = urllib.urlopen(url)
text = src.read()
f1= open("tmp_" + str(ndx) + ".txt", "w")
f1.write(text)
f1.close()
encoding = enc(src.headers, text)[0]
tp = TagParser(text)
title = tp.get('h1 class="f26s tC"', 'h1')
article = tp.get('p class="ti2em"', 'p')
t = re.sub(r'</.+>', '/n', title[0])
t = re.sub(r'<.+>', '/n', t)
data = t
c = ""
for p in article:
pt = re.sub(r'</p>', '/n', p)
c += pt
c = re.sub(r'<.+>', '/n', c)
data += c
data = data.decode(encoding)
f.write(data.encode('utf-8', 'ignore'))
f.close()

上一篇：Python基礎(chǔ)（10）--數(shù)字

下一篇：python中數(shù)組與多維數(shù)組用法介紹

學(xué)習(xí)交流

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)

索泰發(fā)布一款GTX 1070 Mini迷你版本:小機(jī)箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

榮耀總裁趙明烏鎮(zhèn)演講：榮耀首款5G手機(jī)V30下月發(fā)布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關(guān)鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術(shù)創(chuàng)造現(xiàn)實(shí)價值

2019-10-21 09:00:12

滴滴英文服務(wù)上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓(xùn)練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術(shù)團(tuán)隊

2019-09-25 08:15:43

疑難解答

圖片精選

網(wǎng)友關(guān)注

主站蜘蛛池模板：新乐市| 邵阳市| 余江县| 方城县| 富宁县| 邛崃市| 抚顺县| 团风县| 富宁县| 新蔡县| 江都市| 南城县| 息烽县| 沅陵县| 济阳县| 密云县| 前郭尔| 巴塘县| 杨浦区| 静宁县| 宜阳县| 顺义区| 凌海市| 鄢陵县| 明溪县| 壤塘县| 黄陵县| 镇宁| 马边| 朝阳区| 饶阳县| 昌江| 贵阳市| 延津县| 唐山市| 吴川市| 西充县| 若羌县| 塔城市| 阳高县| 仙游县|

<p id="d64zd"></p>

<source id="d64zd"><tr id="d64zd"></tr></source>

<source id="d64zd"></source>