国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 學(xué)院 > 開(kāi)發(fā)設(shè)計(jì) > 正文

python 扒取大主宰

2019-11-14 12:24:06
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
import urllib.requestimport redef getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return htmldef getTxt(html):    html_txt = str(html, encoding="utf-8")    start = html_txt.find("<h1>") + 4    end = html_txt.find('</h1>')    txt = html_txt[start:end]+"/n"    start = html_txt.find('<div id="content">') + 25    end = html_txt.find('<scrPRint(count)

這是用python 3.4寫(xiě)的一個(gè)扒取大主宰的一個(gè)小項(xiàng)目

最近在看python 3,沒(méi)學(xué)過(guò)python2.x照著網(wǎng)上的一些關(guān)于python2.x寫(xiě)的關(guān)于一些關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的代碼(http://m.survivalescaperooms.com/fnng/p/3576154.html)寫(xiě)了這個(gè)扒取筆趣閣上大主宰的代碼

但是我卻覺(jué)得不是很好,也請(qǐng)各路大神指教

下面我先說(shuō)在此過(guò)程中遇到的一些問(wèn)題

1、我不是很了解什么事網(wǎng)絡(luò)爬蟲(chóng),也不知道如何篩選有用的URL,所以寫(xiě)的代碼很僵硬,沒(méi)有很好的移植性

2、在扒取正文正文時(shí)遇到過(guò)一個(gè)問(wèn)題,遇到一些非法字符不能讀取

希望以后的學(xué)習(xí)中能改善這些題


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 延川县| 嘉义县| 文昌市| 富顺县| 晴隆县| 平度市| 枣强县| 合作市| 涟源市| 黑龙江省| 南漳县| 土默特左旗| 天津市| 东乡县| 扎囊县| 新巴尔虎左旗| 平昌县| 沈丘县| 广州市| 建平县| 个旧市| 庆阳市| 兴文县| 中宁县| 乳山市| 汽车| 镇平县| 黔南| 肇东市| 保康县| 南阳市| 大丰市| 濉溪县| 高安市| 邢台县| 西藏| 石景山区| 阿合奇县| 兴和县| 札达县| 尤溪县|