python 扒取大主宰

2019-11-14 12:24:06

字體：大中小

供稿：網(wǎng)友

import urllib.requestimport redef getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return htmldef getTxt(html):    html_txt = str(html, encoding="utf-8")    start = html_txt.find("<h1>") + 4    end = html_txt.find('</h1>')    txt = html_txt[start:end]+"/n"    start = html_txt.find('<div id="content">') + 25    end = html_txt.find('<scrPRint(count)這是用python 3.4寫(xiě)的一個(gè)扒取大主宰的一個(gè)小項(xiàng)目
最近在看python 3，沒(méi)學(xué)過(guò)python2.x照著網(wǎng)上的一些關(guān)于python2.x寫(xiě)的關(guān)于一些關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的代碼（http://m.survivalescaperooms.com/fnng/p/3576154.html）寫(xiě)了這個(gè)扒取筆趣閣上大主宰的代碼
但是我卻覺(jué)得不是很好，也請(qǐng)各路大神指教
下面我先說(shuō)在此過(guò)程中遇到的一些問(wèn)題
1、我不是很了解什么事網(wǎng)絡(luò)爬蟲(chóng)，也不知道如何篩選有用的URL，所以寫(xiě)的代碼很僵硬，沒(méi)有很好的移植性
2、在扒取正文正文時(shí)遇到過(guò)一個(gè)問(wèn)題，遇到一些非法字符不能讀取
希望以后的學(xué)習(xí)中能改善這些題

上一篇：Revit API 開(kāi)發(fā) (2): 顯示選中的圖元（element)

下一篇：組合數(shù)學(xué) POJ 1942 Paths on a Grid