import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(url) html = page.read() return htmldef getTxt(html): html_txt = str(html, encoding="utf-8") start = html_txt.find("<h1>") + 4 end = html_txt.find('</h1>') txt = html_txt[start:end]+"/n" start = html_txt.find('<div id="content">') + 25 end = html_txt.find('<scrPRint(count)這是用python 3.4寫(xiě)的一個(gè)扒取大主宰的一個(gè)小項(xiàng)目
最近在看python 3,沒(méi)學(xué)過(guò)python2.x照著網(wǎng)上的一些關(guān)于python2.x寫(xiě)的關(guān)于一些關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的代碼(http://m.survivalescaperooms.com/fnng/p/3576154.html)寫(xiě)了這個(gè)扒取筆趣閣上大主宰的代碼
但是我卻覺(jué)得不是很好,也請(qǐng)各路大神指教
下面我先說(shuō)在此過(guò)程中遇到的一些問(wèn)題
1、我不是很了解什么事網(wǎng)絡(luò)爬蟲(chóng),也不知道如何篩選有用的URL,所以寫(xiě)的代碼很僵硬,沒(méi)有很好的移植性
2、在扒取正文正文時(shí)遇到過(guò)一個(gè)問(wèn)題,遇到一些非法字符不能讀取
希望以后的學(xué)習(xí)中能改善這些題
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注