国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

python 扒取大主宰

2019-11-14 11:53:43
字體:
來源:轉載
供稿:網友
import urllib.requestimport redef getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return htmldef getTxt(html):    html_txt = str(html, encoding="utf-8")    start = html_txt.find("<h1>") + 4    end = html_txt.find('</h1>')    txt = html_txt[start:end]+"/n"    start = html_txt.find('<div id="content">') + 25    end = html_txt.find('<scrPRint(count)

這是用python 3.4寫的一個扒取大主宰的一個小項目

最近在看python 3,沒學過python2.x照著網上的一些關于python2.x寫的關于一些關于網絡爬蟲的代碼(http://m.survivalescaperooms.com/fnng/p/3576154.html)寫了這個扒取筆趣閣上大主宰的代碼

但是我卻覺得不是很好,也請各路大神指教

下面我先說在此過程中遇到的一些問題

1、我不是很了解什么事網絡爬蟲,也不知道如何篩選有用的URL,所以寫的代碼很僵硬,沒有很好的移植性

2、在扒取正文正文時遇到過一個問題,遇到一些非法字符不能讀取

希望以后的學習中能改善這些題


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 台南市| 格尔木市| 栖霞市| 西畴县| 镇坪县| 化德县| 柳河县| 平遥县| 墨脱县| 长垣县| 肥城市| 香港 | 湘乡市| 洛阳市| 饶河县| 宜昌市| 开远市| 上饶县| 石阡县| 皮山县| 桓台县| 灵台县| 正定县| 新乡市| 太康县| 昌乐县| 广南县| 藁城市| 陇西县| 昌邑市| 搜索| 江津市| 林甸县| 信阳市| 宝鸡市| 腾冲县| 洛宁县| 鲁甸县| 正镶白旗| 安多县| 怀远县|