国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<noscript id="3sgzj"></noscript>

<td id="3sgzj"><tr id="3sgzj"></tr></td>

首頁 > 編程 > Python > 正文

Python使用scrapy抓取網站sitemap信息的方法

2019-11-25 17:48:54

字體：大中小

來源：轉載

供稿：網友

本文實例講述了Python使用scrapy抓取網站sitemap信息的方法。分享給大家供大家參考。具體如下：

import refrom scrapy.spider import BaseSpiderfrom scrapy import logfrom scrapy.utils.response import body_or_strfrom scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelectorclass SitemapSpider(BaseSpider): name = "SitemapSpider" start_urls = ["http://www.domain.com/sitemap.xml"] def parse(self, response):  nodename = 'loc'  text = body_or_str(response)  r = re.compile(r"(<%s[/s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)  for match in r.finditer(text):   url = match.group(2)   yield Request(url, callback=self.parse_page) def parse_page(self, response):    hxs = HtmlXPathSelector(response)    #Mock Item  blah = Item()  #Do all your page parsing and selecting the elemtents you want    blash.divText = hxs.select('//div/text()').extract()[0]  yield blah

希望本文所述對大家的Python程序設計有所幫助。

上一篇：Python中使用gzip模塊壓縮文件的簡單教程

下一篇：Python中用format函數格式化字符串的用法

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：平度市| 田林县| 错那县| 桂东县| 乌拉特前旗| 社旗县| 盐边县| 太湖县| 孟连| 宁城县| 同仁县| 玉龙| 嫩江县| 黄平县| 阳春市| 宜章县| 老河口市| 海阳市| 安新县| 临夏县| 中方县| 南开区| 青川县| 凉城县| 肥城市| 台南市| 古田县| 文登市| 延长县| 娄烦县| 张家口市| 墨玉县| 桃园县| 潢川县| 湘西| 江门市| 关岭| 茂名市| 同仁县| 炎陵县| 西宁市|

<p id="bonr8"><tr id="bonr8"></tr></p>