国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python爬取京東的商品分類與鏈接

2020-01-04 17:25:44
字體:
來源:轉載
供稿:網友

前言

本文主要的知識點是使用Python的BeautifulSoup進行多層的遍歷。

python爬取京東評論,python,爬取天貓商品,爬取網頁

如圖所示。只是一個簡單的哈,不是爬取里面的隱藏的東西。

示例代碼

from bs4 import BeautifulSoup as bsimport requestsheaders = {  "host": "www.jd.com",  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"  }session = requests.session()def get_url():  renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')  for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):    print(i.get_text(),':',i.get('href'))get_url()

運行這段代碼以及達到了我們的目的。

python爬取京東評論,python,爬取天貓商品,爬取網頁

我們來解讀一下這段代碼。

首先我們要訪問到京東的首頁。

然后通過BeautifulSoup對訪問到的首頁進行解析。

這個時候,我們就要定位元素,來獲取我們需要的東西了。

在瀏覽器中通過F12,我們可以看到下圖所示的東西:

python爬取京東評論,python,爬取天貓商品,爬取網頁

我們來看看下面這句代碼:

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

這一行代碼完全滿足我們的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all對該標簽下所有的a標簽。

最后,我想打印出所有的商品分類以及對應的鏈接,于是,我使用了i.get_text()i.get('href')的方法終于獲取到了商品分類和對應的鏈接。

總結

其實不是很難,主要是要用對方法。筆者因為是初學方法沒有用對。花了差不多兩天時間才搞定。這里也是告訴大家,可以使用find().find_all()的方法進行多層的遍歷。以上就是我利用Python爬取京東的商品分類與鏈接的一些經驗,希望對大家學習python能有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 门头沟区| 大名县| 荣昌县| 中卫市| 阳东县| 博野县| 广河县| 洛扎县| 霍林郭勒市| 保德县| 神木县| 保德县| 定南县| 沂南县| 丽水市| 横峰县| 富蕴县| 肥城市| 离岛区| 永春县| 海南省| 东乡族自治县| 涿鹿县| 深圳市| 海口市| 四会市| 花垣县| 南靖县| 宝清县| 吐鲁番市| 沅江市| 通化市| 鄱阳县| 普宁市| 静宁县| 诸暨市| 同江市| 南涧| 若尔盖县| 延川县| 高阳县|