国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python使用requests及BeautifulSoup構建爬蟲實例代碼

2020-02-22 22:58:43
字體:
來源:轉載
供稿:網友

本文研究的主要是Python使用requests及BeautifulSoup構建一個網絡爬蟲,具體步驟如下。

功能說明

在Python下面可使用requests模塊請求某個url獲取響應的html文件,接著使用BeautifulSoup解析某個html。

案例

假設我要http://maoyan.com/board/4貓眼電影的top100電影的相關信息,如下截圖:

獲取電影的標題及url。

安裝requests和BeautifulSoup

使用pip工具安裝這兩個工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'# -*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupdef get_one_page(url):  response= requests.get(url)  if response.status_code == 200:    return response.content.decode("utf8","ignore").encode("gbk","ignore")#采用BeautifulSoup解析def bs4_paraser(html):  all_value = []  value = {}  soup = BeautifulSoup(html,'html.parser')  # 獲取每一個電影  all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})  for r in all_div_item:    # 獲取電影的名稱和url    title = r.find_all(name="p",attrs={"class":"name"})[0].string    movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']    value['title'] = title    value['movie_url'] = movie_url    all_value.append(value)    value = {}  return all_valuedef main():  url = 'http://maoyan.com/board/4'  html = get_one_page(url)  all_value = bs4_paraser(html)  print(all_value)if __name__ == '__main__':  main()

代碼測試可用,實現效果:

總結

以上就是本文關于Python使用requests及BeautifulSoup構建爬蟲實例代碼的全部內容,希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 舒城县| 青河县| 永顺县| 航空| 蛟河市| 广德县| 富平县| 寿光市| 波密县| 奈曼旗| 尚义县| 京山县| 乐昌市| 宝兴县| 留坝县| 城固县| 南康市| 迭部县| 渝中区| 波密县| 石楼县| 精河县| 许昌市| 商洛市| 东海县| 遵义市| 曲麻莱县| 延寿县| 天长市| 横峰县| 武鸣县| 大足县| 公安县| 临颍县| 临西县| 客服| 三门县| 兰溪市| 萝北县| 灵宝市| 邹城市|