国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3爬蟲-爬取新浪新聞首頁所有新聞標題

2019-11-08 02:03:34
字體:
來源:轉載
供稿:網友

準備工作:安裝requests和BeautifulSoup4。打開cmd,輸入如下命令

pip install requestspip install BeautifulSoup4

打開我們要爬取的頁面,這里以新浪新聞為例,地址為:http://news.sina.com.cn/china/

按F12打開開發人員工具,點擊左上角的圖片,然后再頁面中點擊你想查看的元素:

image_1b9cn3qf33l8r6s1skf1duh1ann9.png-104.2kB

我點擊了新聞標題處的元素,查看到該元素為class=news-item的元素:

image_1b9cn61ap1qc62f57l5isu60m.png-288.5kB

在這里,我們要獲取新聞的時間,標題和鏈接,查看到分別在如下位置:

image_1b9cnc13h1es5tc31iif1a261adr13.png-98.6kB

現在,就可以根據元素的結構編寫爬蟲代碼了:

import requestsfrom bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/china/'res = requests.get(url)# 使用UTF-8編碼res.encoding = 'UTF-8'# 使用剖析器為html.parsersoup = BeautifulSoup(res.text, 'html.parser')#遍歷每一個class=news-item的節點for news in soup.select('.news-item'): h2 = news.select('h2') #只選擇長度大于0的結果 if len(h2) > 0: #新聞時間 time = news.select('.time')[0].text #新聞標題 title = h2[0].text #新聞鏈接 href = h2[0].select('a')[0]['href'] #打印 PRint(time, title, href)

運行程序,結果如下圖所示:

image_1b9cndiud9cs1oleisart8hb61g.png-201.9kB


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 贺州市| 仪征市| 宜川县| 香格里拉县| 内丘县| 清远市| 亚东县| 美姑县| 华阴市| 名山县| 岑巩县| 嵩明县| 株洲县| 壤塘县| 青铜峡市| 合江县| 健康| 深圳市| 新邵县| 水城县| 平舆县| 张家界市| 安阳县| 余庆县| 肥乡县| 景宁| 通渭县| 梓潼县| 永吉县| 景洪市| 大竹县| 黎平县| 兖州市| 彰化市| 绥化市| 普陀区| 南溪县| 略阳县| 田林县| 屏山县| 临清市|