国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3爬蟲-爬取新浪新聞首頁所有新聞標題

2019-11-08 02:03:34

字體：大中小

來源：轉載

供稿：網友

準備工作：安裝requests和BeautifulSoup4。打開cmd，輸入如下命令

pip install requestspip install BeautifulSoup4

打開我們要爬取的頁面，這里以新浪新聞為例，地址為：http://news.sina.com.cn/china/

按F12打開開發人員工具，點擊左上角的圖片，然后再頁面中點擊你想查看的元素：

image_1b9cn3qf33l8r6s1skf1duh1ann9.png-104.2kB

我點擊了新聞標題處的元素，查看到該元素為class=news-item的元素：

image_1b9cn61ap1qc62f57l5isu60m.png-288.5kB

在這里，我們要獲取新聞的時間，標題和鏈接，查看到分別在如下位置：

image_1b9cnc13h1es5tc31iif1a261adr13.png-98.6kB

現在，就可以根據元素的結構編寫爬蟲代碼了：

import requestsfrom bs4 import BeautifulSoupurl = 'http://news.sina.com.cn/china/'res = requests.get(url)# 使用UTF-8編碼res.encoding = 'UTF-8'# 使用剖析器為html.parsersoup = BeautifulSoup(res.text, 'html.parser')#遍歷每一個class=news-item的節點for news in soup.select('.news-item'): h2 = news.select('h2') #只選擇長度大于0的結果 if len(h2) > 0: #新聞時間 time = news.select('.time')[0].text #新聞標題 title = h2[0].text #新聞鏈接 href = h2[0].select('a')[0]['href'] #打印 PRint(time, title, href)

運行程序，結果如下圖所示：

image_1b9cndiud9cs1oleisart8hb61g.png-201.9kB

上一篇：Python SMTP發送郵件

下一篇：Python爬取百度貼吧圖片腳本

學習交流

索泰發布一款GTX 1070 Mini迷你版本:小機

索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布

2019-10-23 09:17:05

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

2019-10-21 09:20:02

華為輪值董事長郭平：虛擬技術創造現實價值

2019-10-21 09:00:12

滴滴英文服務上線兩周年用戶已超200萬

2019-09-26 08:57:12

華為推出全球至快AI訓練集群Atlas900

2019-09-25 08:46:36

馬斯克：特斯拉正組建中國技術團隊

2019-09-25 08:15:43

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：贺州市| 仪征市| 宜川县| 香格里拉县| 内丘县| 清远市| 亚东县| 美姑县| 华阴市| 名山县| 岑巩县| 嵩明县| 株洲县| 壤塘县| 青铜峡市| 合江县| 健康| 深圳市| 新邵县| 水城县| 平舆县| 张家界市| 安阳县| 余庆县| 肥乡县| 景宁| 通渭县| 梓潼县| 永吉县| 景洪市| 大竹县| 黎平县| 兖州市| 彰化市| 绥化市| 普陀区| 南溪县| 略阳县| 田林县| 屏山县| 临清市|