国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python3實現(xiàn)網(wǎng)絡(luò)爬蟲之BeautifulSoup使用詳解

2020-02-16 00:13:17
字體:
供稿:網(wǎng)友

這一次我們來了解一下美味的湯--BeautifulSoup,這將是我們以后經(jīng)常使用的一個庫,并且非常的好用。

BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名詩歌。在故事中,這首歌是素甲魚唱的。就像它在仙境中的說法一樣,BeautifulSoup嘗試化平淡為神奇。它通過定位HTML標(biāo)簽來格式化和組織復(fù)雜的網(wǎng)絡(luò)信息,用簡單易用的Python對象為我們展現(xiàn)XML結(jié)構(gòu)信息。

由于BeautifulSoup庫不是Python標(biāo)準(zhǔn)庫,因此我們需要單獨安裝這個庫,才能使用它。對于這個庫的安裝,我們這里秉著簡單的原則,就直接利用pycharm這個IDLE進行庫的自動下載和導(dǎo)入。

首先我們進入pycharm的主界面,單擊file-〉settings-〉Project:untitled-〉Project Interpreter,如下圖:



在上圖中我們會看到一個綠色的加號,這時我們單擊這個加號,會跳出如下的界面(pycharm在這個地方有時候很慢,會一直在這個界面刷新):


這時我們在搜索框中輸入“bs4”,然后選擇列表中的bs4,然后進行安裝,如下圖:


這樣我們就完成了BeautifulSoup這個庫的安裝,下面我們就可以來使用它了。

關(guān)于這個庫的官方文檔解釋的是很詳細的,一定要看一看:點擊打開鏈接

下面我就簡單說一下這個庫的一些方面。

首先呢,我們還是從一個例子開始我們的學(xué)習(xí):

#coding:utf - 8from urllib.request import urlopenfrom bs4 import BeautifulSoup html = urlopen("http://tieba.baidu.com/")bsObj=BeautifulSoup(html,"lxml")  #將html對象轉(zhuǎn)化為BeautifulSoup對象print(bsObj.title)  #輸出這個網(wǎng)頁中的標(biāo)題 執(zhí)

執(zhí)行上面的程序,我們會得到的結(jié)果為:<title>百度貼吧——全球最大的中文社區(qū)</title>
首先我們來分析下bsObj=BeautifulSoup(html,"lxml")這句話對我們的html做了什么,在這句代碼中,我們將html對象傳入到BeautifulSoup中將它轉(zhuǎn)化成BeautifulSoup對象,關(guān)于第二個參數(shù)lxml,可以到官方文檔中看,解釋得很詳細,這里大家只要知道帶上它就可以了,不需要管它。這樣,我們就成功將html對象轉(zhuǎn)化為了BeautifulSoup對象。
下面我們來了解下BeautifulSoup對象的結(jié)構(gòu),當(dāng)我們將html轉(zhuǎn)化后得到的結(jié)構(gòu)為:
html-><html><head>....</head><body>.....</body></html>
---head-><head><title>百度貼吧--全球最大的中文社區(qū)<title></head>

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 垣曲县| 新田县| 台前县| 苍溪县| 桑日县| 澜沧| 北碚区| 济源市| 哈密市| 罗源县| 榕江县| 黑龙江省| 蒙山县| 香港 | 米泉市| 甘肃省| 平湖市| 贵溪市| 九江市| 汽车| 泸州市| 会昌县| 翁牛特旗| 子洲县| 汕尾市| 普洱| 溧阳市| 武冈市| 江山市| 平南县| 凤冈县| 报价| 玛多县| 凌海市| 昌宁县| 临猗县| 登封市| 赤峰市| 雅江县| 扎兰屯市| 宿松县|