這一次我們來了解一下美味的湯--BeautifulSoup,這將是我們以后經(jīng)常使用的一個庫,并且非常的好用。
BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名詩歌。在故事中,這首歌是素甲魚唱的。就像它在仙境中的說法一樣,BeautifulSoup嘗試化平淡為神奇。它通過定位HTML標(biāo)簽來格式化和組織復(fù)雜的網(wǎng)絡(luò)信息,用簡單易用的Python對象為我們展現(xiàn)XML結(jié)構(gòu)信息。
由于BeautifulSoup庫不是Python標(biāo)準(zhǔn)庫,因此我們需要單獨安裝這個庫,才能使用它。對于這個庫的安裝,我們這里秉著簡單的原則,就直接利用pycharm這個IDLE進行庫的自動下載和導(dǎo)入。
首先我們進入pycharm的主界面,單擊file-〉settings-〉Project:untitled-〉Project Interpreter,如下圖:


在上圖中我們會看到一個綠色的加號,這時我們單擊這個加號,會跳出如下的界面(pycharm在這個地方有時候很慢,會一直在這個界面刷新):

這時我們在搜索框中輸入“bs4”,然后選擇列表中的bs4,然后進行安裝,如下圖:

這樣我們就完成了BeautifulSoup這個庫的安裝,下面我們就可以來使用它了。
關(guān)于這個庫的官方文檔解釋的是很詳細的,一定要看一看:點擊打開鏈接
下面我就簡單說一下這個庫的一些方面。
首先呢,我們還是從一個例子開始我們的學(xué)習(xí):
#coding:utf - 8from urllib.request import urlopenfrom bs4 import BeautifulSoup html = urlopen("http://tieba.baidu.com/")bsObj=BeautifulSoup(html,"lxml") #將html對象轉(zhuǎn)化為BeautifulSoup對象print(bsObj.title) #輸出這個網(wǎng)頁中的標(biāo)題 執(zhí)執(zhí)行上面的程序,我們會得到的結(jié)果為:<title>百度貼吧——全球最大的中文社區(qū)</title>
首先我們來分析下bsObj=BeautifulSoup(html,"lxml")這句話對我們的html做了什么,在這句代碼中,我們將html對象傳入到BeautifulSoup中將它轉(zhuǎn)化成BeautifulSoup對象,關(guān)于第二個參數(shù)lxml,可以到官方文檔中看,解釋得很詳細,這里大家只要知道帶上它就可以了,不需要管它。這樣,我們就成功將html對象轉(zhuǎn)化為了BeautifulSoup對象。
下面我們來了解下BeautifulSoup對象的結(jié)構(gòu),當(dāng)我們將html轉(zhuǎn)化后得到的結(jié)構(gòu)為:
html-><html><head>....</head><body>.....</body></html>
---head-><head><title>百度貼吧--全球最大的中文社區(qū)<title></head>
新聞熱點
疑難解答