爬蟲具有域名切換、信息收集以及信息存儲功能。
這里講述如何構建基礎的爬蟲架構。
1、
1、基礎爬蟲
爬蟲需要首先import對象,然后打開網址,使用BeautifulSoup對網頁內容進行讀取。
2、使用print輸出打開的網址的內容。
3、從輸出中可以看出內容的結構為:
4、輸出內容中的html-body-h1的內容可使用四種語句。
5、
1、Error
2、
3、網頁在服務器上不存在會出現HTTPError,可使用try語句進行處理。
當程序返回HTTPError錯誤代碼時,會顯示錯誤內容。
4、服務器不存在時,urlopen會返回None.
可使用判斷語句進行檢測。
調用的標簽不存在會出現None,調用不存在的標簽下的子標簽,就會出現AttributeError錯誤。
總結:以上就是關于python構建基礎的爬蟲的基礎步驟內容,感謝大家的閱讀和對VEVB武林網的支持。
新聞熱點
疑難解答