国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python 爬蟲學(xué)習(xí)2

2019-11-06 07:15:34
字體:
供稿:網(wǎng)友

任務(wù):爬取租房網(wǎng)站信息,300個房源信息(詳情頁中的價格、位置、戶主名字、性別等)

注意:超鏈接的獲取、性別獲取

from bs4 import BeautifulSoupimport requests, timepage_link = [] # <- 每個詳情頁的鏈接都存在這里,解析詳情的時候就遍歷這個列表然后訪問就好啦~def get_page_link(page_number):#獲取每一頁中的詳情頁的鏈接    for each_number in range(1,page_number): # 每頁24個鏈接,這里輸入的是頁碼        full_url = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)        wb_data = requests.get(full_url)        soup = BeautifulSoup(wb_data.text,'lxml')        for link in soup.select('a.resule_img_a'): # 找到這個 class 樣為resule_img_a 的 a 標(biāo)簽即可            page_link.append(link.get('href'))#只需要取出超鏈接添加到page_link中def PRint_gender(class_name):    if class_name == 'member_ico1':        return '女'    if class_name == 'member_ico':        return '男'url = 'http://bj.xiaozhu.com/fangzi/1508951935.html'def get_attractions(url, count):#獲取每一個詳情頁的具體信息    wb_data = requests.get(url)    soup = BeautifulSoup(wb_data.text, 'lxml')    title = soup.select('div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')    address = soup.select(' div.wrap.clearfix.con_bg > div.con_l > div.pho_info > p > span')    price = soup.select(' div.day_l > span')    picture = soup.select('#curBigImage')    host_name = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')    host_gender = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > div')    for ti, add, pri, pic, name, gender in zip(title, address , price, picture, host_name, host_gender):#創(chuàng)建數(shù)據(jù)結(jié)構(gòu)        data = {            'ti': ti.get_text(),            'add': add.get_text(strip=True), #strip去除前后空白,也可以使用.stripped_strings            'pri': pri.get_text(),            'pic': pic.get('src'),            'name': name.get_text(),            'gender':print_gender(gender.get('class')[0])        }    data['count']=count #增加計數(shù)功能    print(data)    get_page_link(13)   #爬取13頁for i in range(1, 301): #爬取300條    # time.sleep(2)    get_attractions(page_link[i], i)

 

 


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 日照市| 井陉县| 台北市| 裕民县| 慈溪市| 盘锦市| 同心县| 繁昌县| 南陵县| 珠海市| 泰顺县| 本溪| 合肥市| 东丰县| 永城市| 平江县| 辉县市| 红原县| 安庆市| 瑞安市| 华阴市| 徐汇区| 皮山县| 博爱县| 梅州市| 封丘县| 开远市| 静安区| 凤城市| 新源县| 通辽市| 通海县| 密山市| 德阳市| 泊头市| 平利县| 彭水| 武强县| 嘉禾县| 苍南县| 胶南市|