国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python爬蟲1----房源信息

2019-11-08 03:13:37
字體:
來源:轉載
供稿:網友

任務描述

爬取300個房源信息,每頁具體信息如下

具體信息


Python代碼

#-*- coding: UTF-8 -*-# 20170217:work wellfrom bs4 import BeautifulSoupimport requests# 形成小豬主頁上前10頁的網址urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1, 11, 1)]# 性別不同,標簽的class屬性內容不同,通過這個差異區分房東性別def get_lorder_sex(class_name): if class_name == ['member_ico']: return '男' elif class_name == ['member_ico1']: return '女'#對每一頁上的具體信息進行解析def get_attar(url): web_data = requests.get(url) soup = BeautifulSoup(web_data.text, 'lxml') titles = soup.select('div.pho_info > h4 > em') locations = soup.select('div.pho_info > p > span') PRices = soup.select('div.day_l > span') images = soup.select('div.pho_show_big > div > img') lorder_names = soup.select('div.w_240 > h6 > a') lorder_images = soup.select('div.member_pic > a > img') lorder_genders = soup.select('div.member_pic > div') for title, location, price, image, lorder_name, lorder_image, gender in zip(titles, locations, prices, images, lorder_names, lorder_images, lorder_genders): data = { 'title': title.get_text(), 'location': location.get_text(), 'price': price.get_text(), 'image': image.get('src'), 'lorder_name': lorder_name.get_text(), 'lorder_image': lorder_image.get('src'), "gender": get_lorder_sex(gender.get("class")) } print data#10個主頁中,每一個主頁又有很多小頁:上面記錄了待租房的具體信息for url in urls: web_data = requests.get(url) soup = BeautifulSoup(web_data.text, 'lxml') url_links = soup.select('a.resule_img_a') for url_link in url_links: get_attar(url_link.get('href'))

結果展示

這里僅截取其中兩個房源信息

這里寫圖片描述


不足之處

Pycharm的控制臺中,對中文漢字,只能顯示其字符編碼,未能顯示中文


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 剑川县| 凤山市| 福州市| 太仆寺旗| 红原县| 岢岚县| 海淀区| 图们市| 上犹县| 攀枝花市| 玉门市| 木里| 革吉县| 松桃| 台东县| 保靖县| 红安县| 万州区| 朝阳县| 和田市| 营山县| 迁安市| 唐河县| 永福县| 柏乡县| 湾仔区| 太原市| 赤水市| 龙胜| 读书| 阳谷县| 岳西县| 云和县| 吴江市| 丹阳市| 柞水县| 西盟| 柞水县| 社会| 芮城县| 射阳县|