自己在剛學習python時寫的,中途遇到很多問題,查了很多資料,下面就是我爬取租房信息的代碼:
鏈家的房租網站兩個導入的包1.requests 用來過去網頁內容 2.BeautifulSoupimport timeimport pymssqlimport requestsfrom bs4 import BeautifulSoup# https://wh.lianjia.com/zufang/#獲取url中下面的內容def get_page(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') return soup#封裝成函數,作用是獲取列表下的所有租房頁面的鏈接,返回一個鏈接列表def get_links(url): responce = requests.get(url) soup = BeautifulSoup(responce.text,'lxml') link_div = soup.find_all('div',class_ = 'pic-panel') links = [div.a.get('href') for div in link_div] return links#收集一個房子的信息def get_house_info(house_url): soup = get_page(house_url) price = soup.find('span',class_='total').text unit = soup.find('span',class_= 'unit').text[1:-1] area = soup.find('p', class_ = 'lf').text house_info= soup.find_all('p',class_ = 'lf') area = house_info[0].text[3:] #字符串切片工具 layout = house_info[1].text[5:] info={ '價格':price, '單位':unit, '面積':area, '戶型':layout } return info#鏈接數據庫server="192.168.xx.xx" #換成自己的服務器信息user="liujiepeng"password="xxxxx" #自己的數據庫用戶名和密碼conn=pymssql.connect(server,user,password,database="house")def insert(conn,house): #sql_values = values.format(house['價格'],house['單位'],house['面積'], #house['戶型']) sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["價格"],house["單位"],house["面積"],house["戶型"]) print(sql) cursor = conn.cursor() #游標,開拓新的窗口 #cursor1 = conn.cursor() cursor.execute(sql) #執行sql語句 conn.commit() #提交 ,更新sql 語句links = get_links('https://wh.lianjia.com/zufang/')count = 1for link in links: #time.sleep(2) print('獲取一個數據成功') house = get_house_info(link) insert(conn,house) print("第%s個數據,存入數據庫成功!"%(count)) count = count+1 #print(house["價格"],end='/r')總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對VEVB武林網的支持。
新聞熱點
疑難解答