[Python]從豆瓣電影批量獲取看過這部電影的用戶列表

2019-11-14 16:58:38

字體：大中小

來源：轉載

供稿：網友

前言

由于之后要做一個實驗，需要用到大量豆瓣用戶的電影數據，因此想到了從豆瓣電影的“看過這部電影的豆瓣成員”頁面上來獲取較為活躍的豆瓣電影用戶。

鏈接分析

這是看過"模仿,i=range(0,200,20),在循環中url=base_url+str(i)。

之所以要把i的最大值設為180，是因為后來經過測試，豆瓣只給出看過一部電影的最近200個用戶。

`讀取網頁`

在訪問時我設置了一個HTTP代理，并且為了防止訪問頻率過快而被豆瓣封ip，每讀取一個網頁后都會調用time.sleep(5)等待5秒。在程序運行的時候干別的事情好了。

`網頁解析`

本次使用BeautifulSoup庫解析html。每一個用戶信息在html中是這樣的：

  <table width="100%" class="">  <tr>      <td width="80" valign="top">          <a href="http://movie.douban.com/people/46770381/">              <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />          </a>      </td>      <td valign="top">          <div class="pl2">              <a href="http://movie.douban.com/people/46770381/" class="">七月                  <span style="font-size:12px;">(銀川)</span>              </a>          </div>          <p class="pl">2015-08-23                  &nbsp;<span class="allstar40" title="推薦"></span>          </p>      </td>  </tr>  </table>

首先用讀取到的html初始化soup=BeautifulSoup(html)。本次需要的信息僅僅是用戶id和用戶的電影主頁，因此真正有用的信息在這段代碼中：

  <td width="80" valign="top">      <a href="http://movie.douban.com/people/46770381/">          <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />      </a>  </td>

因此在Python代碼中通過td_tags=soup.findAll('td',width='80',valign='top')找到所有<td width="80" valign="top">的塊。

td=td_tags[0],a=td.a就可以得到

  <a href="http://movie.douban.com/people/46770381/">      <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />  </a>

通過link=a.get('href')可以得到href屬性，也就用戶的電影主頁鏈接。然后通過字符串查找也就可以得到用戶ID了。

`完整代碼`

 1 #coding=utf-8 2 ##從豆瓣網頁中得到用戶id 3  4 ##網頁地址類型：http://movie.douban.com/subject/26289144/collections?start=0 5 ##              http://movie.douban.com/subject/26289144/collections?start=20 6  7 from BeautifulSoup import BeautifulSoup 8 import codecs 9 import time10 import urllib211 12 baseUrl='http://movie.douban.com/subject/25895276/collections?start='13 14 PRoxyInfo='127.0.0.1:8087'15 proxySupport=urllib2.ProxyHandler({'http':proxyInfo})16 opener=urllib2.build_opener(proxySupport)17 urllib2.install_opener(opener)18 19 20 #將用戶信息（id，主頁鏈接）保存至文件21 def saveUserInfo(idList,linkList):22     if len(idList)!=len(linkList):23         print 'Error: len(idList)!=len(linkList) !'24         return25     writeFile=codecs.open('UserIdList3.txt','a','utf-8')26     size=len(idList)27     for i in range(size):28         writeFile.write(idList[i]+'/t'+linkList[i]+'/n')29     writeFile.close()30 31 #從給定html文本中解析用戶id和連接32 def parseHtmlUserId(html):33     idList=[]   #返回的id列表34     linkList=[] #返回的link列表35 36     soup=BeautifulSoup(html)37     ##<td width="80" valign="top">38     ##<a >39     ##<img class="" src="/u3893139-33.jpg" alt="Liar." />40     ##</a>41     ##</td>42     td_tags=soup.findAll('td',width='80',valign='top')43     i=044     for td in td_tags:45         #前20名用戶是看過這部電影的，46         #而后面的只是想看這部電影的用戶，因此舍棄47         if i==20:48             break49         a=td.a50         link=a.get('href')51         i_start=link.find('people/')52         id=link[i_start+7:-1]53         idList.append(id)54         linkList.append(link)55         i+=156     return (idList,linkList)57 58 #返回指定編號的網頁內容59 def getHtml(num):60     url=baseUrl+str(num)61     page=urllib2.urlopen(url)62     html=page.read()63     return html64 65 def launch():66     #指定起始編號：20的倍數67     ques=raw_input('Start from number?（Multiples of 20） ')68     startNum=int(ques)69     if startNum%20 != 0:70         print 'Input number error!'71         return72     for i in range(startNum,200,20):73         print 'Loading page %d/200 ...' %(i+1)74         html=getHtml(i)75         (curIdList,curLinkList)=parseHtmlUserId(html)76         saveUserInfo(curIdList,curLinkList)77         print 'Sleeping.'78         time.sleep(5)








上一篇：[Python]應用kNN算法預測豆瓣電影用戶的性別


下一篇：Python面向對象














發表評論
共有條評論






用戶名:

密碼:



驗證碼:

 

匿名發表


















學習交流
更多





索泰發布一款GTX 1070 Mini迷


AMD新旗艦顯卡輕松干翻NVIDIA 






索泰發布一款GTX 1070 Mini迷你版本:小機
索泰發布一款GTX 1070 Mini迷你版本:小機箱大愛...






usb無線網卡怎么用,小編告訴你安裝教程09-10

usb調試在哪,小編告訴你usb調試在哪09-10

優盤不顯示,小編告訴你優盤不顯示怎么辦09-10

低級格式化,小編告訴你硬盤怎么低級格式化09-10




帝國cms分類信息的所在地在的修改09-08

將網站地圖和友情鏈接table樣式改為div+css09-08

用帝國cms實現不規則新聞或信息調用（應大站09-08

帝國調用DZ論壇精華帖09-08

用靈動標簽調用discuz和phpwind的最新貼子09-08







熱門圖片
更多




芭蕾舞蹈表演，真實美到極致


下午茶時間，悠然自得的休憩




充斥這繁華奢靡氣息的城市迪拜風景圖片


從山間到田野再到大海美麗的自然風景圖片




肉食主義者的最愛美食烤肉圖片


夏日甜心草莓美食圖片




人逢知己千杯少，喝酒搞笑圖集


搞笑試卷，學生惡搞答題







猜你喜歡的新聞


榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下

搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵

華為輪值董事長郭平：虛擬技術創造現實價值

第六屆世界互聯網大會開幕“to B”端成熱門

滴滴英文服務上線兩周年 用戶已超200萬

華為推出全球至快AI訓練集群Atlas900

馬斯克：特斯拉正組建中國技術團隊

10年后6G將問世 速度有望比5G快100倍

WeworkCEO稱已開始考慮未來職位 不排除放棄

谷歌軟件商店模式變革：推出5美元會員 可用數





猜你喜歡的關注


聊天室實現私聊(一)

聊天室實現私聊(二)

聊天室實現私聊(三)

聊天室實現私聊(四)

網頁在線人數統計的做法

ADO存取數據時如何實現留言記錄的分頁顯示

一個簡單聊天室的建立.(供學習參考)

構建你的網站新聞自動發布系統之一

構建你的網站新聞自動發布系統之二

構建你的網站新聞自動發布系統之三











新聞熱點





榮耀總裁趙明烏鎮演講：榮耀首款5G手機V30下月發布
2019-10-23 09:17:05






搜狐張朝陽：回歸媒體是搜狐重新崛起的關鍵
2019-10-21 09:20:02






華為輪值董事長郭平：虛擬技術創造現實價值
2019-10-21 09:00:12






滴滴英文服務上線兩周年 用戶已超200萬
2019-09-26 08:57:12






華為推出全球至快AI訓練集群Atlas900
2019-09-25 08:46:36






馬斯克：特斯拉正組建中國技術團隊
2019-09-25 08:15:43











疑難解答




索泰發布一款GTX 1070 Mini迷你版本:小機箱

AMD新旗艦顯卡輕松干翻NVIDIA 有幾個點我們

i5 6500配什么顯卡最佳？i5 6500配1060顯卡可

AMD新一批顯卡曝光:更便宜的14nm北極星

A卡自修改BIOS安裝16.12.1 ReLive驅動教程 

2016筆記本顯卡性能哪個好？筆記本顯卡天梯圖

2016顯卡性能怎么看好壞 顯卡天梯圖2016年1

PS4 Pro顯卡解析:顯存帶寬相當于標準版PS4

iGame 1050烈焰戰神U-2GD5版圖賞版:最美非

EVGA FTW GTX 1080/1070顯卡存在嚴重問題:







圖片精選




使用ASP建設私人搜索引擎



華為短消息中心的發展與應用



移動通信計費及客戶服務系統



移動客戶服務中心系統











網友關注




u盤無法識別怎么辦,小編告訴你U盤無法識別怎

usb無線網卡怎么用,小編告訴你安裝教程

usb調試在哪,小編告訴你usb調試在哪

優盤不顯示,小編告訴你優盤不顯示怎么辦

低級格式化,小編告訴你硬盤怎么低級格式化

分區表丟失,小編告訴你分區表丟失如何修復

進入bios,小編告訴你戴爾筆記本進入bios設置u

怎么刷bios,小編告訴你華碩怎么刷bios

讀卡器怎么用,小編告訴你如何使用讀卡器

bios升級,小編告訴你華碩主板bios怎么升級

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

[Python]從豆瓣電影批量獲取看過這部電影的用戶列表

前言

鏈接分析

讀取網頁

網頁解析

完整代碼

`讀取網頁`

`網頁解析`

`完整代碼`