国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

學(xué)習(xí)記錄:python糗百爬蟲

2019-11-14 09:19:54
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

最近想了解下爬蟲是如何運(yùn)作的,就在酷勤網(wǎng)上找了爬蟲的教程學(xué)習(xí)了下,順便學(xué)下下python的基本語(yǔ)法。 由于網(wǎng)上的代碼是無(wú)縮進(jìn)版本的,本人對(duì)python產(chǎn)生了奇怪的怨念。 花了半天才調(diào)整出能跑的格式。


遇到的問(wèn)題如下: 1.# -- coding:utf-8 -- 這句話很重要,不然連注釋都會(huì)報(bào)錯(cuò)。 2.不能手賤多打空格,不然會(huì)出現(xiàn)縮減不匹配的問(wèn)題 3.網(wǎng)上所給的正則表達(dá)式已經(jīng)不能再匹配當(dāng)前的糗百網(wǎng)頁(yè),需要重新改寫。 4.沒(méi)縮減的代碼看起來(lái)真的好累,不知道什么地方結(jié)束什么地方開始。有幾個(gè)return不知道該屬于哪一塊,雖然如此,但是代碼能跑起來(lái)0 0


另外,對(duì)python語(yǔ)句以下了解: 1. __ author __好像沒(méi)什么用處,只是聲明作者,用法很有意思 2.return 和return None意思其實(shí)是一樣的 3.雖然有些不是很明白,但是好像用到的很多庫(kù)都是python自帶的 4.對(duì)方法里的self問(wèn)題的理解

http://m.survivalescaperooms.com/linuxcat/archive/2012/01/05/2220997.html 首先明確的是self只有在類的方法中才會(huì)有,獨(dú)立的函數(shù)或方法是不必帶有self的。self在定義類的方法時(shí)是必須有的,雖然在調(diào)用時(shí)不必傳入相應(yīng)的參數(shù)。self名稱不是必須的,在python中self不是關(guān)鍵詞,你可以定義成a或b或其它名字都可以,但是約定成俗,不要搞另類,大家會(huì)不明白的。self指的是類實(shí)例對(duì)象本身(注意:不是類本身)。

運(yùn)行結(jié)果

__author__='ttt'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport timeclass QSBK:#初始化方法,定義一些變量 def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #初始化headers self.headers = { 'User-Agent' : self.user_agent } #存放程序是繼續(xù)運(yùn)行的變量 self.stories=[] #傳入某一頁(yè)的索引獲得頁(yè)面代碼 def getPage(self,pageIndex): try: url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex) #構(gòu)建請(qǐng)求的request request = urllib2.Request(url,headers = self.headers) #利用urlopen獲取頁(yè)面代碼 response = urllib2.urlopen(request) #講頁(yè)面轉(zhuǎn)化為UTF-8編碼 pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError, e: if hasattr(e,"reason"): PRint u"糗事百科失敗,錯(cuò)誤原因",e.reason return None #傳入某一頁(yè)代碼,返回本頁(yè)不帶圖片的段子列表 def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "頁(yè)面加載失敗..." return None pattern = re.compile('<div.*?class="author.*?<h2>(.*?)</h2>.*?<div.*?class="content".*?<span>(.*?)</span>(.*?)<div.*?class="stats-vote".*?class="number">(.*?)</i>',re.S) items = re.findall(pattern,pageCode) #用來(lái)存儲(chǔ)每頁(yè)的段子們 pageStories = [] #便利正則表達(dá)式匹配的信息 for item in items: #是否含有圖片 haveImg = re.search("img",item[2]) #如果不含有圖片,把它加入list中 if not haveImg: #item[0]是一個(gè)段子的發(fā)布者,item[1]是內(nèi)容,item[3]是點(diǎn)贊 pageStories.append([item[0].strip(),item[1].strip(),item[3].strip()]) return pageStories #加載并提取頁(yè)面的內(nèi)容,加入到列表中 def loadPage(self): #如果當(dāng)前未看的頁(yè)數(shù)少于2頁(yè),則加載新的一頁(yè) if self.enable == True: if len(self.stories) < 2: #獲取新一頁(yè) pageStories = self.getPageItems(self.pageIndex) #講該頁(yè)的段子存放到全局list中 if pageStories: self.stories.append(pageStories) #獲取玩之后頁(yè)碼所以加一,表示下次讀取下一頁(yè) self.pageIndex += 1 def getOneStory(self,pageStories,page): #遍歷一頁(yè)的段子 for story in pageStories: #等待用戶輸入 input = raw_input() #每當(dāng)輸入回車一次,判斷一下是否要加載頁(yè)面 self.loadPage() #如果輸入Q則程序結(jié)束 if input == "Q": self.enable = False return print u"第%d頁(yè)/t發(fā)布人:%s/n%s/n贊%s/n"%(page,story[0],story[1],story[2]) #開始方法 def start(self): print u"正在讀取糗事百科,按回車查看新段子,Q退出" #使變量為True,程序可以正常運(yùn)行 self.enable = True #先加載一頁(yè)內(nèi)容 self.loadPage() #局部變量,控制當(dāng)前讀到第幾頁(yè) nowPage = 0 while self.enable: if len(self.stories)>0: #從全局list中獲取一頁(yè)的段子 pageStories = self.stories[0] #當(dāng)前讀到的頁(yè)數(shù)加一 nowPage += 1 #將全局list中第一個(gè)元素刪除 因?yàn)橐呀?jīng)取出 del self.stories[0] #輸出該頁(yè)段子 self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 揭阳市| 香河县| 武定县| 通渭县| 新泰市| 永吉县| 宜宾市| 龙口市| 新乡县| 炎陵县| 博客| 雅江县| 平罗县| 榆社县| 潼南县| 台中县| 延吉市| 林甸县| 阳高县| 家居| 桂阳县| 冀州市| 龙泉市| 金昌市| 宝坻区| 洪洞县| 万宁市| 江口县| 稻城县| 四会市| 临高县| 兴山县| 浦县| 宜阳县| 康定县| 冀州市| 枞阳县| 乐陵市| 奉新县| 鄂尔多斯市| 宁晋县|