国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python抓取Discuz!用戶名腳本代碼

2019-11-25 18:34:56
字體:
供稿:網(wǎng)友

最近學(xué)習(xí)Python,于是就用Python寫了一個(gè)抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時(shí)但是后來發(fā)現(xiàn)一共只抓取了50000多個(gè)用戶名就被封了。。。
代碼如下:

復(fù)制代碼 代碼如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺(tái)用戶名腳本

import urllib
import urllib2 
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的個(gè)人資料  百度站長社區(qū) </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正則匹配用戶名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防頻繁訪問被禁止
         time.sleep(0.5)
         if theFindall :
              #中文編碼防止亂碼輸出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #寫入txt文本文檔
              f = open('theUid.txt','a')
              f.writelines(thedatas+'/n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最終成果如下:

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 贺州市| 龙江县| 湘西| 武定县| 沙湾县| 七台河市| 玉田县| 黄陵县| 当雄县| 漳平市| 黄冈市| 儋州市| 白河县| 叙永县| 遵义市| 浠水县| 明水县| 紫阳县| 乌拉特前旗| 赤水市| 龙胜| 万载县| 泾阳县| 宁晋县| 定州市| 吕梁市| 海林市| 常山县| 莱阳市| 株洲市| 博爱县| 怀集县| 奇台县| 盐池县| 福州市| 页游| 太和县| 饶平县| 辉县市| 开阳县| 筠连县|