国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python抓取Discuz!用戶名腳本代碼

2020-02-23 05:02:59
字體:
供稿:網(wǎng)友

最近學(xué)習(xí)Python,于是就用Python寫了一個(gè)抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時(shí)但是后來發(fā)現(xiàn)一共只抓取了50000多個(gè)用戶名就被封了。。。
代碼如下:
代碼如下:
# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺(tái)用戶名腳本

import urllib
import urllib2 
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的個(gè)人資料  百度站長社區(qū) </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正則匹配用戶名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防頻繁訪問被禁止
         time.sleep(0.5)
         if theFindall :
              #中文編碼防止亂碼輸出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #寫入txt文本文檔
              f = open('theUid.txt','a')
              f.writelines(thedatas+'/n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最終成果如下:

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 罗甸县| 屯留县| 桐柏县| 搜索| 正蓝旗| 行唐县| 治多县| 霍山县| 南开区| 靖远县| 青阳县| 马关县| 方山县| 凤冈县| 枞阳县| 昌邑市| 义马市| 梁山县| 牙克石市| 神农架林区| 仁布县| 兰坪| 独山县| 建德市| 古丈县| 闽清县| 古交市| 察哈| 丰原市| 海伦市| 娱乐| 大城县| 渝中区| 昌吉市| 河曲县| 博白县| 观塘区| 广宁县| 奇台县| 安陆市| 唐山市|