1、主函數(shù)(WeiboMain.py):
import WeiboEncode
import WeiboSearch
if __name__ == '__main__':
weiboLogin = WeiboLogin('×××@gmail.com', '××××')#郵箱(賬號)、密碼
if weiboLogin.Login() == True:
print "登陸成功!"
前兩個import是加載Python的網(wǎng)絡編程模塊,后面的import是加載另兩個文件WeiboEncode.py和Weiboseach.py(稍后介紹)。主函數(shù)新建登陸對象,然后登陸。
2、WeiboLogin類(WeiboMain.py):
print "Initializing WeiboLogin..."
self.userName = user
self.passWord = pwd
self.enableProxy = enableProxy
self.serverUrl = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=&rsakt=mod&client=ssologin.js(v1.4.11)&_=1379834957683"
self.loginUrl = "http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.11)"
self.postHeader = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}
初始化函數(shù),定義了兩個關(guān)鍵的url成員:self.serverUrl用于登陸的第一步(獲取servertime、nonce等),這里的第一步實質(zhì)包含了解析新浪微博的登錄過程的1和2;self.loginUrl用于第二步(加密用戶和密碼后,POST給該URL,self.postHeader是POST的頭信息),這一步對應于解析新浪微博的登錄過程的3。類內(nèi)函數(shù)還有3個:
req = urllib2.Request(self.loginUrl, postData, self.postHeader)
print "Posting request..."
result = urllib2.urlopen(req)#登陸的第二步――解析新浪微博的登錄過程中3
text = result.read()
try:
loginUrl = WeiboSearch.sRedirectData(text)#解析重定位結(jié)果
urllib2.urlopen(loginUrl)
except:
print 'Login error!'
return False
print 'Login sucess!'
return True
self.EnableCookie用于設置cookie及代理服務器,網(wǎng)絡上有很多免費的代理服務器,為防止新浪封IP,可以使用。然后使登陸的第一步,訪問新浪服務器得到serverTime等信息,然后利用這些信息加密用戶名和密碼,構(gòu)建POST請求;執(zhí)行第二步,向self.loginUrl發(fā)送用戶和密碼,得到重定位信息后,解析得到最終跳轉(zhuǎn)到的URL,打開該URL后,服務器自動將用戶登陸信息寫入cookie,登陸成功。
if enableProxy:
proxy_support = urllib2.ProxyHandler({'http':'http://xxxxx.pac'})#使用代理
opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)
print "Proxy enabled"
else:
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)#構(gòu)建cookie對應的opener
EnableCookie函數(shù)比較簡單
try:
serverTime, nonce, pubkey, rsakv = WeiboSearch.sServerData(serverData)#解析得到serverTime,nonce等
return serverTime, nonce, pubkey, rsakv
except:
print 'Get server time & nonce error!'
return None
WeiboSearch文件中的函數(shù)主要用于解析從服務器得到的數(shù)據(jù),比較簡單。
3、sServerData函數(shù)(WeiboSearch.py):
def sServerData(serverData):
"Search the server time & nonce from server data"
p = re.compile('/((.*)/)')
jsonData = p.search(serverData).group(1)
data = json.loads(jsonData)
serverTime = str(data['servertime'])
nonce = data['nonce']
pubkey = data['pubkey']#
rsakv = data['rsakv']#
print "Server time is:", serverTime
print "Nonce is:", nonce
return serverTime, nonce, pubkey, rsakv
解析過程主要使用了正則表達式和JSON,這部分比較容易理解。另外Login中解析重定位結(jié)果部分函數(shù)也在這個文件中如下:
4、從第一步到第二步要對用戶和密碼進行加密,編碼操作(WeiboEncode.py)
def PostEncode(userName, passWord, serverTime, nonce, pubkey, rsakv):
"Used to generate POST data"
encodedUserName = GetUserName(userName)#用戶名使用base64加密
encodedPassWord = get_pwd(passWord, serverTime, nonce, pubkey)#目前密碼采用rsa加密
postPara = {
'entry': 'weibo',
'gateway': '1',
'from': '',
'savestate': '7',
'userticket': '1',
'ssosimplelogin': '1',
'vsnf': '1',
'vsnval': '',
'su': encodedUserName,
'service': 'miniblog',
'servertime': serverTime,
'nonce': nonce,
'pwencode': 'rsa2',
'sp': encodedPassWord,
'encoding': 'UTF-8',
'prelt': '115',
'rsakv': rsakv,
'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
'returntype': 'META'
}
postData = urllib.urlencode(postPara)#網(wǎng)絡編碼
return postData
PostEncode函數(shù)構(gòu)建POST的消息體,要求構(gòu)建得到內(nèi)容與真正登陸所需的信息相同。難點在用戶名和密碼的加密方式:
def get_pwd(password, servertime, nonce, pubkey):
rsaPublickey = int(pubkey, 16)
key = rsa.PublicKey(rsaPublickey, 65537) #創(chuàng)建公鑰
message = str(servertime) + '/t' + str(nonce) + '/n' + str(password) #拼接明文js加密文件中得到
passwd = rsa.encrypt(message, key) #加密
passwd = binascii.b2a_hex(passwd) #將加密信息轉(zhuǎn)換為16進制。
return passwd
新浪登錄過程,密碼的加密方式原來是SHA1,現(xiàn)在變?yōu)榱薘SA,以后可能還會變化,但是各種加密算法在Python中都有對應的實現(xiàn),只要發(fā)現(xiàn)它的加密方式(),程序比較易于實現(xiàn)。
到這里,Python模擬登陸新浪微博就成功了,運行輸出:
果需要爬取微博中的信息,接下來只需要在Main函數(shù)后添加爬取、解析模塊就可以了,比如讀取某微博網(wǎng)頁的內(nèi)容:
大家可以根據(jù)不同的需求設計不同的爬蟲模塊了,模擬登陸的代碼放在這里。
新聞熱點
疑難解答
圖片精選