最近在抽空學(xué)了一下python,于量就拿爬是練了下手,不得不說python的上手非常簡(jiǎn)單。在網(wǎng)上找了一下,大都是python2的帖子,于是隨手寫了個(gè)python3的。代碼非常簡(jiǎn)單就不解釋了,直接貼代碼。
#test rdpimport urllib.requestimport re
#登錄用的帳戶信息data={}data['fromUrl']=''data['fromUrlTemp']=''data['loginId']='12345'data['passWord']='12345'user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#登錄地址 #url='http://192.168.1.111:8080/loginCheck'postdata = urllib.parse.urlencode(data) postdata = postdata.encode('utf-8')headers = { 'User-Agent' : user_agent } #登錄 res = urllib.request.urlopen(url,postdata)#取得頁(yè)面html
strResult=(res.read().decode('utf-8'))#用正則表達(dá)式取出所有A標(biāo)簽p = re.compile(r'<a href="(.*?)".*?>(.*?)</a>')for m in p.finditer(strResult): PRint (m.group(1))#group(1)是href里面的內(nèi)容,group(2)是a標(biāo)簽里的文字
關(guān)于cookie、異常等處理看了一下,沒有花時(shí)間去處理,畢竟只是想通過寫爬蟲來學(xué)習(xí)python。
想要深入的去看這個(gè)系列的文章,寫得非常詳細(xì)了。
下面是python語法教程,真的只要幾分鐘就能看完。
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注