国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python實現提取百度搜索結果的方法

2020-01-04 19:14:24
字體:
來源:轉載
供稿:網友

這篇文章主要介紹了python實現提取百度搜索結果的方法,涉及Python網頁及字符串操作的相關技巧,需要的朋友可以參考下

本文實例講述了python實現提取百度搜索結果的方法。分享給大家供大家參考。具體實現方法如下:

 

 
  1. # coding=utf8 
  2. import urllib2 
  3. import string 
  4. import urllib 
  5. import re 
  6. import random 
  7. #設置多個user_agents,防止百度限制IP 
  8. user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0', / 
  9. 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', / 
  10. 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ / 
  11. (KHTML, like Gecko) Element Browser 5.0', / 
  12. 'IBM WebExplorer /v0.94''Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', / 
  13. 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', / 
  14. 'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', / 
  15. 'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) / 
  16. Version/6.0 Mobile/10A5355d Safari/8536.25', / 
  17. 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) / 
  18. Chrome/28.0.1468.0 Safari/537.36', / 
  19. 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)'
  20. def baidu_search(keyword,pn): 
  21. p= {'wd': keyword}  
  22. res=urllib2.urlopen(("http://www.baidu.com/s?"+urllib.urlencode(p)+"&pn={0}&cl=3&rn=100").format(pn)) 
  23. html=res.read() 
  24. return html 
  25. def getList(regex,text): 
  26. arr = [] 
  27. res = re.findall(regex, text) 
  28. if res: 
  29. for r in res: 
  30. arr.append(r) 
  31. return arr 
  32. def getMatch(regex,text): 
  33. res = re.findall(regex, text) 
  34. if res: 
  35. return res[0
  36. return "" 
  37. def clearTag(text): 
  38. p = re.compile(u'<[^>]+>'
  39. retval = p.sub("",text) 
  40. return retval 
  41. def geturl(keyword): 
  42. for page in range(10): 
  43. pn=page*100+1 
  44. html = baidu_search(keyword,pn) 
  45. content = unicode(html, 'utf-8','ignore'
  46. arrList = getList(u"<table.*?class=/"result/".*?>.*?<//a>", content) 
  47. for item in arrList: 
  48. regex = u"<h3.*?class=/"t/".*?><a.*?href=/"(.*?)/".*?>(.*?)<//a>" 
  49. link = getMatch(regex,item) 
  50. url = link[0
  51. #獲取標題 
  52. #title = clearTag(link[1]).encode('utf8') 
  53. try
  54. domain=urllib2.Request(url) 
  55. r=random.randint(0,11
  56. domain.add_header('User-agent', user_agents[r]) 
  57. domain.add_header('connection','keep-alive'
  58. response=urllib2.urlopen(domain) 
  59. uri=response.geturl() 
  60. print uri 
  61. except
  62. continue 
  63. if __name__=='__main__'
  64. geturl('python'

希望本文所述對大家的Python程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 泸州市| 大港区| 临西县| 辽中县| 南漳县| 磐安县| 南丰县| 天全县| 溆浦县| 葵青区| 云龙县| 沾益县| 大竹县| 客服| 筠连县| 客服| 三河市| 沙坪坝区| 舒兰市| 兴国县| 安阳市| 七台河市| 永年县| 新河县| 上饶市| 白玉县| 武川县| 余姚市| 新蔡县| 潼南县| 沂水县| 麻城市| 固始县| 泰州市| 沙坪坝区| 洛隆县| 新和县| 渝北区| 宁波市| 光山县| 莱西市|