国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

使用Python程序抓取新浪在國內的所有IP的教程

2019-11-25 17:33:12
字體:
來源:轉載
供稿:網友

數據分析,特別是網站分析中需要對訪問者的IP進行分析,分析IP中主要是區分來訪者的省份+城市+行政區數據,考慮到目前純真IP數據庫并沒有把這些數據做很好的區分,于是尋找了另外一個可行的方案(當然不是花錢買哈)。解決方案就是抓取新浪的IP數據。

新浪的IP數據接口為:
 
http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=json&ip=123.124.2.85

返回的數據為:
 

復制代碼 代碼如下:

{"ret":1,"start":"123.123.221.0","end":"123.124.158.29","country":"/u4e2d/u56fd","province":"/u5317/u4eac","city":"/u5317/u4eac","district":"","isp":"/u8054/u901a","type":"","desc":""}

其返回的內容中已經包含了省份+城市+行政區信息了,這就是我們真實想要的。

下面就來說說如何來抓取這部分IP數據,要抓取這部分數據的主要工作就是枚舉,即將接口中的IP不斷的替換,要替換所有的IP地址肯定不太可能,所以我們縮小下范圍,只窮舉所有中國的IP段??紤]到新浪的IP接口返回的是IP段,所以要窮舉的部分又少了一部分。再考慮啊到IP段的最后一位及256個IP基本上都是在一個地區,所以我們要窮舉的數據有少了很多。對于窮舉最重要的是把IP地址換成INT型。

具體國內有多少IP地址段,可以到APNIC官方網站去查找或下面的文檔

http://ftp.apnic.net/apnic/dbase/data/country-ipv4.lst

下面就來看看窮舉程序如何寫:

 

import re def ipv3_to_int(s):  l = [int(i) for i in s.split('.')]  return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv3(s):  ip1 = s >> 16 & 0xFF  ip2 = s >> 8 & 0xFF  ip3 = s & 0xFF  return "%d.%d.%d" % (ip1, ip2, ip3) i = open('ChinaIPAddress.csv', 'r')list = i.readlines()for iplist in list:  pattern = re.compile('(/d{1,3}/./d{1,3}/./d{1,3})/./d{1,3}')  ips = pattern.findall(iplist)  x = ips[0]  y = ips[1]  for ip in range (ipv3_to_int(x),ipv3_to_int(y)):    ipadress=str(ip)    #ip_address = int_to_ipv3(ip)    o = open('ChinaIPAddress.txt','a')    o.writelines(ipadress)    o.writelines('/n')  o.close()i.close()

當上面的不走完成后就可以對新浪IP接口進行抓取了,抓取代碼如下:
 

#!/usr/bin/python# -*- coding: utf-8 -*-import urllib,urllib2, simplejson, sqlite3, time def ipv3_to_int(s):  l = [int(i) for i in s.split('.')]  return (l[0] << 16) | (l[1] << 8) | l[2] def int_to_ipv4(s):  ip1 = s >> 16 & 0xFF  ip2 = s >> 8 & 0xFF  ip3 = s & 0xFF  return "%d.%d.%d.0" % (ip1, ip2, ip3) def fetch(ipv4, **kwargs):  kwargs.update({    'ip': ipv4,    'format': 'json',  })  DATA_BASE = "http://int.dpool.sina.com.cn/iplookup/iplookup.php"  url = DATA_BASE + '?' + urllib.urlencode(kwargs)  print url  fails = 0  try:    result = simplejson.load(urllib2.urlopen(url,timeout=20))  except (urllib2.URLError,IOError):    fails += 1    if fails < 10:      result = fetch(ipv4)    else:      sleep_download_time = 60*10      time.sleep(sleep_download_time)      result = fetch(ipv4)  return result def dbcreate():  c = conn.cursor()  c.execute('''create table ipdata(    ip integer primary key,    ret integer,    start text,    end text,    country text,    province text,    city text,    district text,    isp text,    type text,    desc text  )''')  conn.commit()  c.close() def dbinsert(ip,address):  c = conn.cursor()  c.execute('insert into ipdata values(?,?,?,?,?,?,?,?,?,?,?)',(ip,address['ret'],address['start'],address['end'],address['country'],address['province'],address['city'],address['district'],address['isp'],address['type'],address['desc']))  conn.commit()  c.close() conn = sqlite3.connect('ipaddress.sqlite3.db')dbcreate() i = open('ChinaIPAddress.txt','r')list = [s.strip() for s in i.readlines()]end = 0for ip in list:  ip = int(ip)  if ip > end :    ipaddress = int_to_ipv4(ip)    info = fetch(ipaddress)    if info['ret'] == -1:      pass    else:      dbinsert(ip,info)      end = ipv3_to_int(info['end'])      print ip,end  else :    passi.close()

到此就能把新浪所有的國內IP數據給抓取出來,然后在數據分析的工程中大派用場。~

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 贵港市| 台南市| 沽源县| 天祝| 开封县| 梧州市| 广元市| 都昌县| 疏勒县| 隆昌县| 屏东县| 香格里拉县| 海盐县| 新余市| 长寿区| 晋江市| 公安县| 阿图什市| 阿克陶县| 招远市| 静宁县| 宜阳县| 大宁县| 枞阳县| 丹江口市| 潼关县| 临江市| 鄱阳县| 兴业县| 长宁县| 福清市| 肇源县| 富锦市| 二手房| 公安县| 高雄县| 卓尼县| 丹凤县| 清新县| 永善县| 满洲里市|