国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 數據庫 > Redis > 正文

使用Redis有序集合實現IP歸屬地查詢詳解

2020-10-28 21:30:32
字體:
來源:轉載
供稿:網友

工作中經常遇到一類需求,根據 IP 地址段來查找 IP 對應的歸屬地信息。如果把查詢過程放到關系型數據庫中,會帶來很大的 IO 消耗,速度也不能滿足,顯然是不合適的。

那有哪些更好的辦法呢?為此做了一些嘗試,下面來詳細說明。

構建索引文件

在 GitHub 上看到一個ip2region 項目,作者通過生成一個包含有二級索引的文件來實現快速查詢,查詢速度足夠快,毫秒級別。但如果想更新地址段或歸屬地信息,每次都要重新生成文件,并不是很方便。
不過還是推薦大家看看這個項目,其中建索引的思想還是很值得學習的。作者的開源項目中只有查詢的相關代碼,并沒有生成索引文件的代碼,我依照原理圖寫了一段生成索引文件的代碼,如下:

# -*- coding:utf-8 -*-import timeimport socketimport structIP_REGION_FILE = './data/ip_to_region.db'SUPER_BLOCK_LENGTH = 8INDEX_BLOCK_LENGTH = 12HEADER_INDEX_LENGTH = 8192def generate_db_file():  pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH  region, index = '', ''  # 文件格式  # 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0  # 1.0.1.0|1.0.3.255|中國|0|福建省|福州市|電信  with open('./ip.merge.txt', 'r') as f:    for line in f.readlines():      item = line.strip().split('|')      print item[0], item[1], item[2], item[3], item[4], item[5], item[6]      start_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[0]))[0])      end_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[1]))[0])      region_item = '|'.join([item[2], item[3], item[4], item[5], item[6]])      region += region_item      ptr = struct.pack('I', int(bin(len(region_item))[2:].zfill(8) + bin(pointer)[2:].zfill(24), 2))      index += start_ip + end_ip + ptr      pointer += len(region_item)  index_start_ptr = pointer  index_end_ptr = pointer + len(index) - 12  super_block = struct.pack('I', index_start_ptr) + struct.pack('I', index_end_ptr)  n = 0  header_index = ''  for index_block in range(pointer, index_end_ptr, 8184):    header_index_block_ip = index[n * 8184:n * 8184 + 4]    header_index_block_ptr = index_block    header_index += header_index_block_ip + struct.pack('I', header_index_block_ptr)    n += 1  header_index += index[len(index) - 12: len(index) - 8] + struct.pack('I', index_end_ptr)  with open(IP_REGION_FILE, 'wb') as f:    f.write(super_block)    f.write(header_index)    f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0)    f.write(region)    f.write(index)if __name__ == '__main__':  start_time = time.time()  generate_db_file()  print 'cost time: ', time.time() - start_time

使用 Redis 緩存

目前有兩種方式對 IP 以及歸屬地信息進行緩存:

第一種是將起始 IP,結束 IP 以及中間所有 IP 轉換成整型,然后以字符串方式,用轉換后的 IP 作為 key,歸屬地信息作為 value 存入 Redis;

第二種是采用有序集合和散列方式,首先將起始 IP 和結束 IP 添加到有序集合 ip2cityid,城市 ID 作為成員,轉換后的 IP 作為分值,然后再將城市 ID 和歸屬地信息添加到散列 cityid2city,城市 ID 作為 key,歸屬地信息作為 value。

第一種方式就不多做介紹了,簡單粗暴,非常不推薦。查詢速度當然很快,毫秒級別,但缺點也十分明顯,我用 1000 條數據做了測試,緩存時間長,大概 20 分鐘,占用空間大,將近 1G。

下面介紹第二種方式,直接看代碼:

# generate_to_redis.py# -*- coding:utf-8 -*-import timeimport jsonfrom redis import Redisdef ip_to_num(x):  return sum([256 ** j * int(i) for j, i in enumerate(x.split('.')[::-1])])# 連接 Redisconn = Redis(host='127.0.0.1', port=6379, db=10)start_time = time.time()# 文件格式# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0# 1.0.1.0|1.0.3.255|中國|0|福建省|福州市|電信with open('./ip.merge.txt', 'r') as f:  i = 1  for line in f.readlines():    item = line.strip().split('|')    # 將起始 IP 和結束 IP 添加到有序集合 ip2cityid    # 成員分別是城市 ID 和 ID + #, 分值是根據 IP 計算的整數值    conn.zadd('ip2cityid', str(i), ip_to_num(item[0]), str(i) + '#', ip_to_num(item[1]) + 1)    # 將城市信息添加到散列 cityid2city,key 是城市 ID,值是城市信息的 json 序列    conn.hset('cityid2city', str(i), json.dumps([item[2], item[3], item[4], item[5]]))    i += 1end_time = time.time()print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# test.py# -*- coding:utf-8 -*-import sysimport timeimport jsonimport socketimport structfrom redis import Redis# 連接 Redisconn = Redis(host='127.0.0.1', port=6379, db=10)# 將 IP 轉換成整數ip = struct.unpack("!L", socket.inet_aton(sys.argv[1]))[0]start_time = time.time()# 將有序集合從大到小排序,取小于輸入 IP 值的第一條數據cityid = conn.zrevrangebyscore('ip2cityid', ip, 0, start=0, num=1)# 如果返回 cityid 是空,或者匹配到了 # 號,說明沒有找到對應地址段if not cityid or cityid[0].endswith('#'):  print 'no city info...'else:  # 根據城市 ID 到散列表取出城市信息  ret = json.loads(conn.hget('cityid2city', cityid[0]))  print ret[0], ret[1], ret[2]end_time = time.time()print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)
# python generate_to_redis.py start_time: 1554300310.31, end_time: 1554300425.65, cost time: 115.333260059
# python test_2.py 1.0.16.0日本 0 0start_time: 1555081532.44, end_time: 1555081532.45, cost time: 0.000912189483643

測試數據大概 50 萬條,緩存所用時間不到 2 分鐘,占用內存 182M,查詢速度毫秒級別。顯而易見,這種方式更值得嘗試。

zrevrangebyscore 方法的時間復雜度是 O(log(N)+M), N 為有序集的基數, M 為結果集的基數。可見當 N 的值越大,查詢效率越慢,具體在多大的數據量還可以高效查詢,這個有待驗證。不過這個問題我覺得并不用擔心,遇到了再說吧。

以上所述是小編給大家介紹的使用Redis有序集合實現IP歸屬地查詢詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對武林網網站的支持!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 岑溪市| 青海省| 湘乡市| 亳州市| 麟游县| 阿克苏市| 临潭县| 吴桥县| 潢川县| 含山县| 略阳县| 黄骅市| 丰镇市| 新昌县| 章丘市| 镶黄旗| 娱乐| 东港市| 客服| 渝中区| 深水埗区| 赤水市| 仙居县| 禄丰县| 轮台县| 方正县| 德惠市| 阳曲县| 阜宁县| 图们市| 靖州| 江北区| 宜春市| 通江县| 通山县| 肇东市| 城口县| 来凤县| 丽江市| 台湾省| 渝北区|