使用Redis有序集合實現IP歸屬地查詢詳解

2020-10-28 21:30:32

字體：大中小

來源：轉載

供稿：網友

工作中經常遇到一類需求，根據 IP 地址段來查找 IP 對應的歸屬地信息。如果把查詢過程放到關系型數據庫中，會帶來很大的 IO 消耗，速度也不能滿足，顯然是不合適的。

那有哪些更好的辦法呢？為此做了一些嘗試，下面來詳細說明。

構建索引文件

在 GitHub 上看到一個ip2region 項目，作者通過生成一個包含有二級索引的文件來實現快速查詢，查詢速度足夠快，毫秒級別。但如果想更新地址段或歸屬地信息，每次都要重新生成文件，并不是很方便。
不過還是推薦大家看看這個項目，其中建索引的思想還是很值得學習的。作者的開源項目中只有查詢的相關代碼，并沒有生成索引文件的代碼，我依照原理圖寫了一段生成索引文件的代碼，如下：

# -*- coding:utf-8 -*-import timeimport socketimport structIP_REGION_FILE = './data/ip_to_region.db'SUPER_BLOCK_LENGTH = 8INDEX_BLOCK_LENGTH = 12HEADER_INDEX_LENGTH = 8192def generate_db_file():  pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH  region, index = '', ''  # 文件格式  # 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0  # 1.0.1.0|1.0.3.255|中國|0|福建省|福州市|電信  with open('./ip.merge.txt', 'r') as f:    for line in f.readlines():      item = line.strip().split('|')      print item[0], item[1], item[2], item[3], item[4], item[5], item[6]      start_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[0]))[0])      end_ip = struct.pack('I', struct.unpack('!L', socket.inet_aton(item[1]))[0])      region_item = '|'.join([item[2], item[3], item[4], item[5], item[6]])      region += region_item      ptr = struct.pack('I', int(bin(len(region_item))[2:].zfill(8) + bin(pointer)[2:].zfill(24), 2))      index += start_ip + end_ip + ptr      pointer += len(region_item)  index_start_ptr = pointer  index_end_ptr = pointer + len(index) - 12  super_block = struct.pack('I', index_start_ptr) + struct.pack('I', index_end_ptr)  n = 0  header_index = ''  for index_block in range(pointer, index_end_ptr, 8184):    header_index_block_ip = index[n * 8184:n * 8184 + 4]    header_index_block_ptr = index_block    header_index += header_index_block_ip + struct.pack('I', header_index_block_ptr)    n += 1  header_index += index[len(index) - 12: len(index) - 8] + struct.pack('I', index_end_ptr)  with open(IP_REGION_FILE, 'wb') as f:    f.write(super_block)    f.write(header_index)    f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0)    f.write(region)    f.write(index)if __name__ == '__main__':  start_time = time.time()  generate_db_file()  print 'cost time: ', time.time() - start_time

使用 Redis 緩存

目前有兩種方式對 IP 以及歸屬地信息進行緩存：

第一種是將起始 IP，結束 IP 以及中間所有 IP 轉換成整型，然后以字符串方式，用轉換后的 IP 作為 key，歸屬地信息作為 value 存入 Redis；

第二種是采用有序集合和散列方式，首先將起始 IP 和結束 IP 添加到有序集合 ip2cityid，城市 ID 作為成員，轉換后的 IP 作為分值，然后再將城市 ID 和歸屬地信息添加到散列 cityid2city，城市 ID 作為 key，歸屬地信息作為 value。

第一種方式就不多做介紹了，簡單粗暴，非常不推薦。查詢速度當然很快，毫秒級別，但缺點也十分明顯，我用 1000 條數據做了測試，緩存時間長，大概 20 分鐘，占用空間大，將近 1G。

下面介紹第二種方式，直接看代碼：

# generate_to_redis.py# -*- coding:utf-8 -*-import timeimport jsonfrom redis import Redisdef ip_to_num(x):  return sum([256 ** j * int(i) for j, i in enumerate(x.split('.')[::-1])])# 連接 Redisconn = Redis(host='127.0.0.1', port=6379, db=10)start_time = time.time()# 文件格式# 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0# 1.0.1.0|1.0.3.255|中國|0|福建省|福州市|電信with open('./ip.merge.txt', 'r') as f:  i = 1  for line in f.readlines():    item = line.strip().split('|')    # 將起始 IP 和結束 IP 添加到有序集合 ip2cityid    # 成員分別是城市 ID 和 ID + #, 分值是根據 IP 計算的整數值    conn.zadd('ip2cityid', str(i), ip_to_num(item[0]), str(i) + '#', ip_to_num(item[1]) + 1)    # 將城市信息添加到散列 cityid2city，key 是城市 ID，值是城市信息的 json 序列    conn.hset('cityid2city', str(i), json.dumps([item[2], item[3], item[4], item[5]]))    i += 1end_time = time.time()print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)

# test.py# -*- coding:utf-8 -*-import sysimport timeimport jsonimport socketimport structfrom redis import Redis# 連接 Redisconn = Redis(host='127.0.0.1', port=6379, db=10)# 將 IP 轉換成整數ip = struct.unpack("!L", socket.inet_aton(sys.argv[1]))[0]start_time = time.time()# 將有序集合從大到小排序，取小于輸入 IP 值的第一條數據cityid = conn.zrevrangebyscore('ip2cityid', ip, 0, start=0, num=1)# 如果返回 cityid 是空，或者匹配到了 # 號，說明沒有找到對應地址段if not cityid or cityid[0].endswith('#'):  print 'no city info...'else:  # 根據城市 ID 到散列表取出城市信息  ret = json.loads(conn.hget('cityid2city', cityid[0]))  print ret[0], ret[1], ret[2]end_time = time.time()print 'start_time: ' + str(start_time) + ', end_time: ' + str(end_time) + ', cost time: ' + str(end_time - start_time)

# python generate_to_redis.py start_time: 1554300310.31, end_time: 1554300425.65, cost time: 115.333260059

# python test_2.py 1.0.16.0日本 0 0start_time: 1555081532.44, end_time: 1555081532.45, cost time: 0.000912189483643

測試數據大概 50 萬條，緩存所用時間不到 2 分鐘，占用內存 182M，查詢速度毫秒級別。顯而易見，這種方式更值得嘗試。

zrevrangebyscore 方法的時間復雜度是 O(log(N)+M)， N 為有序集的基數， M 為結果集的基數。可見當 N 的值越大，查詢效率越慢，具體在多大的數據量還可以高效查詢，這個有待驗證。不過這個問題我覺得并不用擔心，遇到了再說吧。

以上所述是小編給大家介紹的使用Redis有序集合實現IP歸屬地查詢詳解整合，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對武林網網站的支持！

上一篇：redis的2種持久化方案深入講解

下一篇：Redis集群的相關詳解

學習交流

硬盤分區之整數G計算公式附在線計算工具

硬盤分區之整數G計算公式附在線計算工具原創...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

騰訊股價創歷史新高馬化騰超越馬云重回中國首富

2020-10-27 13:52:18

陌陌宣布由總裁兼COO王力擔任公司新任CEO

2020-10-24 17:53:42

猿輔導宣布完成22億美元融資投后估值155億美元

2020-10-22 13:18:25

要強化科技投入！京東物流CEO王振輝：我們永遠是乙方

2020-10-22 13:16:47

傳快手最快于11月份香港上市騰訊成最大贏家

2020-10-22 13:14:41

天貓雙11開局：1小時超300個品牌成交超去年全天

2020-10-21 18:23:20

疑難解答

圖片精選

網友關注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

使用Redis有序集合實現IP歸屬地查詢詳解