国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python實現短網址ShortUrl的Hash運算實例講解

2019-11-25 17:05:37
字體:
來源:轉載
供稿:網友

本文實例講述了Python實現短網址ShortUrl的Hash運算方法。分享給大家供大家參考。具體如下:

shorturl實現常見的做法都是將原始Url存儲到數據庫,由數據庫返回一個對應ID。

以下要實現的是不用數據庫支持就對原始URL進行shorturl hash。說到這里我們很容易想到MD5,固定長度,沖突概率小,但是32個字符,太長?我們以MD5為基礎,將其字符縮短,同時要保證一定數量范圍內hash不會沖突。

我們分成兩個步驟來實現。

第一步算法:

① 將長網址用md5算法生成32位簽名串,分為4段,,每段8個字符;
② 對這4段循環處理,取每段的8個字符, 將他看成16進制字符串與0x3fffffff(30位1)的位與操作,超過30位的忽略處理;
③ 將每段得到的這30位又分成6段,每5位的數字作為字母表的索引取得特定字符,依次進行獲得6位字符串;
④ 這樣一個md5字符串可以獲得4個6位串,取里面的任意一個就可作為這個長url的短url地址。
(出現重復的幾率大約是n/(32^6) 也就是n/1,073,741,824,其中n是數據庫中記錄的條數)

我們就得到了4個6位串,可是選哪個作為最終的hash結果呢,隨機選肯定是不行的,同樣的url兩次hash就會得出不同的結果。接下來根據原始url的特征進行選擇,并且將hash沖突的可能性控制在同一個domain內:

第二步算法:

①從原始url中提取域名,提取數字(最多后6位);
②將所得的數字與4取模,根據所得的余數決定從第一步算法中得到的4個shorturl中選取哪一個;
③從域名中提取特征串:一級域名中的第一個字符和后面二個輔音(如果輔音不足2個取任意前兩個);
④域名特征串和選定的shorturl拼接成9位字符為最終的shorturl;
(后兩個步驟是將沖突控制在一個domain內)

ShortUrl.py

#encoding:utf-8__author__ = 'James Lau'import hashlibimport redef __original_shorturl(url):  '''  算法:  ① 將長網址用md5算法生成32位簽名串,分為4段,,每段8個字符;  ② 對這4段循環處理,取每段的8個字符, 將他看成16進制字符串與0x3fffffff(30位1)的位與操作,超過30位的忽略處理;  ③ 將每段得到的這30位又分成6段,每5位的數字作為字母表的索引取得特定字符,依次進行獲得6位字符串;  ④ 這樣一個md5字符串可以獲得4個6位串,取里面的任意一個就可作為這個長url的短url地址。  (出現重復的幾率大約是n/(32^6) 也就是n/1,073,741,824,其中n是數據庫中記錄的條數)  '''  base32 = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h',       'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p',       'q', 'r', 's', 't', 'u', 'v', 'w', 'x',       'y', 'z',       '0', '1', '2', '3', '4', '5'  ]  m = hashlib.md5()  m.update(url)  hexStr = m.hexdigest()  hexStrLen = len(hexStr)  subHexLen = hexStrLen / 8  output = []  for i in range(0,subHexLen):    subHex = '0x'+hexStr[i*8:(i+1)*8]    res = 0x3FFFFFFF & int(subHex,16)    out = ''    for j in range(6):      val = 0x0000001F & res      out += (base32[val])      res = res >> 5    output.append(out)  return outputdef shorturl(url):  '''  算法:  ①從原始url中提取域名,提取數字(最多后6位);  ②將所得的數字與4取模,根據所得的余數決定從第一步算法中得到的4個shorturl中選取哪一個;  ③從域名中提取特征串:一級域名中的第一個字符和后面二個輔音(如果輔音不足2個取任意前兩個);  ④域名特征串和選定的shorturl拼接成9位字符為最終的shorturl;  (后兩個步驟是將沖突控制在一個domain內)  '''  match_full_domain_regex = re.compile(u'^https?:////(([a-zA-Z0-9_/-/.]+[a-zA-Z0-9_/-]+/.[a-zA-Z]+)|([a-zA-Z0-9_/-]+/.[a-zA-Z]+)).*$')  match_full_domain = match_full_domain_regex.match(url)  if match_full_domain is not None:    full_domain = match_full_domain.group(1)  else:    return None  not_numeric_regex = re.compile(u'[^/d]+')  numeric_string = not_numeric_regex.sub(r'',url)  if numeric_string is None or numeric_string=='':    numeric_string = '0'  else:    numeric_string = numeric_string[-6:]  domainArr = full_domain.split('.')  domain = domainArr[1] if len(domainArr)==3 else domainArr[0]  vowels = 'aeiou0-9'  if len(domain)<=3:    prefix = domain  else:    prefix = re.compile(u'[%s]+'%vowels).sub(r'',domain[1:])    prefix = '%s%s'%(domain[0],prefix[:2]) if len(prefix)>=2 else domain[0:3]  t_shorturl = __original_shorturl(url)  t_choose = int(numeric_string)%4  result = '%s%s'%(prefix,t_shorturl[t_choose])  return result

希望本文所述對大家的Python程序設計有所幫助。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 阿拉善左旗| 亚东县| 花垣县| 清水县| 富源县| 桦南县| 称多县| 麻城市| 孝义市| 衡阳市| 中宁县| 祁门县| 西平县| 徐闻县| 卢湾区| 巩义市| 都匀市| 四川省| 周口市| 渝中区| 康马县| 垦利县| 喀什市| 通许县| 灵丘县| 苍山县| 明星| 虞城县| 宝兴县| 新乐市| 孙吴县| 中牟县| 特克斯县| 龙游县| 红原县| 凤凰县| 新乐市| 秦皇岛市| 丹江口市| 平和县| 洛隆县|