国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python正則表達式匹配HTML頁面編碼

2019-11-25 17:49:03
字體:
來源:轉載
供稿:網友

html頁面一般都會指定一個編碼,如何獲取到是處理html頁面的第一步,因為錯誤的編碼必然帶來后面處理的問題。這里我用python的正則表達式寫了個:

import rea = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'   ]b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"B = re.compile(b, re.IGNORECASE)for ax in a:  r1 = B.search(ax)  if r1:    print r1.group()    print r1.group(1), len(r1.group())  else:    print 'not match'

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 新绛县| 乐昌市| 仙桃市| 扬中市| 友谊县| 剑阁县| 广宁县| 通辽市| 大姚县| 永吉县| 永修县| 丰县| 内乡县| 齐河县| 民丰县| 曲阳县| 阿坝县| 武鸣县| 公安县| 青龙| 中西区| 津南区| 南安市| 论坛| 莱芜市| 天等县| 库尔勒市| 德保县| 车致| 武功县| 永胜县| 从江县| 新河县| 姚安县| 巫溪县| 安图县| 芜湖县| 襄城县| 青海省| 鸡西市| 赣榆县|