国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

用python處理html代碼的轉義與還原

2019-11-14 17:21:40
字體:
來源:轉載
供稿:網友

用python處理html代碼的轉義與還原  

 

轉義 escape:

import cgi
s = cgi.escape("""& < >""") # s = '&amp; &lt; &gt;'
 

反轉義 unescape:

#使用標準庫
from htmllib import HTMLParser 
h = HTMLparser.HTMLParser() 
s = h.unescape('& < >')   # s = u'& < >' 
 
#使用BeautifulSoup 
from bs4 import BeautifulSoup 
soup = BeautifulSoup(html, /
      convertEntities=BeautifulSoup.HTML_ENTITIES)
 
引用于:
http://fredericiana.com/2010/10/08/decoding-html-entities-to-text-in-python/
https://wiki.python.org/moin/EscapingHtml
----------------------------------------------------------------------------------------------------------
 

Python處理HTML轉義字符

抓網頁數據經常遇到例如&gt;或者&nbsp;這種HTML轉義符,抓到字符串里很是煩人。

比方說一個從網頁中抓到的字符串

html = '&lt;abc&gt;'

用Python可以這樣處理:

import HTMLParserhtml_parser = HTMLParser.HTMLParser()txt = html_parser.unescape(html) #這樣就得到了txt = '<abc>'

如果還想轉回去,可以這樣:

import cgihtml = cgi.escape(txt) # 這樣又回到了 html = '&lt;abc&gt'

 來回轉的功能還分了兩個模塊實現,挺奇怪。沒找到更優美的方法,歡迎補充哈~

--------------------------------------------------

 

html的escape和unescape


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 离岛区| 清水县| 南郑县| 威信县| 翼城县| 嘉定区| 合阳县| 吐鲁番市| 曲松县| 保亭| 平安县| 潢川县| 金门县| 兴海县| 昆山市| 遂溪县| 泰来县| 仙居县| 福清市| 敖汉旗| 类乌齐县| 常州市| 台中市| 昌宁县| 方城县| 察雅县| 松桃| 阜平县| 拜泉县| 新沂市| 榆树市| 阳曲县| 抚松县| 盐池县| 正宁县| 黄梅县| 吉安市| 长子县| 扶余县| 永吉县| 庆安县|