国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python處理html轉(zhuǎn)義字符的方法詳解

2019-11-25 16:40:26
字體:
供稿:網(wǎng)友

本文實(shí)例講述了python處理html轉(zhuǎn)義字符的方法。分享給大家供大家參考,具體如下:

最近在用Python處理網(wǎng)頁數(shù)據(jù)時(shí),經(jīng)常遇到一些html轉(zhuǎn)義字符(也叫html字符實(shí)體),例如<> 等。字符實(shí)體一般是為了表示網(wǎng)頁中的預(yù)留字符,比如>用>表示,防止被瀏覽器認(rèn)為是標(biāo)簽,具體參考w3school的HTML 字符實(shí)體。雖然很有用,但是它們會極度影響對于網(wǎng)頁數(shù)據(jù)的解析。為了處理這些轉(zhuǎn)義字符,有如下解決方案:

1、使用HTMLParser處理

import HTMLParserhtml_cont = " asdfg>123<"html_parser = HTMLParser.HTMLParser()new_cont = html_parser.unescape(html_cont)print new_cont #new_cont = " asdfg>123<"

轉(zhuǎn)換回去(只是空格轉(zhuǎn)不回去了):

import cginew_cont = cgi.escape(new_cont)print new_cont #new_cont = " asdfg>123<"

2、直接挨個(gè)替換

html_cont = " asdfg>123<"new_cont = new_cont.replace(' ', ' ')print new_cont #new_cont = " asdfg>123<"new_cont = new_cont.replace('>', '>')print new_cont #new_cont = " asdfg>123<"new_cont = new_cont.replace('<', '<')print new_cont #new_cont = " asdfg>123<"

不知道還有沒有更好的辦法。

另外stackoverflow上給出了在xml中處理轉(zhuǎn)義字符的解答:python - What's the best way to handle  -like entities in XML documents with lxml? - Stack Overflow

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python編碼操作技巧總結(jié)》、《Python圖片操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python Socket編程技巧總結(jié)》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對大家Python程序設(shè)計(jì)有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 麻阳| 开原市| 金阳县| 广昌县| 大悟县| 韩城市| 奉新县| 滦平县| 仪陇县| 漳浦县| 屏边| 武宣县| 定边县| 罗定市| 日土县| 静宁县| 开原市| 肇庆市| 惠东县| 澎湖县| 景洪市| 丽水市| 仁怀市| 寿阳县| 象州县| 昆明市| 景宁| 金寨县| 临夏县| 和静县| 察隅县| 余姚市| 河北区| 郯城县| 东方市| 连山| 临澧县| 同心县| 北宁市| 梅河口市| 阳城县|