這兩天在用python寫一個采集器,有個功能模塊是html代碼轉換為ubb,網上貌似沒有現成程序,就自己寫了個函數,順便鍛煉下自己的正則。
import redef Html2UBB(content): #以下是將html標簽轉為ubb標簽 pattern = re.compile( '<a href=/"([sS]+?)/"[^>]*>([sS]+?)</a>',re.I) content = pattern.sub(r'[url=1]2[/url]',content) pattern = re.compile( '<img[^>]+src=/"([^/"]+)/"[^>]*>',re.I) content = pattern.sub(r'[img]1[/img]',content) pattern = re.compile( '<strong>([sS]+?)</strong>',re.I) content = pattern.sub(r'[b]1[/b]',content) pattern = re.compile( '<font color=/"([sS]+?)/">([sS]+?)</font>',re.I) content = pattern.sub(r'[1]2[/1]',content) pattern = re.compile( '<[^>]*?>',re.I) content = pattern.sub('',content) #以下是將html轉義字符轉為普通字符 content = content.replace('<','<') content = content.replace('>','>') content = content.replace('”','”') content = content.replace('“','“') content = content.replace('"','"') content = content.replace('©','©') content = content.replace('®','®') content = content.replace(' ',' ') content = content.replace('—','―') content = content.replace('–','
主站蜘蛛池模板:
虹口区|
临西县|
尚义县|
梁山县|
淮阳县|
陕西省|
泾阳县|
麦盖提县|
九龙县|
彭泽县|
高淳县|
英山县|
黄陵县|
板桥市|
凌海市|
集贤县|
合作市|
阜新|
锦屏县|
和平县|
永定县|
包头市|
南川市|
拜泉县|
招远市|
岳普湖县|
青龙|
辛集市|
姜堰市|
探索|
临汾市|
濮阳市|
建始县|
闵行区|
甘肃省|
冀州市|
丘北县|
梧州市|
观塘区|
嫩江县|
郓城县|