国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

python自帶re模塊正則表達式去除html標(biāo)簽

2019-11-14 11:42:40
字體:
供稿:網(wǎng)友

本文轉(zhuǎn)載自:python自帶re模塊正則表達式去除html標(biāo)簽

利用正則式處理,不知道會不會有性能問題,沒有經(jīng)過太多測試。 目前我有很多還是使用BeautifulSoup進行這種處理。 HTML實體處理的只是用于處理一些常用的實體。

# -*- coding: utf-8-*-import re##過濾HTML中的標(biāo)簽#將HTML中標(biāo)簽等信息去掉#@param htmlstr HTML字符串.def filter_tags(htmlstr): #先過濾CDATA re_cdata=re.compile('//<!/[CDATA/[[^>]*///]/]>',re.I) #匹配CDATA re_scrPRint news

——————————————————華麗的分割線——————————————————————————

import urllib2,rex=urllib2.urlopen('http://www.csdn.net').read()re_h=re.compile('</?/w+[^>]*>')s=re_h.sub('',x)print s
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 察隅县| 新营市| 连云港市| 丹棱县| 双江| 镇远县| 沙洋县| 南宫市| 清远市| 元谋县| 田阳县| 长沙县| 嘉峪关市| 南郑县| 华坪县| 黄梅县| 徐州市| 永清县| 越西县| 龙门县| 鄂尔多斯市| 南澳县| 海淀区| 盐池县| 北宁市| 东平县| 武鸣县| 伊川县| 兴隆县| 山阴县| 行唐县| 兰西县| 博湖县| 太和县| 秦皇岛市| 西林县| 山阳县| 乳源| 彩票| 丹寨县| 凤台县|