国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python轉換HTML到Text純文本的方法

2020-02-23 06:21:07
字體:
來源:轉載
供稿:網友

本文實例講述了Python轉換HTML到Text純文本的方法。分享給大家供大家參考。具體分析如下:

今天項目需要將HTML轉換為純文本,去網上搜了一下,發現Python果然是神通廣大,無所不能,方法是五花八門。

拿今天親自試的兩個方法舉例,以方便后人:

方法一:

1. 安裝nltk,可以去pipy裝

(注:需要依賴以下包:numpy, PyYAML)

2.測試代碼:
代碼如下:>>> import nltk 
>>> aa = r'''''
<html>
    <body>
 <b>Project:</b> DeHTML<br>
 <b>Description</b>:<br>
 This small script is intended to allow conversion from HTML markup to 
 plain text.
    </body>
</html>
'''
>>> aa 
'/n<html>/n            <body>/n                <b>Project:</b> DeHTML<br>/n                <b>Description</b>:<br>/n                This small script is intended to allow conversion from HTML markup to /n                plain text./n            </body>/n        </html>/n        ' 
>>> <strong>print nltk.clean_html(aa)</strong> 
Project: DeHTML  
     Description :  
    This small script is intended to allow conversion from HTML markup to  
    plain text.

方法二:

如果覺得nltk太笨重,大材小用的話,可以自己寫代碼,代碼如下:
代碼如下:from HTMLParser import HTMLParser 
from re import sub 
from sys import stderr 
from traceback import print_exc 
 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = sub('[ /t/r/n]+', ' ', text) 
            self.__text.append(text + ' ') 

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 大同县| 遂昌县| 长宁县| 大冶市| 宝兴县| 宝清县| 安阳县| 凌海市| 信阳市| 越西县| 阿图什市| 屏山县| 大冶市| 西乌珠穆沁旗| 安义县| 芜湖县| 嘉荫县| 仁化县| 太和县| 九台市| 盈江县| 鄱阳县| 酒泉市| 霍邱县| 高密市| 盈江县| 玉溪市| 牟定县| 勃利县| 大埔区| 阿克陶县| 开阳县| 金寨县| 斗六市| 剑川县| 景宁| 隆尧县| 濉溪县| 龙南县| 阳山县| 四川省|