国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python查找文件中包含中文的行方法

2020-02-16 00:14:04
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

前言

近幾天在做多語(yǔ)言版本的時(shí)候再次發(fā)現(xiàn),區(qū)分各種語(yǔ)言真的是一件比較困難的事情,上一次做中文提取工具的就花了不少時(shí)間,這次決定用python試一試,結(jié)果寫(xiě)起來(lái)發(fā)現(xiàn)真是方便不少,自己整理了一下方便以后查找使用。

代碼

#!/usr/bin/env python3# -*- coding: utf-8 -*-# find the line of containing chinese in files__author__ = 'AlbertS'import redef start_find_chinese(): find_count = 0; with open('ko_untranslated.txt', 'wb') as outfile:  with open('source_ko.txt', 'rb') as infile:   while True:    content = infile.readline()    if re.match(r'(.*[/u4E00-/u9FA5]+)|([/u4E00-/u9FA5]+.*)', content.decode('utf-8')):     outfile.write(content)     find_count += 1;    if not content:     return find_count# start to findif __name__ == '__main__': count = start_find_chinese() print("find complete! count =", count)

原始文件

source_ko.txt文件內(nèi)容

3 캐릭터 Lv.50 달성8 캐릭터 Lv.80 달성10 캐릭터 Lv.90 달성......2840 飛黃騰達(dá)4841 同歸于盡8848 캐릭터 Lv.50 달

運(yùn)行效果(ko_untranslated.txt文件)

2840 飛黃騰達(dá)4841 同歸于盡

總結(jié)

1. 其實(shí)這段小小的代碼中包含了兩個(gè)常用的功能,那就是讀寫(xiě)文件和正則表達(dá)式。

2. 這也是兩個(gè)重要的知識(shí)點(diǎn),其中with操作可能防止資源泄漏,操作起來(lái)更加方便。

3. 正則表達(dá)式可是一個(gè)文字處理的利器,代碼中的正則可能還不太完善,后續(xù)我會(huì)繼續(xù)補(bǔ)充更新。

以上這篇Python查找文件中包含中文的行方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持武林站長(zhǎng)站。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 健康| 宁国市| 巴彦县| 巨鹿县| 疏附县| 海门市| 长寿区| 汪清县| 马鞍山市| 阳谷县| 正安县| 曲麻莱县| 崇礼县| 香格里拉县| 曲沃县| 临西县| 吉木萨尔县| 观塘区| 平邑县| 达日县| 黑龙江省| 宝兴县| 彭水| 安阳市| 乐安县| 浦县| 虞城县| 政和县| 增城市| 淮阳县| 峨眉山市| 高州市| 嘉荫县| 泾川县| 松原市| 措美县| 元阳县| 孟村| 泸州市| 灵宝市| 韶山市|