国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python匹配中文的正則表達式

2020-01-04 17:28:36
字體:
來源:轉載
供稿:網友
正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。接下來通過本文給大家介紹Python匹配中文的正則表達式,感興趣的朋友一起學習吧
 

正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具,擁有自己獨特的語法以及一個獨立的處理引擎,效率上可能不如str自帶的方法,但功能十分強大。得益于這一點,在提供了正則表達式的語言里,正則表達式的語法都是一樣的,區別只在于不同的編程語言實現支持的語法數量不同;但不用擔心,不被支持的語法通常是不常用的部分。

Python正則表達式簡介

正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。

Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。

re 模塊使 Python 語言擁有全部的正則表達式功能。

compile 函數根據一個模式字符串和可選的標志參數生成一個正則表達式對象。該對象擁有一系列方法用于正則表達式匹配和替換。

re 模塊也提供了與這些方法功能完全一致的函數,這些函數使用一個模式字符串做為它們的第一個參數。

以上說的都是給正文做鋪墊的,下面看下python正則表達式如何匹配中文的。

# -*- coding: utf-8 -*-import redef findPart(regex, text, name):res=re.findall(regex, text)if res:print "There are %d %s parts:/n"% (len(res), name)for r in res:print "/t",r.encode("utf8")printtext ="#who#helloworld#a中文x#"usample=unicode(text,'utf8')findPart(u"#[/w/u2E80-/u9FFF]+#", usample, "unicode chinese")

注:

幾個主要非英文語系字符范圍

2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。

4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

A000~A4FFh:彝族文字區,收容中國南方彝族文字和字根。

AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。

F900~FAFFh:中日韓兼容表意文字區,總計收容302個中日韓漢字。

FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半角符號、全角

(#!/usr/bin/python3# -*- coding: UTF-8 -*-import remessage = u'天人合一'.encode('utf8')print(re.search(u'人'.encode('utf8'), message).group())交互模式下的例子>>> import re>>> s='Phone No. 010-87654321'>>> >>> r=re.compile(r'(/d+)-(/d+)')>>> m=r.search(s)>>> m<_sre.SRE_Match object at 0x010EE218>)

以上所述是小編給大家介紹的Python正則表達式匹配中文的方法,希望對大家有所幫助!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 河北省| 九江市| 安图县| 江津市| 醴陵市| 镇沅| 九龙县| 定远县| 宜川县| 襄汾县| 宝清县| 湖南省| 县级市| 台东市| 樟树市| 临泉县| 千阳县| 嵩明县| 淮北市| 丁青县| 黑龙江省| 天津市| 辉县市| 刚察县| 乌兰浩特市| 浏阳市| 保康县| 伊吾县| 天祝| 宣武区| 桑日县| 济宁市| 嘉定区| 牙克石市| 文水县| 宁阳县| 徐水县| 万安县| 兴宁市| 星子县| 高碑店市|