国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 數據庫 > MySQL > 正文

mysql 字符串長度計算實現代碼(gb2312+utf8)

2024-07-24 13:02:37
字體:
來源:轉載
供稿:網友
PHP對中文字符串的處理一直困擾于剛剛接觸PHP開發的新手程序員。下面簡要的剖析一下PHP對中文字符串長度的處理:

PHP自帶的函數如strlen()、mb_strlen()都是通過計算字符串所占字節數來統計字符串長度的,一個英文字符占1字節。例:

$enStr = 'Hello,China!';
echo strlen($enStr); // 輸出:12

而中文則不然,做中文網站一般會選擇兩種編碼:gbk/gb2312或是utf-8。utf-8能兼容更多的字符,所以受到很多站長的喜愛。gbk與utf-8對中文的編碼不同,導致中文在gbk與utf-8編碼下所占字節也有差異。

gbk編碼下每個中文字符所占字節為2,例:

$zhStr = '您好,中國!';
echo strlen($zhStr); // 輸出:12

utf-8編碼下每個中文字符所占字節為3,例:

$zhStr = '您好,中國!';
echo strlen($zhStr); // 輸出:18

那么如何計算這組中文字符串的長度呢?有人可能會說gbk下獲取中文字符串長度除以2,utf-8編碼下除以3不就行了嗎?但是您要考慮字符串并不老實,99%的情況會以中英混合的情況出現。

這是WordPress中的一段代碼,主要思想就是先用正則將字符串分解為個體單元,然后再計算單元的個數即字符串的長度,代碼如下(只能處理utf-8編碼下的字符串):

復制代碼 代碼如下:


$zhStr = '您好,中國!';
$str = 'Hello,中國!';

// 計算中文字符串長度
function utf8_strlen($string = null) {
// 將字符串分解為單元
preg_match_all("/./us", $string, $match);
// 返回單元個數
return count($match[0]);
}
echo utf8_strlen($zhStr); // 輸出:6
echo utf8_strlen($str); // 輸出:9


utf8_strlen – 獲得UTF8編碼的字符串的長度

復制代碼 代碼如下:


/*
* 用于UTF8編碼的程序
* 獲得字符串的長度,一個中文表示3個長度
* itlearner注釋
*/
function utf8_strlen($str) {
$count = 0;
for($i = 0; $i < strlen($str); $i++){
$value = ord($str[$i]);
if($value > 127) {
$count++;
if($value >= 192 && $value <= 223) $i++;
elseif($value >= 224 && $value <= 239) $i = $i + 2;
elseif($value >= 240 && $value <= 247) $i = $i + 3;
else die('Not a UTF-8 compatible string');
}
$count++;
}
return $count;
}

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 太白县| 修水县| 黄陵县| 神木县| 荣成市| 砀山县| 贵南县| 沙田区| 永平县| 南靖县| 玉田县| 巴林右旗| 定远县| 临夏县| 石城县| 麻阳| 陆河县| 汉沽区| 莱阳市| 通渭县| 女性| 山阴县| 平阴县| 南城县| 龙州县| 麻江县| 桃园县| 柏乡县| 西和县| 茂名市| 醴陵市| 双峰县| 孟州市| 齐齐哈尔市| 永福县| 高淳县| 濮阳市| 聂荣县| 牡丹江市| 高台县| 绥芬河市|