有時候我們需要計算一個字符串中包含的字?jǐn)?shù),對于純英文字符串,字?jǐn)?shù)等于字符串長度,用
strlen函數(shù)即可獲得,但如果字符串中包含中文怎辦?mb_strlen可以實現(xiàn),但不幸沒裝擴(kuò)展,那就自己實現(xiàn)一下吧。
php有一個擴(kuò)展一般是必裝的,我們可以使用mb_strlen來獲取字符串中的字?jǐn)?shù),用法一般如下:
$len = mb_strlen("你是我的小蘋果","utf-8");
如愿獲得字符串長度:7.
如果沒裝mb擴(kuò)展呢?自己實現(xiàn)一下吧。
我們要先明白一個事實:字符串是由字符組成的,而字符是由字節(jié)表示的,每個英文字符是一個字節(jié),對應(yīng)一個ascii碼,英文字符的ascii碼是小于128的,也就是十六進(jìn)制的 0x80 .當(dāng)一個字節(jié)的ascii碼超過了127,那就說明當(dāng)前字節(jié)不是一個完整的字符。
比如
$str = "你是我的小蘋果";
中的$str{0}可以取到第一個字節(jié),我們來看一下它是啥:
php > $str = "你是我的小蘋果";php > echo $str{0};? 是個亂碼,它只是
字的字節(jié)之一,也就是說,
這個字符是由超過一個字節(jié)組成的,我們這樣試試:
php > echo $str{0}.$str{1}.$str{2}; 你
可以看到,將三個字節(jié)連在一起輸出,就成了一個完整的
。
至于這里為什么是三個字節(jié),而不是兩個或4個?這個取決于字符串的編碼,我這里控制臺默認(rèn)是utf8編碼的,在PHP中,一個utf8字符是用三個字節(jié)表達(dá)的,如果是gbk編碼,則會是兩個字節(jié)。至于編碼和字節(jié)的關(guān)系,這個話題比較大,一篇說不完,請參考這篇文章:字符編碼筆記:ascii,unicode和utf8 。
知道了這些,我們就可以自己編寫一個字?jǐn)?shù)檢查的函數(shù)了,大致流程如下:
1.for循環(huán)遍歷字節(jié) 2.判斷字節(jié)編碼是否 >= 0x80,是的話跳過N個字節(jié)
我寫了個簡單的函數(shù),可以判斷gbk或utf8字符串的長度,僅供參考:
<?phpfunction mbstrlen($str,$encoding="utf8"){ if (($len = strlen($str)) == 0) { return 0; } $encoding = strtolower($encoding); if ($encoding == "utf8" or $encoding == "utf-8") { $step = 3; } elseif ($encoding == "gbk" or $encoding == "gb2312") { $step = 2; } else { return false; } $count = 0; for ($i=0; $i<$len; $i++) { $count++; //如果字節(jié)碼大于127,則根據(jù)編碼跳幾個字節(jié) if (ord($str{$i}) >= 0x80) { $i = $i + $step - 1;//之所以減去1,因為for循環(huán)本身還要$i++ } } return $count;}echo mbstrlen(iconv("utf-8","gbk","你是我的小蘋果"),"gbk");echo mbstrlen("你是我的小蘋果"); 














