国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 語言 > PHP > 正文

php 檢測字符編碼代碼

2024-09-04 11:47:47
字體:
來源:轉載
供稿:網友
  1. function utf8_gb2312($str$default = 'gb2312'
  2.     $str = preg_replace("/[x01-x7f]+/"""$str); 
  3.     if (emptyempty($str)) return $default
  4.      
  5.     $preg =  array
  6.         "gb2312" => "/^([xa1-xf7][xa0-xfe])+$/"//正則判斷是否是gb2312 
  7.         "utf-8" => "/^[x{4e00}-x{9fa5}]+$/u",      //正則判斷是否是漢字(utf8編碼的條件了),這個范圍實際上已經包含了繁體中文字了 
  8.     ); 
  9.     if ($default == 'gb2312') { 
  10.         $option = 'utf-8'
  11.     } else { 
  12.         $option = 'gb2312'
  13.     } 
  14.     if (!preg_match($preg[$default], $str)) { 
  15.         return $option
  16.     } 
  17.     $str = @iconv($default$option$str); 
  18.      
  19.     //不能轉成 $option, 說明原來的不是 $default 
  20.     if (emptyempty($str)) { 
  21.         return $option
  22.     } 

默認編碼是gb2312,而且我統計了一下,90%的情況下都是gb2312,所以,我的檢測函數不能出現本來是gb2312的,結果被檢測出utf8. 基本思路是:

1. 把所有的ascii去掉,如果全部都是ascii,那么就是gb2312。

2. 假設這個字符串是gb2312,用一個正則檢查它是否是真的gb2312,如果不是,那么就是utf-8

3. 然后,用iconv 把字符串轉換成utf8,如果轉換不成功,那么原來可能不是真正的一個gb2312編碼的字符(用正則匹配我已經盡量精確,但是,gb2312的編碼不是連續的,還是會有空洞),那么最后的編碼就是utf-8.

4. 否則就是gb2312 編碼:加入這樣的檢查功能后,在1000個關鍵字里面,就出現了1個亂碼,比以前的近100個關鍵字亂碼少了很多。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 章丘市| 阿鲁科尔沁旗| 绍兴县| 沙雅县| 阿拉善左旗| 潞城市| 平江县| 隆回县| 仙游县| 开鲁县| 兴文县| 福清市| 丰顺县| 罗江县| 温泉县| 皋兰县| 紫金县| 临颍县| 晋中市| 镇远县| 故城县| 泽库县| 德安县| 巴彦淖尔市| 武平县| 平谷区| 沾化县| 和硕县| 沙河市| 吉林省| 嘉禾县| 武穴市| 双峰县| 宜阳县| 鹤壁市| 福贡县| 长宁区| 遂宁市| 安塞县| 大洼县| 吉林省|