由于mysql默認是utf-8那它有時對中文就會出現(xiàn)亂碼,同時也有可能是由于和web頁面不統(tǒng)一編碼出現(xiàn)的亂碼問題,下面我們來看看解決亂碼的問題。
character-set-server/default-character-set:服務器字符集,默認情況下所采用的。
character-set-database:數(shù)據(jù)庫字符集。
character-set-table:數(shù)據(jù)庫表字符集。
優(yōu)先級依次增加。所以一般情況下只需要設置character-set-server,而在創(chuàng)建數(shù)據(jù)庫和表時不特別指定字符集,這樣統(tǒng)一采用character-set-server字符集。
character-set-client:客戶端的字符集。客戶端默認字符集。當客戶端向服務器發(fā)送請求時,請求以該字符集進行編碼。
character-set-results:結果字符集。服務器向客戶端返回結果或者信息時,結果以該字符集進行編碼。
在客戶端,如果沒有定義character-set-results,則采用character-set-client字符集作為默認的字符集。所以只需要設置character-set-client字符集。
要處理中文,則可以將character-set-server和character-set-client均設置為GB2312,如果要同時處理多國語言,則設置為UTF8。
關于MySQL的中文問題
解決亂碼的方法是,在執(zhí)行SQL語句之前,將MySQL以下三個系統(tǒng)參數(shù)設置為與服務器字符集character-set-server相同的字符集。
character_set_client:客戶端的字符集。
character_set_results:結果字符集。
character_set_connection:連接字符集。
設置這三個系統(tǒng)參數(shù)通過向MySQL發(fā)送語句:set names gb2312
關于GBK、GB2312、UTF8
UTF- 8:Unicode Transformation Format-8bit,允許含BOM,但通常不含BOM。是用以解決國際上字符的一種多字節(jié)編碼,它對英文使用8位(即一個字節(jié)),中文使用24為(三個字節(jié))來編碼。UTF-8包含全世界所有國家需要用到的字符,是國際編碼,通用性強。UTF-8編碼的文字可以在各國支持UTF8字符集的瀏覽器上顯示。如,如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,他們無需下載IE的中文語言支持包。
GBK是國家標準GB2312基礎上擴容后兼容GB2312的標準。GBK的文字編碼是用雙字節(jié)來表示的,即不論中、英文字符均使用雙字節(jié)來表示,為了區(qū)分中文,將其最高位都設定成1。GBK包含全部中文字符,是國家編碼,通用性比UTF8差,不過UTF8占用的數(shù)據(jù)庫比GBD大。
GBK、GB2312等與UTF8之間都必須通過Unicode編碼才能相互轉換:
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
對于一個網(wǎng)站、論壇來說,如果英文字符較多,則建議使用UTF-8節(jié)省空間。不過現(xiàn)在很多論壇的插件一般只支持GBK。
GB2312是GBK的子集,GBK是GB18030的子集
GBK是包括中日韓字符的大字符集合
如果是中文的網(wǎng)站 推薦GB2312 GBK有時還是有點問題
為了避免所有亂碼問題,應該采用UTF-8,將來要支持國際化也非常方便
UTF-8可以看作是大字符集,它包含了大部分文字的編碼。
使用UTF-8的一個好處是其他地區(qū)的用戶(如香港臺灣)無需安裝簡體中文支持就能正常觀看你的文字而不會出現(xiàn)亂碼。
gb2312是簡體中文的碼
gbk支持簡體中文及繁體中文
big5支持繁體中文
utf-8支持幾乎所有字符
首先分析亂碼的情況
1.寫入數(shù)據(jù)庫時作為亂碼寫入
2.查詢結果以亂碼返回
究竟在發(fā)生亂碼時是哪一種情況呢?我們先在mysql 命令行下輸入:show variables like '%char%';
查看mysql 字符集設置情況:
- mysql> show variables like '%char%';
- +--------------------------+----------------------------------------+
- | Variable_name | Value | --Vevb.com
- +--------------------------+----------------------------------------+
- | character_set_client | gbk |
- | character_set_connection | gbk |
- | character_set_database | gbk |
- | character_set_filesystem | binary |
- | character_set_results | gbk |
- | character_set_server | gbk |
- | character_set_system | utf8 |
- | character_sets_dir | /usr/local/mysql/share/mysql/charsets/ |
- +--------------------------+----------------------------------------+
在查詢結果中可以看到mysql 數(shù)據(jù)庫系統(tǒng)中客戶端、數(shù)據(jù)庫連接、數(shù)據(jù)庫、文件系統(tǒng)、查詢結果、服務器、系統(tǒng)的字符集設置,在這里,文件系統(tǒng)字符集是固定的,系統(tǒng)、服務器的字符集在安裝時確定,與亂碼問題無關,亂碼的問題與客戶端、數(shù)據(jù)庫連接、數(shù)據(jù)庫、查詢結果的字符集設置有關.
*注:客戶端是看訪問mysql 數(shù)據(jù)庫的方式,通過命令行訪問,命令行窗口就是客戶端,通過JDBC 等連接訪問,程序就是客戶端,我們在向mysql 寫入中文數(shù)據(jù)時,在客戶端、數(shù)據(jù)庫連接、寫入數(shù)據(jù)庫時分別要進行編碼轉換,在執(zhí)行查詢時,在返回結果、數(shù)據(jù)庫連接、客戶端分別進行編碼轉換,現(xiàn)在我們應該清楚,亂碼發(fā)生在數(shù)據(jù)庫、客戶端、查詢結果以及數(shù)據(jù)庫連接這其中一個或多個環(huán)節(jié).
接下來我們來解決這個問題,在登錄數(shù)據(jù)庫時,我們用mysql --default-character-set=字符集-u root -p 進行連接,這時我們再用show variables like '%char%';命令查看字符集設置情況,可以發(fā)現(xiàn)客戶端、數(shù)據(jù)庫連接、查詢結果的字符集已經(jīng)設置成登錄時選擇的字符集了如果是已經(jīng)登錄了,可以使用set names 字符集;命令來實現(xiàn)上述效果,等同于下面的命令:
- set character_set_client = 字符集
- set character_set_connection = 字符集
- set character_set_results = 字符集
如果是通過JDBC 連接數(shù)據(jù)庫,可以這樣寫URL:
URL=jdbc:mysql://localhost:3306/abs?useUnicode=true&characterEncoding=字符集
JSP 頁面等終端也要設置相應的字符集
數(shù)據(jù)庫的字符集可以修改mysql 的啟動配置來指定字符集,也可以在create database 時加上:default character set 字符集來強制設置database 的字符集,通過這樣的設置,整個數(shù)據(jù)寫入讀出流程中都統(tǒng)一了字符集,就不會出現(xiàn)亂碼了.
為什么從命令行直接寫入中文不設置也不會出現(xiàn)亂碼?
可以明確的是從命令行下,客戶端、數(shù)據(jù)庫連接、查詢結果的字符集設置沒有變化,輸入的中文經(jīng)過一系列轉碼又轉回初始的字符集,我們查看到的當然不是亂碼,但這并不代表中文在數(shù)據(jù)庫里被正確作為中文字符存儲,舉例來說,現(xiàn)在有一個utf8 編碼數(shù)據(jù)庫,客戶端連接使用GBK 編碼,connection 使用默認的ISO8859-1(也就是mysql 中的latin1),我們在客戶端發(fā)送“中文”這個字符串,客戶端將發(fā)送一串GBK 格式的二進制碼給connection 層,connection 層以ISO8859-1 格式將這段二進制碼發(fā)送給數(shù)據(jù)庫,數(shù)據(jù)庫將這段編碼以utf8 格式存儲下來,我們將這個字段以utf8格式讀取出來,肯定是得到亂碼,也就是說中文數(shù)據(jù)在寫入數(shù)據(jù)庫時是以亂碼形式存儲的,在同一個客戶端進行查詢操作時,做了一套和寫入時相反的操作,錯誤的utf8 格式二進制碼又被轉換成正確的GBK 碼并正確顯示出來。
java、jsp中設置編碼,首先說在java里那些地方能夠設置編碼,下面兩種設置編碼格式方法適用于jsp頁面(*.jsp),代碼如下:
- <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
- <%@ page contentType="text/html; charset=UTF-8" %>
下面方式適合于jsp、servlet、action中(*.java)
- request.setCharacterEncoding("UTF-8");
- response.setCharacterEncoding("UTF-8");
下面適合html頁面(*.htm;*.html)
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
Tomcate設置編碼(server.xml)
<Connector 其他省略 port="80" URIEncoding="UTF-8">
mysql設置編碼命令,代碼如下:
- SET character_set_client = utf8;
- SET character_set_connection = utf8;
- SET character_set_database = utf8;
- SET character_set_results = utf8;/*這里要注意很有用*/
- SET character_set_server = utf8;
- --Vevb.com
- SET collation_connection = utf8_bin;
- SET collation_database = utf8_bin;
- SET collation_server = utf8_bin;
my.ini中配置默認編碼:default-character-set=utf8
連接數(shù)據(jù)庫設置編碼:jdbc:mysql://192.168.0.5:3306/test?characterEncoding=utf8
java與mysq編碼對應,java中的常用編碼UTF-8;GBK;GB2312;ISO-8859-1;
對應mysql數(shù)據(jù)庫中的編碼utf8;gbk;gb2312;latin1
過濾器使用:
- //過濾器設置編碼過濾(SetCharacterEncodingFilter.java)
- package com.sorc;
- import java.io.*;
- import javax.servlet.*;
- import javax.servlet.http.*;
- public class SetCharacterEncodingFilter extends HttpServlet implements Filter{
- private FilterConfig filterConfig;
- private String encoding=null;
- //Handle the passed-in FilterConfig
- public void init(FilterConfig filterConfig){
- this.filterConfig=filterConfig;
- encoding=filterConfig.getInitParameter("encoding");
- }
- //Process the request/response pair
- public void doFilter(ServletRequest request,ServletResponse response,FilterChain filterChain){
- try{
- request.setCharacterEncoding(encoding);
- filterChain.doFilter(request,response);
- } catch(ServletException sx){
- filterConfig.getServletContext().log(sx.getMessage());
- } catch(IOException iox){
- filterConfig.getServletContext().log(iox.getMessage());
- }
- }
- //Clean up resources
- public void destroy(){
- }
- }
- //web.xml配置過濾器方法(web.xmd)
- <filter>
- <filter-name>setcharacterencodingfilter</filter-name>
- <filter-class>com.sorc.SetCharacterEncodingFilter</filter-class>
- <init-param>
- <param-name>encoding</param-name>
- <param-value>utf8</param-value>
- </init-param>
- </filter>
- <filter-mapping>
- <filter-name>setcharacterencodingfilter</filter-name>
- <url-pattern>/*</url-pattern>
- </filter-mapping>
有了上面的基礎下面是完滿解決方案:
1.使用GBK編碼的解決方案
這個最簡單 遇到設置編碼的地方就是用GBK數(shù)據(jù)庫gbk 然后在使用個過濾器過濾編碼為gbk一切搞定,效果為添加數(shù)據(jù)無亂碼 讀出無亂碼 數(shù)據(jù)庫管理工具無亂碼 到處sql結構和數(shù)據(jù)無亂碼
2.使用UTF-8編碼解決方案
所有編碼都設置為UTF-8
數(shù)據(jù)庫編碼utf8
設置過濾器編碼utf8
數(shù)據(jù)庫連接?characterEncoding=utf8
然后在數(shù)據(jù)庫管理工具或mysql命令行 運行 SET character_set_results = gbk;
效果為添加數(shù)據(jù)無亂碼 讀出無亂碼 數(shù)據(jù)庫管理工具無亂碼 到處sql結構和數(shù)據(jù)時存在亂碼.
3.頁面使用UTF8 數(shù)據(jù)庫使用latin1的解決方案
jap java tomcat 設置為UTF-8
過濾器 utf8
數(shù)據(jù)庫連接?characterEncoding=latin1
數(shù)據(jù)庫其他latin1
然后在數(shù)據(jù)庫管理工具或mysql命令行 運行 SET character_set_results = gbk;
效果為添加數(shù)據(jù)無亂碼 讀出無亂碼 數(shù)據(jù)庫管理工具無亂碼 到處sql結構和數(shù)據(jù)時存在亂碼
PHP MYSQL 中文亂碼,終極解決方案,在mysql里面,如果插入的字符集與當前環(huán)境和字段的不一致,在mysql顯示就是亂碼:
- character_set_client | utf8
- character_set_connection | utf8
- character_set_database | utf8
- character_set_filesystem | binary
- character_set_results | utf8
- character_set_server | utf8
- character_set_system | utf8
自己看吧,php.ini my.ini,數(shù)據(jù)庫編碼,表編碼,列編碼,鏈接編碼,這里東西我們經(jīng)常在mysql教程中會有講到的.
如果是頁面和mysql輸出頁面亂碼我們可以,就是在mysql_connect后面加一句SET NAMES UTF8,即可使得UTF8的數(shù)據(jù)庫消除亂碼,對于GBK的數(shù)據(jù)庫則使用SET NAMES GBK,代碼如下:
$mysql_mylink = mysql_connect($mysql_host, $mysql_user, $mysql_pass);
mysql_query("SET NAMES 'GBK'");
新聞熱點
疑難解答
圖片精選