java/jsp中中文問題詳解

2020-06-01 23:28:05

字體：大中小

供稿：網(wǎng)友

預(yù)備知識(shí)：
　1.字節(jié)和unicode
　　Java內(nèi)核是unicode的，就連class文件也是，但是很多媒體，包括文件/流的保存方式
　　是使用字節(jié)流的。因此Java要對(duì)這些字節(jié)流經(jīng)行轉(zhuǎn)化。char是unicode的，而byte是字節(jié).
　　Java中byte/char互轉(zhuǎn)的函數(shù)在sun.io的包中間有。其中ByteToCharConverter類是中調(diào)度，
　　可以用來告訴你，你用的Convertor。其中兩個(gè)很常用的靜態(tài)函數(shù)是
　　 public static ByteToCharConverter getDefault() ;
　　 public static ByteToCharConverter getConverter(String encoding);
　　如果你不指定converter，則系統(tǒng)會(huì)自動(dòng)使用當(dāng)前的Encoding,GB平臺(tái)上用GBK,EN平臺(tái)上用
　　8859_1
　　
　　我們來就一個(gè)簡單的例子：
　　　　　"你"的gb碼是：0xC4E3 ,unicode是0x4F60
　　　　　你用:
　　　　　--encoding="gb2312";
　　　　　--byte b[]={(byte)'u00c4',(byte)'u00E3'};
　　　　　--convertor=ByteToCharConverter.getConverter(encoding);
　　　　　--char [] c=converter.convertAll(b);
　　　　　--for(int i=0;i<c.length;c++)
　　　　　--{
　　　　　-- System.out.println(Integer.toHexString(c[i]));
　　　　　--}
　　　　　--打印出來是0x4F60
　　　　　--但是如果使用8859_1的編碼，打印出來是
　　　　　--0x00C4,0x00E3
　　　　　----例１
　　　　反過來：
　　　　 --encoding="gb2312";
　　　　　　　char c[]={'u4F60'};
　　　　　　　 convertor=ByteToCharConverter.getConverter(encoding);
　　　　　--byte [] b=converter.convertAll(c);
　　　　　--for(int i=0;i<b.length;c++)
　　　　　--{
　　　　　-- System.out.println(Integer.toHexString(b[i]));
　　　　　--}
　　　　　　--打印出來是：0xC4,0xE3
　　　　　　----例２
　　　　　　--如果用8859_1就是0x3F，?號(hào)，表示無法轉(zhuǎn)化　　　　　　--
　　　　　很多中文問題就是從這兩個(gè)最簡單的類派生出來的。而卻有很多類　　
　　不直接支持把Encoding輸入，這給我們帶來諸多不便。很多程序難得用encoding
　　了，直接用default的encoding，這就給我們移植帶來了很多困難
　　--
　　2.UTF-8
　　--UTF-8是和Unicode一一對(duì)應(yīng)的，其實(shí)現(xiàn)很簡單
　　--
　　 -- 7位的Unicode: 0 _ _ _ _ _ _ _
　　--11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
　　--16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
　　--21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
　　--大多數(shù)情況是只使用到16位以下的Unicode:
　　--"你"的gb碼是：0xC4E3 ,unicode是0x4F60
　　--我們還是用上面的例子
　　--　　--例１：0xC4E3的二進(jìn)制：
　　--　　--　　　 1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 1

上一篇：JDBCTM 指南:入門7-CallableStatement

下一篇：如何用Jsp讀取Mysql數(shù)據(jù)庫