關(guān)于JAVA的中文問(wèn)題

2019-11-18 13:18:56

字體：大中小

供稿：網(wǎng)友

　　一、主題：關(guān)于java的中文問(wèn)題
　　JAVA的中文問(wèn)題比較突出，主要表現(xiàn)在控制面板輸出，jsp頁(yè)面輸出和數(shù)據(jù)庫(kù)訪問(wèn)上。本文盡量避開(kāi)字體問(wèn)題，而只談編碼。通過(guò)本文，你可以了解JAVA中文問(wèn)題的由來(lái)，問(wèn)題的解決方法，其中提了一下用JDBC訪問(wèn)數(shù)據(jù)庫(kù)的方法。
　　
　　二、問(wèn)題描述：
　　1）在中文W2000中文窗口編譯和運(yùn)行，用的是國(guó)際版的JDK，連接的是中文W2000下的Cp936編碼的SQL SERVER數(shù)據(jù)庫(kù)：
　　
　　J:/exercise/demo/encode/HelloWorld>make
　　Created by XCompiler. PhiloSoft All Rights Reserved.
　　Wed May 30 02:54:45 CST 2001
　　
　　J:/exercise/demo/encode/HelloWorld>run
　　Created by XRunner. PhiloSoft All Rights Reserved.
　　Wed May 30 02:51:33 CST 2001
　　中文
　　[B@7bc8b569
　　[B@7b08b569
　　[B@7860b569
　　中文
　　中文
　　????
　　中文
　　中文
　　????
　　??
　　??
　　??
　　
　　2）假如在中文W2000的西文窗口（編碼為437）下編譯，用JAVA運(yùn)行則由于無(wú)字體而無(wú)法正常顯示，假如象上面一樣在中文W2000的中文窗口運(yùn)行，輸出為：
　　
　　J:/exercise/demo/encode/HelloWorld>run
　　Created by XRunner. PhiloSoft All Rights Reserved.
　　Wed May 30 02:51:33 CST 2001
　　????
　　[B@7bc0b66a
　　[B@7b04b66a
　　[B@7818b66a
　　????
　　????
　　????
　　????
　　????
　　????
　　中文
　　中文
　　????
　　
　　三）分析
　　1）出現(xiàn)有亂碼（也就是？）。由于只出現(xiàn)？而沒(méi)出現(xiàn)小方框，說(shuō)明只是編碼有問(wèn)題，而不是字體問(wèn)題。在編碼中，假如從一種字符集轉(zhuǎn)換到別一種字符集，比較典型的是從GB2312轉(zhuǎn)換到ISO8859_1（即ASCII），那么很多漢字（半個(gè)漢字）是無(wú)法映射到西文字符中去的，在這種情形下，系統(tǒng)就把這些字符用？代替。同樣，也存在小字符集無(wú)法到大字符集的情況，具體原因這里就不詳談了。
　　
　　2）出現(xiàn)了中文環(huán)境編譯，中文環(huán)境運(yùn)行時(shí)漢字顯示有正確也有不正確的地方，同樣，在西文環(huán)境下編譯，在中文環(huán)境下運(yùn)行時(shí)也出現(xiàn)類(lèi)似情況。這是由于自動(dòng)（默認(rèn)）或手工（也就new String(bytes[,encode])和bytes getBytes([encode])）轉(zhuǎn)碼的結(jié)果。
　　
　　2.1）在JAVA源文件-->JAVAC-->Class-->Java-->getBytes()-->new String()-->顯示的過(guò)程中，每一步都有編碼的轉(zhuǎn)換過(guò)程，這個(gè)過(guò)程總是存在的，只是有的時(shí)候用默認(rèn)的參數(shù)進(jìn)行。下面我們一步一步分析為什么出現(xiàn)上面的情形。
　　
　　2.2）這里是源代碼：
　　
　　HelloWorld.java:
　　------------------------
　　public class HelloWorld
　　{
　　public static void main(String[] argv){
　　try{
　　System.out.　　System.out.println("中文".getBytes());//2
　　System.out.println("中文".getBytes("GB2312"));//3
　　System.out.println("中文".getBytes("ISO8859_1"));//4
　　
　　System.out.println(new String("中文".getBytes()));//5
　　System.out.println(new String("中文".getBytes(),"GB2312"));//6
　　System.out.println(new String("中文".getBytes(),"ISO8859_1"));//7
　　
　　System.out.println(new String("中文".getBytes("GB2312")));//8
　　System.out.println(new String("中文".getBytes("GB2312"),"GB2312"));//9
　　System.out.println(new
　　
　　String("中文".getBytes("GB2312"),"ISO8859_1"));//10
　　
　　System.out.println(new String("中文".getBytes("ISO8859_1")));//11
　　System.out.println(new
　　
　　String("中文".getBytes("ISO8859_1"),"GB2312"));//12
　　System.out.println(new
　　
　　String("中文".getBytes("ISO8859_1"),"ISO8859_1"));//13
　　}
　　catch(Exception e){
　　e.printStackTrace();
　　}
　　}
　　}
　　
　　為了方便起見(jiàn)，在每個(gè)轉(zhuǎn)換的后面加了操作序號(hào)，分別為1,2,...,13。
　　
　　2.3）需要說(shuō)明的是，JAVAC是以系統(tǒng)默認(rèn)編碼讀入源文件，然后按UNICODE進(jìn)行編碼的。在JAVA運(yùn)行的時(shí)候，JAVA也是采用UNICODE編碼的，并且默認(rèn)輸入和輸出的都是操作系統(tǒng)的默認(rèn)編碼，也就是說(shuō)在new String(bytes[,encode])中，系統(tǒng)認(rèn)為輸入的是編碼為encode的字節(jié)流，換句話(huà)說(shuō)，假如按encode來(lái)翻譯bytes才能得到正確的結(jié)果，這個(gè)結(jié)果最后要在JAVA中保存，它還是要從這個(gè)encode轉(zhuǎn)換成Unicode，也就是說(shuō)有bytes-->encode字符-->Unicode字符的轉(zhuǎn)換；而在String.getBytes([encode])中，系統(tǒng)要做一個(gè)Unicode字符-->encode字符-->bytes的轉(zhuǎn)換。
　　
　　在這個(gè)例子中，除那個(gè)英文窗口編碼的時(shí)候除外，其實(shí)情形下默認(rèn)編碼都是GBK（在本例中，我們暫且把GBK和GB2312等同看待）。
　　
　　2.4）由于在未指明在上面的兩個(gè)用代碼實(shí)現(xiàn)的轉(zhuǎn)換中，假如未指定encode，系統(tǒng)將采用默認(rèn)的編碼（這里為GBK），我們認(rèn)為上面的5,6,7和8,9,10是一樣的，8和9、11和12也是一樣的，所以我們?cè)谟懻撝袑⒅挥懻?,9,10,12,13。其中的2,3,4只是用于測(cè)試，不在我們的討論范圍之內(nèi)。
　　
　　2.5）下面我們來(lái)跟蹤程序中的“中”字的轉(zhuǎn)換歷程，我們先說(shuō)在中文窗口下作的編譯和運(yùn)行過(guò)程，注重在下面的字母下標(biāo)中，我有意識(shí)地使用了一些數(shù)字，以表示相同，相異還是相關(guān)2.5.1)我們先以上面的13個(gè)代碼段中的的代碼9為例：
　　
　　步驟內(nèi)容地點(diǎn) 說(shuō)明
　　01： C1 HelloWorld.java C1泛指一個(gè)GBK字符
　　02： U1 JAVAC讀取 U1泛指一個(gè)Unicode字符
　　03： C1 getBytes()第一步 JAVA先和操作系統(tǒng)交流
　　04： B1,B2 getBytes()第二步然后返回字節(jié)數(shù)組
　　05： C1 new String()第一步 JAVA先和操作系統(tǒng)交流
　　06： U1 new String()第二步然后返回字符
　　07： C1 println(String) 能顯示“中”字，內(nèi)容和原來(lái)的相同
　　
　　2.5.2）然后再以代碼段10為例，我們注重到只是：
　　
　　步驟內(nèi)容地點(diǎn) 說(shuō)明
　　01： C1 HelloWorld.java C1泛指一個(gè)GBK字符
　　02： U1 JAVAC讀取 U1泛指一個(gè)Unicode字符
　　03： C1 getBytes()第一步 JAVA先和操作系統(tǒng)交流
　　04： B1,B2 getBytes()第二步然后返回字節(jié)數(shù)組
　　05： C3,C4 new String()第一步 JAVA先和操作系統(tǒng)交流，這時(shí)解析錯(cuò)誤
　　06： U5,U6 new String()第二步然后返回字符
　　07： C3,C4 println(String) 由于中字給分成了兩半，在ISO8859_1中剛好也沒(méi)有字符
　　
　　能映射上，所以顯示為“??”。在上面的示例中，
　　“中文”兩個(gè)字就顯示為“？？？？”
　　2.5.3）在完全中文模式下的其它情形類(lèi)似，我就不多說(shuō)了
　　
　　2.6）我們接著看為什么在西文DOS窗口下編譯出來(lái)的類(lèi)在中文窗口下也出現(xiàn)類(lèi)似情形，非凡是為什么居然有的情形下還能正確顯示漢字。
　　
　　2.6.1）我們還是先以代碼段9為例：
　　
　　步驟內(nèi)容地點(diǎn) 說(shuō)明
　　01： C1C2 HelloWorld.java C1C2分別泛指一個(gè)ISO8859_1字符，“中”字被拆開(kāi)
　　02： U3U4 JAVAC讀取 U1U2泛指一個(gè)Unicode字符
　　03： C5C6 getBytes()第一步 JAVA先和操作系統(tǒng)交流，這時(shí)解析錯(cuò)誤
　　04： B5B6B7B8 getBytes()第二步然后返回字節(jié)數(shù)組
　　05： C5C6 new String()第一步 JAVA先和操作系統(tǒng)交流
　　06： U3U4 new String()第二步然后返回字符
　　07： C5C6 println(String) 雖然同是兩個(gè)字符，但已不是最初的“兩個(gè)ISO8859_1字
　　
　　符”，而是“兩個(gè)BGK字符”，“中”顯示成了“？？”
　　而“中文”就顯示成了“？？？？”
　　
　　2.6.2）下面我們以代碼段12為例，因?yàn)樗苷_顯示漢字
　　
　　步驟內(nèi)容地點(diǎn) 說(shuō)明
　　
　　01： C1C2 HelloWorld.java C1C2分別泛指一個(gè)ISO8859_1字符，“中”字被拆開(kāi)
　　02： U3U4 JAVAC讀取 U1U2泛指一個(gè)Unicode字符
　　03： C1C2 getBytes()第一步 JAVA先和操作系統(tǒng)交流（注重還是正確的哦！）
　　04： B5B6 getBytes()第二步然后返回字節(jié)數(shù)組（這是很要害的一步！）
　　05： C12 new String()第一步 JAVA先和操作系統(tǒng)交流（這是更要害的一步，JAVA已經(jīng)知道B5B6要解析成一個(gè)漢字！）
　　06： U7 new String()第二步然后返回字符（真是一個(gè)項(xiàng)兩！U7包含了U3U4的信息）
　　07： C12 println(String) 這就原來(lái)的“中”字，很委屈被JAVAC冤枉了一回，不過(guò)被程序員撥亂反正了一下！當(dāng)然，“中文”兩個(gè)字都能正確顯示了！
　　
　　3）那為什么有的時(shí)候用JDBC的
　　new String(Recordset.getBytes(int)[,encode])
　　Recordset.getSting(int)
　　Recordset.setBytes(String.getBytes([encode]))
　　和
　　Recordset.setString(String)
　　的時(shí)候會(huì)出現(xiàn)亂碼了呢？
　　
　　其實(shí)問(wèn)題就出現(xiàn)在編寫(xiě)JDBC的的也考慮了編碼問(wèn)題，它從數(shù)據(jù)庫(kù)讀取數(shù)據(jù)后，可能自作主張做了一個(gè)從GB2312（默認(rèn)編碼）到Unicode的轉(zhuǎn)換，我的這個(gè)WebLogic For SQL Server的JDBC Driver就是這樣的，當(dāng)我讀字串的時(shí)候，發(fā)出讀到的不是正確的漢字，可恨的是我卻可以直接寫(xiě)漢字字串，這讓人多少有點(diǎn)難以接受！
　　也就是說(shuō)，我們不得不在讀或?qū)懙臅r(shí)候進(jìn)行轉(zhuǎn)碼，盡管這個(gè)轉(zhuǎn)碼有的時(shí)候不是那么明顯，這是因?yàn)槲覀兪褂昧四J(rèn)的編碼進(jìn)行轉(zhuǎn)碼。JDBC Driver

上一篇：讓Java程序只運(yùn)行一個(gè)實(shí)例

下一篇：Java中文相關(guān)技術(shù)