基本概念
字符集(Character set):是一個系統支持的所有抽象字符的集合。字符是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。常見的字符集有ASCII,ZHS16GB231280,ZHS16GBK等。
字符編碼(Character Encoding):是一套法則,使用該法則能夠對自然語言的字符的一個集合(如字母表或音節表),與其它的一個集合(如電腦編碼)進行配對。即在符號集合與數字系統之間建立對應關系。與字符集相對應,常見的字符編碼有:ASCii,ZHS16GBK,ZHT16BIG5,ZHS32GB18030等。
字符集的定義其實就是字符的集合,而字符編碼則是指怎么將這些字符變成字節用于保存、讀取和傳輸。
萬國碼(Unicode):包含了幾乎人類所有可用的字符,每年還在不斷的增加,可以看作是一種通用的字符集。它將全世界所有的字符統一化,統一編碼,不會再出現字符不兼容和字符轉換的問題。
它有以下三種編碼方式:
1.UTF-32編碼:固定使用4個字節來表示一個字符,存在空間利用效率的問題。
2.UTF-16編碼:對相對常用的60000余個字符使用兩個字節進行編碼,其余的使用4字節。
3.UTF- 8編碼:兼容ASCII編碼;拉丁文、希臘文等使用兩個字節;包括漢字在內的其它常用字符使用三個字節;剩下的極少使用的字符使用四個字節。
Oracle字符集基本原理
在搞懂Oracle字符集基本原理之前,一定要先分清以下三個概念:
1. Oracle數據庫服務器字符集:即Oracle以哪種字符編碼存儲字符,可以通過以下語句查出數據庫字符集的設置。