字符集以及UTF-8

2019-11-08 19:30:10

字體：大中小

來源：轉載

供稿：網友

作者：于洋鏈接：https://www.zhihu.com/question/23374078/answer/69732605來源：知乎著作權歸作者所有，轉載請聯系作者獲得授權。很久很久以前，有一群人，他們決定用8個可以開合的晶體管來組合成不同的狀態，以表示世界上的萬物。他們看到8個開關狀態是好的，于是他們把這稱為”字節“。再后來，他們又做了一些可以處理這些字節的機器，機器開動了，可以用字節來組合出很多狀態，狀態開始變來變去。他們看到這樣是好的，于是它們就這機器稱為”計算機“。開始計算機只在美國用。八位的字節一共可以組合出256(2的8次方)種不同的狀態。他們把其中的編號從0開始的32種狀態分別規定了特殊的用途，一但終端、打印機遇上約定好的這些字節被傳過來時，就要做一些約定的動作。遇上0×10, 終端就換行，遇上0×07, 終端就向人們嘟嘟叫，例好遇上0x1b, 打印機就打印反白的字，或者終端就用彩色顯示字母。他們看到這樣很好，于是就把這些0×20以下的字節狀態稱為”控制碼”。他們又把所有的空格、標點符號、數字、大小寫字母分別用連續的字節狀態表示，一直編到了第127號，這樣計算機就可以用不同字節來存儲英語的文字了。大家看到這樣，都感覺很好，于是大家都把這個方案叫做 ANSI 的”Ascii”編碼（American Standard Code for Information Interchange，美國信息互換標準代碼）。當時世界上所有的計算機都用同樣的ASCII方案來保存英文文字。后來，就像建造巴比倫塔一樣，世界各地的都開始使用計算機，但是很多國家用的不是英文，他們的字母里有許多是ASCII里沒有的，為了可以在計算機保存他們的文字，他們決定采用 127號之后的空位來表示這些新的字母、符號，還加入了很多畫表格時需要用下到的橫線、豎線、交叉等形狀，一直把序號編到了最后一個狀態255。從128 到255這一頁的字符集被稱”擴展字符集“。從此之后，貪婪的人類再沒有新的狀態可以用了，美帝國主義可能沒有想到還有第三世界國家的人們也希望可以用到計算機吧！等中國人們得到計算機時，已經沒有可以利用的字節狀態來表示漢字，況且有6000多個常用漢字需要保存呢。但是這難不倒智慧的中國人民，我們不客氣地把那些127號之后的奇異符號們直接取消掉, 規定：一個小于127的字符的意義與原來相同，但兩個大于127的字符連在一起時，就表示一個漢字，前面的一個字節（他稱之為高字節）從0xA1用到 0xF7，后面一個字節（低字節）從0xA1到0xFE，這樣我們就可以組合出大約7000多個簡體漢字了。在這些編碼里，我們還把數學符號、羅馬希臘的字母、日文的假名們都編進去了，連在 ASCII 里本來就有的數字、標點、字母都統統重新編了兩個字節長的編碼，這就是常說的”全角”字符，而原來在127號以下的那些就叫”半角”字符了。中國人民看到這樣很不錯，于是就把這種漢字方案叫做 “GB2312“。GB2312 是對 ASCII 的中文擴展。但是中國的漢字太多了，我們很快就就發現有許多人的人名沒有辦法在這里打出來，特別是某些很會麻煩別人的國家領導人。于是我們不得不繼續把 GB2312 沒有用到的碼位找出來老實不客氣地用上。后來還是不夠用，于是干脆不再要求低字節一定是127號之后的內碼，只要第一個字節是大于127就固定表示這是一個漢字的開始，不管后面跟的是不是擴展字符集里的內容。結果擴展之后的編碼方案被稱為 GBK 標準，GBK包括了GB2312 的所有內容，同時又增加了近20000個新的漢字（包括繁體字）和符號。后來少數民族也要用電腦了，于是我們再擴展，又加了幾千個新的少數民族的字，GBK擴成了 GB18030。從此之后，中華民族的文化就可以在計算機時代中傳承了。中國的程序員們看到這一系列漢字編碼的標準是好的，于是通稱他們叫做 “DBCS“（Double Byte Charecter Set 雙字節字符集）。在DBCS系列標準里，最大的特點是兩字節長的漢字字符和一字節長的英文字符并存于同一套編碼方案里，因此他們寫的程序為了支持中文處理，必須要注意字串里的每一個字節的值，如果這個值是大于127的，那么就認為一個雙字節字符集里的字符出現了。那時候凡是受過加持，會編程的計算機僧侶們都要每天念下面這個咒語數百遍： “一個漢字算兩個英文字符！一個漢字算兩個英文字符……”因為當時各個國家都像中國這樣搞出一套自己的編碼標準，結果互相之間誰也不懂誰的編碼，誰也不支持別人的編碼，連大陸和臺灣這樣只相隔了150海里，使用著同一種語言的兄弟地區，也分別采用了不同的 DBCS 編碼方案——當時的中國人想讓電腦顯示漢字，就必須裝上一個”漢字系統”，專門用來處理漢字的顯示、輸入的問題，但是那個臺灣的愚昧封建人士寫的算命程序就必須加裝另一套支持 BIG5 編碼的什么”倚天漢字系統”才可以用，裝錯了字符系統，顯示就會亂了套！這怎么辦？而且世界民族之林中還有那些一時用不上電腦的窮苦人民，他們的文字又怎么辦？真是計算機的巴比倫塔命題??！正在這時，大天使加百列及時出現了——一個叫 ISO （國際標誰化組織）的國際組織決定著手解決這個問題。他們采用的方法很簡單：廢了所有的地區性編碼方案，重新搞一個包括了地球上所有文化、所有字母和符號的編碼！他們打算叫它”Universal Multiple-Octet Coded Character Set”，簡稱 UCS, 俗稱 “unicode“。unicode開始制訂時，計算機的存儲器容量極大地發展了，空間再也不成為問題了。于是 ISO 就直接規定必須用兩個字節，也就是16位來統一表示所有的字符，對于ASCII里的那些“半角”字符，unicode包持其原編碼不變，只是將其長度由原來的8位擴展為16位，而其他文化和語言的字符則全部重新統一編碼。由于”半角”英文符號只需要用到低8位，所以其高8位永遠是0，因此這種大氣的方案在保存英文文本時會多浪費一倍的空間。這時候，從舊社會里走過來的程序員開始發現一個奇怪的現象：他們的strlen函數靠不住了，一個漢字不再是相當于兩個字符了，而是一個！是的，從unicode開始，無論是半角的英文字母，還是全角的漢字，它們都是統一的”一個字符“！同時，也都是統一的”兩個字節“，請注意”字符”和”字節”兩個術語的不同，“字節”是一個8位的物理存貯單元，而“字符”則是一個文化相關的符號。在unicode中，一個字符就是兩個字節。一個漢字算兩個英文字符的時代已經快過去了。unicode同樣也不完美，這里就有兩個的問題，一個是，如何才能區別unicode和ascii？計算機怎么知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是，我們已經知道，英文字母只用一個字節表示就夠了，如果unicode統一規定，每個符號用三個或四個字節表示，那么每個英文字母前都必然有二到三個字節是0，這對于存儲空間來說是極大的浪費，文本文件的大小會因此大出二三倍，這是難以接受的。unicode在很長一段時間內無法推廣，直到互聯網的出現，為解決unicode如何在網絡上傳輸的問題，于是面向傳輸的眾多 UTF（UCS Transfer Format）標準出現了，顧名思義，UTF-8就是每次8個位傳輸數據，而UTF-16就是每次16個位。UTF-8就是在互聯網上使用最廣的一種unicode的實現方式，這是為傳輸而設計的編碼，并使編碼無國界，這樣就可以顯示全世界上所有文化的字符了。UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度，當字符在ASCII 碼的范圍時，就用一個字節表示，保留了ASCII字符一個字節的編碼做為它的一部分，注意的是unicode一個中文字符占2個字節，而UTF-8一個中文字符占3個字節）。從unicode到uft-8并不是直接的對應，而是要過一些算法和規則來轉換。Unicode符號范圍 | UTF-8編碼方式(十六進制) | （二進制）—————————————————————–0000 0000-0000 007F | 0xxxxxxx0000 0080-0000 07FF | 110xxxxx 10xxxxxx0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx作者：uuspider鏈接：https://www.zhihu.com/question/23374078/answer/65352538來源：知乎著作權歸作者所有，轉載請聯系作者獲得授權。舉一個例子：It's 知乎日報你看到的unicode字符集是這樣的編碼表：I 0049t 0074' 0027s 0073 0020知 77e5乎 4e4e日 65e5報 62a5每一個字符對應一個十六進制數字。計算機只懂二進制，因此，嚴格按照unicode的方式(UCS-2)，應該這樣存儲：I 00000000 01001001t 00000000 01110100' 00000000 00100111s 00000000 01110011 00000000 00100000知 01110111 11100101乎 01001110 01001110日 01100101 11100101報 01100010 10100101這個字符串總共占用了18個字節，但是對比中英文的二進制碼，可以發現，英文前9位都是0！浪費啊，浪費硬盤，浪費流量。怎么辦？UTF。UTF-8是這樣做的：1. 單字節的字符，字節的第一位設為0，對于英語文本，UTF-8碼只占用一個字節，和ASCII碼完全相同；2. n個字節的字符(n>1)，第一個字節的前n位設為1，第n+1位設為0，后面字節的前兩位都設為10，這n個字節的其余空位填充該字符unicode碼，高位用0補足。這樣就形成了如下的UTF-8標記位：0xxxxxxx110xxxxx 10xxxxxx1110xxxx 10xxxxxx 10xxxxxx11110xxx 10xxxxxx 10xxxxxx 10xxxxxx111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx... ...于是，”It's 知乎日報“就變成了：I 01001001t 01110100' 00100111s 01110011 00100000知 11100111 10011111 10100101乎 11100100 10111001 10001110日 11100110 10010111 10100101報 11100110 10001010 10100101和上邊的方案對比一下，英文短了，每個中文字符卻多用了一個字節。但是整個字符串只用了17個字節，比上邊的18個短了一點點。

上一篇：對比集合工具類Collections進一步學習數組工具類Arrays

下一篇：GMap.Net使用(2)之控件添加