寫在前面
在web服務端開發中,字符的編解碼幾乎每天都要打交道。編解碼一旦處理不當,就會出現令人頭疼的亂碼問題。
不少從事node服務端開發的同學,由于對字符編碼碼相關知識了解不足,遇到問題時,經常會一籌莫展,花大量的時間在排查、解決問題。
文本先對字符編解碼的基礎知識進行簡單介紹,然后舉例說明如何在node中進行編解碼,最后是服務端的代碼案例。本文相關代碼示例可在這里找到。
關于字符編解碼
在網絡通信的過程中,傳輸的都是二進制的比特位,不管發送的內容是文本還是圖片,采用的語言是中文還是英文。
舉個例子,客戶端向服務端發送"你好"。
客戶端 --- 你好 ---> 服務端
這中間包含了兩個關鍵步驟,分別對應的是編碼、解碼。
1.客戶端:將"你好"這個字符串,編碼成計算機網絡需要的二進制比特位。
2.服務端:將接收到的二進制比特位,解碼成"你好"這個字符串。
總結一下:
1.編碼:將需要傳送的數據,轉成對應的二進制比特位。
2.解碼:將二進制比特位,轉成原始的數據。
上面有些重要的技術細節沒有提到,答案在下一小節。
客戶端怎么知道"你好"這個字符對應的比特位是多少? 服務端收到二進制比特位之后,怎么知道對應的字符串是什么?關于字符集和字符編碼
上面提到字符、二進制的轉換問題。既然兩者可以互相轉換,也就是說存在明確的轉換規則,可以實現字符<->二進制的相互轉換。
這里提到的轉換規則,其實就是我們經常聽到的字符集&字符編碼。
字符集是一系列字符(文字、標點符號等)的集合。字符集有很多,常見的有ASCII、Unicode、GBK等。不同字符集主要的區別在于包含字符個數的不同。
了解了字符集的概念后,接下來介紹下字符編碼。
字符集告訴我們支持哪些字符,但具體字符怎么編碼,是由字符編碼決定的。比如Unicode字符集,支持的字符編碼有UTF8(常用)、UTF16、UTF32。
概括一下:
字符集:字符的集合,不同字符集包含的字符數不同。 字符編碼:字符集中字符的實際編碼方式。 一個字符集可能有多種字符編碼方式。可以把字符編碼看成一個映射表,客戶端、服務端就是根據這個映射表,來實現字符跟二進制的編解碼轉換。
舉個例子,"你"這個字符,在UTF8編碼中,占據三個字節0xe4 0xbd 0xa0,而在GBK編碼中,占據兩個字節0xc4 0xe3。
字符編解碼例子
上面已經提到了字符編解碼所需的基礎知識。下面我們看一個簡單的例子,這里借助了icon-lite這個庫來幫助我們實現編解碼的操作。
新聞熱點
疑難解答
圖片精選