
GB 2312或GB 2312-80是一個簡體中文字符集的中國國家標準,全稱為《信息交換用漢字編碼字符集·基本集》,又稱為GB0,由中國國家標準總局發布,1981年5月1日實施。GB2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支持GB 2312。
GB 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全形字元。
GB 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。
對於人名、古漢語等方面出現的罕用字,GB 2312不能處理,這導致了後來GBK及GB 18030漢字字符集的出現。
目錄 |
GB 2312中對所收漢字進行了「分區」處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼。
10-15區及88-94區則未有編碼。
舉例來說,「啊」字是GB2312之中的第一個漢字,它的區位碼就是1601。
在使用GB2312的程序中,通常採用EUC儲存方法,以便兼容於ASCII。瀏覽器編碼表上的「GB2312」,通常都是指「EUC-CN」表示法。
每個漢字及符號以兩個位元組來表示。第一個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。
「高位位元組」使用了0xA1-0xF7(把01-87區的區號加上0xA0),「低位位元組」使用了0xA1-0xFE(把01-94加上0xA0)。 由於一級漢字從16區起始,漢字區的「高位位元組」的範圍是0xB0-0xF7,「低位位元組」的範圍是0xA1-0xFE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
例如「啊」字在大多數程序中,會以兩個位元組,0xB0(第一個位元組) 0xA1(第二個位元組)儲存。(與區位碼對比:0xB0=0xA0+16,0xA1=0xA0+1)。
Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History