GB 2312-1980


GB 2312-1980 (简体)

Free Web Hosting with Website Builder

GB 2312GB 2312-80是一個簡體中文字符集中國國家標準,全稱為《信息交換用漢字編碼字符集·基本集》,又稱為GB0,由中國國家標準總局發布,1981年5月1日實施。GB2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支持GB 2312。

GB 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB 2312收錄了包括拉丁字母希臘字母日文平假名片假名字母、俄語西里爾字母在內的682個全形字元。

GB 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。

對於人名古漢語等方面出現的罕用字,GB 2312不能處理,這導致了後來GBKGB 18030漢字字符集的出現。

目錄

分區表示

GB 2312中對所收漢字進行了「分區」處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼

  • 01-09區為特殊符號。
  • 16-55區為一級漢字,按拼音排序。
  • 56-87區為二級漢字,按部首/筆畫排序。

10-15區及88-94區則未有編碼。

舉例來說,「啊」字是GB2312之中的第一個漢字,它的區位碼就是1601。

位元組結構

在使用GB2312的程序中,通常採用EUC儲存方法,以便兼容於ASCII瀏覽器編碼表上的「GB2312」,通常都是指「EUC-CN」表示法。

每個漢字及符號以兩個位元組來表示。第一個位元組稱為「高位位元組」,第二個位元組稱為「低位位元組」。

「高位位元組」使用了0xA1-0xF7(把01-87區的區號加上0xA0),「低位位元組」使用了0xA1-0xFE(把01-94加上0xA0)。 由於一級漢字從16區起始,漢字區的「高位位元組」的範圍是0xB0-0xF7,「低位位元組」的範圍是0xA1-0xFE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

例如「啊」字在大多數程序中,會以兩個位元組,0xB0(第一個位元組) 0xA1(第二個位元組)儲存。(與區位碼對比:0xB0=0xA0+16,0xA1=0xA0+1)。

參看

外部連結







Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History