扩展阅读
  • 在shell下如何支持中文?输入中文?
  • 请教:关于英文,简体中文,繁体中文在JSP/JAVA中的整体解决方案!!!
  • 寻JDK 1.4 中文文档下载地址,真的有1.4的中文文档吗?
  • 现在最流行Linux的哪一个版本?中文用哪一个版本好?外挂中文,不是内核汉化?请指点!
  • 正版的RH7带中文工具,请问好不好用?与中文的LINUX(蓝点、红旗等)相比怎么样?
  • 哪个考的是scjp的中文试卷,中文考试和英文考试的证是一样的么?
  • ubuntu安装了基于ibus框架的中文输入法,浏览器可以切换到中文,但编辑文档却不行
  • 在redhat9.0下,由于在安装的时候没有选择安装中文系统语言,不能正确显示中文的问题
  • 怎么样将原来是中文的系统语言便成英语的,就是把中文去掉?
  • backtrack有没有中文版的,或者中文语言包,求下载……
  • 如何在Tomcat里面显示中文?我编译成Servlet后中文变成了乱码!
  • cacti中文企业版欢迎使用 Cacti中文企业版
  • linux (中文)查询sql 中文
  • Get中文乱码IE浏览器Get中文乱码解决方案
  • 如何判断输入的是中文还是非中文?
  • 请问JBuild有7。0中文版么??有6.0中文版么???
  • 刚学linux语言问题,运行在init5时候可以用中文正常显示,但在init3下不能显示中文,需在哪里调整
  • 请问为什么我在linux 9.0下打开.pdf,和.ppt显示不了中文,但是网页的中文内容能显示
  • 请问各位,我装了Mandrake Linux 10.1版,选的简体中文,可是进去后菜单的中文都是方格,怎么解决啊?
  • zip包在中文centos上解压后, 其中如果有中文文件名则为乱码, 怎么解决??
  •  
    当前位置:  编程语言>其它

    中文汉字编码知识及各种中文编码对应的编码区间总结

     
        发布时间:2014-8-4  


        本文导语: 中文汉字编码知识汉字的编码体系主要有以下几种:⑴ 国标、区位、“准国标”国标是将七千余个汉字以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行称为一个“区”,每个区有94个“位”。一个汉字...

    中文汉字编码知识


    汉字的编码体系主要有以下几种:

    ⑴ 国标、区位、“准国标”

    国标是将七千余个汉字以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行称为一个“区”,每个区有94个“位”。一个汉字在方阵中的坐标,称为该字的区位码。为了与美标(ASCII)的形象码的范围重合,出现了“国标码”,即将区位码的两个十进制数都加上32,得到该汉字的国标码。

    当需要区分国标码和美标码时,出现了“准国标”,即将国标码的两个数字各加上128,而把原来的国标码称为“纯国标”。

    GBK

        GBK码是GB码的扩展字符编码,对多达两万多的简繁汉字进行了编码。

    BIG5

        BIG5码是针对繁体汉字的汉字编码。

    ⑷ HZ码

        HZ码是在Internet上广泛使用的一种汉字编码,它是以“纯国标”的中文与美标码混用为方案

    ISO 2022 CJK

        这是国际标准组织为各种语言字符制定的编码标准。CJK是中、日、韩语的合称。它主要在Internet中使用。

    UCS和ISO 10646

    UCS是由ISO 10646定义的,是其他字符集标准的一个超集,保证与其他字符集是双向兼容的,它包含了所有已知语言的字符。

    Unicode

    Unicode提供一种统一的字符标识方法,它是16位编码的,具备世界各地计算机出版行业所用字符的全部代码。而且它的产生是以各个国家或国标字符编码为基础的。目前,Unicode在网络Windows系统和很多大型软件中得到应用


    各种中文编码对应的编码区间总结


    .ascii码编码区间(所有中文编码中的ascii码编码均一样)


    1).单字节ASCII码:0x00-0x7F

    2).扩展ASCII码:0x80-0xFF


    二.GB2312双字节编码区间:


    高字节            低字节

    0xA1-0xF7         0xA1-0xFE


    三.Big5双字节编码区间:


    高字节            低字节

    0xA1-0xF9         0x40-0x7E

    0xA1-0xF9         0xA1-0xFE


    四.GB18030(一.二.四字节)编码区间


    1).单字节ASCII编码区间: 0x00-0x7F

    2).双字节编码区间:

    高字节            低字节

    0x81-0xFE         0x40-0x7E

    0x81-0xFE         0x80-0xFE

    3).四字节编码区间:

    0x81308130 - 0xFE39FE39

    第1,3个字节均由0x81-0xFE构成

    第2,4个字节均由0x30-0x39构成


    五.utf-8编码,由1-6字节构成:

    UTF-8 valid format list:

    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    以下为中文编码区间(包括双字节和三字节)

    1).单字节(ASCII码)编码区间: 0X00-0x7E

    2).双字节汉字编码区间:

    高字节            低字节

    0xC0-0xDF         0x80-0xBF

    3).三字节汉字编码区间:

    一字节            二字节       三字节

    0xE0-0xEF       0x80-0xBF      0x80-0xBF

    4).四字节:无中文

    5).五字节:无中文

    6).六字节:无中文

    UTF-8使用3字节为中文汉字编码.

    对于Windows下的utf-8文本文件,会在文件头加上0xEF 0xBB 0xBF三个字节便于windows应用程序快速识别文本编码。


    六.GBK编码完全兼容GB2312.

    七.Unicode双字节编码:

      中文编码区间:0x4E00-0x9FA5

      对于Windows下快速判断文本文件是Unicode还是ANSI编码时,如果文件的两个字节是0xFF和0xFE,则识别为Unicode文本。


    八.中文编码兼容顺序为(从左向右兼容): GB18030-->GBK--->GB2312.



     以上编码知识为个人(www.169it.com)总结,仅供参考。


    相关文章推荐:
  • Redhat9安装语言是中文,X Window中汉字能正常显示,但是KDevelop中的汉字却是乱码?
  • 只想让Red hat Linux7.1支持中文和中文输入,而不想让桌面都变成汉字,怎么办?
  • "OpenOffice.org Writer"应该程序无法打出中文汉字?
  • 如何在Solaris下查看UTF-8编码得中文字体 (不想安UTF-8得汉字字库)
  • 为什么中文汉字有乱码的现象
  • C#统计字符串里中文汉字个数的方法
  • 刚装了RedHat7.2,浏览中文网页时的汉字显示的好丑呀,怎么能变的漂亮点?thanx
  • asp.net 取中文汉字第一个拼音字母的代码
  • aspseek 搜索某些中文会显示乱码,懂汉字编码的给瞧瞧。
  • 谁说得详细谁得分!我从rh 7.3访问windows的文件时,发现无法显示中文,汉字都变成了问号。怎么解决阿
  • asp.net url 地址栏乱码,中文超过两个汉字就乱码
  • java程序在linux系统下中文输出乱码,输出一个汉字对应一个问号
  • php中文汉字与16进制编码转换三种方法
  • python使用reportlab画图示例(含中文汉字)
  • MySQL中文汉字转拼音的自定义函数和使用实例(首字的首字母)
  • 为什么原来支持中文的redhat9.0Linux系统安装完kylix3后不能输入中文甚至不能显示汉字
  • Mysql中文汉字转拼音的实现(每个汉字转换全拼)
  • PHP中文汉字验证码(实例)


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3