当前位置:  技术问答>linux和unix

关于一个UTF-8编码的简单问题,求助

    来源: 互联网  发布时间:2017-03-02

    本文导语:  见到一篇文章,关于UTF-8编码的,最后有疑问啊 具体来说,UTF-8编码有以下几种格式: U-00000000 – U-0000007F:  0xxxxxxx U-00000080 – U-000007FF:  110xxxxx 10xxxxxx U-00000800 – U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx U-00010000 – U-...

见到一篇文章,关于UTF-8编码的,最后有疑问啊

具体来说,UTF-8编码有以下几种格式:

U-00000000 – U-0000007F:  0xxxxxxx
U-00000080 – U-000007FF:  110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

第 一个字节要么最高位是0(ASCII字节),要么最高两位都是1,最高位之后1的个数决定后面有多少个字节也属于当前字符编码,例如111110xx,最 高位之后还有四个1,表示后面有四个字节也属于当前字符的编码。后面每个字节的最高两位都是10,可以和第一个字节区分开。这样的设计有利于误码同步,例 如在网络传输过程中丢失了几个字节,很容易判断当前字符是不完整的,也很容易找到下一个字符从哪里开始,结果顶多丢掉一两个字符,而不会导致后面的编码解 释全部混乱了。上面的格式中标为x的位就是UCS编码,最后一种6字节的格式中x位有31个,可以表示31位的UCS编码,UTF-8就像一列火车,第一 个字节是车头,后面每个字节是车厢,其中承载的货物是UCS编码。UTF-8规定承载的UCS编码以大端表示,也就是说第一个字节中的x是UCS编码的高 位,后面字节中的x是UCS编码的低位。



例如U+00A9(©字符)的二进制是10101001,编码成UTF-8是11000010 10101001(0xC2 0xA9),但不能编码成11100000 10000010 10101001,UTF-8规定每个字符只能用尽可能少的字节来编码。

这个11000010 10101001是哪儿冒出来的啊。。。
实在看不懂。。哎,求各位大侠,元老帮助。

|
太长了,懒得看。

utf8,gbk都是8bits编码,兼容ASCII,为了区分ASCII和非ASCII,所以非ASCII的多字节字符单字节高位都是1,就这么简单的道理、

|
utf  8  就是一个字节不够编, 就用 2 个, 2个不够就用 3 个。 

|
目前的编码还是个大难题,非英语还是比较悲剧
特别是爬虫分析每个国家的专题新闻的时候更是让人感觉悲剧

    
 
 

您可能感兴趣的文章:

  • 文件编码及UTF-8、BOM、0XFEFF相关问题
  • 修改mysql5.5默认编码(图文步骤修改为utf-8编码)
  • 怎么把ubuntu默认的汉字编码UTF-8 彻底改为 gb2312 呢?
  • c里怎们把GB2312的字符转化成UTF-8的编码??
  • linux上使用C++如何处理utf-8编码的字段
  • 难道WINDOW下的UTF-8编码不够纯?
  • php自动识别文件编码并转换为UTF-8的方法
  • Linux下UTF-8编码的转换
  • 救急!中文问题!!utf-8编码转成GBK,因为位数不同而产生字符丢掉问题!!
  • 天啊,又是中文问题:utf-8编码转成GBK,因为位数不同而产生字符丢掉问题!!
  • 什么是UTF-8编码
  • PHP生成UTF-8编码的CSV文件打开乱码的解决方法
  • php iconv函数解决utf-8与gb2312编码转换问题
  • 如何在Solaris下查看UTF-8编码得中文字体 (不想安UTF-8得汉字字库)
  • Shell脚本把文件从GBK转为UTF-8编码
  • Linux c语言 如何统计utf-8编码的包含中英文和各种符号的字符串中各个字符的个数
  • 完美的2个php检测字符串是否是utf-8编码函数分享
  • android POST数据遇到的UTF-8编码(乱码)问题解决办法
  • php中utf-8编码解决十法
  • linux下如何测试socket server端可以接受utf-8编码的数据?(用c语言开)发
  • php实现utf-8与gb2312的url编码转换
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 如何在windows下的DOS窗口中显示utf-8字符(CMD命令提示符终端显示utf-8字符)
  • 跪求解决方法 iconv 不支持 utf-8 gb2312转换 iconv -l 显示没有utf-8 gb2312
  • PHP实现Unicode和Utf-8互相转换
  • 在java中,怎么将UTF-8码转换为GB码?
  • 传utf-8的网页到linux出现乱码
  • gdbtui 中文注释乱码?设置了charset为UTF-8还是乱码,怎么办?
  • unix下utf-8如何能克服UCS-2的问题
  • 汉字转utf-8的一个小问题
  • 怎样将UTF-8码的String转换成unicode!!!!!
  • C++国际化 UTF-8 CPP
  • 有没有去掉utf-8乱码的办法?
  • utf8与UTF-8有什么区别
  • php中文乱码怎么办如何让浏览器自动识别utf-8 iis7站长之家
  • UTF-8字符串生成工具 utfout
  • php中文乱码怎么办如何让浏览器自动识别utf-8
  • Pango-WARNING **: Invalid UTF-8 string passed to pango_layout_set_text()
  • [分享经验]gtk2中文诡异乱码,原来是源文件格式不是utf-8的,回帖有分,顺序发完为止
  • UTF-8转utf-8问题
  • zh_CN.utf8和UTF-8区别,是否兼容?
  • UTF-8的问题(本周5,18:00前结账)。
  • win下面的utf-8文件到linux下面有的显示不出来


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3