当前位置:  编程技术>c/c++/嵌入式

C++中可正确获取UTF-8字符长度的函数分享

    来源: 互联网  发布时间:2014-10-26

    本文导语:  在C++的char*以及string中,使用的是字节流编码,即sizeof(char) == 1。 也就是说,C++是不区分字符的编码的。 而一个合法UTF8的字符长度可能为1~4位。 现在假设一串输入为UTF8编码,如何能准确的定位到每个UTF8字符的“CharPoint”,...

在C++的char*以及string中,使用的是字节流编码,即sizeof(char) == 1。

也就是说,C++是不区分字符的编码的。

而一个合法UTF8的字符长度可能为1~4位。

现在假设一串输入为UTF8编码,如何能准确的定位到每个UTF8字符的“CharPoint”,而不会错误的分割字符呢?

参考这个页面:http://www.nubaria.com/en/blog/?p=289

可以改造出下面的函数:

const unsigned char kFirstBitMask = 128; // 1000000
const unsigned char kSecondBitMask = 64; // 0100000
const unsigned char kThirdBitMask = 32; // 0010000
const unsigned char kFourthBitMask = 16; // 0001000
const unsigned char kFifthBitMask = 8; // 0000100
 
int utf8_char_len(char firstByte)
{
  std::string::difference_type offset = 1;

  if(firstByte & kFirstBitMask) // This means the first byte has a value greater than 127, and so is beyond the ASCII range.
  {  
    if(firstByte & kThirdBitMask) // This means that the first byte has a value greater than 224, and so it must be at least a three-octet code point.
    {  
      if(firstByte & kFourthBitMask) // This means that the first byte has a value greater than 240, and so it must be a four-octet code point.
        offset = 4;
      else
        offset = 3;
    }  
    else
    {  
      offset = 2;
    }  
  }  
  return offset;
}


    
 
 

您可能感兴趣的文章:

  • c++如何获取当前进程名
  • Linux下的c++,如何获取一个文件的行数呢?
  • C++网页获取类 VJSpider
  • 在linux系统上,如何用C++实现获取和设置系统时间?
  • Linux下如何用C++获取异常信息
  • C++基于CreateToolhelp32Snapshot获取系统进程实例
  • 如何通过C++编程实现获取Linux系统下的一些系统信息?
  • C++获取文件哈希值(hash)和获取torrent(bt种子)磁力链接哈希值
  • 在LINUX下用C++编程,如何获取系统当前的时间。
  • c++实现发送http请求通过get方式获取网页源代码
  • C++获取本机登陆过的QQ号码示例程序
  • C++中获取UTC时间精确到微秒的实现代码
  • C++编写FTP客户端解析LIST命令获取目录不完整,求解。
  • C++获取任务栏打开程序窗口示例
  • C++实现获取IP、子网掩码、网关、DNS等本机网络参数的方法
  • c++获取进程信息列表和进程所调用的dll列表
  • C++访问注册表获取已安装软件信息列表示例代码
  • C++获取多浏览器上网历史记录示例代码(支持获取IE/Chrome/FireFox)
  • C++获取zip文件列表方法
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • linux不用命令方式读文件获取网络流量,如何使用C函数调用获取网络流量信息?
  • getaddrinfo这个函数是从哪里获取信息的?使用这个函数究竟哪里方便了。。
  • 如何函数获取LWP?
  • 如何通过gtk的函数在程序里获取显示器的分辨率????????
  • linux内核层面,有什么好的获取时间的函数
  • shell获取main函数的返回值
  • 请问高手,如何用linux操作系统里的标准c函数获取bios时间,高分!!!!
  • js获取随机颜色值的小函数
  • 如何获取磁盘当前剩余空间?用社么函数呢?
  • 如何获取权限执行特定的函数?
  • 获取Linux 动态库SO下的函数问题
  • 创建一个获取客户端连接IP地址的函数
  • linux 获取毫秒精度以上的时间函数
  • 用函数怎样获取IP数据包?
  • 请问!linux中用什么函数可以获取CPU的频率呢?
  • Linux下哪个函数获取和设置ip地址和子网掩码
  • 想编写程序实现aix下prtonf的功能,即获取系统硬件配置,需要用到哪些函数?
  • suse linux下有获取磁盘信息的函数吗?不是shell命令
  • 获取两个时间字段的相差天数的函数
  • 获取文件属性,大小,目录,创建时间等信息的函数是什么?
  • Python获取网页编码的方法及示例代码
  • 关于获取在jsp上获取客户端时间的问题
  • java Servlet获取和设置cookie实例代码
  • 关于Ganglia中的gmond组件收集到的资源信息如何获取(如何获取telnet后返回的信息)
  • Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法
  • java获取系统路径字体、得到某个目录下的所有文件名、获取当前路径
  • php获取访客ip地址原理及提供七段代码供参考
  • 利用sender的Parent获取GridView中的当前行(获取gridview的值)
  • php获取本机ip地址 php获取远程IP地址
  • linux获取主机名后用gethostbyname() 不能获取主机ip
  • javascript 获取url参数的正则表达式(用来获取某个参数值)


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3