C++中汉字字符串的截取__str_encoding_byte_name_String_

当前位置: 编程技术>c/c++/嵌入式

C++中汉字字符串的截取

来源: 互联网发布时间：2014-10-12

本文导语: 1、代码如下:const char *str = "test测试test";while(*str){//这里只需要判断第一个字节大于0x80就行了，前提是输入的是合法的GBK字符串//原因在于，如果第一个字节大于0x80，那么它必然和后面一个字节一起组成一个汉字//所以就没有必...

1、

代码如下:

const char *str = "test测试test";
while(*str)
{
//这里只需要判断第一个字节大于0x80就行了，前提是输入的是合法的GBK字符串
//原因在于，如果第一个字节大于0x80，那么它必然和后面一个字节一起组成一个汉字
//所以就没有必要再去判断后面一个字节了
//再强调一下，前提条件是输入合法的GBK字符串
if(*str > 0x80)
{
// 汉字，计数器++
str += 2;//是汉字自然就该直接+2了
}
else
{
str++；
}
}

2、

参看下面的字符串转换函数。

代码如下:

/**
* 用getBytes(encoding)：返回字符串的一个byte数组
* 当b[0]为 63时，应该是转码错误
* A、不乱码的汉字字符串：
* 1、encoding用GB2312时，每byte是负数；
* 2、encoding用ISO8859_1时，b[i]全是63。

* B、乱码的汉字字符串：
* 1、encoding用ISO8859_1时，每byte也是负数；
* 2、encoding用GB2312时，b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312时，每byte都大于0；
* 总结：给定一个字符串，用getBytes("iso8859_1")
* 1、如果b[i]有63，不用转码； A-2
* 2、如果b[i]全大于0，那么为英文字符串，不用转码； B-1
* 3、如果b[i]有小于0的，那么已经乱码，要转码。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能为0，0为字符串结束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

代码如下:

unsigned char *str = "test测试test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str = 0x40 && *(str + 1) >7&1 && name[i+1]>>7&1 ) //if ( name[i] < 0 && name[i+1] < 0 )

i = i + 2 ;

else

i = i + 1 ;

}

i = i > len ? i-3 :i-1;

strncpy( store , name , i+1 ); //截取前i+1位

*(store+i+1)=0;

strcpy( strTemp , name + i + 1 );

strcpy( name , strTemp );

}

您可能感兴趣的文章:

CUT 截取汉字问题

java 截取字符串（判断汉字）

Java 按照字节来截取字符串的代码(不会出现半个汉字)

怎么截取含有汉字的字符串而不出现半个字符?

php自定义函数截取汉字长度

php自定义函数截取汉字长度示例

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。