C++中汉字字符串的截取

 更新时间:2020年4月25日 17:48  点击:2027

1、

复制代码 代码如下:

const char *str = "test测试test";
while(*str)
{
//这里只需要判断第一个字节大于0x80就行了,前提是输入的是合法的GBK字符串
//原因在于,如果第一个字节大于0x80,那么它必然和后面一个字节一起组成一个汉字
//所以就没有必要再去判断后面一个字节了
//再强调一下,前提条件是输入合法的GBK字符串
if(*str > 0x80)
{
// 汉字,计数器++
str += 2;//是汉字自然就该直接+2了
}
else
{
str++;
}
}

2、

参看下面的字符串转换函数。

复制代码 代码如下:

/**
* 用getBytes(encoding):返回字符串的一个byte数组
* 当b[0]为 63时,应该是转码错误
* A、不乱码的汉字字符串:
* 1、encoding用GB2312时,每byte是负数;
* 2、encoding用ISO8859_1时,b[i]全是63。

* B、乱码的汉字字符串:
* 1、encoding用ISO8859_1时,每byte也是负数;
* 2、encoding用GB2312时,b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312时,每byte都大于0;
* 总结:给定一个字符串,用getBytes("iso8859_1")
* 1、如果b[i]有63,不用转码; A-2
* 2、如果b[i]全大于0,那么为英文字符串,不用转码; B-1
* 3、如果b[i]有小于0的,那么已经乱码,要转码。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能为0,0为字符串结束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

复制代码 代码如下:

unsigned char *str = "test测试test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str <= 0xFE
&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
{
// 汉字
}
}

unsignedchar*str="test测试test";//把字符串换成“汉A”试试,结果为2

有人说:“一个GBK汉字要占两个char空间(二字节),而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”
1、为什么第一个字节的值小于0呢?
2、如果仅通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字,这种逻辑是否保险?
3、因为还看到有人说,GBK编码的汉字有高位和低位两位,第一个是低位吧?需要第一个字节在160-254之间,第二个字节在64-254之间,这样是不是比2中提到的方法要保险?
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,这个是GBK字符集?GBK兼容GB2312

似乎有些字符集中有些汉字占三个字节

“通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字”

//GBK汉字内码范围
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如://81-A0 ,40-7E 80-FE
表示字符的ascii码要在129-160,64-126,128-254这三个区间段内

4、
在工作中,遇到要截取字符串在屏幕上显示出来,因为字符串带有汉字,如果截取不好,会引起乱码,写了下面的函数

在uclinux下与VC6.0中测试可以通过。

view plaincopy to clipboardprint?

复制代码 代码如下:

 /*截取字符串

 name :要截取的字符串

 store:要存储的字符串

 len:要截取的长度

 */

 void split_name( char * name , char * store , int len )
 {

     int i= 0 ;

     char strTemp[L(NAMEL)]={0};

     if ( strlen(name)
     {

         strcpy( store, name );  *name=0;

         return ;

     }

     //从第1个字节开始判断

     while( i < len )

     {

         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 )

             i = i + 2 ;

         else

             i = i + 1 ;

     }

     i = i > len ? i-3 :i-1;

     strncpy( store , name , i+1 ); //截取前i+1位

     *(store+i+1)=0;

     strcpy( strTemp , name + i + 1 );

     strcpy( name , strTemp );

 }

[!--infotagslink--]

相关文章

  • C#中截取字符串的的基本方法详解

    这篇文章主要介绍了C#中截取字符串的的基本方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-11-03
  • JS基于正则截取替换特定字符之间字符串操作示例

    这篇文章主要介绍了JS基于正则截取替换特定字符之间字符串操作方法,结合具体实例形式分析了JS基于正则实现针对特殊字符、数字等字符串类型的截取操作相关技巧,需要的朋友可以参考下...2017-02-08
  • Shell脚本8种字符串截取方法总结

    这篇文章主要介绍了Shell脚本8种字符串截取方法总结,每个方法给出了实例代码和操作结果,一目了然,需要的朋友可以参考下...2020-07-11
  • .Net(c#)汉字和Unicode编码互相转换实例

    下面小编就为大家带来一篇.Net(c#)汉字和Unicode编码互相转换实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-06-25
  • C#中Decimal类型截取保留N位小数并且不进行四舍五入操作

    这篇文章主要介绍了C#中Decimal类型截取保留N位小数并且不进行四舍五入操作,本文给出需求说明和实现代码,需要的朋友可以参考下...2020-06-25
  • C#实现截取验证码图片

    这篇文章主要为大家详细介绍了C#实现截取验证码图片,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-06-25
  • php 截取中文

    <?php < ?php //截取中文字符串 function mysubstr($str, $start, $len) { $tmpstr = ""; $strlen = $start + $len; for($i = 0; $i < $strlen;...2016-11-25
  • shell字符串截取报错:Bad substitution的解决

    这篇文章主要介绍了shell字符串截取报错:Bad substitution的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-10-16
  • C# 字符串、数组和List的截取和转换实例

    下面小编就为大家分享一篇C# 字符串、数组和List的截取和转换实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-06-25
  • C#实现汉字转拼音或转拼音首字母的方法

    这篇文章主要介绍了C#实现汉字转拼音或转拼音首字母的方法,涉及C#操作数组、遍历及正则匹配的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
  • C#(.net)中按字节数截取字符串最后出现乱码问题的解决

    这篇文章主要给大家介绍了关于C#(.net)中按字节数截取字符串最后出现乱码问题的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-06-25
  • C#实现将汉字转化为2位大写的16进制Unicode的方法

    这篇文章主要介绍了C#实现将汉字转化为2位大写的16进制Unicode的方法,分析了转换的技巧并以实例形式给出了具体的转换方法,非常具有实用价值,需要的朋友可以参考下...2020-06-25
  • 如何用QQ发超大汉字

    相信大家对QQ已经非常熟悉,但是你试过用QQ发送超大汉字吗?用上这一招,一定会让你的Q友对你刮目相看的。   首先要确定你的QQ版本是0630以上的,也就是可以改变文字大小的...2016-11-25
  • 谈汉字转换类型及解决方案

    ●简繁转换有四种情况   汉字转换,分为内码转换和简繁转换。   内码转换属于简繁转换,但是他主要是在GB码和BIG5码之间转换。   另外一种简繁转换是在GB码内部的转换。GB码...2016-11-25
  • .net 随机生成汉字

    在c#中可以使用system.text来处理所有语言编码,其中encodiong类是比较重要的汉字编码类,接下来我们就围绕c#随机生成汉字代码讲起,有需要的朋友可以参考下...2020-06-25
  • C#几种截取字符串的方法小结

    C#几种截取字符串的方法小结,需要的朋友可以参考一下...2020-06-25
  • C#实现根据字节数截取字符串并加上省略号的方法

    这篇文章主要介绍了C#实现根据字节数截取字符串并加上省略号的方法,比较实用的功能,需要的朋友可以参考下...2020-06-25
  • C# 汉字转化拼音的简单实例代码

    C# 汉字转化拼音的简单实例代码,需要的朋友可以参考一下...2020-06-25
  • C#使用opencv截取旋转矩形区域图像的实现示例

    这篇文章主要介绍了C#使用opencv截取旋转矩形区域图像,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-03-08
  • C#获取汉字字符串拼音首字母的方法

    这篇文章主要介绍了C#获取汉字字符串拼音首字母的方法,实例分析了C#操作汉字及字符串的技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25