当前位置:  编程技术>移动开发
本页文章导读:
    ▪tesseract OCR锻炼新字体对图片的预处理和要求        tesseract OCR训练新字体对图片的预处理和要求同tesseract OCR识别对图片有要求一样,在训练新的字符集或新的字体时,对图片也有一定要求,符合要求的图片,能大大提高训练的效率。 在图像.........
    ▪ 数组越界的几个经典实例        数组越界的几个经典范例//1.下面代码有什么错误? Void test1() {  char string[10];  char *str1="0123456789";  strcpy(string, str1); } //-------------------------------------- 2.下面代码有什么问题? Void test2() { .........
    ▪ 判断系统是32位仍是16位       判断系统是32位还是16位int a = ~0; if( a>65536 ) {     cout<<"32 bit"<<endl; } else {     cout<<"16 bit"<<endl; } ......

[1]tesseract OCR锻炼新字体对图片的预处理和要求
    来源: 互联网  发布时间: 2014-02-18
tesseract OCR训练新字体对图片的预处理和要求

同tesseract OCR识别对图片有要求一样,在训练新的字符集或新的字体时,对图片也有一定要求,符合要求的图片,能大大提高训练的效率。

在图像处理方面,去除噪声,使训练的字符图片尽量连贯、清晰。

其他方面,通常的要求如下:

1. 在一幅图片内,字体统一,决不能将多种字体混合出现在一幅训练图片内;如果不是通过扫描文本获取的字符图片,这个条件很容易被忽视。

2.  理想条件下,同种字体的字符图片集中到一幅大的训练图片中,在同一页内;

3. 要保留一定的字符间距与行间距;

4. 字符高度(大小),只要满足高度最小条件即可,对于小写字符x,其高度要至少大于10个像素;

5. 对于非字母字符,如!@#$%^&(),.{}<>/?,不要集中在一起出现,原因是这样不利于tesseract找出 文本行基线baseline,不利于文本高度及大小的检测,baseline检测是tesseract engine的第一步;

6. 一般每个字符需要10个样本,高频常见字符至少20个样本,不常见字符需要5个样本;

7. 对于同种字体,多页训练图片,可以在训练中,件用相同的方式合并tr文件和box文件,两类文件内的字符次序要相同,利于提高训练效果。


在获取训练字符图片方面,不一定非要从待识别图片中收集,可以利用word字符集找到对应字体,打印,扫描,获取训练图片,简单、方便。这个根据实际情况来应用。


tesseract中有这样一句话:

but note that there is no incremental training mode that allows you to add new training data to existing sets. 

大意是,没有增量训练的方式,把新的训练数据加入现有的数据集。


有的提出,通过使用多个训练库联合使用,如参数 -l 之后 tesseract input.tif output -l eng+newfont , 其效果待测试。


    
[2] 数组越界的几个经典实例
    来源: 互联网  发布时间: 2014-02-18
数组越界的几个经典范例
//1.下面代码有什么错误?
Void test1()
{
 char string[10];
 char *str1="0123456789";
 strcpy(string, str1);

}


//--------------------------------------
2.下面代码有什么问题?
Void test2()
{
  char string[10], str1[10];
  for(i=0; i<10;i++)
  {
     str1[i] ='a';
  }
  strcpy(string, str1);
}


//--------------------------------------
//3.下面代码有什么问题?
Void test3(char* str1)
{
  char string[10];
  if(strlen(str1)<=10)
  {
    strcpy(string, str1);
  }
}


//上面几个问题都是数组越界
//strcpy拷贝的结束标志是查找字符串中的/0 因此如果字符串中没有遇到/0的话 会一直复制,直到遇到/0,上面的123都因此产生越界的情况
 
//建议使用 strncpy 和 memcpy



    
[3] 判断系统是32位仍是16位
    来源: 互联网  发布时间: 2014-02-18
判断系统是32位还是16位
int a = ~0;
if( a>65536 )
{
    cout<<"32 bit"<<endl;
}
else
{
    cout<<"16 bit"<<endl;
}

    
最新技术文章:
▪Android开发之登录验证实例教程
▪Android开发之注册登录方法示例
▪Android获取手机SIM卡运营商信息的方法
▪Android实现将已发送的短信写入短信数据库的...
▪Android发送短信功能代码
▪Android根据电话号码获得联系人头像实例代码
▪Android中GPS定位的用法实例
▪Android实现退出时关闭所有Activity的方法
▪Android实现文件的分割和组装
▪Android录音应用实例教程
▪Android双击返回键退出程序的实现方法
▪Android实现侦听电池状态显示、电量及充电动...
▪Android获取当前已连接的wifi信号强度的方法
▪Android实现动态显示或隐藏密码输入框的内容
▪根据USER-AGENT判断手机类型并跳转到相应的app...
▪Android Touch事件分发过程详解
▪Android中实现为TextView添加多个可点击的文本
▪Android程序设计之AIDL实例详解
▪Android显式启动与隐式启动Activity的区别介绍
▪Android按钮单击事件的四种常用写法总结
▪Android消息处理机制Looper和Handler详解
▪Android实现Back功能代码片段总结
▪Android实用的代码片段 常用代码总结
▪Android实现弹出键盘的方法
▪Android中通过view方式获取当前Activity的屏幕截...
▪Android提高之自定义Menu(TabMenu)实现方法
▪Android提高之多方向抽屉实现方法
▪Android提高之MediaPlayer播放网络音频的实现方法...
▪Android提高之MediaPlayer播放网络视频的实现方法...
▪Android提高之手游转电视游戏的模拟操控
 


站内导航:


特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3