当前位置: 技术问答>linux和unix
unix编程难题,如何分解这样的文件
来源: 互联网 发布时间:2016-06-10
本文导语: 有一些文件,文件A的内容可能如下: 北京#2||erif|23|yu||||||a|^|||$$$ 文件B的内容可能如下: 黑白hg|er|nmd|2||||反对法||||||反对jdjf|$$$ 等等。总之,文件内容以"|"进行字段分隔,两个“|”之间可以有内容,也可以为空(...
有一些文件,文件A的内容可能如下:
北京#2||erif|23|yu||||||a|^|||$$$
文件B的内容可能如下:
黑白hg|er|nmd|2||||反对法||||||反对jdjf|$$$
等等。总之,文件内容以"|"进行字段分隔,两个“|”之间可以有内容,也可以为空(非空格);现在要求把这些文件按照字段分解到另外的文件中,新文件要求每个字段占据一行,遇到^符号则退出对该文件的处理,遇到$$$符号则表示处理到该文件的尾部。比如文件A处理结果为:(两个“|”之间为空也是一个字段,处理后占一行)
================================
北京#2
erif
23
yu
a
==============================
不用一个一个字符读取,如何快速的达到偶的要求呢(因为是从文件到文件转换,要求效率,用fgetc好像不合适吧???同样,如果一个一个字符处理,遇到中文怎么办呢,需要进行扫描转换吗????)
用strtok函数,对两个“|”之间为空的部分不会返回一个空,而是接着处理后面的,直到有数据为止才返回
比如对文件A用strstok后会返回:
================================
北京#2
erif
23
yu
a
==============================
文件有可能很长,后面的内容可能会循环,所以也不能固定几个字段,用sprintf来格式化处理
北京#2||erif|23|yu||||||a|^|||$$$
文件B的内容可能如下:
黑白hg|er|nmd|2||||反对法||||||反对jdjf|$$$
等等。总之,文件内容以"|"进行字段分隔,两个“|”之间可以有内容,也可以为空(非空格);现在要求把这些文件按照字段分解到另外的文件中,新文件要求每个字段占据一行,遇到^符号则退出对该文件的处理,遇到$$$符号则表示处理到该文件的尾部。比如文件A处理结果为:(两个“|”之间为空也是一个字段,处理后占一行)
================================
北京#2
erif
23
yu
a
==============================
不用一个一个字符读取,如何快速的达到偶的要求呢(因为是从文件到文件转换,要求效率,用fgetc好像不合适吧???同样,如果一个一个字符处理,遇到中文怎么办呢,需要进行扫描转换吗????)
用strtok函数,对两个“|”之间为空的部分不会返回一个空,而是接着处理后面的,直到有数据为止才返回
比如对文件A用strstok后会返回:
================================
北京#2
erif
23
yu
a
==============================
文件有可能很长,后面的内容可能会循环,所以也不能固定几个字段,用sprintf来格式化处理
|
有个小BUG
#include
#include
#define BUFLEN 1024
static int filter(char *str);
int
main(void)
{
char buf[BUFLEN + 1];
strcpy(buf, "北京#2||erif|23|yu||||||a|^|||$$$");
printf("%sn", buf);
filter(buf);
printf("%sn", buf);
strcpy(buf, "黑白hg|er|nmd|2||||反对法||||||反对jdjf|$$$");
printf("%sn", buf);
filter(buf);
printf("%sn", buf);
return (0);
}
static int
filter(char *str)
{
char *p, *q;
p = strstr(str, "$$$");
q = strstr(str, "^");
if (p != NULL)
*p = 0;
if (q != NULL)
*q = 0;
for (p = str; *p; p++)
if (*p == '|')
*p = 'n';
return (0);
}
|
#!/usr/bin/nawk -f
BEGIN {
FS = "|"
}
0 == 0 {
for ( count = 1; count