c语言实现词频统计的简单实例
更新时间:2020年4月25日 17:34 点击:2179
需求:
1.设计一个词频统计软件,统计给定英文文章的单词频率。
2.文章中包含的标点不计入统计。
3.将统计结果以从大到小的排序方式输出。
设计:
1.因为是跨专业0.0···并不会c++和java,只能用仅学过的C语言进行编写,还是挺费劲的。
2.定义一个包含单词和频率两个成员的结构体来统计词频(进行了动态分配内存,可以处理较大文本)。
3.使用fopen函数读取指定的文档。
4.使用fgetc函数获取字符,再根据取得的字符是否是字母进行不同的处理。
5.采用快速排序法对统计结果进行排序。
5.将整个统计结果循环输出。
部分代码:
结构体定义:
struct fre_word { int num; char a[18]; };
分配初始内存:
struct fre_word *w; w=(struct fre_word *)malloc(100*p*sizeof(struct fre_word));//给结构体分配初始内存
读取文本:
printf("输入读入文件的名字:"); scanf("%s", filename); //输入需要统计词频的文件名 if((fp=fopen(filename, "r"))==NULL) { printf("无法打开文件\n"); exit(0); }
单词匹配:
/****************将单词出现次数设置为1****************************/ for(i=0;i<100;i++) { (w+i)->num=1; } /****************单词匹配****************************************/ i=0; while(!feof(fp))//文件尚未读取完毕 { ch=fgetc(fp); (w+i)->a[j]='\0'; if(ch>=65&&ch<=90||ch>=97&&ch<=122) //ch若为字母则存入 { (w+i)->a[j]=ch; j++; flag=0; //设标志位判断是否存在连续标点或者空格 } else if(!(ch>=65&&ch<=90||ch>=97&&ch<=122)&&flag==0) //ch若不是字母且上一个字符为字母 { i++; j=0; flag=1; for(m=0;m<i-1;m++) //匹配单词,若已存在则num+1 { if(stricmp((w+m)->a,(w+i-1)->a)==0) { (w+m)->num++; i--; } } } /****************动态分配内存****************************************/ if(i==(p*100)) //用i判断当前内存已满 { p++; w=(struct fre_word*)realloc(w,100*p*(sizeof(struct fre_word))); for(n=i;n<=100*p;n++) //给新分配内存的结构体赋初值 (w+n)->num=1; } }
快速排序:
void quick(struct fre_word *f,int i,int j) { int m,n,temp,k; char b[18]; m=i; n=j; k=f[(i+j)/2].num; //选取的参照 do { while(f[m].num>k&&m<j) m++; // 从左到右找比k小的元素 while(f[n].num<k&&n>i) n--; // 从右到左找比k大的元素 if(m<=n) { //若找到且满足条件,则交换 temp=f[m].num; strcpy(b,f[m].a); f[m].num=f[n].num; strcpy(f[m].a,f[n].a); f[n].num=temp; strcpy(f[n].a,b); m++; n--; } } while(m<=n); if(m<j) quick(f,m,j); //运用递归 if(n>i) quick(f,i,n); }
结果输出:
for(n=0;n<=i;n++) { printf("文档中出现的单词:"); printf("%-18s",(w+n)->a); printf("其出现次数为:"); printf("%d\n",(w+n)->num); }
测试用例:
看了之前同学的博客以及老师的评论,就使用了较长的文本进行测试,用的是奥巴马就职演讲稿。
部分测试结果:
以上这篇c语言实现词频统计的简单实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持猪先飞。
相关文章
- 这篇文章主要为大家详细介绍了C语言实现放烟花的程序,有音乐播放,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-23
- 本篇文章主要介绍C语言中char的知识,并附有代码实例,以便大家在学习的时候更好的理解,有需要的可以看一下...2020-04-25
- 这篇文章主要介绍了详解如何将c语言文件打包成exe可执行程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-02-25
- free函数是释放之前某一次malloc函数申请的空间,而且只是释放空间,并不改变指针的值。下面我们就来详细探讨下...2020-04-25
- 这篇文章主要介绍了C语言中计算正弦的相关函数总结,包括正弦和双曲线正弦以及反正弦的函数,需要的朋友可以参考下...2020-04-25
详解C语言中的rename()函数和remove()函数的使用方法
这篇文章主要介绍了详解C语言中的rename()函数和remove()函数的使用方法,是C语言入门学习中的基础知识,需要的朋友可以参考下...2020-04-25- 这篇文章主要介绍了C语言中求和、计算平均值、方差和标准差的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-12-10
- 本篇文章主要讲解C语言 基本语法,这里提供简单的示例和代码来详细讲解C语言的基本语法,开始学习C语言的朋友可以看一下,希望能够给你带来帮助...2021-09-18
- 这篇文章主要介绍了C#统计字符串中数字个数的方法,涉及C#遍历字符串并判断数字的技巧,需要的朋友可以参考下...2020-06-25
- 这篇文章主要介绍了C语言中send()函数和sendto()函数的使用方法,是C语言入门学习中的基础知识,需要的朋友可以参考下...2020-04-25
- 今天小编就为大家分享一篇C语言实现从文件读入一个3*3数组,并计算每行的平均值,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-25
- 这篇文章主要介绍了C语言中memcpy 函数的用法详解的相关资料,需要的朋友可以参考下...2020-04-25
- 这篇文章主要介绍了使用C语言操作文件的基本函数整理,包括创建和打开以及关闭文件的操作方法,需要的朋友可以参考下...2020-04-25
- 这篇文章主要介绍了C语言中查找字符在字符串中出现的位置的方法,分别是strchr()函数和strrchr()函数的使用,需要的朋友可以参考下...2020-04-25
- 很多同学在学习c语言的时候是不是会碰到a++和++a都有甚么作用啊。今天我们就来探讨下...2020-04-25
- 这篇文章主要对C语言中const关键字的用法进行了详细的分析介绍,需要的朋友可以参考下...2020-04-25
JS+JSP通过img标签调用实现静态页面访问次数统计的方法
这篇文章主要介绍了JS+JSP通过img标签调用实现静态页面访问次数统计的方法,基于JavaScript动态调用jsp页面通过对TXT文本文件的读写实现统计访问次数的功能,需要的朋友可以参考下...2015-12-16- 下面小编就为大家带来一篇C语言实现时间戳转日期的算法(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-04-25
- 这篇文章主要介绍了Linux下统计当前文件夹下的文件个数、目录个数,本文使用ls命令配合管理、grep命令实现统计需求,需要的朋友可以参考下...2020-07-11
- 这篇文章主要介绍了C语言之整数划分问题(递归法)实例代码的相关资料,需要的朋友可以参考下...2020-04-25