大学毕业设计一席谈之四十八 词频统计(1)

描述

在讲课程《数据结构和算法》的过程中,我给了学生们一个参考例程,希望他们能够从程序中学到词频统计的方法。由于同学们底子比较薄弱,所以给出程序后,我希望同学们能够认真的查阅程序中用到的每个函数,了解其用法,这样才能真正的搞懂程序,遗憾的是我的学生只是完成了实验报告,而程序中很多函数的用法和含义根本就没搞清楚。这种学法是应付式的学法,我极不赞成这样的学习方式。所以才会有了此系列文章。也许是底子弱,也许是不爱学。

面对学生不爱学或者说学习不刻苦的状况,我也只能把这些好的代码传播到网上,让更多人能够借力学习。这也是我现在会更加专注网络传播文章的原因吧。有了词频统计程序,我们就可以在这个基础之上进行扩展,写出更复杂的程序。我就用这样的事例来写出了一个完整的系列文章,告诉大家如何从基础学起,然后再逐步的完善和深入,写出功能更强大的程序,这样的过程走一遍,才算是真正的掌握知识,才能把别人的知识转化为属于自己的知识。写这个系列耗时一个多月,大家看文章花了多长时间呢?有了阶梯,希望大家能好好利用和珍惜。

文本分析对于通信工程专业的学生而言,只是牛刀小试,等到完成词频统计的算法后大家还可以沿这条路继续深入,比如进行语音信号的识别。先进行信号中数字的识别,再进行语义识别。这些可比字符的识别难多了。当下,文本信息已经退居次席,人们更多在意的是语音和视频。因此,语音信号和视频信号处理是当下的技术热点,让我们一起由浅入深的学习吧。本课题可以作为毕业设计的题目,可以根据个人能力适当增加难度。

通信网络

词频统计主要分为英文词频统计和中文词频统计。英文词频统计很简单,可以借助MATLAB自带函数进行断句,然后再进行统计即可。中文词频统计相对复杂一些。关键在于如何使用合适的语料库和如何精准匹配词语。比如句中出现了“人工智能”四字词,我们应该这四个字视为一个词,而不能分析成为两个词。再者出现生僻词语怎么办?慢慢来,我们先从简单的学起。依旧是老规矩,先看代码!代码中的注释非常清晰,当看完程序后也就明了了。

通信网络

 


原文标题:大学毕业设计一席谈之四十八 词频统计(1)

文章出处:【微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分