电子说
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。用可视化技术形象的描述学科知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
随着知识图谱在搜索领域的大获成功,以及知识图谱进行中推广,现在自然语言处理有明显和知识图谱结合的趋势。特别是在特定领域的客服系统构建模型中,这种趋势就更明显,因为这些系统往往要关联很多领域的知识,而这种知识的整合和表示,很适合用知识图谱来解决。
随着知识图谱基础工程技术的完善和进步,图谱构建的容易程度也大大提高,所以自然语言处理和知识图谱的结合就越来越成为趋势。目前各项自然语言处理技术基本已经比较成熟,但是很多技术的效果还达不到商用的水平。特别是在语义理解方面,和商用还有比较大的差距。不过随着各个研究机构和企业的不断努力,技术研究也一直在不断的进步。
对于新型的深度学习框架,目前在自然语言处理中的应用还有待进一步加深和提高。比如对抗学习、对偶学习等虽然在图像处理领域得到了比较好的效果,但是在自然语言处理领域的效果就稍微差一些。
目前人机对话、问答系统、语言翻译是自然语言处理中的热门领域,各大公司都有投入大量的精力在做自己的语音助手。这些上层的应用,都依赖于底层技术和模型的进步,虽说整个自然语言处理的效果差强人意,但是对于底层技术的研究应该说是目前研究的热点。
知识结构方法
要做算法研究,肯定需要一定的知识积累,对于知识积累这部分,建议是先学数学理论基础,学的顺序可以是代数→概率论→随机过程。当然这里面每一科都是很大的一个方向,学的时候不必面面俱到,所有都深入理解,但是相对基础的一些概念和这门学科主要讲的是什么问题一定要记住。
在学习了一些基础数学知识之后,就开始编写算法。这里的算法模型,建议跟着具体的业务来学习和实践,比如可以先从识别垃圾邮件这样的demo进行学习实验,可以改进里面的参数或者实现方法,看看能不能达到更好的效果。初步学习还是需要下苦功夫一步一步模仿,然后改进,才能深入的掌握相应的内容。
工具
工欲善其事必先利其器,所以好的工具往往能事半功倍。在工具的选择上,建议最高优先级的是Python,毕竟其的宣传口语是:人生苦短,请用Python。第二优先级的是Java,基于Java可以和现有的很多框架进行直接交互,比如Hadoop、Spark等等。
对于Java就要学习一些基础的数据结构,对于Python也可以按照这个思路,Python本身也是一个高级编程语言。掌握了基础的数据结构之后,也可以一步一步的实现具体的功能,在学习的时候,要多试验,求同存异。
紧跟时代
自然语言处理领域也算是一个知识密集型的行业,知识的更新迭代非常的快,要时刻关注行业、领域的最新进展。这个方面主要就是看一些论文和关注一些重要的学术会议,对于论文的获取,Google Scholar、arxiv都是很好的工具和资源。
全部0条评论
快来发表一下你的评论吧 !