作为一个自然语言处理的初学者,看书看到“训练模型”,这模型那模型的,一直不知道模型究竟是什么东西。看了这本书,从预处理数据到提取特征集,训练模型,测试修改等,一步一步实际操作了之后,才对模型一词有了直观的认识(算法的中间结果,存储在计算机中的一个个 pkl 文件,测试的时候直接用,前面计算过的就省了)。以后听人谈“模型”的时候也有了底气。当然,模型还有很多其他含义。还有动词的“配价”、各种搭配、客观逻辑对根据文法生成的句子的约束如何实现?不上机动手做做,很难真正领悟。
自然语言处理理论书籍很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度讲,本书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读本书,必定会有获益。这也是翻译本书的目的之一。
PYTHON 自然语言处理
从输入法联想提示(pre dictive text)、email 过滤到自动文本摘要、机器翻译,大量的语言相关的技术都离不开自然语言处理的支持,而这本书提供了自然语言处理非常方便的入门指南。通过它,你将学到如何写能处理大量非结构化文本的 Python 程序。你将获得有丰富标注的涵盖语言学各种数据结构的数据集,而且你将学到分析书面文档内容和结构的主要算法。
这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。相对于编程语言和数学符号这样的人工语言,自然语言随着一代人传给另一代人而不断演化,因而很难用明确的规则来刻画。从广义上讲,“自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作,从最简单的通过计数词出现的频率来比较不同的写作风格,到最复杂的完全“理解”人所说的话,至少要能达到对人的话语作出有效反应的程度。
基于 NLP 的技术应用日益广泛。例如:手机和手持电脑支持输入法联想提示和手写识别;网络搜索引擎能搜到非结构化文本中的信息;机器翻译能把中文文本翻译成西班牙文。通过提供更自然的人机界面和更复杂的存储信息获取手段,语言处理正在这个多语种的信息社会中扮演更核心的角色。这本书提供自然语言处理领域非常方便的入门指南。它可以用来自学,也可以作为自然语言处理或计算语言学课程的教科书,或是人工智能、文本挖掘、语料库语言学课程的补充读物。本书的实践性很强,包括几百个实际可用的例子和分级练习。本书基于 Python 编程语言及其上的一个名为自然语言工具包(Natural Language Toolk it,简称 NLTK)的开源库。NLTK 包含大量的软件、数据和文档,所有这些都可以从 http:/ /www.nltk.org/免费下载。NLTK 的发行版本支持 Windows、Macintosh 和 Unix 平台。我们强烈建议你下载 Python 和 NLTk,与我们一起尝试书中的例子和练习。
本书前几章按照概念的难易程度编排。先是实用性很强的语言处理的入门介绍,讲述如何使用很短的 Python 程序分析感兴趣的文本信息(1-3 章)。接着是结构化程序设计章节(第 4 章),用来巩固散布在前面几章中的编程要点。之后,速度加快,我们用一系列章节讲述语言处理的主要内容:标注、分类和信息提取(5-7 章)。接下来的三章探索分析句子、识别句法结构和构建表示句意的方法(8-10 章)。最后一章讲述如何有效管理语言数据(第 1 1 章)。本书结尾处的后记简要讨论了 NLP 的过去和未来。
每一章中我们都在两种不同的叙述风格间切换。一种风格是以自然语言为主线。我们分析语言,探索语言学概;在讨论中使用编程的例子。我们经常会使用尚未系统介绍的 Pytho n 结构,这样你可以在钻研这些程序如何运作的细节之前了解它们的效能。就像学习一门外语的惯用表达一样,你能够买到好吃的糕点而不必先学会复杂的提问句型。叙述的另一种风 17 格是以程序设计语言为主线。我们将分析程序、探索算法,而语言学例子将扮演配角。每章结尾都有一系列分级练习,用于巩固学到的知识。练习按照如下的标准分级:○初级练习:对范例代码作稍微修改等简单的练习;◑中级练习:深入探索材料的一个方面,需要仔细的分析和设计;●高级练习:开放的任务,挑战你对材料的理解并迫使你独立思考解决的方案(新学编程的读者应该跳过这些)
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !