人工智能
文本分类Text Classification
文本分类是指给定一个文本,预测其所属的预定类别。
“文本分类的目的是对文档的主题或主旨进行分类。”
- p575, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999
一种流行文本分类应用是情感分析(https://en.wikipedia.org/wiki/Sentiment_analysis),其中的常用类别标签表示源文本的情绪色调,例如“积极”或“消极”。
其他3类文本分类的应用:
垃圾邮件过滤,依照文本分类电子邮件的垃圾邮件。
语言识别,对源文本的语言进行分类。
题材分类,分类虚构故事的体裁。
此外,还可以按需要给文本分配多个类别标签(即所谓的多标签分类)。 例如为tweet分配多个主题标签。
语言建模真的是一个很有趣的自然语言问题的子任务,特别是在其他一些任务的基础上调节语言模型。
“问题是预测出给定单词的下一个单词。 该任务是语音或光学字符识别的基础,也用于拼写校正,手写识别和统计学的机器翻译。”
- p575, Foundations of Statistical Natural Language Processing (http://amzn.to/2ePBz9t), 1999.
除了关于学术研究的兴趣,语言模型还是许多应用深度学习的自然语言处理架构的关键组成部分。
语言模型可以学习词与词之间的概率关系,然后生成与源文本统计上一致的词汇新序列。
语言模型可以用于文本或语音生成,应用如下:
生成新的文章标题。
生成新的句子,段落或文档。
生成后续句子建议。
语音识别是解决如何理解人类所说的问题。
“语音识别的任务是将包含口语在内的自然语言的声学信号转换成符合说话者预期的相应的单词序列。”
- p458, Deep Learning (http://amzn.to/2uE7WvS), 2016.
给定依据文本生成的音频数据,模型必须能生成人类可读的文本。鉴于过程的自动性,这个任务也可称为自动语音识别(Automatic Speech Recognition, ASR)。
语言模型用于创建以音频数据为基础的的输出文本,应用包括:
生成演讲文本。
为电影或电视节目创建字幕。
开车时向收音机发出命令。
说明生成是解决如何描述图像内容的问题,依照诸如照片等的数字图像生成和图像内容相关的文本描述。
说明生成的语言模型用于根据图像生成标题,一些具体的应用包括:
描述场景的内容
创建照片的标题
描述视频
机器翻译是指将一种语言的源文本转换为另一种语言。
“机器翻译,从一种语言到另一种语言的文本或语音的自动翻译,是NLP最重要的应用之一。”
- p463, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
鉴于加入了深层神经网络,该任务现在也被称为神经机器翻译(neural machine translation)。
“在机器翻译任务中,输入是由某种语言的符号序列组成,而计算机程序必须将输入转换成其他语言的符号序列。 机器翻译经常应用于自然语言,例如从英语翻译成法语。 近来,深度学习开始对该任务产生重要影响。”
- p98, Deep Learning (http://amzn.to/2uE7WvS), 2016
机器翻译的语言模型用于依据源文本,输出第二语言的目标文本。
文档总结是指根据文本创建对应简短描述的任务。其语言模型用来输出基于完整文档的总结。
相关应用如下:
·创建文档标题。
·生成文档摘要。
问题回答是指给出一个主题(如文本文档)回答有关该主题的具体问题。
“问答系统,它通过返回相应的短语(例如位置,人物或日期)来尝试回答以问题形式提出的用户查询。 例如,问题为什么杀死肯尼迪总统? 可能得到名词短语奥斯瓦尔德作答案”
- p377, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
常见应用如下:
回答有关维基百科文章,回答有关新闻文章的问题,回答关于医疗记录的问题。
大约90年代开始,自然语言处理技术领域发生了巨大的变化。这种变化的两个明显的特征是:
(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。
同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。
(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。
(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。
全部0条评论
快来发表一下你的评论吧 !