NLP的经典任务——句法(Syntactic)分析

嵌入式技术

1335人已加入

描述

句法(Syntactic)分析是NLP的经典任务

Syntactic tasks: Word level

Word level的句法分析任务有:形态分析分词序列标注

形态分析:Morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务

分词:Word segmentation or Tokenization,不同的语言分词方法不一样。对于中文、日文等语言,语句由字符的序列组成,因此词的形态化比较简单,分词一般指将文本中的字的序列分割成词的序列。此外,中文分词的歧义性较强。而对于英文,没有所谓的“分词”,对应的任务叫做Tokenization,指将文本序列切成由token组成的序列,如Wendy's -> Wendy + 's。Tokenization可以概括为按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。

根据不同的需求,tokenization有不同的分割粒度:

字粒度:I have a apple -> I / h / a / v / e / a / a / p / p / l / e

词粒度:I have a apple -> I / have / a / apple

subword粒度:I have a new GPU. -> ['i', 'have', 'a', 'new', 'gp', '##u', '.']

词性标注:Part-of-speech(POS),将词在句子中扮演的角色进行标注,如动词、名词等。因为一词多义的存在,这个过程也存在歧义性。具体的tag可以参考:Universal POS tags,更细粒度的tag(Spacy)

nlp

Syntactic tasks: Sentence level任务很多,其中Dependency parsingConstituent parsing 比较常见。

nlp

成分句法分析:Constituent parsing,找到一句话中的层次短语结构

nlp

依存句法分析:Dependency parsing,这种句法结构通过词之间的两两关系组成一句话的结构。这些关系包含:主语、宾语、修饰语等等,每个词修饰一句话中的另一个唯一的词(除了root节点,如下图中的bought)。

nlp

CCG parsing,组合范畴句法分析,形式为一种高度词汇化的句法

nlp

CCG supertagging:在组合句法分析中,给每个词打标签

Syntactic chunking:把一个句子,切成比较大的短语块

nlp

编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • nlp

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分