NLP的经典任务——句法（Syntactic）分析

西西 2022-10-06 1076

嵌入式技术

1418人已加入

描述

句法（Syntactic）分析是NLP的经典任务

Syntactic tasks: Word level

Word level的句法分析任务有：形态分析、分词、序列标注

形态分析：Morphological analysis，指将一个词的词根（stem）和词缀（prefix & suffix）提取出来的任务

分词：Word segmentation or Tokenization，不同的语言分词方法不一样。对于中文、日文等语言，语句由字符的序列组成，因此词的形态化比较简单，分词一般指将文本中的字的序列分割成词的序列。此外，中文分词的歧义性较强。而对于英文，没有所谓的“分词”，对应的任务叫做Tokenization，指将文本序列切成由token组成的序列，如Wendy's -> Wendy + 's。Tokenization可以概括为按照特定需求，把文本切分成一个字符串序列（其元素一般称为token，或者叫词语）。

根据不同的需求，tokenization有不同的分割粒度：

字粒度：I have a apple -> I / h / a / v / e / a / a / p / p / l / e

词粒度：I have a apple -> I / have / a / apple

subword粒度：I have a new GPU. -> ['i', 'have', 'a', 'new', 'gp', '##u', '.']

词性标注：Part-of-speech(POS)，将词在句子中扮演的角色进行标注，如动词、名词等。因为一词多义的存在，这个过程也存在歧义性。具体的tag可以参考：Universal POS tags，更细粒度的tag(Spacy)

nlp