×

Prose Go Go语言文本处理库

消耗积分:2 | 格式:zip | 大小:11.60 MB | 2022-05-24

陈飞

分享资料个

授权协议 MIT
开发语言 Google Go
操作系统 跨平台
软件类型 开源软件

软件简介

Prose 是一款用于Go 语言的文本处理库(主要是英文),支持 okenization(分词)、part-of-speech tagging(词性标注)、named-entity extraction(命名实体提取)等。 

安装

$ go get github.com/jdkato/prose/...

使用

Tokenizing

单词、句子和 regexp tokenizer 可用。 每个分词器实现相同的接口,这样可以轻松地在库的其他部分中自定义词语切分。

package main

import (
    "fmt"

    "github.com/jdkato/prose/tokenize"
)

func main() {
    text := "They'll save and invest more."
    tokenizer := tokenize.NewTreebankWordTokenizer()
    for _, word := range tokenizer.Tokenize(text) {
        // [They 'll save and invest more .]
        fmt.Println(word)
    }
}
 

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !