Stanford CoreNLP 提供了一套用 Java 编写的自然语言分析工具。它最初是为英语开发的,但现在也为(现代标准)阿拉伯语、中文、法语、德语和西班牙语提供不同程度的支持。Stanford CoreNLP 是一个集成的框架,可以很容易地将一堆语言分析工具应用于一段文本。它的分析为更高层次和特定领域的文本理解应用提供了基础性的构建块。Stanford CoreNLP 是一套稳定的、经过良好测试的自然语言处理工具,被学术界、工业界和政府的各种团体广泛使用。
使用 Ant 构建
- 确保你已经安装了 Ant
-
使用以下命令编译代码:
cd CoreNLP ; ant
-
然后运行此命令以使用最新版本的代码构建一个 jar:
cd CoreNLP/classes ; jar -cf ../stanford-corenlp.jar edu
- 这将在包含最新代码的 CoreNLP 文件夹中创建一个名为 stanford-corenlp.jar 的新 jar
- 与最新代码一起使用的依赖项位于 CoreNLP/lib 和 CoreNLP/liblocal 中,因此请确保将它们包含在您的 CLASSPATH 中。
- 使用最新版本的代码时,请确保下载最新版本的 corenlp-models 、 english-models 和 english-models-kbp 并将它们包含在你的 CLASSPATH 中。
使用 Maven 构建
- 确保你已经安装了 Maven
-
如果您在 CoreNLP 目录中运行此命令:
mvn package
,它应该运行测试并构建这个 jar 文件:CoreNLP/target/stanford-corenlp-4.4.0.jar
- 使用最新版本的代码时,请确保下载最新版本的 corenlp-models 、 english-extra-models 和 english-kbp-models 并将它们包含在您的 CLASSPATH 中。
-
如果您想将 Stanford CoreNLP 用作 Maven 项目的一部分,您需要将模型 jar 安装到您的 Maven 仓库中。下面是安装西班牙模型 jar 的示例命令。 对于其他语言,只需更改命令中的语言名称。 安装
stanford-corenlp-models-current.jar
你需要设置-Dclassifier=models
. 这是西班牙语的示例命令:mvn install:install-file -Dfile=/location/of/stanford-spanish-corenlp-models-current.jar -DgroupId=edu.stanford.nlp -DartifactId=stanford-corenlp -Dversion=4.4.0 -Dclassifier=models-spanish -Dpackaging=jar