nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。
github地址:
https://github.com/CrawlScript/nutcher
目录:
- Nutch教程——导入Nutch工程,执行完整爬取
- Nutch流程控制源码详解(bin/crawl中文注释版)
- Nutch教程——URLNormalizer源码详解
- Nutch参数配置——http.content.limit
文档截图: