×

如何使用IE内核实现网页信息抽取程序的开发

消耗积分:0 | 格式:rar | 大小:1.12 MB | 2020-11-18

分享资料个

  程序开发背景

  本程序来源于我们项目组最近正在开发的一个开源项目网页分块工具。其目的是作为一个底层的信息抽取模块,为后期分析提供尽可能详尽的分块线索,包括尽可能完整的HTML源代码和网页元素的位置、颜色、字体、背景色等信息。程序还要具有较好的适应性,能够支持多种网页,而事实上很多网页都是不标准的。从通用性考虑,程序应该能够支持多种应用,而不仅限于网页分块。

  预期目标分析

  程序应达到以下几点设计要求:

  能够指定要处理的网页的URL能够为HTML源代码添加附件信息,如元素位置对于 Javascript等动态脚本具有良好的解析能力。通过命令行调用,提供良好的通用性通过 socket套接字返回HTML源代码。支持延时读取,保证抓取的成功率支持超时退出,保证程序不会因为加载不成功而卡死。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !