×

智能WEB信息提取系统的研究和设计

消耗积分:2 | 格式:rar | 大小:154 | 2009-07-30

英雄孤寂

分享资料个

XML 业已成为WEB 数据发布与交换的标准,包装器技术为数据挖掘提供了重要实
现步骤,智能代理技术以其智能、代理特性在控制协调挖掘上起着重要作用。本文将这三项标准和技术进行有机结合,应用于WEB 数据挖掘上,借助J2EE 三层体系结构思想,给出了智能WEB 信息提取实现方案,并简要阐述了该系统处理用户挖掘请求的流程,体现了该系统较强的智能理解和概括能力。
随着Internet 技术的迅速发展,网上各种信息呈指数式增长,形成了这样的难堪局面:
一方面,信息量大得惊人;另一方面,人们为找到所需的信息得花上大量的时间和精力。由此看来,对于海量信息的挖掘提取工作具有重大的意义。
本文提出了一个能够从超大数据密集型WEB站点自动提取数据的系统。流行电子商务、
金融、某些科学组织协会或者新闻娱乐等站点不仅信息量大,而且数据更新也特快,。这些站点大都由很多包含复杂超链接的HTML 页面构成,实现了完全左键操作、所点即所得(这也是当前“网络桌面环境”的出发点),获取信息相当简易快捷。但由于WEB 页面自身的表示逻辑和网页之间复杂链接的缘故,使构建基于以上信息源的大型应用程序或系统存在很大的技术难点,那么考虑换种页面表示形式能否解决这个难题呢?
就此问题,最近人们提出了一些解决方案,主要从数据挖掘角度取得突破性的进展。
经过长期细致的观察,发现当前许多WEB 站点包含大量结构非常相似的WEB 页面,而且预测在将来一段时间内上述站点还会保持这种结构不变。针对这种事实,一些研究人员验证了相关的技术,并提出能够从HTML 页面提取数据的WEB 包装器[1,2,3]以及包装器库[4],即输入有公共模板的一组WEB 页面后,可得到能从前述有公共模板的WEB 页面集提取核心数据的包装器。
以上研究成果给本文提供一个局部解决方案。文章将XML[5,6,8]、包装器、智能代理
(Agent)[7]三项技术或标准有机结合,并应用于数据挖掘上,改进文[7]的多Agent 联合协作理论,给出了智能提取数据实现方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !