×

基于XML特征的网页文本抽取方法

消耗积分:2 | 格式:rar | 大小:0.64 MB | 2018-01-02

分享资料个

  Web信息抽取(Web Information Extraction,简称WIE)是指:给出属于同一类型的若干样本网页。找出它们的源数据集的嵌套结构,并将源数据集从网页中抽取出来。即通过对原文档信息内容和结构的分析,抽取出有意义的部分,生成结构化的有价值的信息。

  Web信息抽取渐渐成为一个崭新而热门的课题,从互联网资源中抽取数据的传统方法就是编写特定的程序,这种程序被称为“Wrapper”。Wrapper是一个能够将基于HTML描述的Web网页内容转换为按照某种结构化描述的数据集合(例如XML数据、关系数据库)的软件程序。它由信息抽取所需的信息识别与结构影射知识和应用这种抽取知识的处理程序组成。根据各种工具用于产生Wrapper而采取的不同技术,目前的Web数据抽取工具可分为六种:Wrapper开发语言,可感知HTML的工具,基于NLP的工具,Wrapper归纳工具,基于建模的工具,基于语义的工具。

  本文从理论上分析网页文本信息抽取的方法及流程,具体阐述了网页文本信息抽取的理论和方法,以当当网页文本信息抽取为例,介绍了基于标签的信息抽取系统的概述,同时阐明了具体的过程和模块,给出该抽取卖现方法的步骤以及实现的某些核心代码,分析此方法的优点和可以进一步改进的地方,并就其意义和所需进一步思考的地方进行了阐述。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论(0)
发评论

下载排行榜

全部0条评论

快来发表一下你的评论吧 !