基础知识
网络搜索引擎,网络搜索引擎的工作原理
21 世纪是信息时代,随着信息科学技术的不断发展,网络已成为人们生活中的重要组成部分,网上信息呈几何级数增长,面对众多繁杂无序的信息,如何能快速、准确、经济地查找到所需要的信息,成为人们迫切需要解决的问题。
搜索引擎概述
搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。
搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量。
搜索引擎的工作原理及分类
搜索引擎由搜索器、索引器、检索器和用户接口四部分。它利用一个名为“蜘蛛”的机器人程序以一定的策略自动进行信息搜索,然后由索引器对信息进行理解、处理,从中抽取索引项,建立索引库,再由检索器根据用户的查询在索引库中快速检索文档,进行相关度评价,将要输出的结果排序,并按用户的查询需求合理反馈信息,由用户接口来接纳用户查询,显示查询结果,提供个性化查询项。按照信息搜集的方法和服务提供方式的不同,搜索引擎可以分为:
1. 全文搜索引擎
全文搜索引擎是从各个网站提取信息,建立数据库,检索与用户查询条件相匹配的记录后,按照一定的排列顺序返回结果,是名副其实的搜索引擎。全文搜索引擎的自动信息搜集功能分2 种:一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2 天到数月不等) 定向向你的网站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有国外著名的Google 及国内的百度搜索。
2. 目录索引
目录索引是一种人工方式或半自动方式的搜索引擎,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。由于目录索引只是一个按目录分类的网站链接列表,因此不能称为严格意义上的搜索引擎。由于目录索引中加入了人的智能,所以导航质量高,信息更准确,但也正因为如此,使得维护费用偏大,信息更新不及时。目录索引中最具代表性的为yahoo 、新浪。
3. 元搜索引擎
元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果处理后,作为自己的结果返回给用户。元搜索引擎返回结果的信息量更大、更全,但是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。元搜索引擎的代表是WebCrawler、info market 等。
搜索引擎的发展现状及技术展望
目前,搜索引擎一般提供的是关键词的全文检索和分类浏览的查询方式,检索方式单一。分类目录浏览常常检索到很多无关的信息,查全率、查准率不高;关键词检索仅仅是机械的词语匹配,缺乏知识处理能力和理解能力,信息检索质量不高。此外,数据库检索功能和应用上的局限性、排序技术指标单一、分类目标体系缺乏规范、信息加工深度不够,这些都严重影响着搜索引擎的发展。因此,必须增加检索途径,加强网络信息资源的科学标引和组织,推动网络资源标准化进程,积极推进搜索引擎的发展。
1. 精确搜索技术
采用基于自然语言理解技术的智能化搜索引擎,加深理解用户搜索请求; 通过对用户的不断了解、分析,提供个性化搜索;利用XML 等技术使信息结构化,查询结构化,提高检索的速度和性能;针对某一行业,某一主题和某一地区的信息而建立专业化搜索,提高搜索的准确度。
2. 对等搜索技术
对等搜索P2P(Peer To Peer) 技术是以用户为中心,通过P2P 共享硬盘上的文件、目录甚至整个硬盘,将这一理念具体运用到搜索引擎技术上,使用户无须通过Web 服务器,不受信息文档格式和宿主设备的限制,进行深度搜索,网上信息的价值得到极大的提升。
3. 交叉语言检索技术
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
4. 移动代理技术
移动代理(Mobile Agent) 技术是一种新型分布式计算技术,是指网络上具有移动功能的、能够自主运行的,按照用户的要求完成指定任务的程序。在移动代理模式下,客户机向服务器提交的不再是一些简单的请求,而是包含代码和数据的移动对象,移动对象代表用户,按照“程序靠近数据”的原则,在服务器间自主的移动,完成数据处理的任务。基于移动代理的模式之上的应用程序可以大大节省网络宽带,有效克服网络延时带来的种种问题,可以智能化地自主异步执行,它克服了搜索引擎传统的“数据靠近程序”的运行模式,大大降低了网络的数据流量,节省了网络资源。
发展前景
随着信息化社会的推进,搜索已成为网络生活中组织和控制网络信息资源的有效工具,利用搜索引擎加速信息流通及整和有用知识,提高信息利用率,已成为广大用户的共识。我们应更好的利用搜索引擎,实现信息服务的人性化、高效化,为用户检索信息提供更大的便利。
全部0条评论
快来发表一下你的评论吧 !