个人产品
企业产品
安全信息
病毒专栏 | 漏洞专栏 | 木马专栏 | 防护专栏 | 安全业界 | 毒霸活动 | 热点专题 | 漫画安全 | 期刊订阅
[an error occurred while processing this directive]
告诉您的位置:首页 > 资讯中心 > 安全信息 > 正文
技术知识:未来搜索引擎技术向什么方向发展?
http://www.duba.net 毒霸信息安全 2004年07月27日 10:27 赛迪网
[an error occurred while processing this directive]
  随着“眼球经济”席卷互联网,成千上万的资金迅速流向最能吸引眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为未来几年最具发展潜力的产业之一。

   当你登录某一个网站,在互联网上搜索某一类内容,希望得到最新、最全面的信息,你需要等待多长时间?

   几年前,人们希望十几秒,最多30秒钟就能得到结果,而现在的期望值是1~2秒,也就是说,伴随鼠标的“咔哒”一声,显示屏的页面已经变,排在最前面的十几、二十条信息的标题已经出现在你的面前。

   目前,搜索引擎技术成为仅次于门户的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。

   检索结果深加工

   用户在使用搜索引擎进行信息搜索时,有时并不十分关注返回结果的多少,而是看检索结果是符合自己的需求。对于一次普通查询,传统的搜索引擎动辄几十万、几百万篇文档,这样的搜索结果是没有多大意义的。

   解决检索结果过多过杂的问题,目前有多种方法。一是通过各种方法获得用户没有在检索式表达出来的真正目的,包括智能代理跟踪用户检索行为,分析用户操作模型,使用相关反馈机制,确定文档和用户需求的相关性,提高检索的精度。二是用文本分类技术,将结果分类,使用可视化技术显示分类结构,用户只浏览自己感兴趣的类别。三是进行站点聚类或内容聚类,减少信息的总量,从而有利于从大量返回结果中找到用户所需要的信息。

   提供个性化服务

   为了实现个性化服务,需要获取用户兴趣信息。获取用户的兴趣信息,有两种方法。在训练阶段,用信息论的观点对关键词分类并表示其特征程度(关键词按贡献率分为积极特征词、消极特征词和零特征词),然后定义标题的特征程度,并对各类特征词进行统计。

   在测试阶段,应用兴趣描述文件(通常以XML文件格式存储),动态获取用户的兴趣从而把用户感兴趣的页面提供给用户。这种方法避免了用户描述兴趣的困难。用户很难描述兴趣,但可以判断一篇文章是否符合需要。

   另一种方法是可以根据用户的书签文件以及每次检索输入的关键词、用户的反映来动态更新用户的兴趣。通过分析用户行为的意图,获取用户感兴趣的相关信息及感兴趣的感性程度。另外,用户输入的关键词也作为积极特征词来动态更新用户兴趣文件。

   基于智能搜索

   搜索引擎的智能化方向发展是毫无疑问的。智能搜索引擎(Smart Hunter) 是根据目前搜索引擎的发展趋势,除提供传统的全网快速检索、相关度排序等功能外,还提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能,为用户提供一个真正个性化、智能化的网络信息搜集工具(见图示)。

  

  智能搜索引擎利用神经网络、决策树、关联规则、范例推理、模糊聚类、粗糙集、隐马尔科夫模型等技术实现分布式并行检索,以数据挖掘与知识发现为主要手段,加上自然语言理解技术,对检索结果进行进一步的分析,滤掉与用户需求不相关或弱相关的信息,从而提高系统性能和检索的精度与效果。

   1.自然语言检索

   智能搜索引擎基于自然语言的检索形式,是建立在大规模的知识库基础上,用一个强有力的推理机,根据用户所提供的以自然语言表达的检索要求进行分析,然后形成检索策略进行搜索。用户只需把自己的要求输入计算机,就可以得到检索结果,使用户可以从繁琐的检索规则中解脱出来。

   自然语言查询从用户接口上分为两种:

   一种是输入自然语言的句子,把它切分并抽出多对组词,构成一个有限状态机,然后去数据库进行匹配,对每一次检索出的记录进行频率累加,经过几次检索后,按照命中频率进行排序,把最终的检索结果返回给用户。这只是对查询请求进行了自然语言分析。

  另外一种是对目标文档也进行自然语言分析,这不仅涉及到分词技术、词法分析、语法分析、语义分析,还涉及到篇章结构的分析,就是要理解文章的意思,技术难度较大,目前还基本没有成功的模型。

   2.移动代理技术。

   移动代理(Mobile Agent)技术是一种新型分布式计算技术,是指在网络上具有移动能力的、能够自主运行的、按照用户的要求完成指定任务的程序。

   移动代理技术是新一代分布式计算技术,移动代理与传统分布式计算技术完全不同。在移动代理模式下,客户机向服务器提交的不再是一些简单的请求,而是包含代码和数据的移动对象。移动对象代表用户,按照“程序靠近数据”的原则,在服务器间自主的移动,完成数据处理的任务。

   基于移动代理的模式之上的应用程序可以大大节省网络带宽,有效克服网络延时带来的种种问题,可以智能化地自主异步执行。它克服了搜索引擎传统的“数据靠近程序”的运行模式,大大降低了网络的数据流量,节省了网络资源。

   3.并行检索。

   并行信息检索是由多个可同时工作的处理部件或处理器构成的计算机系统进行信息检索。信息检索系统可以利用的并行策略有任务并行、数据并行和它们的混合方式。并行信息检索把信息搜索过程建立在神经网络之上。

   如果不用神经网络,那就主要利用现有的信息检索算法对数据和计算进行分割。

   数据分割有逻辑文档分割与物理文档分割两种形式。逻辑文档分割需要对倒排文件进行扩展,让每个并行进程能够直接访问一部分索引,这些索引对应于处理器所要处理的那部分文档子集;物理文档分割把文档分割为离散的、自包含的文档子集,每个子集对应一个并行处理器,每个子集有自己的倒排档文件。

   4.分布式检索。

   分布式搜索引擎把信息通过网络物理的分布存储和维护,把更大范围的分布、异构文档集联合起来,形成一个逻辑整体,为用户提供分布的信息检索。

   分布文档集除了大量的文本以外,还包括其它类型的数据:图形、图像、视频、音频等多媒体数据。分布信息检索的目标就是按照一致的信息描述,标识和检索分布文档集。分布信息搜集工具引导用户进入分布式的信息空间,选择合适的文档集,并进行检索。

   搜索引擎涉及人工智能、计算机网络、分布式处理、并行计算、数据挖掘、知识发现、自然语言处理等多项技术,富有综合性和挑战性。随着这些技术的进一步发展,不断提高性能,更好满足用户需求的搜索引擎也必将出现。

   大看台

   搜索引擎使用技巧

   ◆ 使用逻辑词辅助查找

   常用逻辑词有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(两个单词的靠近程度)。

   ◆ 使用双引号进行精确查找

   如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来。

   ◆ 使用加减号限定查找

   在搜索词前冠以加号“+”限定搜索结果中必须包含的词汇,用减号“-”限定搜索结果不能包含的词汇。

   ◆ 区分字母大小写

   许多搜索引擎都区分字母的大小写,应该正确使用它们的大小写字母形式。

   ◆ 限制查询范围

   范围限制的能力越强,则越能准确地找到需要的信息。

   ◆ 尽量少用空格

   在输入汉字作关键词的时候,不要在汉字后追加不必要的空格,因为空格将被认作特殊操作符,其作用与AND一样。

   ◆ 从页面上部或底部寻找作者姓名、组织机构名称或公司名称
    【责任编辑:Belinda】
金山毒霸6下载版 + 病毒预警短信 超值价10元/月
在线查毒免费体验·在线杀毒10元包月热买不限次
金山毒霸企业版 企业安全全线产品 免费救援热线
免费使用词霸搜索 随时随地获取海量词典及例句
【我要发表评论】【内容指正】【论坛】【推荐给好友】·【 】【打印】·【顶部】【关闭窗口
【相关文章】 【去论坛】
· 经验共享:Win 2k中如何让FTP 服务器更安全 2004-07-27 13:13
· 北京信息安全中心毒霸联合发布7.27热门病毒 2004-07-27 09:26
· 木马技术:网络安全之特洛伊木马的攻防战略 2004-07-26 20:20
· 深入探索 木马现形 ——特洛伊木马原理分析 2004-07-26 18:57
· 木马的原理:解析危险的特洛伊木马恶意程序 2004-07-26 17:55
· Sysinternals PsTools远程未授权访问的漏洞 2004-07-26 17:17
· PHP-NukeURI缺充分过滤引起SQL注入脚本漏洞 2004-07-26 17:13
· Open Server MMDF等多个缓冲区溢出攻击漏洞 2004-07-26 17:03
· OperaWeb Browser 跨域帧装载 信息泄漏漏洞 2004-07-26 17:01
· 诺顿Norton Antivirus脚本过滤器拒服务漏洞 2004-07-26 16:52
·金山毒霸单机版讨论区
·金山网镖讨论区
·金山毒霸网络版讨论区
·毒霸在线业务专题讨论区
·安全软件讨论区
·病毒救援
【相关专题】
· “即时通讯软件”安全隐患重重专题 2003-10-08 15:04
· 金山“安全体验风暴”专题 2003-08-21 21:01
· 蓝色安全革命综合报道专题 2002-10-24 11:06
· 蓝色安全革命各方盛赞专题 2002-10-08 11:17
· 迎安全国庆惩作怪病毒专题 2002-10-02 20:40
· 毒霸绿色无忧服务万里行专题 2002-09-28 11:12
· 金山网镖2003功能简介专题 2002-09-11 11:33
· 金山毒霸2003-功能简介专题 2002-09-11 11:30
· 防毒于未然杀毒更有效专题 2002-09-10 09:39
· 后病毒时代的安全之道专题 2002-01-11 10:35
[an error occurred while processing this directive]
[an error occurred while processing this directive]
·全民围剿 新春无毒 
·
毒霸、网镖新功能体验版 
·
毒霸网络版2.0 sp1发布 
·
毒霸6新禧礼包惊喜登场
·
毒霸网络版 人人有礼
·毒霸网络版“租用服务”
·
金山毒霸网络版大事件
·第三次缉毒万里行专题
·JPEG图片病毒专题
·金山引爆“双响炮”计划
·金山毒霸6增强版介绍
·
十面埋伏围剿木马发布会
·
6.12北京用户产品座谈会
·
金山"网游防火墙"产品
·
反电子垃圾新功略专题
·“金山毒霸再获桂冠”
·金山“安全体验风暴”
·“冲击波”病毒之罪?
·全球黑客攻击专题
·金山毒霸V金山网镖V介绍
·金山V攻略详解专题
·金山毒霸&智冠捆绑销售
·金山软件爱心服务活动
·2003年病毒疫情调查专题
更多...
[an error occurred while processing this directive]
·病毒短信 ·在线杀毒
·病毒上报 ·专杀工具
·产品答疑 ·
媒体合作
金山简介 | 业务合作 | 广告服务 | 招聘信息 | 客服中心 | 网页报错 | 添加毒霸到QQ上
© 2007 Kingsoft Corp. 增值电信业务经营许可证B2-20040288号