当前位置: 首页 > 期刊 > 《广东药学院学报》 > 2004年第6期
编号:10981378
基于DivideandConquer的搜索引擎数据库设计思想
http://www.100md.com 《广东药学院学报》 2004年第6期
搜索引擎,,DivideandConquer;搜索引擎;索引数据库,1引言,2基于数据库范式的搜索引擎索引数据库的设计过程
     摘 要 目的 提出一种基于DivideandConquer的搜索引擎数据库设计思想(DivideandConquer Design,DCD)。方法 通过将搜索引擎索引数据库中的庞大数据表分解为数据量较少的表,以降低系统的复杂性。结果 模拟实验表明基于DCD的数据库设计大大提高了数据库的性能。结论 基于DCD思想的数据库设计提高了数据检索效率。

    关键词 DivideandConquer;搜索引擎;索引数据库

     1 引言

    随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,而且这些信息是极其无序的。因此如何获取和利用Internet上的信息就成了一个重大问题,目前解决这一问题的最佳途径是利用搜索引擎。这个需求直接导致了Internet信息检索技术的快速发展,搜索引擎是一种组织信息、检索信息的网上检索工具[1]。它的实现一般有2种方式[2]:一种是通过手工方式对网页进行索引,这种实现机制的缺点是WWW的覆盖率比较低,不能保证最新的信息,查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文检索匹配进行,其优点是搜索准确率较高;第二种是对网页全文进行自动索引,实现自动的文档分类,优点是覆盖率高,但准确率不如手工方式。

    搜索引擎由如下3部分组成[3]:

    ①Spider(蜘蛛):是负责在WWW上收集信息的程序。Spider根据一定的搜索策略自动在WWW上搜集文档(通常是HTML文档),并对收集回来的文档做初步处理。

    ② Indexer(索引器):是对Spider收集的信息进行索引的程序。Indexer对Spider采集的信息在本地进行分析处理,形成以文本特征词为单位的倒排文件以供检索 ......

您现在查看是摘要页,全文长 6801 字符