首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
杨文刚 《北京档案》2012,(10):29-30,33
随着计算机技术的发展,档案信息的检索技术有待提高,垂直搜索引擎作为面向特定主题的搜索引擎,非常适合用来开发专业领域的搜索引擎。介绍了垂直搜索引擎的特点和系统结构,引入了Lucene.net的开源项目,提出了实现基于Lucene.net的档案垂直搜索引擎的设计方案,给出了搜索引擎系统中采集模块、索引模块和检索模块的实现方法。  相似文献   

2.
本文在分析用户网络浏览行为的基础上,从用户的专业知识经验出发设计了用以控制、引导网络蜘蛛行为的专家知识库,利用模糊规则推算法,在进行网页下载的同时对网页中的URL主题相关度进行预测的同时对相应的资源进行模糊规则分类.文章并以基础教育资源搜集为例对该算法进行了实现,通过对先后两个版本的系统性能的分析和比较,结果表明,使用模糊规则推理算法,进行URL相关度预测可以有效提高主题资源搜集的速度,采用二次分类的办法可以进一步提高资源分类的准确度,从而提高主题资源搜索系统的整体性能.  相似文献   

3.
本文阐述了面向主题信息服务的发展方向,分析了垂直搜索引擎的特点,提出了面向主题信息服务的垂直搜索引擎的模块设计。  相似文献   

4.
任辉 《图书情报工作》2009,53(9):105-107
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。  相似文献   

5.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.  相似文献   

6.
基于领域本体实现全网信息的智能搜索方法研究   总被引:2,自引:2,他引:0  
为了克服基于关键词匹配的传统搜索引擎不能有效处理复杂语义的问题,提出了一种基于领域本体实现面向整个网络空间的信息智能搜索方法.首先研究了支持网络信息搜索的领域本体结构和表示方法;重点研究了基于领域本体对用户的检索关键词进行语义处理技术,并且设计了一个算法提高语义推理效率;探究了自动调用搜索引擎,按照语义处理后的检索表达式完成全网信息搜索的方法.实验证明,本方法在略有提高查准率的同时,显著提高了网络信息搜索的查全率.  相似文献   

7.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

8.
专业搜索引擎的排序算法研究   总被引:5,自引:0,他引:5  
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。  相似文献   

9.
黄倩 《情报学报》2005,24(6):713-717
Internet的发展使互联网成为一个巨大的信息库,但是信息的获取质量却停滞不前。传统的搜索引擎大都基于关键字机械匹配,因而不具备理解文档内容的能力,导致查询效率普遍不高。由于计算机可以理解RDF描述和携带的元数据的含义,因此可以做到基于内容的精确检索。为此,本文提出一种基于RDF的科技论文搜索引擎的设计与实现方案。该方案包括含词汇集设计、RDF描述生成工具、运行于服务器端的RDF描述信息收集和解析程序、基于词汇集的查询四个模块。查询结果为搜索网页的元数据显示,从而使用户对查询结果有准确的了解,可大大提高用户的搜索效率。  相似文献   

10.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

11.
本文论述了主题型专业搜索引擎的结构特点,并针对华文教育网络信息资源的搜索进行详细的研究和分析,设计面向该特定主题的搜索引擎,为华文教育专业资源数据库的建设提供一种高效信息采集的技术模式.  相似文献   

12.
搜索引擎中Robot搜索算法的优化   总被引:15,自引:0,他引:15  
目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 ,本文的优化算法可以较大程度地改进搜索引擎的整体性能  相似文献   

13.
搜索引擎自1994年面世后,迅速成为人们网上搜索的有效工具。目前,尽管搜索引擎的发展已较成熟,但要准确、快速地查找所需信息却越来越困难,在这种情况下垂直搜索引擎应运而生。垂直搜索引擎,即专业或专用搜索引擎,就是专为查询某一学科或主题的信息而产生的查询工具,对解决实际查询问题要比搜索引擎门户有效得多。  相似文献   

14.
严海兵  崔志明 《情报学报》2007,26(3):361-365
基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前提下,提出利用模糊聚类的方法对搜索引擎的检索结果进行动态分类,依据超链分析算法PageRank和Web文档隶属度相结合进行分类排序,并给出具有调节值的结合公式。实验证明,该算法能够更有效地满足用户的需要,提高检索效率。  相似文献   

15.
本文通过对水平搜索引擎和垂直搜索引擎在信息服务各个要素方面的比较,为当前的搜索引擎发展做出初步的分析,并介绍了使用垂直挖掘搜索技术在图书情报领域的实践.  相似文献   

16.
首先概述垂直搜索引擎的有关研究,结合通用搜索引擎分析垂直搜索引擎的一些特点和应用,然后结合实际的开发应用从提高查准率、提高查询速度、提高信息采集效率、控制信息采集质量等角度进行分析和探讨,在实例探讨中结合12580网络信息采集的餐饮垂直搜索原型系统提出信息采集、信息更新、信息抽取等实际应用领域中的若干策略。  相似文献   

17.
如何查找隐形网页资源   总被引:2,自引:0,他引:2  
众所周知,互联网是各类信息的存储器,是一本包罗万象的百科全书。为了使每一个用户都能更有效地获取其所需要的信息,大量的搜索引擎在网上涌现,其中包括Google、Yahoo、Infoseek等。一般来说,这些搜索引擎用URL和关键词来标引和存储其数据库中的网页,当用户提出查询请求时,搜索引擎首先根据数据库中所存储的网页的URL来搜索网页,并返回相关的结果。然而,这些搜索引擎并不能搜索互联网上的所有信息。最近人们注意到一种叫"invisibleweb"的网页,这种网页又被称为"deep"或隐形网页。简单地说,就是那些因为各种原因不能被普通搜索引擎如Google、Yahoo等搜索到的网页。据  相似文献   

18.
浅谈CNNIC最新报告对垂直搜索引擎领域的启示   总被引:2,自引:0,他引:2  
立足于搜索领域的新军--垂直搜索引擎,对CNNIC两份报告的有关内容进行了分析与研究,总结了报告带给垂直搜索引擎完善与发展的六点启示.具体包括垂直搜索发展的可行性、存在的必要性以及用户对搜索引擎的依赖性;垂直搜索引擎利基市场的选择;垂直搜索引擎域名的选定以及网站的推广与宣传;垂直搜索引擎应采用广告、竞价排名、返佣、直接面向企业的封闭型盈利模式等多种盈利方式;垂直搜索引擎应注意用户的隐私保护以及应推动垂直搜索新领域--移动垂直搜索的发展.  相似文献   

19.
基于本体的网络爬虫技术研究   总被引:1,自引:0,他引:1  
杨学明  刘柏嵩 《情报学报》2007,26(5):723-727
互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估.  相似文献   

20.
互联网第一代搜索引擎是以雅虎为代表的人工分类检索的搜索方式,第二代大规模的网页搜索则以关键词和特殊算法制胜。当前正孕育着第三代搜索引擎的革命,无线搜索引擎即是这次革命的先锋。它涵盖了人工智能、无线通信和搜索引擎等多个方面的技术。本文对无线互联网搜索引擎现状、问题和发展趋势进行了探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号