首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 48 毫秒
1.
谷俊  翁佳  许鑫 《图书情报工作》2014,58(20):91-99
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。  相似文献   

2.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

3.
本文提出一种新的面向主题的搜索引擎设计方法。使用改进的k-means算法对结果进行聚类,然后用相关词抽取技术抽取代表每类的词语。试验结果表明该方法是有效的。  相似文献   

4.
针对通用搜索引擎存在搜索不够快速、不够深入、不够准确的缺点,本文设计并实现了旅游信息搜索网络蜘蛛,给出了该网络蜘蛛对旅游网页的主题相关度进行预测和判断的算法.该算法保证了网络蜘蛛只采集旅游主题相关的网页,使得垂直搜索引擎在查询的准确率和效率上都有显著地提高.最后通过实现一个旅游信息垂直搜索系统,给出了其信息搜集模块、信息处理模块和信息搜索模块的设计与实现.  相似文献   

5.
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。  相似文献   

6.
文章介绍了搜索引擎与主题网关的类型与功能,并将二者加以比较,得出了它们各自的优点与不足,从而构想将二者进行有效地结合。  相似文献   

7.
本文论述了主题型专业搜索引擎的结构特点,并针对华文教育网络信息资源的搜索进行详细的研究和分析,设计面向该特定主题的搜索引擎,为华文教育专业资源数据库的建设提供一种高效信息采集的技术模式.  相似文献   

8.
张亮  黄河燕  王树梅 《情报学报》2006,25(4):433-440
搜索引擎是Internet上重要的信息检索工具。同时Internet上丰富的语言资源是汉语研究的重要内容。然而,服务于汉语分析的专业搜索引擎的研究与开发,目前还处于起步阶段。本文介绍了搜索引擎的基本原理,分析了Internet汉语研究的内在要求及其基本现状,详细阐述了一个面向汉语分析研究的搜索引擎的研究与设计,包括系统体系结构的设计、系统的汉语分析功能的描述以及实验结果的分析。初步结果表明,面向汉语分析的搜索引擎可以为汉语研究提供很好的帮助。  相似文献   

9.
提出一种以动态知识库为指导的主题爬虫的设计方法,目的是克服传统的基于本体的主题爬虫的领域局限性和缺乏指导用户功能的不足;通过知识库的不断完善更好地指导爬虫找到相关网页.其中涉及的主要问题:构建动态知识库、计算网页相关度和判断相关链接.  相似文献   

10.
本文阐述了面向主题信息服务的发展方向,分析了垂直搜索引擎的特点,提出了面向主题信息服务的垂直搜索引擎的模块设计。  相似文献   

11.
如何利用搜索引擎检索网络信息   总被引:23,自引:1,他引:22  
从搜索引擎的工作机理, 评价标准, 分类, 使用方法, 使用技巧等五个方面介绍如何利用搜索引擎检索网络信息。  相似文献   

12.
一个基础教育网站搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
在研究网站元数据的基础上,介绍一个以基础教育网站为检索对象的搜索引擎系统。结合基础教育网站的特点,分析该系统的关键技术,如主题蜘蛛搜索、网站分类、网站信息提取等,并对系统的整体架构、功能模块进行详细描述。  相似文献   

13.
关于搜索引擎与元搜索引擎的讨论   总被引:22,自引:0,他引:22  
首先探讨了搜索引擎的一般原理以及结构, 然后介绍了元搜索引擎的概念及其框架。在最后, 提出了一种将一般搜索引擎和基于OPAC 的图书目录检索系统集成于一体的元搜索引擎的构想, 该构想可以在一定程度上解决异构数据之间的兼容问题。  相似文献   

14.
跨语言综合搜索引擎设计   总被引:13,自引:1,他引:13  
分析了当前网络上信息分布的特点, 对目前相关的技术进行评价。在此基础上, 设计了一个解决网络搜索过程中语言障碍的系统——跨语言综合搜索引擎。  相似文献   

15.
OAI元数据搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
数字图书馆的迅猛发展,互操作性问题显得更为迫切。作为低入门级互操作协议的OAI-PMH,能在元数据开放搜寻基础上提供一个互操作框架。本文在对OAI-PMH协议规范、OAI体系结构描述的基础上,阐述了OAI元数据搜索引擎的设计和实现。  相似文献   

16.
提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。  相似文献   

17.
通过对教育游戏资源类网站特征的分析,提出教育游戏资源智能搜索系统。该系统定义了教育游戏的“元数据结构”,力求把分散在各地的教育游戏教学资源聚合组织起来,并为建设教学资源库提供一种新的思路。  相似文献   

18.
网络搜索引擎评价   总被引:14,自引:1,他引:14  
从检索功能(如布尔检索、邻近检索、截词检索等)、查准率、用户负担、输出方式上比较了Google 和Ask Jeeves 两大搜索引擎的检索性能, 测试研究发现Google 在查准率以及输出方式上明显地优于Ask Jeeves, 而在检索功能及用户负担上两者各有特色。在比较评价的同时, 提出了一套实用的搜索引擎检索性能评价方案。  相似文献   

19.
广泛搜集了国内外的各种资料,希望能够使读者对Inktomi公司的概况及其提供的解决方案的特征、使用方法等有一个全面的了解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号