首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到8条相似文献,搜索用时 0 毫秒
1.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

2.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

3.
4.
本文对Unicorn系统报表输出的纯文本数据进行数据库的格式和EXCEL格式的转换和输出,并通过报表定位打印设置,可以满足图书馆业务部门的不同格式数据输出需求.  相似文献   

5.
图书馆学术资源推荐系统是一种为了解决信息过载、提高搜索效率而提出的基于信息过滤机制的知识服务系统。系统的改进,可以从用户Web日志、搜索习惯、浏览行为、图书馆学术关联数据等多角度进行数据挖掘和数据分析,以构建读者信息需求库及关联数据仓库,采用基于内容过滤推荐和规则过滤推荐相结合的混和推荐技术来实现推荐系统,以提高资源推荐的精度和覆盖率。  相似文献   

6.
提取和分析领域重要关键词及其演化模式,对于探索和预测领域知识的研究重点和研究趋势具有重要的意义.论文采用特征分解的方法,提取领域知识网络中的重要结构成分,从网络全局结构关系的视角对领域中的重要关键词进行提取与分析.研究结果表明,在网络全局结构的视角下,领域中始终保持部分恒定不变的重要关键词;恒定关键词之间关联稀疏且包含...  相似文献   

7.
文章以CNKI为样本来源,运用SATI文献题录信息统计分析软件对政府信息公开与档案相关研究文献分别进行高频关键词提取和词频分析,建立高频关键词共词矩阵;再运用UCINET社会网络分析工具绘制高频关键词的共词网络图.而后依据采集的词频分析和建立的高频词可视化共词网络图得到的分析数据,得出档案信息、档案开放、现行文件、国家档案馆、信息查询、档案工作、档案利用是当前政府信息公开与档案相关研究领域研究的重点与热点,而档案馆、档案、开放、知情权、公开、档案法则可能成为日后研究的方向与趋势.  相似文献   

8.
目前大多数学校学生信息的查询是基于纸质和有线互联网络的查询,既不方便,效率又低。针对开放实验的特殊性,设计开发了基于移动网络的信息查询系统,并对其部分功能模块进行了分析、设计与实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号