首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重.实践证明,通过对其参数进行合理的调整,可以达到满意的结果.  相似文献   

2.
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究.  相似文献   

3.
针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面总结和分析去重技术的基本研究现状,并兼论基于布尔逻辑模型与傅立叶系数的网页去重以及网页去重技术在一些特殊领域的应用研究。  相似文献   

4.
一个基于特征向量的近似网页去重算法   总被引:1,自引:0,他引:1  
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。  相似文献   

5.
基于用户查询关键词的网页去重方法研究   总被引:2,自引:0,他引:2  
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。  相似文献   

6.
秦杰  谢蕙  王春云 《图书情报工作》2010,54(15):113-116
针对元搜索结果中的网页重复问题,把基于最长公共子序列(Longest Common Subsequence,简称LCS)的网页去重方法应用到元搜索引擎的去重中,提出基于SLCS(首字母S表示Summary)的元搜索去重方法。在获得网页文档摘要后,根据查询词在语句中出现的次数和语句长度,计算摘要语句集合中每个语句权重,提取权重最大的语句作为网页摘要特征语句,通过比较摘要特征语句间的LCS,计算出结果网页相似性,以提高元搜索引擎的检索质量,实验表明该方法具有较高的准确率。  相似文献   

7.
字串去重的快速算法研究   总被引:1,自引:1,他引:0  
陈桂林  王永成 《情报学报》2000,19(3):254-258
针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。  相似文献   

8.
本文主要介绍DIALOG系统中重复文献的去重功能、指令及使用方法,并结合实践对各种不同的重复文献能否去重进行了试用。  相似文献   

9.
张锐 《晋图学刊》2014,(6):24-27
笔者研发的基于EXCEL的查新去重与格式整理小工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的。该工具能够读取各数据库不同格式的数据、对数据进行去重、最后按照查新格式导出。该工具相较于时下流行的文献去重软件(如Note Express和Note First),最主要的进步特点为:其不但整合了单个数据库不同格式的数据内容,且在去重时能够抽取不同数据库的内容进行整合,从而弥补单一数据库数据内容不完全的缺陷;同时还具有方便快捷、无需安装、操作简单易学等特点。  相似文献   

10.
文献跨库检索中去重方法研究与应用   总被引:1,自引:0,他引:1  
以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及"标题+类型"4种文献跨库去重方法,解决中文库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。  相似文献   

11.
刘庆的长篇小说《长势喜人》无论在内容还是形式上都明显地借鉴了新闻写作特点,体现着独特的叙事意义。他的创作欲望源于新闻敏感,小说素材源于新闻事件,认真负责的创作态度源于新闻职业;同时小说中简洁的语言、冷静的叙述、平民化视角也都与新闻写作有关。  相似文献   

12.
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。  相似文献   

13.
基于协同过滤算法的高校图书馆图书推荐系统研究   总被引:3,自引:0,他引:3  
针对当前高校图书馆主动式图书推荐服务存在的对服务对象信息需求挖掘、分析不足的问题,提出构建基于协同过滤算法的个性化图书推荐系统。通过引入读者专业、角色、学历、借阅记录等影响和反映读者信息需求的因素构建读者特征模型,基于该模型采用优化的协同过滤算法挖掘读者信息需求并产生个性化图书推荐信息,并通过实验证明该方法的有效性和实用性。  相似文献   

14.
基于联合目录的网络期刊导航系统-几个问题的探讨   总被引:1,自引:0,他引:1  
宋文 《图书情报工作》2003,47(11):82-85
近几年,网络出版物尤其是网络期刊的数量迅速增长。鉴于网络期刊出版的复杂性,图书馆面临着如何组织管理、描述网络期刊,更好地向读者提供服务的新任务。本文作者在建设网络期刊导航系统经验的基础上,对网络期刊导航系统建设中的网络期刊著录问题、URL问题等进行分析和描述,并结合国外网络期刊管理与服务的先进经验,总结出网络期刊著录、服务的一些有效的方法。  相似文献   

15.
对非可信环境下明文传输登录密码等敏感信息导致的数字图书馆安全登录问题进行分析,提出一个基于单向散列函数的改进方案,应用消息摘要及脚本执行等信息技术,将登录密码这类敏感信息散列为定长且单次有效的“数字指纹”,再送入非可信环境里进行传输,可增强数字图书馆的登录安全。  相似文献   

16.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。  相似文献   

17.
图书馆学逻辑起点研究综述   总被引:4,自引:0,他引:4  
于鸣镝 《图书馆界》2005,(4):1-3,11
文章列出图书馆学界内关于本学科逻辑起点的四种主要观点(本体说、文献说、信息说、知识说),并逐个作了简要的评述,指出这是一条由表及里、由此及彼、由浅入深、由易到难、由具体到抽象的渐进过程。  相似文献   

18.
张斌  魏扣  郝琦 《图书情报工作》2016,60(5):118-124
[目的/意义]构建面向决策的档案知识库可以深层次开发利用档案,发挥档案知识价值效用,深化档案的资政服务作用。[方法/过程]分析档案知识库构建的理念、原则和目标,将档案知识库的构建过程划分为知识单元的准备、知识单元的描述与揭示、知识单元的再组织以及知识单元的评价和存储等4个阶段。[结果/结论]最终提出档案知识库系统的系统结构,详细解释该结构的4个关键组成部分以及档案知识库的6个功能模块。  相似文献   

19.
张晓源 《图书与情报》2006,(1):69-73,79
在制定人物数据库的收录标准时,人物特征的多重属性与流动性、发展变化性、数据库建库目的与服务对象及人物信息来源等都是需要考虑的因素。其中“名人”的收录标准需制定舆体量化指标:“地方人物”则应以“籍贯”和“活动地点”为主要选择依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号