共查询到19条相似文献,搜索用时 62 毫秒
1.
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重.实践证明,通过对其参数进行合理的调整,可以达到满意的结果. 相似文献
2.
殷波 《现代图书情报技术》2008,(Z1)
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究. 相似文献
3.
4.
5.
基于用户查询关键词的网页去重方法研究 总被引:2,自引:0,他引:2
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。 相似文献
6.
7.
字串去重的快速算法研究 总被引:1,自引:1,他引:0
针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。 相似文献
8.
9.
笔者研发的基于EXCEL的查新去重与格式整理小工具是针对中国知网、万方、维普、中国知识产权局专利检索与服务系统设计的。该工具能够读取各数据库不同格式的数据、对数据进行去重、最后按照查新格式导出。该工具相较于时下流行的文献去重软件(如Note Express和Note First),最主要的进步特点为:其不但整合了单个数据库不同格式的数据内容,且在去重时能够抽取不同数据库的内容进行整合,从而弥补单一数据库数据内容不完全的缺陷;同时还具有方便快捷、无需安装、操作简单易学等特点。 相似文献
10.
文献跨库检索中去重方法研究与应用 总被引:1,自引:0,他引:1
以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及"标题+类型"4种文献跨库去重方法,解决中文库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。 相似文献
11.
刘庆的长篇小说《长势喜人》无论在内容还是形式上都明显地借鉴了新闻写作特点,体现着独特的叙事意义。他的创作欲望源于新闻敏感,小说素材源于新闻事件,认真负责的创作态度源于新闻职业;同时小说中简洁的语言、冷静的叙述、平民化视角也都与新闻写作有关。 相似文献
12.
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。 相似文献
13.
基于协同过滤算法的高校图书馆图书推荐系统研究 总被引:3,自引:0,他引:3
董坤 《现代图书情报技术》2011,(11):44-47
针对当前高校图书馆主动式图书推荐服务存在的对服务对象信息需求挖掘、分析不足的问题,提出构建基于协同过滤算法的个性化图书推荐系统。通过引入读者专业、角色、学历、借阅记录等影响和反映读者信息需求的因素构建读者特征模型,基于该模型采用优化的协同过滤算法挖掘读者信息需求并产生个性化图书推荐信息,并通过实验证明该方法的有效性和实用性。 相似文献
14.
基于联合目录的网络期刊导航系统-几个问题的探讨 总被引:1,自引:0,他引:1
近几年,网络出版物尤其是网络期刊的数量迅速增长。鉴于网络期刊出版的复杂性,图书馆面临着如何组织管理、描述网络期刊,更好地向读者提供服务的新任务。本文作者在建设网络期刊导航系统经验的基础上,对网络期刊导航系统建设中的网络期刊著录问题、URL问题等进行分析和描述,并结合国外网络期刊管理与服务的先进经验,总结出网络期刊著录、服务的一些有效的方法。 相似文献
15.
对非可信环境下明文传输登录密码等敏感信息导致的数字图书馆安全登录问题进行分析,提出一个基于单向散列函数的改进方案,应用消息摘要及脚本执行等信息技术,将登录密码这类敏感信息散列为定长且单次有效的“数字指纹”,再送入非可信环境里进行传输,可增强数字图书馆的登录安全。 相似文献
16.
二值化技术是数字图书馆系统中常用的数字图像处理技术,其算法的优劣决定着数字馆藏的阅读质量。本文给出了一种利用图像灰度统计特征值为阈值的全局二值化方法。该算法可针对不同文本图像的灰度直方图,利用高低通滤波的特征对图像进行阈值分割。算法具有较低的时间和空间复杂度。 相似文献
17.
图书馆学逻辑起点研究综述 总被引:4,自引:0,他引:4
文章列出图书馆学界内关于本学科逻辑起点的四种主要观点(本体说、文献说、信息说、知识说),并逐个作了简要的评述,指出这是一条由表及里、由此及彼、由浅入深、由易到难、由具体到抽象的渐进过程。 相似文献
18.
19.
在制定人物数据库的收录标准时,人物特征的多重属性与流动性、发展变化性、数据库建库目的与服务对象及人物信息来源等都是需要考虑的因素。其中“名人”的收录标准需制定舆体量化指标:“地方人物”则应以“籍贯”和“活动地点”为主要选择依据。 相似文献