摘 要: | 【目的】通过对科技查新中的跨库检索结果进行去重,提高查新检索效率。【方法】选取不同数据库检索记录中唯一性的特征四元组{论文名称,期刊名,发表时间,第一作者}信息,用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据。【结果】跨库检索去重算法对数据库检索结果进行初步分析和去重,提高查新检索效率。通过测试,算法去重准确率较高,而召回率受数据库收录信息完善度的影响,还有提高的空间。【局限】算法处理效果依赖于从数据库检索记录中提取特征四元组,由于不同数据库的检索返回结果存在差异,需要针对不同论文数据库定制检索记录特征抽取模板。【结论】通过实验测试,算法具有较高的去重准确率和处理效率,符合预定科技查新需求。
|