首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于后缀树的重复文档检测
引用本文:冯金波.基于后缀树的重复文档检测[J].教育技术导刊,2015,14(5):70-73.
作者姓名:冯金波
作者单位:江苏大学 计算机科学与通信工程学院,江苏 镇江 212013
摘    要:传统的重复文档检测方法是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对该缺点,提出以句子块作为文档特征的提取方法,将每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验中,使用两个标准文档集与3种经典方法在有效性和效率方面进行比较,结果表明新算法有较高的准确率和效率。

关 键 词:重复文档  后缀树  句子块  
本文献已被 万方数据 等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号