基于后缀树的重复文档检测 |
| |
引用本文: | 冯金波.基于后缀树的重复文档检测[J].教育技术导刊,2015,14(5):70-73. |
| |
作者姓名: | 冯金波 |
| |
作者单位: | 江苏大学 计算机科学与通信工程学院,江苏 镇江 212013 |
| |
摘 要: | 传统的重复文档检测方法是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对该缺点,提出以句子块作为文档特征的提取方法,将每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验中,使用两个标准文档集与3种经典方法在有效性和效率方面进行比较,结果表明新算法有较高的准确率和效率。
|
关 键 词: | 重复文档 后缀树 句子块 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|