首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词序方法的文本相似度计算模型
引用本文:郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6).
作者姓名:郭武斌  周宽久  苏振魁
作者单位:1. 大连理工大学系统工程研究所,大连,116024
2. 大连理工大学软件学院,大连,116620
摘    要:针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.

关 键 词:文本相似度  词序  向量空间模型  TF-IDF方法

Text Similarity Computing Model Based on Word Order
Guo Wubin,Zhou Kuanjiu,Shu Zhenkui.Text Similarity Computing Model Based on Word Order[J].Journal of the China Society for Scientific andTechnical Information,2008,27(6).
Authors:Guo Wubin  Zhou Kuanjiu  Shu Zhenkui
Institution:Guo Wubin~1 Zhou Kuanjiu~2 Shu Zhenkui~2 1.Institute of System Engineering,Dalian University of Technology,Dalian 116024,2.Software School,Dalian 116620
Abstract:An efficient algorithm is proposed in this paper to compute text similarity,which considers both word frequency and words' order that appears in a text.The transfer matrix of Markov model,the longest common sequence and common substring of two texts is used to record word order.The traditional TF-IDF methods of VSM is used to record word frequency.The paper tests the text similarity based on Markov model with some TREC9 dataset.The experimental result shows that the calculation of text similarity based on w...
Keywords:text similarity  word order  vector space model  TF-IDF  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号