首页 | 本学科首页   官方微博 | 高级检索  
     

基于加权网络改进的中文短文本相似性度量模型
作者姓名:牛奉高  高旭霞
作者单位:山西大学数学科学学院,太原 030006
基金项目:山西省优秀青年基金;山西省高等学校优秀成果培育项目;国家自然科学基金
摘    要:随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。

关 键 词:STSim模型  加权复杂网络  加权综合特征值  短文本  语义相似性
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号