基于加权网络改进的中文短文本相似性度量模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于加权网络改进的中文短文本相似性度量模型

作者姓名：	牛奉高高旭霞

作者单位：	山西大学数学科学学院,太原 030006

基金项目：	山西省优秀青年基金;山西省高等学校优秀成果培育项目;国家自然科学基金

摘要：	随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。
关键词：	STSim模型加权复杂网络加权综合特征值短文本语义相似性
本文献已被万方数据等数据库收录！