共查询到20条相似文献,搜索用时 171 毫秒
1.
基于概念向量空间的文档语义分类模型研究 总被引:1,自引:0,他引:1
2.
3.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高. 相似文献
4.
基于文档结构的向量空间检索模型研究 总被引:9,自引:0,他引:9
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。 相似文献
5.
6.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献
7.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果. 相似文献
8.
9.
10.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%. 相似文献
11.
12.
文本分类相似度模型和概率模型的实现与比较* 总被引:1,自引:0,他引:1
刘华 《现代图书情报技术》2006,1(4):53-55
设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。 相似文献
13.
文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源,计算特征项的权值,设定阀值对特征项向量进行降维处理,最后利用BP神经网络对不同的阀值分别进行分类实验,比较其效果。 相似文献
14.
15.
16.
许琦 《中国科技资源导刊 (中国信息导报)》2010,(4):55-60
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式
的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,
将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型
偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚
类效果,是切实可行的。 相似文献
17.
许琦 《中国科技资源导刊》2010,42(4)
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的. 相似文献
18.
支持向量机在文本自动分类中的应用研究 总被引:3,自引:0,他引:3
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 相似文献
19.
刘华 《现代图书情报技术》2007,2(3):43-45
设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。 相似文献
20.
施洁斌 《现代图书情报技术》2004,20(7):27-29
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。 相似文献