共查询到18条相似文献,搜索用时 60 毫秒
1.
基于粗集理论和神经网络结合的数据挖掘新方法 总被引:12,自引:1,他引:12
本文提出了一种基于粗集理论和神经网络的数据挖掘新方法。首先利用粗集理论对原始数据进行一致性属性约简 ,然后使用神经网络对数据进行学习和预测 ,并同时完成属性的不一致约简 ,最后再由粗集对神经网络中的知识进行规则抽取。该方法充分融合了粗集理论强大的属性约简、规则生成能力和神经网络优良的分类、容错能力。实验表明 ,该方法快速有效 ,生成规则简单准确 ,具有良好的鲁棒性。 相似文献
2.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。 相似文献
3.
4.
为了使决策树健壮,我们从描述信息增益开始,关于这个规则的置信度,使用C4.5作为度量。这可以使我们快速的解释为什么信息增益,象置信度,偏重大多数类的规则的结果。为了克服这种偏见,我们介绍一种新度量,类置信度比例(CCP),它是CCPDT(类置信度比例决策树)形成的基础。这两种变化在一起产生一个分类器,它不仅比传统的决策树,而且比著名的平衡取样技术学习树能更好的完成统计。 相似文献
5.
本文探讨了本体与语义Web的关系、本体在语义Web文本分类中的作用,并重点探讨了基于本体的语义Web文本分类的特点以及Web文本分类器的一般工作原理. 相似文献
6.
首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。 相似文献
7.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。 相似文献
8.
海量数据集上基于特征组合的关键词自动抽取 总被引:7,自引:0,他引:7
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受. 相似文献
9.
10.
基于Heritrix的Web信息抽取 总被引:1,自引:0,他引:1
针对现阶段Web信息抽取技术的不足,提出一种基于Heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 相似文献
11.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。 相似文献
12.
本文应用Rough集理论和模糊集知识研究一种新的情报检索系统 ,提出了新的情报检索方法。论文给出了这个系统的体系结构和系统的核心算法 ,进行了算法复杂性分析 ,检索算法的时间复杂性为 0 (log2 M)。它的主要特点是检索算法的时间复杂性不随着文献资料数量的增加而增加 ,只与主要标引词的多少有关。分析结果表明这是一种有效的算法 相似文献
13.
从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。 相似文献
14.
15.
目前协同过滤被广泛应用于数字图书馆、电子商务等领域的个性化服务系统.最近邻算法则是最早提出和最主要的协同过滤推荐算法,但用户评分数据稀疏性严重影响推荐质量.针对上述问题,提出了一种基于Rough集理论的最近邻协同过滤算法,以用户评分项并集作为用户相似性计算基础,并将非目标用户区分为无推荐能力和有推荐能力两种类型;对于无推荐能力用户不再计算用户相似性以改善推荐实时性,对于有推荐能力用户则提出一种基于Rough集理论的评分预测方法来填补用户评分项并集中的缺失值,从而降低数据稀疏性.实验结果表明新算法能有效提高推荐质量. 相似文献
16.
[目的/意义]研究应用粗糙集理论分析专利信息的可行性及其方法,建立识别核心专利的粗糙集理论模型。[方法/过程]综述国内外研究核心专利识别的相关文献,确定包含8个指标的核心专利识别指标体系,再用粗糙集理论分析专利信息数据,确定各指标的权重系数,按照计算的核心专利综合指数(CICP)大小将某特定技术领域的专利信息序列分为核心专利、关键专利、重要专利和一般专利。[结果/结论]以通信领域的976件专利数据为分析样本,运用本文核心专利识别模型识别出11件核心专利,其中包含获得中国专利奖的专利,核心专利识别结果在一定程度上表明核心专利识别模型的可行性和科学性;本文核心专利识别模型具有一般性,可应用于分析研究专利价值及其重要性。 相似文献
17.
文本分类中的特征降维方法综述 总被引:42,自引:7,他引:42
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。 相似文献
18.
基于模糊属性集的粗糙近似精度数据挖掘策略 总被引:1,自引:0,他引:1
为了提高信息系统的分类质量,探讨了一种在数据仓库中基于模糊属性集的粗糙逼近近似度量的数据挖掘策略.首先在决策表中给出了模糊属性集的原子概念表示及其对象的描述;再根据原子概念的特征构造了模糊属性集的粗糙上下近似表述;然后利用模糊属性重要性度量的概念,提出了利用逼近精度近似度量的数据挖掘方法进行模糊属性约减;最后应用算例说明如何在决策表中发现分类规则.实验结果表明此方法挖掘出的规则简练且合理可靠. 相似文献