首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
本文研究了基于互信息、相关性的特征选择方法,并介入网页页面中超链接因素,对特征提取中互信息计算公式作了改进一引入超链接因子。实验表明,改进之后比之以往的简单的基于互信息方法进行特征选择的网页分类精度有一定的良高。  相似文献   

2.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。  相似文献   

3.
郑凤萍 《现代情报》2007,27(3):143-144
文本提出了一种基于模糊向量空间模型和径向基函数网络的分类方法。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

4.
洪亮 《科技广场》2009,(7):35-37
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法.  相似文献   

5.
胡涛  刘怀亮 《现代情报》2011,31(11):46-50
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。  相似文献   

6.
基于模糊向量空间的文本分类方法   总被引:1,自引:0,他引:1  
郑凤萍  刘春雨 《情报科学》2007,25(4):588-591
本文针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

7.
基于改进KNN的文本分类方法   总被引:9,自引:0,他引:9  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

8.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

9.
研究了中文文本分类中的文本表示方法,提出了对中文文本表示因素的分析框架,并通过对3个数据集实验结果的分析,确定了各种文本表示因素对分类效果的影响.直接使用汉字进行划分也可以获得较好的分类效果;简单的不使用很大词库的分词和使用大词库的分词,以及复杂的分词对分类效果影响不大;仅使用01表示特征是否出现也可以获得比较好的分类效果;采用综合了合理的向量取值(如使用合适的归一化算法)可以较大幅度地提高分类准确率等.这些结论为后续的应用提供了指导原则.  相似文献   

10.
尹桂秀 《情报理论与实践》2002,25(2):115-116,122
This article introduces a Chinese text automatic classification method, including its principle and classification process. The article focuses on some key theoretical problems, such as word classification, keyword collection and keyword matching.  相似文献   

11.
特征降维是基于向量空间模型(VSM)文本分类的关键技术之一,特征抽取是特征降维的主要方法。本文主要分析了几种常用的特征抽取方法,并给出了它们的实现步骤。  相似文献   

12.
本文设计了一种基于RFIC和人脸识别的ARM嵌入式安全认证系统。深入地分析人脸识别过程中的预处理,以及PCA和LDA等特征提取方法,利用MATLAB对人脸识别算法仿真,并比较特征向量个数以及分类器等因素对识别率的影响。  相似文献   

13.
针对人脑的二维图像设计了一种改进的遗传算法和二阶互信息相结合的医学图像配准算法,采用互信息配准模型,以图像的灰度统计信息为配准依据,采用改进的遗传算法搜索图像的最优变换参数,并比较一阶互信息配准与改进的二阶互信息配准两种算法,实验表明改进的二阶互信息配准方法具有较高的配准精度和稳定性。  相似文献   

14.
目标噪声特征提取是被动声纳目标识别系统的关键技术。首先提出了一种利用从噪声极限环中提取的非线性特征来分析舰船噪声信号的新方法,然后采用基于自适应遗传BP算法的神经网络对提取的特征进行分类。实验结果表明,该系统具有较好的分类效果。  相似文献   

15.
垃圾邮件的泛滥提出了极为迫切的技术诉求,文章介绍了基于文本分类技术的垃圾邮件过滤系统模型,首先介绍了整个系统工作流程,然后阐述了系统中文本分词,文本特征提取,Winnow线性分类器等关键环节。  相似文献   

16.
近几年来,随着互联网的迅速发展,微博系统的用户日趋增多。随着计算机犯罪活动的日益猖獗,人们对于网络与系统安全展开了大量研究,但对于网上媒体信息内容的安全问题,只是在近年来才逐渐得以重视。因此,针对这一重大问题,本文结合自然语言理解、中文信息处理等学科的相关知识,通过分析各类不良信息的特征,结合本系统中的实验,研究了不良文本信息处理的进展情况,研究了适合不良文本信息过滤的概念网分析模型、过滤算法等。  相似文献   

17.
研究的是在特定领域提取概念本体,以本题库作为知识管理的基础,再通过语义网OWL技术和本体技术对知识单元进行集成,通过构建敏感信息本题库,以本体和分布式技术为基础,通过语义推理来研究信息过滤系统。  相似文献   

18.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。  相似文献   

19.
在支持向量机和遗传算法的基础上,提出一种新的启发式多层文本分类算法。实验结果证明了该算法的可行性和有效性。文本分类技术是解决大规模文本处理的有效途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号