首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 937 毫秒
1.
训练数据中的噪声数据对文本分类结果的精度会造成不良影响,本文提出了一种对噪声数据进行修正的快速算法.针对以前的算法,每次迭代只对一个文档进行修正,迭代次数与噪声数据数量相当,算法运行效率较低的问题,本文通过分析调整文档所属类别对评价指标的影响,提出依据模块度变化量判断噪声数据,一次迭代过程中可以对多个文档进行修正处理,从而提高算法效率.实验结果表明,本文所提算法能够更快地修正粗分类数据中的噪声,算法复杂度从以前算法的O(Tnm2)降低为O(Tnm).该算法可以用于对大数据量数据进行处理,实用价值更高.  相似文献   

2.
文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(K-Nearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。  相似文献   

3.
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。  相似文献   

4.
一种基于k-最近邻的无监督文本分类算法   总被引:2,自引:0,他引:2  
k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感.  相似文献   

5.
网络文本数据分类技术与实现算法   总被引:23,自引:2,他引:21  
李勇  桑艳艳 《情报学报》2002,21(1):21-26
本文主要论述网络文本数据挖掘中的文本分类技术原理、方法 ,同时给出实现文档分类和类型匹配的若干算法 ,最后介绍文本分类正确率评价指标以及网络文本数据检索系统应用实证测评分析。  相似文献   

6.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

7.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

8.
文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。  相似文献   

9.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

10.
文本分类中一种基于密度的KNN改进方法   总被引:2,自引:1,他引:1  
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果.  相似文献   

11.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

12.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

13.
[目的/意义]文章对科技政策隐性扩散路径自组织方法进行研究,挖掘科技政策文本包含深层语义信息,将隐性知识显性化,为科研人员拓展和丰富政策扩散路径研究提供参考。[方法/过程]本文结合科技政策篇章文本的形式语义和内容语义两个方面对政策文本结构化处理和深度挖掘,对政策文本资源全解析,抽取科技政策文本中包含的特征,其中包括概念和关系自动获取与标引技术、网络表示学习,挖掘科技政策文本中的隐含结构信息,利用BiLSTM-CRF模型的深度学习方法实现概念的自动获取和自动标引关系。将得到多篇科技政策文本的概念和关系组成概念关系对的形式,借助于表示学习的方法发现每个节点稠密的向量表示。[结果/结论]通过实验验证,证明了本文借助隐性路径特征的科技政策扩散隐性路径自组织方法的有效性,在一定程度上拓展了政策研究的方法,为科研人员在政策扩散研究上提供了参考。  相似文献   

14.
基于文本挖掘机制的区域经济关系分析   总被引:1,自引:0,他引:1  
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系.  相似文献   

15.
“十一五”期间我国文献情报领域知识发现研究综述   总被引:1,自引:0,他引:1  
对近年来关于知识发现的大量相关论文从概念关系辨析、知识发现方法体系、文本挖掘与文本趋势挖掘、非相关文献知识发现、数据挖掘研究拓展等方面开展研究,总结“十一五”期间我国文献情报领域知识发现研究成果,重点介绍有关知识发现的内容分析、关联理论、领域驱动、可视化、文本挖掘模型等研究进展,最后分析展望今后该研究领域的研究热点和研究方向。  相似文献   

16.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

17.
针对文本信息内容结构参差不齐的问题,提出一种评价文本内容结构分析方法,该方法将文本中的句子作为节点,句子之间的共同名词作为边,构建文本复杂网络,并选取复杂网络的拓扑性质对文本结构特征进行分析。基于一个新闻文本案例构建复杂网络,并计算度、强度、最短路径、加权聚类系数等衡量指标,这些指标能很好地评价文本内容结构的好坏,也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。  相似文献   

18.
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要意义.文本分类的发展与模式识别的发展密切相关.文本分类具有的类目多、样本数目多、噪音多、各类别样本数目不均衡等特点,使各模式识别算法在应用于文本分类时存在许多缺点.近年来逐步发展起来的群集智能(Swarm Intelligence)理论和方法为文本分类提供一种新...  相似文献   

19.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

20.
为充分把握第四次工业革命的历史机遇,世界各国必然会瞄准战略科技领域,以一批关键技术为抓手,推出一系列的政策、战略、规划、计划和具体举措,推动科技进步和变革,在第四次工业革命中占据先发优势。本文以世界主要国家近年来发布的科技政策战略、前沿研发等重要动态新闻文本为分析对象,采用NLP (natural language processing)、文本挖掘、科学计量学等方法,揭示第四次工业革命中各国关注的重点领域技术和举措。研究结果发现,世界主要国家重点关注生物与农业、材料、航空航天与空间、数字与通信、能源、海洋、传统制造业等科技领域,积极布局量子计算、人工智能、再生能源、纳米技术、基因技术等关键技术,并采取投资计划、合作研究、政策研究和研究项目等发展举措推动上述科技领域和关键技术的发展。本文从动态新闻文本挖掘出发,梳理了第四次工业革命中世界主要国家布局的关键领域技术和重点举措。从理论意义上看,拓展了NLP、文本挖掘和科学计量学在科技政策研究中的应用场景;从实践意义上看,为我国布局第四次工业革命战略科技领域和关键技术、实施相应发展举措提供情报参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号