首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
武同宝  袁海燕  黄尊志  陈志伟 《科技通报》2019,35(7):143-146,151
针对传统特征映射方法存在映射时间长、高维数据转换率低等问题,提出基于最小熵的高维电力数据可视化特征映射方法。对高维电力数据进行空间模拟,从数据预处理、转换、离散化分析和特征分类方面入手,完成对高维电力数据可视化特征分类。建立电力数据类的散布矩阵,根据矩阵计算高维电力数据的特征相对值和判别值,完成数据特征提取。基于上述特征分类和特征提取结果,利用熵对高维电力数据各类的可分性进行描述,选取出熵最小的数据特征,定义数据的熵并将熵当作数据类别的可分性判据,利用电力数据的总体熵实现高维数据到低维数据的映射。实验结果表明,所提方法的特征数据分类准确度较高,且平均高维数据转换率为78%左右,映射耗时短,远远优于传统方法,验证了所提方法的优越性能。  相似文献   

2.
周源  刘怀兰  杜朋朋  廖岭 《情报科学》2017,35(5):111-118
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环 境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网 络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值 的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的 不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分 类效果,验证了该方法能够有效提高文本特征词提取的准确度。  相似文献   

3.
基于量子自组织网络的Web文本自动分类方法   总被引:3,自引:0,他引:3  
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量和量子自组织特征映射网络的分类方法.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法.  相似文献   

4.
基于同义词词林的文本特征选择与加权研究   总被引:1,自引:0,他引:1  
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.  相似文献   

5.
文章从模式识别的角度出发,提出在应用DGA对电力变压器进行故障诊断的过程中,若能针对具体的分类模式,提取出能够区别不同类别模式的"选择性"的信息,将有利于提高诊断效果;对放电与过热故障的气体特征、电路过热与磁路过热故障的气体特征进行选择和测试,表明根据不同的分类模式进行气体特征提取对提高故障识别效果将是有益的.  相似文献   

6.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。  相似文献   

7.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。  相似文献   

8.
张丽  马静 《情报科学》2019,37(10):20-25
【目的/意义】本文构建一种“特征降维”文本复杂网络进行文本表示,解决传统词同现文本复杂网络处理海 量数据时的维数灾难与语义不足问题,再结合机器学习方法提升文本特征提取效果。【方法/过程】依据共现关系抽 取二级词条,再结合依存句法关系抽取三级词条,构建“特征降维”文本复杂网络,接着利用PCA算法和TOPSIS法 评价网络节点重要性提取反映文本主题的关键词作为文本特征词,实现文本特征提取。【结果/结论】本文以网络新 闻数据为实验对象。实验结果表明,特征降维文本复杂网络能较好地表示中文文本,并且在较好地保留了文本语 义信息的同时有效减少网络节点冗余,结合PCA算法的特征提取方法可以使文本分类性能提高。  相似文献   

9.
刘平兰 《情报杂志》2004,23(3):45-47
介绍了一种基于机器学习的手写汉字识别方法。针对写汉字的特点,选择并提取了横竖笔划特征、用边特征、结构划分特征、分区特征点、黑点重量等作为分类特征。在分类策略中采取了先粗分类后细分类的多级分类方法.并将决策树算法ID3成功地应用到分类策略中,在识别中利用决策树引导特征提取。减少了特征提取的数量,从而大大提高了识别速度。  相似文献   

10.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

11.
李缨  于谦 《科技通报》2012,28(8):29-32
维数简约是肺结节分类识别问题中的关键步骤,现有的方法中都是将所有类别的数据作为一个整体进行降维,忽略了不同类别数据之间在特征子集上的差异性。本文提出了一种将类集和类对相结合的有监督流形特征抽取思想,并将之应用于肺结节的分类中,最终形成一个基于CT影像的肺结节分类系统。实验结果表明了方法的有效性。  相似文献   

12.
汉语信息抽取中事件的定位与分类   总被引:1,自引:0,他引:1  
事件抽取是信息抽取的基本任务之一,而对文本中的事件准确定位和分类是保证事件抽取质量的前提.使用向量空间模型来表示事件描述片段的特征,并分类计算特征词的重要度,最后对文本中的事件片段进行定位和分类.试验结果表明该方法能够对文本中的事件片段进行较为准确的定位、分类,因此对于事件抽取任务的前期处理具有重要价值.  相似文献   

13.
Recognition of handwritten Arabic alphabet via hand motion tracking   总被引:1,自引:0,他引:1  
This paper proposes an online video-based approach to handwritten Arabic alphabet recognition. Various temporal and spatial feature extraction techniques are introduced. The motion information of the hand movement is projected onto two static accumulated difference images according to the motion directionality. The temporal analysis is followed by two-dimensional discrete cosine transform and Zonal coding or Radon transformation and low pass filtering. The resulting feature vectors are time-independent thus can be classified by a simple classification technique such as K Nearest Neighbor (KNN). The solution is further enhanced by introducing the notion of superclasses where similar classes are grouped together for the purpose of multiresolutional classification. Experimental results indicate an impressive 99% recognition rate on user-dependant mode. To validate the proposed technique, we have conducted a series of experiments using Hidden Markov models (HMM), which is the classical way of classifying data with temporal dependencies. Experimental results revealed that the proposed feature extraction scheme combined with simple KNN yields superior results to those obtained by the classical HMM-based scheme.  相似文献   

14.
企业碳标签食品生产的决策行为研究   总被引:1,自引:0,他引:1  
本文以食品生产企业为例,构建了生产企业碳标签食品生产的决策行为模型,应用Bootstrap自助抽样法下的结构方程模型研究了影响食品生产企业碳标签食品生产决策行为的主要因素。研究表明,企业规模特征、主观规范、过去行为等是主要影响因素,且企业规模特征与知觉行为控制、主观规范与知觉行为控制间具有明显的交互作用。  相似文献   

15.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

16.
【目的/意义】医生同时兼具提供医疗服务的社会工作者和从事科学研究的科研工作者双重身份,因而需要从更全面、立体的角度组织管理和利用互联网中多源的医生数据用来构建医生画像,对于患者寻求医疗救助、提高健康服务质量具有重要作用。【方法/过程】在提出医生画像概念的基础上,以医院官网、百科类网站、文献数据库、在线健康社区等数据源为基础,提出基于特征分析和标签提取的医生画像构建模型,分别从医生的人口统计属性、简介特长、科研成果、科研合作、患者在线评价五个方面构建医生画像,最后在此基础上进行实证研究,以可视化的方式展示医生画像。【结果/结论】基于特征分析和标签提取的医生画像构建模型能够全面描述医生信息并将其以更加直观的形式展示出来,从而推动为患者提供个性化的健康服务和精准的医生推荐等研究的发展。  相似文献   

17.
基于BP神经网络的印刷体数字识别研究   总被引:1,自引:0,他引:1  
BP神经网络是一种误差逆传播算法训练的多层前馈网络,具备网络学习能力强、输入/输出模式映射关系存贮量大、事先不需要描述输入/输出映射关系等诸多优点的数学方程。本文通过BP神经网络的介绍,利用不变矩特征提取方法设计一种有效的BP神经网络印刷体数字识别演示系统,对印刷体数字识别的深入研究具有一定的指导意义。  相似文献   

18.
[目的/意义]实现海量产品评论数据的快速分析,帮助产品设计人员高效地获取用户需求,在新产品设计的决策中提供参考。[方法/过程]在特征提取和情感分析的基础上,构造了包括"词+词性+词干+位置+依存关系"等节点特征的条件随机场模型,按照"产品特征、谁、在何种情境下、遇到了什么问题"4个要素,以描述手机屏幕和电池的负面评论为例,从产品评论中提取用例。[结果/结论]模型评估和实证研究表明,所构造的模型可以有效地从评论文本中识别产品特征、使用主体、使用情景和遇到的问题,从而快速构造用例,获取用户需求。  相似文献   

19.
基于TM遥感影像的玉米地专题信息自动提取   总被引:1,自引:1,他引:1  
TM遥感影像中专题信息的自动提取是目前遥感界的研究热点,也已成为遥感信息生产流程中的瓶颈环节。本文分析了耕地专题信息自动提取的研究现状,选取了吉林中部和辽宁省东北部作为研究区,采用监督分类的方法对研究区TM遥感影像进行分类,提取了玉米地专题信息,玉米地信息的提取精度为85.5%。根据遥感影像目视解译的原理,提出了基于多特征空间的遥感影像专题信息自动提取的研究方法,通过对多特征空间的数学描述和计算机处理实现 遥感专题信息的自动提取。采用多特征空间的方法将玉米地信息分为光谱特征空间、形状特征空间、区域地学特征空间和干扰特征空间,应用ERDAS8.5遥感图像处理软件中的knowledge engineer模块的开发功能,设计了基于多特征空间的玉米地专题信息自动提取的专家库,使用专家库对玉米地信息进行了自动提取,提取精度为92.9%。从基于多特征空间的分类结果与监督分类结果的比较发现,基于多特征空间的自动提取方法可以提高专题信息的提取效率,对未来实现遥感影像的智能解译是一种研究方法的探索。  相似文献   

20.
自动提取植物染色体特征的研究   总被引:2,自引:0,他引:2  
植物染色体特征参量的提取是实现植物染色体计算机自动识别和分析的关键,本文首先对原始植物染色体图像进行图像分割、边界搜索、背景噪声滤除等处理,将各条染色体从图像中提取出来。然后,提出采用边界的高阶方向链码来判定染色体边界上明显凹凸点的分布,又根据染色体的细化中轴,自动判定出染色体着丝点的位置。进而,测量得到描述染色体特征的主要参量。经对植物染色体图像进行实验,其结果表明这一系列处理方法对植物染色体特征的自动提取是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号