首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

2.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

3.
在传统矢量空间检索模式中,仅仅依赖孤立的关键词来进行文献的标引,而自然语言中充斥着大量的语义关联和多义、歧义问题,这样往往使得文本信息的表示和检索结果难以尽如人意。可见,尽可能丰富地捕捉存在于上下文中的语义关联,对于有效地标引和检索是相当重要的。本文提出了一种利用语义格进行文献的语义表述的方法,对标引词的语义格加权算法做了更为合理的解释和推导,并引入了一种计算词语之间相似度的方法。  相似文献   

4.
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。  相似文献   

5.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

6.
基于潜在语义索引和遗传算法的文本特征提取方法   总被引:9,自引:0,他引:9  
郝占刚  王正欧 《情报科学》2006,24(1):104-107
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value Deccvaposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的雏数,并能提高分类准确率。  相似文献   

7.
为了提高用户对网站使用的效率,提高网站本体模型的搜索性能,研究一种高效的网页语义概念树构建方法,进行搜索覆盖度层状拓展。传统方法中,使用搜索引擎的词语相似度算法进行搜索拓展,利用规则、聚类等技术对形式背景进行约简,无法有效简历概念间的上下位关系,性能不好。提出一种基于语义主题树特征匹配的搜索覆盖度层状拓展方法,进行Web语义模型和主题树构建,构建特征空间互信息区域文档词频向量模型,对数据库中记录的属性字段进行归类抽象,形成概念汇聚点,实现语义主题树构建搜索覆盖度拓展设计,构建语义主题树特征匹配算法,优化搜索引擎对文本特征的搜索敏感度,提高搜索覆盖度,实现文本搜索覆盖度层状拓展。实验分析得出,该方法具有较好的文本特征分类结果,语义层次结构清晰,可以有效提高文本数据召回率和查准率,展示了较好的应用价值。  相似文献   

8.
基于中文信息抽取的概念,提出一套基于语义模板的地震应急文本信息地图自动标绘的技术方案。针对地震应急文本信息和汉语的特点,对应急文本信息进行分词、词性标注和语义分析等处理,按照预定义语义模板提取震情、灾情信息并形成结构化信息、并与空间关联,标绘形成地震应急态势图。方案实现了传统手工标绘向自动标绘的转换,提高了地震应急态势图标绘效率。  相似文献   

9.
巫桂梅 《科技通报》2012,28(7):148-151
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。  相似文献   

10.
提出了一种特征选择和特征抽取相结合的特征降维方法.首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

11.
基于分类的VSM模式下文本检索研究   总被引:2,自引:0,他引:2  
刘海峰  王元元  王倩 《情报科学》2006,24(11):1700-1703
本文针对向量空间模型下文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法;对TF—IDF因子提出了位置参数加权模式;对信息需求表达模糊、数据稀疏等问题总结了解决的方法。  相似文献   

12.
根据战略定位和有关经济指标数据对黑龙江省进行SWOT分析,总结出黑龙江省的优势、弱势、机会和威胁.最后,结合这些因素,提出一些切实可行的策略.  相似文献   

13.
基于工作过程开发高职课程是目前高职院校的改革热点,理论实践一体化教学的新课程实施是保障,合理的课程设计、组织是课程改革的关键。本文结合克拉玛依职业技术学院电气自动化专业理实一体化课程设计实施,进行总结,提出了自己的建议,以供参考。  相似文献   

14.
创新科技政策及其三阶段周期研究   总被引:1,自引:0,他引:1  
创新科技政策(ITP)是政府为了影响或者控制企业技术创新资源和知识利用及转化的速度、效率、规模,而采用的一系列政策的总和,强调政策决策者应关注创新技术的动态演化和变革。通过对创新政策、产业政策和ITP的比较,探讨了ITP的特点和意义,进一步对创新科技政策三阶段周期进行归纳,总结了各阶段政策目标和支持措施。结合以色列ITP实施案例得出启示,ITP为区域创新政策刺激企业创新提供了新的研究视角。  相似文献   

15.
[目的/意义]探讨互联网+时代下网络用户信息需求对新电商模式的影响。[方法/过程]通过文献分析法,综合互联网+时代网络用户信息需求新特点,结合现实电商发展案例分析,总结出若干新形势下电商运营模式。[结果/结论]结合用户信息需求趋势新特点提出电商模式的构建启示,引入政府、高校及科研机构、个人(用户)三大协同主体,与电商主体共同构建了集合个性化需求、智能化生产、社会化供应三大特点的协同型电商模式。  相似文献   

16.
李永捷  鲁若愚 《软科学》2007,21(2):75-79
分析就业服务系统所面临的困境,运用市场营销理念,从劳动力市场营销过程对现行的就业服务进行系统思考。提出就业服务需要制定战略计划,明确组织的使命、目标、战略和业务组合计划,制定详细的环境分析、营销目标、市场细分及营销组合策略,建立起对劳动力市场营销计划的实施系统和评估控制机制,及时进行劳动力市场营销调研并建立起营销信息系统。对转型时期就业服务系统的构建和完善提出了新的思路。  相似文献   

17.
肖余春  杨丹 《科研管理》2013,(7):112-118
近年来,知识经济的迅猛发展对如何有效地提高学习效能提出了更高的要求,多团队学习作为一种新兴的学习方式迅速发展,但是关于多团队学习的研究并不多见,多团队学习与效能间的关系研究更是新兴课题。本文对多团队学习的相关理论进行了探讨,提出了多团队学习的概念构思,采用心理学实验方法进行实证研究。研究以216名学生为实验对象,采用双盲法在国家双语教学示范课程《组织行为学》网络平台验证多团队学习与学习效能之间的关系。实验结果表明:非多团队学习与多团队学习对效能的影响存在显著差异;多团队学习过程中,学生的参与程度与多团队效能之间呈显著正相关关系,网络作为学习的辅助手段,对学生的学习效能有显著影响。多团队学习的研究为提高学习效率提供了新的方法和途径。  相似文献   

18.
李文文  陈雅 《现代情报》2010,30(12):145-149
该文在综述研究了国内外数字馆藏评价的研究的基础之上,吸收了各位学者的观点,结合我国数字馆藏评价的实际发展情况,从数字资源的使用过程的角度出发,提出了由资源内容、检索系统、用户使用行为、成本——效益、管理和服务6个要素组成的基于用户使用过程的数字馆藏评价指标体系。  相似文献   

19.
邓智心 《现代情报》2013,33(2):101-104
探讨以文献管理软件NoteExpress来做文献计量学研究。应用文献管理软件NoteExpress对大量源于不同数据库的文献信息进行有效归总,并利用其信息统计和分析功能对特殊主题文献进行计量学统计和分析,是一种关于文献计量学研究的简便工具。  相似文献   

20.
本文针对高教版"分光光度法测定芦丁含量"实验中显色对比法的一些不足,提出了改进方法——标准曲线法。通过测定方法的改进,弥补了原测定方法的不足,达到了良好的实验效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号