首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

2.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

3.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

4.
在支持向量机和遗传算法的基础上,提出一种新的启发式多层文本分类算法。实验结果证明了该算法的可行性和有效性。文本分类技术是解决大规模文本处理的有效途径。  相似文献   

5.
本文首先利用有限混合模型对前向神经网络的交叉覆盖算法进行优化,再将优化后的覆盖算法应用于已进行分词预处理的中文文本数据库。从实验结果来看,优化后的覆盖算法在测试精度上取得了令人满意的结果,10次实验所得到的平均精度除经济类外,其余都不同程度高于原覆盖算法处理同类数据的分类精度。  相似文献   

6.
赖娟 《科技通报》2012,28(2):152-154
研究了中文词自动分类问题。针对传统的蚁群算法中文词语分类精确度低等问题,提出了一种将蚁群算法应用到了中文词语自动分类中。方法建立在首先对大规模语料文本进行统计和计算的基础上,得到词的一元和二元信息,然后采用了蚁群算法对该信息进行词的分类。实验结果表明,提出的算法有效提高了词语分类的精确度。  相似文献   

7.
王云英 《情报杂志》2013,(1):141-144
高效的Web页面语义标注方法是提高Web信息资源利用效率和知识创新的关键。针对当前Web页面语义标注方法存在的问题和Web页面表现出的结构特征和文本特征及其主题分布规律,设计了基于PLSA主题模型的Web页面语义标注算法。该算法分别对Web页面的结构特征和文本特征构建独立的PLSA主题模型,采用自适应不对称学习算法对这些独立的PLSA主题模型进行集成和优化,最终形成新的综合性的PLSA主题模型进行未知Web页面的自动语义标注。实验结果表明,该算法能够显著提高Web页面语义标注的准确率和效率,可以有效地解决大规模Web页面语义标注问题。  相似文献   

8.
聂晓  翟小兵 《科技通报》2015,(4):215-217,221
为了提高数据库检索的智能性及个性化推荐,将改进的ART算法应用于数据库自动知识推荐。首先对基本ART算法及ART网络算法进行了描述,接着提出了改进的ART算法,最后运用实例仿真,验证该算法性能。文本采用某高校数字图书馆数据库作为仿真对象,验证其自动知识推荐的功能,同时对其资源消耗和扫描时间进行了计算仿真,实验证明,本文算法在数据库自动知识推荐过程中,所耗资源少且效率高,具有一定的研究价值。  相似文献   

9.
针对当前竞争情报分析算法无法有效地处理结构类型多样的Web评论信息,研究并设计了基于Web评论挖掘的动态竞争情报分析算法进行语义层面的情报分析,获取深层次的动态竞争情报。该算法主要由评论内容识别与抽取、语义关联挖掘、文本语义极性分析3个部分组成。实验结果表明,该算法能够显著地提高情报分析的准确率和效率,实现深层次的评论挖掘和情报知识发现。  相似文献   

10.
文本聚类算法的质量评价   总被引:4,自引:0,他引:4  
文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段,选择了k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明,STC聚类算法由于在处理文本时充分考虑了文本的短语特性,其聚类效果较好;基于Ant的聚类算法的结果受参数输入的影响较大;在Ant聚类算法中引入文本特性可以提高聚类结果的质量。  相似文献   

11.
基于高频词汇的英文文本可视化   总被引:1,自引:0,他引:1  
为探索高频词汇间上下文关系的远近,本文研究了一种基于英文文本中高频词汇的可视化算法流程,并进行了可视化实现。我们首先用统计算法从英文文本中抽取出高频词汇及词汇间的上下文,然后定义了3种词汇间的连接方式,计算出有上下文关系的词汇间的关系度,并通过k-means算法对词汇间的关系度进行聚类,以体现出词汇间关系的远近,最后利用放射状树布局对聚类结果进行可视化。通过这种可视化形式,我们能够快速理解英文文本的内容。  相似文献   

12.
王倩  曾金  刘家伟  戚越 《情报科学》2020,38(3):64-69
【目的/意义】在学术大数据的应用背景下,对学术文本更加细粒度、语义化的分析挖掘日益迫切,学术文本结构功能识别成为科研领域的一个研究热点。【方法/过程】本文从段落的层次来识别章节结构功能,提出利用结合卷积神经网络和循环神经网络的特征对学术文本段落进行表达,然后进行分类。【结果/结论】文本提出的深度学习方法在整体分类结果上优于传统的机器学习方法,同时极大的减少了传统特征工程的人力需求。  相似文献   

13.
彭兵雄 《科教文汇》2011,(14):140-141
忠实问题一直是翻译当中备受关注的问题,尤其是内容与形式的忠实,本文结合纽马克将文本分类进行翻译的观点,分析讨论了翻译中对于文体风格的忠实,并提出在翻译过程中对于不同的文体风格,应根据其不同的侧重点,采取不同的翻译策略。  相似文献   

14.
文本趋势挖掘综述   总被引:1,自引:0,他引:1  
文本趋势挖掘是文本挖掘新的研究热点,具有广阔应用前景。本文首先对文本趋势挖掘进行了概述,讨论了文本趋势挖掘的应用领域。然后综述了文本趋势挖掘的国内外研究现状,详细介绍了文本趋势挖掘的主流方法与技术,并分析了现有方法存在的主要问题。最后指出了文本趋势挖掘未来的发展方向。  相似文献   

15.
基于陕西省省、市两级对比视角,采用内容分析法从总体数量、文本类型、颁布主体以及政策工具4个维度对陕西省科技金融政策文本进行量化分析.研究表明,目前陕西省科技金融政策体系较为完整,在数量上呈现稳定增长,在文种类型及主题上日渐丰富,省市两级能呈现省级引领、市级学习并赶超的态势,但政策工具结构失衡,政策颁布主体缺乏协作性,因此建议协调政策工具结构,增加需求面政策工具的使用,加强横向与纵向部门的协调性,并积极提升政策从省级传递到市级层面的效率,同时提高政策的实践性及针对性.  相似文献   

16.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。  相似文献   

17.
科学文本研究的神话范式及其转变   总被引:2,自引:0,他引:2       下载免费PDF全文
王彦雨  池田 《科学学研究》2009,27(3):328-333
 传统的科学文本分析范式是内容无涉的神话式研究模式,它在科学文本与科学实践之间作了“真实反映论”的处理。而SSK学者则打开了科学文本的黑箱,从认知的角度来解构传统的科学文本神话观,试图打破传统科学文本观在文本与真实世界之间所标注的反映论逻辑。文章认为这种转向既与科学哲学界语言学、修辞学、解释学转向相一致,同时也打开了SSK进行自我反思的通途,具有重要的学术意义;就实践意义来讲,它提醒人们进行科学文本关注,为科学失范的预防提供认识论依据,同时也启示了一种基于传统宏观分析与SSK微观研究互补的新的方法论。  相似文献   

18.
张莉 《科教文汇》2011,(34):142-143
商务英语翻译具有其自身的特点和翻译规律,本文从分析商务英语的文本类型及文本功能入手,论述了商务英语翻译的功能性,并从功能角度探讨了商务英语翻译中的一些问题:指导原则、翻译提纲和翻译方法。  相似文献   

19.
文本分析(也称“内容分析”)是各国情报部门和科研人员广泛采用的一种分析文本的方法。文本分析通过将定性的,半结构性的文本编码,使定性的文本可以用定量的方法来分析,从而大幅提高分析的可靠性。通过考察文本分析方法的独特优势和基本步骤,探索该方法在竞争情报分析中的应用。文本分析方法在战略集团分析、竞争对手假设分析、竞争对手目标分析、竞争对手战略分析和竞争对手使命分析等竞争情报领域都有独特的优势。  相似文献   

20.
本研究采用2(语篇难度)×3(文章标记类型)的实验设计,研究了文章标记对英语阅读理解的影响。结果表明:(1)文章标记对英语语篇信息理解和保持主效应显著;(2)文章标记与英语语篇难度之间存在显著的交互作用,英语语篇容易时,标记效应不显著;英语语篇较难时,标记效应显著;(3)当阅读材料较难时,全标记条件下,测试者在英语语篇信息理解和保持方面得分最高;无标记次之;半标记最低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号