首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

2.
3.
[目的/意义]提出一种适用于德语文本处理的文本相似度计算方法,填补了国内外德语文本聚类研究的空缺。[方法/过程]通过词语提取和特征词选择将每个德语文本表示为一个特征词的集合,寻找集合间配对的特征词对,由特征词对的匹配度得到文本间的相似度。[结果/结论]基于多个德语数据集的实验结果表明,相比于已有方法,本文提出的基于特征词配对的德语文本聚类方法提升了约5%的NMI值和约6%的Purity值。基于特征词配对的相似度计算方法能够保留更多的文本信息,从而进一步提升德语文本聚类的性能。  相似文献   

4.
随着互联网不断发展,境外反动势力利用网络传播不良信息呈愈演愈烈之势,尤其在藏文信息方面。利用最大熵模型,可对网络藏文文本进行分类,识别不良藏文文本及正常藏文文本。用互信息进行特征提取,建立藏文不良文本库用以训练最大熵模型,利用Opennlp最大熵工具包实现功能,利用最大熵模型求出文档属于不良文本和合法文本的概率,通过分析准确率、召回率对识别结果进行分析。通过实验实现了最大熵算法进行藏文文本分类功能,用最大熵算法进行藏文不良文本识别效果比较明显。  相似文献   

5.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。  相似文献   

6.
基于文本聚类方法的我国科技管理研究领域的计量研究   总被引:1,自引:0,他引:1  
丁堃  许侃 《科学学研究》2007,25(A01):10-14
运用文本挖掘的聚类方法,以1994-2006年间14种学术期刊的41015载文为计量对象,揭示出科技管理研究的六大领域及其发展状态,对各个领域的热点问题进行自动识别。为比较准确把握科技管理研究态势提供定量根据,也为文献的内容分析提供一种有效的工具。  相似文献   

7.
一种基于DASOM的两阶段中文文本聚类方法   总被引:2,自引:0,他引:2  
朱红灿  唐毅 《情报杂志》2007,26(9):101-104
研究了一种基于动态自组织神经网络(The Dynamic Adaptive Self-Organizing Map Neural Network简称:DA-SOM)的两阶段中文文档聚类方法,第一阶段对中文文本向量进行DASOM训练,第二阶段对虚拟的坐标集聚类。该算法动态地组织DASOM,由文本的内容来决定模型的结构;与直接聚类相比,降低了计算时间;与基于静态SOM文本聚类相比,减少了输出层节点数,改善了聚类效果。通过数值实验对比表明该方法对中文文本聚类具有有效性。  相似文献   

8.
基于《现代汉语语义分类词典》的文本聚类方法   总被引:1,自引:0,他引:1  
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率.  相似文献   

9.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。  相似文献   

10.
文本聚类是文本数据挖掘的一个重要内容,同时也广泛应用于文本挖掘和信息检索领域。为了克服目前常用的向量空间模型中词条独立性假设的缺点,提出了基于潜在语义标引(LSI)的文本聚类方法,并详细阐述了其基本流程和各步骤的具体实现。  相似文献   

11.
依照ALOAF构件库框架参考模型,首先给出构件库的形式化描述.然后,根据构件库框架的元模型以及相应的数据模型,确定构件在构件库中的存储方式.进而,提出一种基于最大熵的构件库的动态存储方法,概括为分类、模糊聚类、划分和排序.此方法改变传统构件库的静态组织形式,基于最大熵的构件块划分和贝叶斯方法的构件动态排列以及淘汰机制使构件库的存储更合理。  相似文献   

12.
本文在介绍客户细分理论和数据挖掘技术的基础上,提出了一种基于聚类算法和RBF神经网络的电信客户细分模型,并通过大量现实数据的训练,得到了比较理想的细分结果,验证了模型的合理性、有效性和实用性。  相似文献   

13.
垃圾邮件的泛滥提出了极为迫切的技术诉求,文章介绍了基于文本分类技术的垃圾邮件过滤系统模型,首先介绍了整个系统工作流程,然后阐述了系统中文本分词,文本特征提取,Winnow线性分类器等关键环节。  相似文献   

14.
为了克服熵权法特殊约定的局限性,本文对传统的熵权法进行改进,扩展了其适用范围,使其使用更方便。文章结合灰色关联分析,建立了改进熵灰色关联模型,并将其应用到综合评价中,通过实例说明了方法的合理性。  相似文献   

15.
根据JF企业2007-2018年数据,采用熵权-突变级数法评价其商业模式创新的变化情况.结果发现,评价结果与已有研究结论高度匹配,验证该评价思路的科学性和可行性;通过对评价结果的分析,可以将目标企业商业模式创新分为3个发展阶段与2个战略转型期,其中各个阶段又有其独特的商业模式;该公司商业模式创新呈现出"总体平稳、阶段波...  相似文献   

16.
基于知识链和DEA方法的管理策略研究   总被引:7,自引:0,他引:7  
徐建锁  王正欧 《情报科学》2003,21(7):688-690,706
本文提出了新的知识链模型,同时,通过论述以往的知识管理策略,对知识链内部机制进行了分析.并在此基础上应用DEA理论和方法来发现知识链内部造成知识管理难度的主要环节,提出了新的知识管理策略。  相似文献   

17.
基于粗集的支持向量机文本分类方法研究   总被引:1,自引:0,他引:1  
本文提出了一种基于粗糙集的支持向量机文本分类方法。该方法利用粗糙集的约简理论降低了支持向量的维数,同时保证了分类性能。实验表明该方法能获得较好的分类效果。  相似文献   

18.
李文  王炜立  洪胜华 《科技广场》2006,18(11):94-95
本文主要论述了一种改进的基于互信息的特征提取方法及其在中文法律案情文本分类中的应用,文中给出了具体实现过程及实验数据。  相似文献   

19.
机械故障是很多企业都面临的一个难题,尤其是一些生产企业,当机械出现故障时,就会对生产或经营产生影响。当机械故障不能够有效地解决,带来的损失也将会更大。目前已经有很多机械故障的诊断方法,但随着大型机械的不断出现,机械变得越来越复杂,机械故障的诊断也越来越难,传统的诊断方法已经不能够很好地解决一些大型机械系统的故障。人工免疫系统(Artificial Immune System,简称 AIS)和隐马尔科夫模型(Hidden Markov Models,简称HMM)在机械故障诊断系统中都可以应用,但它们在应用的时候都存在有不足,那么是否能够将 AIS 和 HMM 结合起来应用在机械故障的诊断当中呢?本文将对在机械故障诊断中应用 AIS-HMM 混合模型的可行性进行分析。如果能够将AIS-HMM 混合模型应用在机械故障的诊断当中,将会大大提高机械故障的诊断效率。  相似文献   

20.
徐春辉 《科技广场》2007,(5):208-210
通过分析语音特征参数的特点和说话人识别的基本方法,以线性预测倒谱系数为特征参数提取算法以及隐马尔可夫模型为建模算法,利用凌阳单片机作硬件平台,实现了声控锁的语音控制功能。实验结果表明,系统性能稳定,识别效果良好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号