首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。  相似文献   

2.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

3.
文本聚类中文本表示和相似度计算研究综述   总被引:4,自引:0,他引:4  
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   

4.
传统的基于数据流聚类算法的网络攻击检测技术自适应性不强、对问题的依赖性过高造成聚类质量不够理想、聚类效率低等缺陷,提出一种基于期望克隆率的数据流聚类算法。引入衰减函数和时刻权重来反映过去的数据与当前流入的网络数据在整个服务器集群网络数据流中的地位,通过计算抗体期望克隆率来限制抗体克隆的数目以及保持抗体的多样性,采取服务器集群网络中的淘汰策略使最终的网络结构更符合原始数据流的内在特性并生成网络数据的统计信息,然后利用最能反映当前网络行为的统计信息来检测攻击行为。仿真结果表明,该方法能够弥补传统服务器集群网络非确定攻击检测系统的缺陷,提高了网络攻击的检测率,降低了误报率。  相似文献   

5.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。  相似文献   

6.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

7.
在现有的基于字面词语的相似度计算方法和二元语法无词典分词的基础上,进行了评估流程的改进,引入信息量的统一计算,提出了一种基于核心词汇抽取的中文特征信息评估对比方法,并提供相应的实验结果。  相似文献   

8.
自组织映射算法是一种无导师学习算法。在实际聚类应用中,网络识别率受初始权值、竞争方式、样本参数等诸多因素影响。以竞争方式为切入点,以生物学为指导,引入相似度判断规则构建了神经元“兴奋区”,改进了SOM网络,实验证明了算法的有效性。  相似文献   

9.
在互联网普及的今天,人们获得信息的途径以及数量是前所未有的.面对如此庞大的信息,如何选择变得至关重要.故此,网络话题发现技术应运而生.通过该技术,将海量的网络信息按照具体的话题进行归类,既方便了人们获取信息,又大大提高了准确性.  相似文献   

10.
基于文本挖掘的分类与聚类技术   总被引:5,自引:0,他引:5  
从基于文本挖掘理论和实践两方面,探讨了文本的分类与聚类的理论、技术及两者之间的区别,讨论了聚类与分类技术在文本挖掘过程中的重要作用,通过所列举的自动分类与聚类的应用实例,能给读者的实际工作以一定的借鉴。  相似文献   

11.
海量的网络媒体信息使得人们在有限的时间内难以全面地掌握一些话题的信息,这样容易导致部分重要信息的遗漏。话题检测与追踪技术正是在这种需求下产生的。这种技术可以从庞大的信息集合中快速准确地获取人们感兴趣的内容。近几年,话题检测与追踪技术已成为自然语言处理领域热门的研究方向,它能把大量的信息有效地组织起来,并使用相关技术从中挖掘出有用的信息,用简洁有效的方式让人们了解一个事件或现象中所有细节以及它们之间的相关性。对话题跟踪的研究背景、相关概念、评测方法以及相关技术进行了综述,并总结了当前的相关技术。  相似文献   

12.
刘家国 《情报科学》2008,26(1):49-52
综合对博客的多年研究,构建了博客运作模型,试图解释博客兴起的原因和博客运作的机理.本研究对于深入认知博客现象、理解博客兴起原因、探索博客发展规律、推动中国互联网行业的健康发展有着重要的意义.  相似文献   

13.
介绍了网络入侵检测技术,阐述了k-means算法及其思想,并把k-means算法用于网络入侵检测中。实验中采用KDD Cup 1999数据集进行实例验证,结果表明该算法是可行的。  相似文献   

14.
提出一种基于最优权值探测的图像可逆信息隐藏算法。该算法改进了现有的预测方法,利用最优权值探测原理提高预测像素值的精确受,使预测误差差值直方图更加紧凑、峰值更高。实验结果表明,相比其它可逆嵌入算法.该算法在保证图像质量的同时,提高了嵌入容量。算法整体性能高。  相似文献   

15.
傅莉 《科技广场》2013,(8):88-90
传统火灾报警系统基于单一参数进行探测,误报和漏报的问题日益突出。为了预防和减少火灾的发生,利用信息融合技术将多传感器信号数据进行融合,让我们对环境或对象特征有全面而正确的认识。本文从火灾探测的基本原理分析入手,将多传感器信息融合技术的框架引入火灾探测的算法研究中,按照数据融合的三个层次,进行层次化的信息融合,并且采用了模块化的算法识别。  相似文献   

16.
人脸检测是计算机视觉研究的重要研究方向之一,提出了一种基于新色彩空间YCgCr的人脸检测算法。首先比较了YCgCr间和YCbCr色彩空间,得出YCgCr色彩空间的在人脸处理方面更有优势,然后通过二维高斯分布提取肤色区域,对二值化的图像应用区域增长算法求取最大联通区域,得到准确的面部图像,实验结果表明该算法是快速而有效的。  相似文献   

17.
入侵检测技术作为一种主动的网络安全防护技术越来越引起研究者的关注,但现有技术的误检率和漏检率较高。对入侵检测技术进行了介绍,分析了k-means算法及其存在的问题,提出了相应的改进策略,并将改进后的算法应用于入侵检测系统中。仿真实验结果表明,改进后的k-means算法在检测率和误检率上均优于传统的k—means算法。  相似文献   

18.
ID3算法计算速度较快、容易实现并且适用于处理规模较大的学习问题,但其较倾向于选择取值较多的类别,从而导致丢失全局最优解。提出一种改进的ID3算法,并将其应用于管道腐蚀检测系统中,研究结果表明,改进后的算法具有较高的可信度。  相似文献   

19.
[目的]从海量微博舆情信息中准确、高效地发现和挖掘当下的热点主题,以期为政府和企业监控和管理舆情动态提供有价值的参考。[方法]研究首先从维度、特征和度量三方面综合考虑构建"帖子-主题"二模网络模型,其次选择词频、主题权重和词频增长率3个特征来抽取模型所需的有效关键词,然后选取社会网络分析法中的社区发现方法进行基于关键词的主题社区发现,最后综合考虑用户影响力和传播影响力两个属性,通过热度分析确立主题热度,识别热点主题。[结果]实验表明,该方法能有效挖掘网络舆情中的热点主题,检测出的主题结果均正确,验证了本文方法的可行性和有效性。在此基础上,研究还选取实例进一步对主题的热度迁移和情感倾向进行了分析,具备一定的预警作用。  相似文献   

20.
基于加速遗传算法的组合预测方法研究   总被引:9,自引:0,他引:9  
王硕  唐小我  曾勇 《科研管理》2002,23(3):118-121
应用加速遗传算法解决组合预测问题,可以克服传统遗传算法的缺点:对搜索空间(优化变量空间)的大小变化适应能力差,计算最大,易出现早熟收敛,控制参数的设置技术无明确准则指导等,与已有结果相比,对预测误差信息矩阵无正定性要求,目标函数可以推广到规模庞大,能提高预测精度等优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号