首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
排序是信息检索、数据挖掘以及社会网络分析的基础工作之一。 在线社交网络和社 会媒体的快速发展积累了大量的图数据——由表示实体的节点和表示实体间关系的连边构 成。 图数据中节点之间连接关系复杂, 通常缺少显式的全序结构, 使得图排序在图数据分析 中显得尤为重要。 图排序算法主要包括 2 大类, 面向节点中心度的图排序算法和面向节点集 合多样性的图排序算法。 与传统的图排序不同 , 多样性图排序考虑排序和聚类的融合, 体现 为节点集合对网络整体的覆盖程度。 近年来, 多样性图排序得到了广泛的关注, 取得了一系 列研究进展,研究成果成功应用到了搜索结果排序、文档自动摘要、信息推荐系统和影响最大 化等诸多场景中。 文章评述了多样性图排序的研究现状及主要进展, 将现有的多样性图排序 方法按照研究思路的不同分为边际效益最大化、竞争随机游走、聚类与排序互增强 3 类, 分别 评述了每类方法的优势和不足。 最后指出 , 设计有效的评价指标和标准测试集、克服多样性 图排序面临的精度和速度的矛盾等是多样性图排序未来的研究重点。  相似文献   

2.
王彦慈 《情报科学》2017,35(8):23-27
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。  相似文献   

3.
李慧 《现代情报》2015,35(2):159-164
排序算法的好坏很大程度上影响了搜索引擎的用户体验,尤其是近些年随着语义检索技术的发展,使其检索和排序的对象不仅仅局限于文档和网页,更包括了实体和关系等。在对现有研究与应用调研的基础上,对当前语义检索研究进行了综述,并按照排序的阶段将其分为实体排序、关系排序和本体文档排序,并详细阐述了每种排序算法的研究进展,最后指出,将用户的社会网络因素同已有的排序算法相结合,是未来语义排序的发展趋势之一。  相似文献   

4.
传统的基于数据流聚类算法的网络攻击检测技术自适应性不强、对问题的依赖性过高造成聚类质量不够理想、聚类效率低等缺陷,提出一种基于期望克隆率的数据流聚类算法。引入衰减函数和时刻权重来反映过去的数据与当前流入的网络数据在整个服务器集群网络数据流中的地位,通过计算抗体期望克隆率来限制抗体克隆的数目以及保持抗体的多样性,采取服务器集群网络中的淘汰策略使最终的网络结构更符合原始数据流的内在特性并生成网络数据的统计信息,然后利用最能反映当前网络行为的统计信息来检测攻击行为。仿真结果表明,该方法能够弥补传统服务器集群网络非确定攻击检测系统的缺陷,提高了网络攻击的检测率,降低了误报率。  相似文献   

5.
传统方法中,对XML数据库的融合中心带宽扩维算法采用谱估计方法,当融合中心出现了大量以海量数据为基础的信息服务数据时,后续访问需在多个服务器中遍历许多节点,影响访问效率。提出一种基于节点分裂日志的XML数据库融合中心带宽扩维感知算法。首先构建XML数据库相对状态系统模型与数据融合算法,设计节点分裂日志的数据融合结构,通过预获取有限的带宽中心信息,推导出实体关联知识库,利用表征关联知识有效指导XML数据库的资源融合和重整,构建实体模型,提高数据融合中心的聚类能力。仿真实验结果表明,该法能有效提高XML数据库融合中心宽带扩维匹配率,执行效率和数据聚类效率提高,展示其优越的应用价值。  相似文献   

6.
针对知识发现中的模糊信息查询问题,提出了一种基于反馈网络的模糊概念聚类及模式联想设计方法.按照分类要求对所要查询的概念集合进行量化编码,并对编码后的数据进行规整处理.对于概念聚类采用多层反馈神经网络的FP聚类算法,而概念联想采用自反馈神经网络的椭球学习算法实现.将基于上述算法开发出的信息模糊查询系统应用于图书信息查询,实验结果证明了该方法的有效性.  相似文献   

7.
李盼池 《情报杂志》2003,22(4):54-55
针对知识发现中的模糊信息查询问题,提出了一种基于反馈网络的模糊概念聚类及模式联想设计方法。首先按照分类要求对所要查询的概念集合进行量化编码,然后对编码后的数据进行规整处理。对于概念聚类采用多层反馈神经网络的FP聚类算法,而概念联想采用白反馈神经网络的椭球学习算法实现。将基于上述算法开发出的信息模糊查询系统应用于图书信息查询,实验结果征明了该方法的有效性。  相似文献   

8.
针对现有的网络社区挖掘算法在社区划分的质量不高及执行效率低的问题,提出了一种基于日志聚类的邮件网络社区挖掘算法LENCM(the log clustering based e-mail network community mining algorithm),算法根据日志聚类节点的密度变化确定核心节点,构成日志连通子图并确定邮件网络社区划分的初始社区中心点和个数,采用错误注入的方式构造算子,并把执行后的日志与关联规则进行比较,借助社区中心动态调整方法将非核心节点划分至所属社区。实验证明基于日志聚类的邮件网络社区划分挖掘算法有较高的划分质量和较快的执行效率,具有一定的有效性和可行性。  相似文献   

9.
后基因组时代,如何从大量的蛋白质相互作用(PPI)数据中寻找特定信息并以图形方式显示是迫切需要解决的问题.为此,本文提出了一种基于极大团扩展的蛋白质复合物聚类算法,该算法通过一种基于极大团扩展的蛋白质符合物识别算法构造功能模块,对PPI网络中的功能模块进行聚类,通过将功能模块用抽象节点代替的方法将PPI网络层次化,这样不但降低了复杂性而且提高了PPI网络中信息的可阅读性.同时采用增加、删除、修改数据的方法对算法进行稳定性分析.结果表明,该算法具有较好稳定性.对于其他具有相似结构的网络,该方法也具有借鉴意义.  相似文献   

10.
《科技风》2017,(26)
随着基因芯片和DNA微阵列等高通量、短读取、低成本检测技术的发展,从而产生了丰富的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找到全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出了双聚类概念,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件的同时性。目前比较成熟的双聚类算法大约有十七种左右。基于此本文简要调研了现有的三种具有代表性的双聚类算法,系统的分析了每种算法的设计步骤,算法原理,操作环境以及应用。这对于不同的基因数据如何选择更加合适的双聚类算法和软件提供了一定的指导。  相似文献   

11.
[目的/意义]分析社会科学数据集的跨学科性有助于理解数据集在不同学科的扩散规律,促进数据集在不同学科之间开放共享。[方法/过程]本文以CHARLS和CGSS数据集为例,首先对CHARLS和CGSS数据集的学科多样性与平衡性进行测度分析;其次构建CHARLS和CGSS数据集跨学科合作网络,采用Louvain算法对网络进行聚类,探测不同的研究社区,然后采用BERTopic对使用数据集的文本进行主题建模;最后构建不同阶段的跨学科合作网络,揭示CHARLS和CGSS数据集跨学科合作演化特征。[结果/结论]CHARLS和CGSS数据集的跨学科多样性和平衡性不断增长,使用CHARLS和CGSS数据集的学科均形成了以少数学科为主导,多学科共同参与的格局;使用CGSS数据集的研究主题比CHARLS数据集的相对较为分散;CHARLS和CGSS数据集的跨学科合作网络节点数、边数以及社区数在不断增长,网络密度有所下降,不同阶段的主导学科不断变化。  相似文献   

12.
一种大规模中文搜索日志的层次聚类方法   总被引:1,自引:0,他引:1  
孙锐  金澎 《科技通报》2012,28(8):83-85
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。  相似文献   

13.
刘小平  田晓颖 《情报科学》2018,36(1):96-101
【目的/意义】为了解媒体微博信息传播规律与特征,识别具有高度影响力的媒体微博节点与类型,更有效 地对信息传播进行监管和引导。【方法/过程】研究基于社会网络理论,选取新浪微博中的部分媒体微博为研究样 本,测度其社会网络结构特征,并结合中心度与LeaderRank 算法测度媒体微博影响力。【结果/结论】研究发现,媒体 微博社会网络整体较为紧密,信息在媒体微博网络中的传播速度较快,网络节点之间的整体凝聚性强;网络结构与 节点位置决定着成员的影响力程度;具有高度影响力的核心节点的资源控制能力与话语权相对较大,可以通过改 变中心度、聚类系数等手段引导核心节点,控制信息传播态势。  相似文献   

14.
为探讨大数据的概念及全球的研究现状,以Web of Science TM核心集合作为数据源,对时间为2010—2016年期间有关大数据的经济管理类核心期刊进行文献梳理研究,利用知识图谱法、共词分析法和引文分析法对大数据研究领域的基础知识、知识演进以及研究热点及趋势展开分析和评述。基于文献计量软件Citespace绘制出时区视图、聚类图等,得出对大数据概念的多视角理解以及研究热点和研究趋势。  相似文献   

15.
赵发珍 《现代情报》2012,32(11):73-77
共链分析是将共引理论应用到网络链接结构分析中,揭示出网络社区网站间的链接关系,挖掘隐藏在链接关系背后的规律及网络特征。本文选取了具有代表性的30个网络社区网站作为研究对象,利用搜索引擎yahoo!和Bing收集了这30个网络社区的共链数,然后经过处理后用SPSS和UCINET6软件分别做出多维尺度图和社会网络图谱,通过对共链数据的聚类和可视化分析,得出这30个社区网站相互之间的关系及其聚类关系。  相似文献   

16.
恐怖人员在网络中发送恐怖信息时,根据恐怖信息来源的网络节点能够实现对恐怖人员的准确定位。恐怖人员发送恐怖信息与正常信息的属性不同,伪装性较强。利用传统的恐怖信息挖掘方法进行恐怖人员定位时,固有的恐怖信息被伪装,难以进行恐怖信息的准确挖掘,造成恐怖人员定位准确性降低。为此,提出一种基于聚类算法的网络中恐怖信息挖掘方法。在网络信息中筛选有价值的恐怖信息特征,从而为恐怖信息挖掘提供依据。利用聚类算法,对所有恐怖信息特征进行聚类处理,能够实现对网络中恐怖信息的挖掘,最终实现了对恐怖人员的定位。实验结果表明,利用该方法进行网络中恐怖信息挖掘,能够实现对恐怖人员的准确定位。  相似文献   

17.
关联规则数据结构分布重排的数据库索引算法   总被引:1,自引:0,他引:1  
数据库优化索引是实现文本数据信息智能存储和调用的关键技术,网络信息文本数据具有较大的关联规则特性,造成了数据结构类间干扰,影响数据库索引精度。传统方法采用虚拟数据分布重组数据库索引技术,文本数据库扩展查询中会出现聚类特征不一致。提出一种基于关联规则数据结构分布重排的数据库索引算法。先构建网络信息文本数据库相对关联状态系统模型与关联规则关系图,在此基础上进行数据库规则信息流的结构分布重排,挖掘关联特征,实现数据库索引算法改进。仿真结果表明,采用该算法进行文本数据库索引,提高了特征匹配效率,降低执行时间,展示了优越性能。  相似文献   

18.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

19.
目前国内对于专利地图的研究大部分仍停留在应用阶段,对其制作的基础理论研究较少。概述目前专利地图类别,分析现有专利地图制作方法的缺陷,从增强专利文献信息可信度和价值的角度,运用TF-IDF(term…frequency-inverse…document…frequency)统计特征将非结构化的专利文献信息映射到低维空间中,采用密度峰值快速搜索聚类(clustering…by…fast…search…and…find…of…density…peaks,CFSFDP)算法进行聚类,对同一聚类中的专利文献特征进行分析,得到不同专利文献间的发展关系并映射为图表示,从而构建以有向图表示的专利地图。改进提出的这种专利地图制作方法,同时利用了结构化信息与非结构化信息,以使专利地图更为真实准确地反映目标技术领域的技术发展过程。  相似文献   

20.
付淇  黎虹  李广振 《科技广场》2010,(1):237-240
流数据挖掘技术是数据挖掘领域的新研究方向之一,而聚类研究又是其重要的内容。本文介绍了流数据基本特点,在统一流聚类表示模型的基础上,对现有流数据聚类算法进行了总结,并进一步提出了流数据聚类技术的研究方向和前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号