共查询到20条相似文献,搜索用时 500 毫秒
1.
[目的/意义] 针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并拓展科学知识图谱的分析应用场景。[方法/过程] 引入基于深度学习的网络嵌入模型和聚类方法改进原有的网络社团划分聚类方法,利用流形学习降维可视化算法扩大数据处理能力,并设计由下至上分层可视化布局方法,提升可视化图谱的稳定性与细节揭示能力。[结果/结论] 以科睿唯安公司的基本科学指标数据库(ESI)研究前沿中高被引论文作为分析数据集,使用新聚类算法得到1 169个研究领域,通过改进的可视化布局算法形成全领域科学结构图谱。与前几期科学结构图谱相比,本文提出的方法支持更大规模的数据分析,对可视化细节揭示与稳定性也有大幅优化,可以更好地展示全领域科学研究宏观结构及内在关系,为全领域科学知识图谱的绘制与构建提供更可靠的方法和技术支持。 相似文献
2.
本文提出一种新的基于语义核的中文实体关系抽取方法,在通常的序列核中嵌入语义信息,然后用改进后的k均值算法进行聚类。实验结果证明我们的方法是比较有潜力的。 相似文献
3.
[目的/意义] 高校图书馆信息化水平高,但数据挖掘与智慧化水平有待提升。复杂网络以图数据库为存储和图查询的载体,对图结构数据进行统一组织和挖掘。图嵌入、图算法技术相较于传统机器学习方法能够充分挖掘图结构数据中的隐含联系。本研究运用复杂网络技术融合多源数据,探索图嵌入技术、图算法等图结构数据挖掘方法在提升图书馆智慧化水平中的作用。[方法/过程] 首先基于可获取的数据进行数据特征分析与清洗;其次结合数据特征构建复杂网络概念模型,采用Neo4j批量导入技术实现网络构建和存储;最后探索图算法、图嵌入技术在图结构数据挖掘中的应用。[结果/结论] 以图结构融合多源数据构建图书馆复杂网络,并以图数据库作为存储介质。图算法与图嵌入技术在在用户画像分析、精准推荐、智能问答等图书馆智能化应用等方面具有独特优势。 相似文献
4.
5.
进行学术期刊关键词分析对于掌握学科主题和学科构成脉络具有重要意义,由此本研究利用网络嵌入技术提取了大型关键词关联网络的高阶信息,并利用聚类算法对“图书馆学;情报学”学科进行关键词主题可视化分析。首先,刻画了关键词之间的局部聚集和全局分布,并分析了最近四年中该学科的热度持续、热度增加和热度减退主题,最后通过国内外关键词关联网络对比揭示了中外研究热点异同。 相似文献
6.
7.
非负矩阵分解(NMF)是一种基于局部的数据挖掘方法。算法的非负约束使其很适合处理图像等非负数据。然而,原始的NMF算法和多数改进NMF算法并未明确考虑数据的几何结构。本文提出一种改进的非负矩阵分解算法,在矩阵分解过程中明确考虑了数据集的几何信息,包括类内数据和类间数据的关系。在COIL20和ALOI数据库上的测试结果表明了算法的有效性。 相似文献
8.
本文提出了一种基于DWT的数字水印算法。算法首先对水印图像做混沌置乱以及压缩编码,既加强水印的鲁棒性,又提高了水印的嵌入容量。综合考虑水印的鲁棒性和透明性,本算法采用水印信息的多分辨率重复嵌入思想。将原始图像3级小波分解后的系数进行排序分组,据此,针对不同分组,采用不同强度的嵌入系数,进行相应水印分解子图的重复嵌入。各子图分组数目即为水印重复嵌入的次数。并且在Matlab环境中进行仿真实验,验证了这种水印算法是可行的,具有一定的鲁棒性也能够提高水印嵌入的容量。 相似文献
9.
支持向量聚类(Support Vector Clustering, SVC)算法主要分为两个阶段:训练阶段和聚类分配阶段.由于需要计算邻接矩阵,聚类分配阶段消耗的计算时间远比训练阶段多.本文在计算邻接矩阵前先利用核矩阵对数据进行初始分类,在每个初始类中寻找一个代表点.因为代表点和它所在的初始类拥有相同的簇标号,所以只需计算这些代表点集上的邻接矩阵.给每个代表点分配一个簇标号,代表点所代表的初始类内的数据点也就获得相同的簇标号,这样将有效减少聚类分配的时间.数值实验结果表明,本文提出的改进SVC算法不仅显著改善了SVC算法的时间性能,而且在聚类精度上也有一定程度的提高. 相似文献
10.
基于灰关系分析的模糊聚类 总被引:1,自引:0,他引:1
灰关系分析(Grey relational analysis, GRA))能够度量参考样本和比较样本间的相似性而广泛应用于聚类算法中,但目前基于GRA的聚类方法对灰关系阈值的设定采用尝试法,难以刻画信息的完全度.为此,本文将灰关系分析所学习的相似性度量嵌入到流行的模糊聚类算法中,从而提出了基于灰关系分析的模糊聚类方法.分析了灰关系性质和核机理论相似性基础之上,由灰色理论中的灰关系衍生出一种新型核--灰关系核,同时,也由核机理论诱导出一种新的灰关系度量,从而构建了灰关系分析和核机理论间的一条联系纽带.UCI数据集上的模拟实验验证了基于灰关系分析的模糊聚类方法和所提灰关系度量的有效性. 相似文献
11.
文章分析了新型学术交流模式、e-Science、数据密集型科研等不同科研场景对数字信息资源的依赖,并提出应对策略。新型学术交流模式主要依赖于数字资源的开放关联、组织描述、深度开放以及免费共享;e-Science主要依赖于数字资源的元数据描述、内容存储关联等多种服务,并且资源依赖具有学科特征;数据密集型科研主要依赖于海量科学数据资源以及多类型软件工具类资源等。针对学术交流模式的变革提出信息资源的多样化建设尤其是开放科学数据的建设,并嵌入到学术交流过程中;针对e-Science的发展,提出把开放信息资源建设嵌入到科研环境中,关注不同学科对信息资源的需求特点;针对数据密集型科研,提出加强工具类资源的建设,提供与数据相关的更多服务等。 相似文献
12.
13.
14.
在高维空间中k最近邻搜索(KNNS)应用非常广泛,但是目前很多KNNS算法都根据欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用.本文提出一种基于角相似性的k最近邻搜索算法(AS-KNNS).该算法先提出基于角相似性的数据索引结构(AS-Index),参照一条中心线和一条参照线,将数据以系列壳-超圆锥体方式进行组织并分别线性存储;然后确定查询对象的空间位置,有效确定一个以从原点到查询对象的直线为中心线的超圆锥体并在其中进行搜索.实验结果表明,AS-KNNS算法较其他k最近邻搜索算法有更好的性能. 相似文献
15.
算法驱动的人类智能系统与人工智能系统交互中,数据选择与信息过滤是不容忽视的关键环节,一方面与算法运行的不透明性有关,另一方面也受到人机协同的信息过滤影响。算法偏见已经造成了现实生活中信息圈层之间的分化,并可能延续甚至加剧社会发展多个方面的失衡。因此,有必要审慎地看待算法偏见的影响要素,透视技术本身及其应用过程中的潜在风险和问题,从而为应对人工智能嵌入社会系统过程中所带来的阶段性偏见提供思路。 相似文献
16.
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。 相似文献
17.
初始化类中心的增量K均值法及其在新闻事件探测中的应用 总被引:5,自引:0,他引:5
传统的增量k均值法用于事件探测时存在着诸多不足。为了克服其缺陷,本文提出了一种用于事件探测的改进的增量k均值算法(IIKM)。该算法使用密度函数法进行聚类中心的初始化以便客观地选择初始聚类中心,既可以用于在线探测也可以用于回溯探测,并且执行结果受新闻语料被处理顺序的影响较小。本文对有效密度半径和特征空间维数的选择问题进行了讨论,并比较了该方法和Single-pass法及传统的K均值法的性能差异。实验结果表明本文所提出的方法是有效的。 相似文献
18.
19.
[目的/意义]国家政府、大中型企业以及研究机构面对技术难题,如何找到合适的专家是迫切需要解决的问题。面对需要运用多学科知识来解决的综合性复杂难题,寻找到多专长专家显得尤为重要,寻找合适的方法识别出多专长专家是本研究的目的。[方法/过程]利用专家所发表的学术论文数据,通过抽取专家有代表性的研究专长特征,基于TFIDF加权的重叠K-means聚类算法对专家进行重叠聚类划分,挖掘出专家的多个研究专长,进而识别出多专长专家。[结果/结论]研究结果表明TFIDF加权的重叠K-means聚类算法在查准率、召回率和F值上有良好的表现,可以识别多专长专家。 相似文献
20.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点. 相似文献