首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

2.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

3.
[目的/意义]描述并分析我国网络内容政策法规的基本信息和文本内容,了解其存在的问题和不足,与主要发达国家网络内容政策法规予以对比,给出相应解决办法,为我国网络内容治理提供法制保障。[方法/过程]在政府门户网站和政策法规专业数据库中搜索网络内容政策法规,经筛选,共得到有效样本202个。将所得数据导入Nvivo11,采用内容分析法从颁布时间、颁布主体、颁布形式三个角度对我国网络内容政策法规文本的基本信息予以探索,并从网络内容主体和网络内容客体两个维度对政策法规文本内容展开分析。同时,对政策法规颁布主体进行共词分析,采用社交网络分析法利用VOSviewer软件绘制政策法规颁布主体合作网络图。[结果/结论]研究发现我国网络内容政策法规存在颁布主体多元、立法层级低和政策法规内容科学性有待提升等问题,通过与主要发达国家网络内容政策法规的对比分析,建议从改革管理体制、加快重点领域立法、完善网络服务提供者相关规定、明确违法内容判定标准四个角度予以完善。  相似文献   

4.
复杂网络聚类算法的研究对分析网络拓扑结构、理解其功能、发现网络中的隐藏规律以及预测网络行为具有十分重要的理论意义。目前许多寻找重叠点的算法不多,并且很多都需要比较高的时间复杂度。文章通过观察网络社团之间的相邻点与每二社团的连接边数以及定义阈值的方法对其进行了改进,最后通过期刊之间的引用关系计算期刊引用网络的相似性,构造网络图。采用基于谱的聚类算法和改进后的方法对该图进行浆类,从而验证改进算法的先进性。  相似文献   

5.
指出随着互联网的发展和社交网络的广泛应用,学者之间的合作途径越来越多,学者具备多重的社团属性;但是,传统的基于聚类或模块度优化等社团划分方法往往将学者划分到唯一的社团。基于Salton方法构建合著网络,使用加权的链接聚类算法实现社团的聚类划分,该方法将节点间的边作为聚类对象,采用凝聚式层次聚类进行社团划分。因节点属于不同的边,因而可以归属于不同的社团,最终得到的社团可以部分重叠。为检验方法的有效性,使用基于CDPLP的合著网络构建系统获取数据,构建合著网络;然后使用加权的链接聚类进行社团发现和可视化。结果表明,该方法能有效地发现部分重叠的合著社团,且社团的意义比较明确。  相似文献   

6.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

7.
微博作为迅速崛起的新兴社会媒体,在网络舆情领域日益引起研究者的关注.为了弥补传统网络舆情分析的不足,本文将共词网络分析和复杂网络的思想与方法拓展到微博舆情分析中,并设计了基于网络可视化的微博舆情分析模型.并通过实证分析对其效果进行验证,发现共词网络可有效探测舆论热点,复杂网络在舆论领袖发现中也可取得较好效果.本文为基于微博的网络舆情分析提供了有效的可视化途径,探索和拓展了其研究方法,并提供了有益借鉴.  相似文献   

8.
9.
马晓雷  文秋芳 《图书情报工作》2011,55(4):110-113,137
被引内容指的是被引用文献在引用文献中被引述的具体内容。Small曾经指出被引内容的研究价值,但迄今为止,在文献计量学领域被引内容分析仍然没有广泛展开。针对这一情况,提出一种分析领域知识的新方法———基于文本聚类的被引内容分析法,这种方法可以在一定程度上解决引文分析存在的问题。以第二语言教育为分析领域,研究结果证明该方法的可行性以及被引内容的研究价值。  相似文献   

10.
基于复杂网络的图书馆个性化推荐服务   总被引:1,自引:0,他引:1  
文章用复杂网络的理论对图书馆的流通记录进行分析。首先利用复杂网络的理论建立借阅记录的网络模型,然后对建立好的网络进行社团结构划分,再利用基于模糊评判的余弦相似度准则计算社团成员的兴趣相关度。最后根据计算出来的结果将信息推荐给读者,实现个性化推荐服务。将复杂网络相关理论应用到图书情报领域,是复杂网络理论的延伸与发展,也丰富了图书情报学研究内容。  相似文献   

11.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

12.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

13.
当前对于各种大型网络的各类特征研究已成为学术界的研究热点。为了更加高效准确地分析不同网络的各类特征,研究学者们已经开发出了大量的网络分析工具。文章首先阐述了用网络分析工具辅助科技文献领域研究的重要性,调研了国际上的网络数据分析挖掘工具,总结了各种分析工具的特点和用途,重点从功能、架构、技术上分析研究了应用于科技文献领域两款有代表性的软件ArnetMiner和D-Dupe。最后总结了网络分析工具的分类和进一步的发展方向。  相似文献   

14.
中文文本解构与知识发现研究   总被引:2,自引:0,他引:2  
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一.文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的.  相似文献   

15.
基于复杂网络的国内信息行为研究热点及衍化路径分析   总被引:1,自引:0,他引:1  
通过CNKI获取信息行为领域研究论文的关键词数据,采用社会网络的方法构建信息行为研究概念(关键词)的无向加权网络,验证该网络所具有的社会网络特性,计算网络节点的程度中心性和中介中心性;采用G-N聚类算法对国内信息行为研究概念网络进行聚类分析,划分出10大分支领域,通过计算时间隶属度进行历时分析,以此描绘我国信息行为研究的发展轨迹。  相似文献   

16.
复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。文章首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。  相似文献   

17.
文本分类是文本挖掘的基础和核心。构建一个分类准确而且稳定的文本分类器是文本分类的关键,很多学者提出了不同的文本分类器模型和算法。在现有的分类器评估方法中,关心的只是分类准确率,而对稳定性这个重要的评价标准却没有涉及。本文提出使用开放测试和封闭测试的准确性指标的比值作为衡量文本分类器稳定性的评估标准。通过文献数据验证以及在所建构的贝叶斯分类器实验平台MBNC上进行的检验表明,用这种标准评价文本分类器具有其合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号