首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于主题聚类的主题数字图书馆是针对某一个特定的主题,获取与该主题相关的数字资源集合(本文以文本资源为研究对象),然后再依据主题聚类算法,对该主题的信息资源集合进行聚类,生成可供用户浏览的多层次结构导航,结合全文检索实现基于主题聚类的主题数字图书馆系统.主题数字图书馆系统主要包括主题采集模块、主题聚类模块和数据集成模块,构建过程中主要涉及主题提取、主题聚类以及聚类结果描述等三类关键技术.表2.图1.参考文献20.  相似文献   

2.
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题.因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性.本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势.实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善.  相似文献   

3.
语义主路径分析方法在改进传统主路径分析法中主路径内容单一、主题一致性较差等不足的同时,留下了两个缺陷,即所选主路径在语义空间的位置可能偏离主题聚簇中心、不同主路径的主题区分度并不明显。本文在语义主路径分析方法的基础上,提出一种逐步优化的主路径选择方法,即将主题聚簇密度和路径遍历权重进行叠加形成复合密度,通过调节复合密度中两个要素的比重来优化主题聚簇中心的定位,当聚簇中心的位置变化收敛后,将位于不同主题聚簇中心的路径作为结果输出。将本文方法分别用于电动汽车锂离子电池专利引文网络和材料科学领域高影响力论文引文网络,实验结果显示,本文方法所产生的多条主路径不仅在主题聚簇中的布局更加合理,而且选取不当主路径的可能性也大大降低,从而验证了本文方法的有效性。  相似文献   

4.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。  相似文献   

5.
作为智能情报分析中的重要应用场景,算法推荐提供的个性化和精准化信息服务为现代快速决策增加了价值,但算法推荐风险问题也尤为突出,探寻算法推荐风险影响因素对科学地提出算法风险治理策略至关重要。文章采用LDA模型对科研论文进行主题聚类,聚类结果与《互联网信息服务算法推荐管理规定》进行相似度计算,以识别算法推荐风险影响因素,从风险产生和风险治理两个维度构建系统动力学模型,然后利用Vensim PLE软件和文本计算数据进行仿真与灵敏度分析。研究识别出算法素养、大数据技术、算法偏见、网络安全审查等影响因素,通过文本计算获得的数据进行仿真能够较好的拟合算法推荐风险治理现实情况,并基于灵敏度分析提出如下建议:加强算法素养教育,提高个人隐私保护意识;建立算法全流程监管机制,提升算法的可解释性;建立“制度+技术”机制,提高平台风险防范能力。  相似文献   

6.
微博主题发现研究方法述评   总被引:1,自引:1,他引:1  
[目的/意义]对现有微博主题发现的研究文献进行全面的梳理和评述,为研究人员深入开展相关研究提供借鉴。[方法/过程]针对传统的主题发现的基本原理和主要研究方法,分析微博文本的组织特征,从基于短文本特征和基于非文本特征的这两个角度对微博主题发现方法进行梳理,并对两类方法进行详细的阐述及特点分析,最后对微博主题发现研究的发展趋势进行展望。[结果/结论]目前微博主题发现的研究还处于探索阶段,未来应该继续深化理论探索、创新研究方法。  相似文献   

7.
诺贝尔奖获得者作为杰出科学家的代表,揭示其职业生涯的研究模式对促进科学发展具有重要意义。本研究以1902–2016年诺贝尔物理学奖获得者为例,组合使用BERT语义模型和AP近邻传播聚类算法对每个获奖者的论文集合分别进行主题探测,并从主题的专注度和扩散性两个角度对获奖者的研究特征进行分析。结果表明,诺贝尔物理学奖获得者之间具有类似的研究模式:“专注—持续—延伸”。尽管获奖者在职业生涯的不同时间段会同时涉及多个研究主题,但在研究活跃的同时却始终持续对获奖主题研究保持专注,且随着时间推移,获奖者会加强对获奖延伸主题的研究。  相似文献   

8.
多相关主题的主题文本资源相关度算法研究   总被引:1,自引:0,他引:1  
主题图作为一种新型的信息资源整合工具,在数字资源整合领域有着广泛的应用前景.主题图中资源与主题间的相关度在一定程度上反映了资源与用户查询需求间的相关程度.基于此,本文提出了一种主题文本资源间相关度算法,主要从资源本身及用户动态使用行为两方面深入分析.相关算例试验结果表明,该算法相对稳定,整体上对文本资源排序的效果较好.  相似文献   

9.
专业搜索引擎的排序算法研究   总被引:5,自引:0,他引:5  
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。  相似文献   

10.
本文主要研究了在有限资源约束下的数据流聚类方法.针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇.通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点.  相似文献   

11.
基于主题地图的文献组织方法研究   总被引:3,自引:1,他引:2  
吴江宁  田海燕 《情报学报》2007,26(3):323-331
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。  相似文献   

12.
[目的/意义] 为揭示情报学领域近15年的研究方向和发展演化情况,了解和掌握研究主题热度的动态变化。[方法/过程] 基于动态主题模型(Dynamic Topic Model),以国内外情报学领域影响因子较高的6本核心期刊作为数据集,分析国内外情报学研究主题演化过程,从主题热度的宏观维度和词语变化的微观角度入手,对比分析主题的研究内容和研究热度异同点,以期为我国情报学研究提供参考和借鉴。[结果/结论] 研究结果表明,国内情报学研究内容偏重实际应用,国外偏重于技术与方法的创新;同一研究主题在不同时期涉及研究内容差别明显,导致其研究热度随着时间推移发生变化;相对于国内,国外情报学研究主题传承性和递进性更强,热度变化较小。  相似文献   

13.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

14.
张柳  王晰巍  黄博  刘婷艳 《情报学报》2021,40(3):234-244
本文构建"日本钻石邮轮"舆情话题微博用户的主题聚类图谱和对网络社群间主题传播路径进行分析,可以更好地识别微博用户主题特征和意见领袖,从而帮助舆情监管部门对舆情进行更为有效的引导和监管。本文基于LDA (latent Dirichlet allocation)模型构建新冠肺炎疫情事件下微博用户的主题聚类图谱,利用困惑度评价指标来确定微博用户的最优主题数和主题分布;利用网络用户转发评论关系构建微博用户主题聚类图谱,提出网络社群间主题传播路径分析方法。本文结合"日本钻石公主号邮轮"这一全球新冠肺炎疫情期间的重要舆情话题,进行微博用户群体主题的确定、主题意见领袖的识别以及该话题下的网络社群间主题传播路径分析。研究结果表明,基于LDA模型可进行网络群体主题识别,并发现衍生的舆情话题,通过意见领袖识别可更好地进行舆情引导,利用网络社群的主题传播路径分析可进行话题推送,从而实现对舆情更好地引导及网络生态治理。  相似文献   

15.
[目的/意义]准确地把握学者的领域研究主题,对学者在该领域的学术影响力进行探测,是开展学者评价工作的一个重要方面。[方法/过程]采用作者主题模型算法,对作者研究内容的主题抽取与表示,构建了作者-主题分布矩阵,并进行作者研究主题聚类,在此基础上分别对作者的主题内合作网络和跨主题合作网络的点度中心度和中介中心度指标进行了测度,以此来反映作者在研究领域的研究专业性和知识创新性,并以图书情报与档案学领域学术期刊2012—2016年发表的45 494篇学术论文及其所涉及的35 586位作者为实验样本进行了实证研究。[结果/结论]结果表明基于主题内合作网络的点度中心度和跨主题合作网络的中介中心度指标的学者学术影响力评价方法是对经典的普赖斯定律中基于作者发文量的核心作者遴选方法的有效补充。  相似文献   

16.
基于主题爬虫的本体非分类关系学习框架   总被引:1,自引:0,他引:1  
乔建忠 《图书情报工作》2010,54(18):120-129
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法。针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法KMeans,并没有采用复杂的语法结构分析和半指导聚类算法如EM、BIRCH和SOM,因此自动化程度和效率较高。学习结果将用于指导主题爬虫进行网页相关性的判断。这种非分类关系的学习质量将由主题爬虫在实际应用中的表现来客观评价。  相似文献   

17.
18.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

19.
20.
基于SMA信息抽取的事实主题的识别研究   总被引:1,自引:0,他引:1  
在从SMA描述文本中抽取管理任务信息的基础上,为了实现对管理领域中事实主题的准确识别,本研究系统考察了从文本表示、特征降维到聚类分析的技术现状和方法特点,并通过提出类特征概化这一新的概念和实现方法,完成了对所研究问题的解决方案设计.实证分析结果与问卷结果和访谈结论所进行的综合分析和判断结果相比较,初步验证了本研究方法对于事实主题识别的有效性和可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号