首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

2.
讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘要技术,对每类返回结果依主题思想自动提取多文档摘要,提高搜索引擎使用效率。分析了该系统的结构和算法,评价了实验结果,指出了未来的研究方向。  相似文献   

3.
【目的/意义】引用动机不同会导致一篇论文在多次被引用时的引用主题和重点产生差异,识别这些被引主题并分析其变化,有助于引用动机分析,提高文献推荐效果。【方法/过程】本文首先抽取被引文献的上下文语境信息,根据文本长度界定多种引用内容的划分范围;然后结合多种文本聚类方法,识别被引主题并比较其异同;最后通过时序比较,分析被引主题的演化路径和过程。【结果/结论】选取人工智能研究领域中的代表性高被引论文进行分析,发现前后句是对当前引用句的重要补充,引用句及其前后句组合能够更好地揭示被引主题;基于引用内容的被引主题呈现出多样化的特征,揭示了原文内容的扩展和引用动机的差异;被引主题演化分析能够有效地揭示原文内容被应用或改进的方向、主题、方法和技术。【创新/局限】形成基于引用内容聚类的文献被引主题识别及其演化分析框架,证明被引主题的差异化以及对原文的补充作用,同时揭示引用内容的主题时序变化的特征与现实意义,后续有必要扩大研究样本,使得研究结果具有更好的通用性。  相似文献   

4.
王力  耿爱静 《情报科学》2005,23(10):1505-1508
本文采用现有的中文自动标引与文档自动摘要的技术,将主题讨论区中的内容,通过网络技术自动汇总成常见问答集(Frequently Asked Questions)的知识形式,辅助版主能有效率地将主题讨论区中的知识分享给所有的成员使用。本文通过自动摘要文献的探讨,提出一个FAQ知识转换的概念模式。以混合式自动标引法作为中文关键词抽取的工具并结合相似度计算,将文章整理成FAQ摘要的形式。  相似文献   

5.
【目的/意义】通过分析近年来我国图书馆法律法规的内容特征及其发展脉络,探究其发展趋势,为我国图 书馆法律法规研究提供借鉴,为图书馆法律体系建设提供参考。【方法/过程】以中国知网作为数据源,选取 2008- 2018年《中国图书馆年鉴》中法律法规与政策性文件中法律法规的全文,作为研究样本,利用LDA模型进行主题内 容提取和挖掘。【结果/结论】通过主题研究发现我国图书馆专门法律法规较少,实施较晚,应加强专门法的研究,促 进综合性图书馆法出台,加快图书馆法律体系建设。【创新/局限】运用LDA主题建模方法对现行大量图书馆法律法 规文本进行主题数据分析,探究图书馆法律法规的内容特征和发展机理具有创新意义。由于算法中的分词方法对 个别专业词汇切分可能存在局部偏差,会对关键词提取准确性造成微小影响。  相似文献   

6.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

7.
彭博 《情报科学》2021,39(9):162-169
【目的/意义】如何将网络文物信息资源中不同的知识提炼后推荐给有关用户,是文物信息资源开发与利用 过程中的关键问题。【方法/过程】通过主题-知识关联模型构建文物知识网络并识别网络中文物信息资源文本中的 主题词,而后根据知识及主题词的重要性对耦合后的知识进行重要性排序,按照知识与主题的关联程度实现文物 信息资源的知识推荐。【结果/结论】在实验中实现了不同网络文物信息资源的知识推荐,对比了不同数量主题词下 知识发现的效果,发现该方法在学术型文物信息资源的知识发现与推荐中效果较好。【创新/局限】利用知识库与信 息资源内容构建知识网络,通过计算网络节点的重要性进行知识推荐,为文物信息资源的利用提供了新的方法。 但受制于知识库知识储备的影响,可能无法挖掘信息资源的知识全貌。  相似文献   

8.
【目的/意义】颠覆性技术具有隐蔽性和突变性,而技术主题在演化过程中会释放颠覆性趋势产生的早期信号,本文提出一种基于专利主题演化的颠覆性技术识别方法。【方法/过程】首先,基于S曲线法判断技术生命周期;其次,综合运用文本挖掘和社会网络分析方法识别技术主题的演化事件;最后,定义新主题出现、原主题趋热和多主题融合三类突变情况,用于识别具有颠覆性潜力的技术主题。【结果/结论】通过类脑智能领域专利实证,发现六个新出现主题、四个趋热型主题和六个融合型主题,通过专家判读,证明了所提方法的有效性,同时筛选出五项主题作为最终预测结果。【创新/局限】本文基于动态社区发现算法对技术主题的演化特征进行分析,进而基于主题突变性筛选颠覆性技术,但数据来源较为单一,将在未来研究中加以扩充。  相似文献   

9.
【目的】解决Indesign XML排版时单双栏混排文档中图像的自动排版问题。【方法】编写Java Script脚本,通过顺序读取标签、提取标签内容、应用样式的方法实现Indesign XML自动排版。【结果】在Indesign XML排版中应用自编的Java Script脚本可以实现单双栏混排文档中单栏图的自动排版。【结论】自编的Java Script程序能够在Indesign中实现以文字和单栏图为主的单双栏混排文档的自动排版与PDF文件导出,优化了排版流程。  相似文献   

10.
宋凯  程结晶  朱彦君 《情报科学》2021,39(9):178-185
【目的/意义】区块链技术已成为当前工业界和学术界的研究热点,通过对国际区块链研究进展的分析,为 区块链技术的进一步研究提供有益的参考指引。【方法/过程】从研究力量、研究学科、研究主题三个层面构建国际 区块链研究进展分析框架,以 Web of Science 为数据来源,通过构建国家合作网络、计算国家研究贡献度、绘制知识 吸收路径图谱、计算知识扩散强度、获取研究主题分布,揭示当前国际区块链研究进展态势。【结果/结论】结果表 明,在研究力量方面,美国、英国、中国、澳大利亚是国际合作网络中的核心研究团体,而中国在国际区块链研究中 的研究贡献度位居第一;在研究学科方面,计算机科学是国际区块链研究的主要知识吸收学科,也是其知识扩散的 主要学科之一;在研究主题方面,国际区块链研究主要涵盖六大主题。【创新/局限】本文全面探讨了国际区块链研 究中的核心研究力量、知识吸收和知识扩散情况、研究主题分布,为区块链的综述研究提供了有益补充,但研究内 容的覆盖度有待进一步拓展。  相似文献   

11.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

12.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

13.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

14.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

15.
占泚  熊回香  蒋武轩  李琰 《情报科学》2022,39(1):121-129
【目的/意义】在线健康信息的有效组织对提升全民身体素质具有重要的社会价值。【方法/过程】在分析健 康信息主题、关联关系和资源标引的基础上,构建基于主题图的在线健康信息标签语义挖掘模型,从而构建了健康 信息标签主题图并实现了其可视化导航、浏览和检索等功能。【结果/结论】基于主题图的在线健康信息标签语义挖 掘模型能够准确的发现在线健康信息与信息标签间的深层关系,可以更好地揭示在线健康信息标签的语义关联, 为用户提供信息的可视化浏览和导航功能、提升健康信息的组织效果,帮助用户健康信息获取。【创新/局限】本文 将主题图与健康信息标签相结合,提高了健康信息的检索效率和利用效率,但本文也存在着不足,例如标签样本量 和样本范围较小,缺乏专业医学研究者的参与。  相似文献   

16.
Today, due to a vast amount of textual data, automated extractive text summarization is one of the most common and practical techniques for organizing information. Extractive summarization selects the most appropriate sentences from the text and provide a representative summary. The sentences, as individual textual units, usually are too short for major text processing techniques to provide appropriate performance. Hence, it seems vital to bridge the gap between short text units and conventional text processing methods.In this study, we propose a semantic method for implementing an extractive multi-document summarizer system by using a combination of statistical, machine learning based, and graph-based methods. It is a language-independent and unsupervised system. The proposed framework learns the semantic representation of words from a set of given documents via word2vec method. It expands each sentence through an innovative method with the most informative and the least redundant words related to the main topic of sentence. Sentence expansion implicitly performs word sense disambiguation and tunes the conceptual densities towards the central topic of each sentence. Then, it estimates the importance of sentences by using the graph representation of the documents. To identify the most important topics of the documents, we propose an inventive clustering approach. It autonomously determines the number of clusters and their initial centroids, and clusters sentences accordingly. The system selects the best sentences from appropriate clusters for the final summary with respect to information salience, minimum redundancy, and adequate coverage.A set of extensive experiments on DUC2002 and DUC2006 datasets was conducted for investigating the proposed scheme. Experimental results showed that the proposed sentence expansion algorithm and clustering approach could considerably enhance the performance of the summarization system. Also, comparative experiments demonstrated that the proposed framework outperforms most of the state-of-the-art summarizer systems and can impressively assist the task of extractive text summarization.  相似文献   

17.
Sentiment analysis concerns the study of opinions expressed in a text. This paper presents the QMOS method, which employs a combination of sentiment analysis and summarization approaches. It is a lexicon-based method to query-based multi-documents summarization of opinion expressed in reviews.QMOS combines multiple sentiment dictionaries to improve word coverage limit of the individual lexicon. A major problem for a dictionary-based approach is the semantic gap between the prior polarity of a word presented by a lexicon and the word polarity in a specific context. This is due to the fact that, the polarity of a word depends on the context in which it is being used. Furthermore, the type of a sentence can also affect the performance of a sentiment analysis approach. Therefore, to tackle the aforementioned challenges, QMOS integrates multiple strategies to adjust word prior sentiment orientation while also considers the type of sentence. QMOS also employs the Semantic Sentiment Approach to determine the sentiment score of a word if it is not included in a sentiment lexicon.On the other hand, the most of the existing methods fail to distinguish the meaning of a review sentence and user's query when both of them share the similar bag-of-words; hence there is often a conflict between the extracted opinionated sentences and users’ needs. However, the summarization phase of QMOS is able to avoid extracting a review sentence whose similarity with the user's query is high but whose meaning is different. The method also employs the greedy algorithm and query expansion approach to reduce redundancy and bridge the lexical gaps for similar contexts that are expressed using different wording, respectively. Our experiment shows that the QMOS method can significantly improve the performance and make QMOS comparable to other existing methods.  相似文献   

18.
孙瑞英  马晓伟 《情报科学》2020,38(3):167-176
【目的/意义】通过对"高校智库"研究期刊文献进行分析,寻找到核心作者与核心主题,梳理其演化过程,为促进"高校智库"建设以及履行咨政、启民与育人使命提供有意义的参考。【方法/过程】采用多层次作者模型,利用文献计量学的方法对代表性学者、研究团队进行分析,以明确该主题研究领域的核心作者群;基于亲和思维,对不同时期的研究主题进行对比分析,并对核心作者发文的文本进行内容分析,以动态地认识和把握其演化过程与规律。【结果/结论】在此基础上,明确"高校智库"研究现状的优缺点,找到研究空白点,预测研究趋势,为未来"高校智库"研究提供建议,指导"高校智库"建设和实践工作。  相似文献   

19.
孙靖超  刘为军 《情报科学》2021,39(7):147-152
【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息 进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对 文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采 样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的 方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性 微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任 务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种 新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号