首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
【目的/意义】网络舆情的热点话题对政府和网民有着很大的影响,及时发现热点话题有利于政府监控话题 的发展。【方法/过程】本文提出了基于时间序列的话题动态演化两层模型,并将新闻网页内容的相似度和页面链接 分析作为话题热度的计算依据,然后利用改进的Single-Pass算法进行增量聚类获得聚类中心,最后根据热度权重将 聚类中心进行排序,获得热点话题。【结果/结论】通过实验验证,该算法发现效果好,能够更好地获得热点话题。  相似文献   

2.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

3.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

4.
廖建军 《情报科学》2018,36(7):123-129
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式 和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内 容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结 果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实 验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计 的 CEPR抽取方法。  相似文献   

5.
【目的/意义】研究从用户节点和网络全局两个视角出发,基于用户相似度与信任度对虚拟学术社区中学者进行推荐,提高学者推荐的质量。【方法/过程】首先,利用LDA主题模型挖掘学者发表的博文主题,计算博文相似度;通过学者共同好友比例计算好友相似度;然后将博文相似度和好友相似度融合计算用户相似度;最后,融合用户相似度和信任度进行学者推荐。【结果/结论】提出虚拟学术社区中基于用户相似度与信任度的学者推荐方法,综合利用用户节点和网络全局信息,为虚拟学术社区用户进行学者推荐。【创新/局限】从用户节点和网络全局两个角度进行学者信息融合,有效提高了虚拟学术社区中学者推荐的质量。局限在于本文主要考虑的是学者在网络全局中的信任度,用户节点间的交互信任关系还有待进一步研究。  相似文献   

6.
王彦慈 《情报科学》2017,35(8):23-27
【目的/意义】当前微博已成为重要的舆论场,针对海量微博信息的舆情难以快速获取的问题,提出一种基 于云计算的微博舆情流式快速自聚类方法。【方法/过程】该方法首先设计舆情最小距离聚类算法,包括构建舆情相 似度计算模型,及构建舆情最佳聚类阈值确定方法;然后构建舆情流式自聚类模型,该模型利用云计算和最小距离 聚类算法在横、纵两个方向聚类舆情信息,得到各主题的舆情集合。在横向上,以云计算的多个计算节点为聚类起 始,同步并行聚类分配到其上的舆情信息。在纵向上,多个计算节点协同、流水线式聚类同一起始节点的舆情信 息;最后在纵向上聚类舆情集合,将同主题舆情集合聚为一类。【结果/结论】实验结果表明:该方法能有效加快微博 舆情获取速度,且具有较高的舆情获取准确率。  相似文献   

7.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率R以及F值上分别提升了12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法依赖知网信息,只适用于中文文本抽取。  相似文献   

8.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

9.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

10.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法。用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要。  相似文献   

11.
李慧  王丽婷 《情报科学》2018,36(4):45-50
【目的/意义】随着网民规模的扩大以及微博数据的增长,获取微博空间的热点话题是一项有价值的任务。 本文结合微博的特点提出专门针对中文微博的热点话题发现模型。【过程/方法】本文提出利用词项H指数筛选出 热点词项,然后利用BTM建模和VSM建模的结果相融合计算文本相似度,再利用k-means 聚类算法发现微博的热 点话题。【结果/结论】本文在提取特征阶段既考虑了微博词项的热度又考虑了其短文本性,通过实验验证本文提出 的方法有利于发现准确的热点话题。  相似文献   

12.
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经 典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计 算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优 缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义 相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是 该领域最为主要的研究方向。  相似文献   

13.
李保珍  苏菁 《情报科学》2018,36(10):13-19
【目的/意义】基于专业性多源网络数据,构建同质性或异质性领域知识图谱。【方法/过程】基于场景性关键 词相似度计算进行同质网络层次聚类,揭示症状的同质性网络层次以及治疗方案的同质性网络层次;基于 2-mode 共现矩阵进行异质网络聚类,兼顾症状及治疗方案的关联关系,通过设置不同阈值揭示其异质关联性网络层次。 【结果/结论】基于聚类纯度及熵值评价指标,实验结果显示:就纯度评价指标而言,进行同质性网络知识图谱分析 较为合理;就熵值指标而言,进行异质性网络知识图谱分析较为合理。  相似文献   

14.
朱凡  王印琪 《情报科学》2021,39(7):83-90
【目的/意义】基于机器学习算法对信息进行聚类及预测引起了广泛关注,本文将以航空公司客户信息为对 象构建出k-means,BP神经网络模型,对航空用户进行聚类及预测,实现用户的精准营销。【方法/过程】首先,对航 空公司的客户信息进行预处理,并根据信息聚类和信息预测理论,构建出k-means客户聚类模型与BP神经网络的 流失预测模型。【结果/结论】实证结果表明,在聚类模型上,k-means算法将客户聚为五类,实现了不同价值客户的 差异化识别;在客户预测模型上,BP神经网络的准确性更高。【创新/局限】本次研究将LRFMC模型引入到用户聚 类模型的实验中,使得模型泛化能力上存在了一定的局限,但也为该问题的未来研究提供了新的方式。  相似文献   

15.
本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。  相似文献   

16.
张蕴娣  于宁  赵闯 《情报科学》2022,40(10):187-192
【目的/意义】以主题聚类的方法揭示国内图情领域区块链研究热点,为区块链在图情领域的研究工作提供 参考。【方法/过程】利用中国知网数据库检索区块链在图情领域应用的全部期刊论文、会议论文与学位论文,提取 了470个关键词,并利用杰卡德系数计算文献的相似程度,形成10个主题聚类,之后利用IG(信息增益法)计算所有 关键词在主题聚类中的重要程度,通过前10位核心关键词阐述各主题聚类中研究论文的主要研究内容,并通过主 题聚类下的年度发文趋势分析区块链在图情领域未来的发展趋势。【结果/结论】文章共提取出区块链技术、智慧图 书馆、资源建设、信息服务、阅读推广、隐私保护、借阅服务、科学数据、版权保护、情报分析十大主题聚类,并将其归 纳出包含基础层、技术层、应用层、拓展层的研究框架,分析了未来研究趋势将更加集中于情报分析、智慧图书馆、 阅读推广、科学数据、版权保护、隐私保护六大主题中。【创新/局限】对研究主题的分析还可以采用更多的视角进行 分析,如知识图谱等。  相似文献   

17.
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联 网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了 解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然 后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦 点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。 【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚 类效果,有效的获取各阶段的话题焦点。  相似文献   

18.
【目的/意义】从海量自助餐用户评论数据中抽取有效关键词构建主题和主题词,协助商家了解用户口碑, 进而更好的改善餐饮行业的管理水平。【方法/过程】通过融合TF-IDF、TextRank和LMKE三种不同的关键词抽取 方法获取最优关键词,再对抽取的关键词进行语义聚类、主题识别、主题词挖掘和主题权重计算,最后在采集的美 团数据集上进行验证方法的有效性。【结果/结论】实验结果表明,三种关键词抽取方法的融合比单个关键词算法效 要好,文本评论聚类后的主题分别是:味道、菜品、环境、服务、价格,主题的重要程度依次是:味道 36.2%、服务 22.9%、价格15.1%、环境13.6%、菜品12.2%。实验结果证实,通过该方法能够有效识别和构建主题及主题词,并计算 出用户对于不同主题关注的重点内容,同时为餐饮行业主题及主题词挖掘和应用研究提供了一定的理论和技术基 础。【创新/局限】提出一种半监督语义聚类的主题识别、主题词构建和主题权重评估方法;不足之处在于本次实验 仅以武汉地区的美食自助餐评论为主,其构建的主题适用性范围有限。  相似文献   

19.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

20.
程亚男  王宇 《情报科学》2018,36(8):72-76
【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案 信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定 义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每 个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案“赞” 数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于“赞”数排序相比,基于语义情感相似度的 答案排序方法与人工排序相似度更高,更能满足社区用户需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号