首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 251 毫秒
1.
[目的/意义]针对目前基于网络的话题识别与分析方法的局限性,提出针对网络问答社区的话题识别与分析方法,为此类网站的话题识别与分析提供参考。[方法/过程]以改进的中文分词技术为基础,构建网络问答社区的话题识别指标,通过线性加权方式计算权重,结合关键词提取方法确定话题关键词,对话题关注焦点进行提取,对分布情况进行测度。依据所提出的改进方法,以知乎网站为数据来源,从话题关键词、关键词分布以及热点子话题3个角度对"老年人"话题焦点进行识别与分析。[结果/结论]研究表明,该方法具有科学性和可行性,不仅拓展了社会问题的分析数据源,也为"积极开展应对人口老龄化行动"提供了决策依据。  相似文献   

2.
陈涛  孙茂松 《情报学报》2007,26(1):77-83
语义词典在语言学和自然语言处理研究中占有相当关键的位置.语义词典的构造,通常有两类做法.一类是基于语言学家的主观判断,另一类则是基于机器的自动聚类.后者是本文所要研究的主题.本文基于大规模的语料库,利用自组织映射神经网络(SOM)对词典进行无监督的自动构造.首先从语料库中抽取待聚类词的上下文窗口中的词,并利用信息增益(Information Gain)对特征词进行选择,然后借鉴信息检索模型中的TFIDF计算特征向量中每一个特征的特征权重,最后将构造好的待聚类词的特征向量作为SOM的输入,经过网络的迭代计算将不同类别的词映射在SOM输出网格的不同结点.  相似文献   

3.
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。  相似文献   

4.
复杂网络聚类算法的研究对分析网络拓扑结构、理解其功能、发现网络中的隐藏规律以及预测网络行为具有十分重要的理论意义。目前许多寻找重叠点的算法不多,并且很多都需要比较高的时间复杂度。文章通过观察网络社团之间的相邻点与每二社团的连接边数以及定义阈值的方法对其进行了改进,最后通过期刊之间的引用关系计算期刊引用网络的相似性,构造网络图。采用基于谱的聚类算法和改进后的方法对该图进行浆类,从而验证改进算法的先进性。  相似文献   

5.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。  相似文献   

6.
[目的/意义]探索领域知识发展过程中的聚类演化问题有助于揭示知识聚类的特征和规律,对于掌握知识生长演进过程中关联知识的聚集具有重要意义。[方法/过程]以复杂网络的思想为基础,基于标签邻接关系的发生值构建时间序列领域知识网络。即依据网络模体的理论,采用网络聚类系数的分析方法,对领域知识网络进行动态跟踪与分析;结合网络密度、特征路径长度、节点度值、封闭三元组等指标,从随机因素、度相关性、邻近关联3个方面对领域知识发展过程中的聚类演化现象进行分析。[结果/结论]研究结果表明:①领域知识在发展进程中始终保持较高的聚类性;②领域知识的聚类性同时包含随机性与结构性(非随机性)两方面因素; ③领域知识聚类的动态状态在小世界网络和无标度网络之间摇摆演化; ④领域知识的聚类状态在网络全局和局部节点之间表现出一定的差异性。  相似文献   

7.
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。  相似文献   

8.
金燕 《图书情报工作》2017,61(20):131-139
[目的/意义]针对目前UGC质量不均衡的问题,提出一种基于情绪分析的UGC质量评判模型,对低质量UGC进行及时地识别,有助于舆情监控、规范网络秩序。[方法/过程]首先选取实时热搜话题,抓取与话题有关的转发、评论等用户数据,按照不同时间段内话题讨论的重点对数据进行内容聚类;其次,利用ROSTCM6工具对聚类内容进行情绪分析,捕获UGC的情绪特征和质量特征,挖掘情绪值与UGC质量之间的关系,建立两者间的回归模型;最后在此基础上实现UGC质量评判。[结果/结论]实验证明,该模型能够辅助评估某一主题的UGC在其生命周期内各阶段的平均质量,及时发现低质量UGC所处的阶段和位置。  相似文献   

9.
本研究在总结现有以共链分析和社会网络分析为主的学术网络局部结构识别方法的基础上,提出了改进的两步式K核分析方法,首次引入了复杂网络中的社区识别算法进行链接网络的分割,并尝试通过适用性评测验证快速聚类算法在同质Web链接网络的主题结构识别方面的有效性.最后的实验结果表明,本研究提出的改进K核分析方法可以有效地发现存在于链接网络中的主题聚类现象;同时研究中引入的快速聚类算法对以93所大学网站进行了聚类并获得六个主题类.通过聚类准确率指标计算,该聚类方法的平均准确率为72%.以上结论证实了本研究中采用的从链接关系度量,数据矩阵构建、到链接网络分析的方法体系是有效的.  相似文献   

10.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

11.
 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。  相似文献   

12.
Topic emergence detection aids in pinpointing prominent topics within a given domain, providing practical insights into all interested parties on where to focus the limited resources. This paper employs the network-based topic evolution approach to overcome limitations in text-based topic evolution, providing prospective topic emergence prediction capabilities by representing emergent topics by their ancestors. A descendant-aware clustering algorithm is proposed to generate non-exhaustive and overlapping clusters, utilizing the pace of collaborations and structural similarities between topics with iterative edge removal and addition processes. Over 100 datasets specific to a research topic were extracted from the Microsoft Academic Graph dataset for the experiments, where the proposed algorithm consistently outperformed existing clustering algorithms in generating clusters with a higher likelihood of being ancestors to an emergent topic up to three years in the future. Regression-based cluster filtering using five structural cluster features and topic cluster qualities showed that the prediction performance can be enhanced by automatically classifying undesirable clusters from previously known data. The results showed that the proposed algorithm can enhance topic emergence predictions on a wide range of research domains regardless of their maturities, popularities, and magnitudes without having access to the data in the predicted year, paving a road to prospective predictions on emergent topics.  相似文献   

13.
社会化标签系统中基于密度聚类的Web 用户兴趣建模方法   总被引:1,自引:0,他引:1  
Web用户兴趣模型在个性化信息服务中有着非常重要的作用。本文利用社会化标签的独特优势,针对传统社会化标签聚类方法的局限性,提出了一种基于密度聚类的Web用户兴趣建模方法。首先建立基于社会化标签的向量空间模型,并将社会化标签表示为Web资源及其权重的形式,以此为基础利用DBSCAN算法对其进行聚类,进而依据所有Web用户的标注行为以每个聚类为中介计算特定Web用户对Web资源的兴趣度来构建Web用户兴趣模型。实验结果表明了该方法的优越性。  相似文献   

14.
基于聚类的网络舆情热点发现及分析*   总被引:9,自引:0,他引:9  
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。  相似文献   

15.
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。  相似文献   

16.
一种基于后缀树的Web搜索结果聚类方法   总被引:3,自引:2,他引:1  
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性.  相似文献   

17.
一种基于自组织神经网络的中文文本聚类新方法   总被引:8,自引:0,他引:8  
徐建锁  王正欧  王莉 《情报学报》2003,22(6):676-680
针对传统K—均值等算法在文本聚类中的缺陷 ,本文提出了一种树形动态自组织映射 (TGSOM)神经网络来实现中文文本聚类 ,克服了传统的K—均值等算法中文本种类需要预先给定的缺点。本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用 ,并阐述了中文文本的数字化方法———TF .IDF .IG方法  相似文献   

18.
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。  相似文献   

19.
[目的/意义] 准确地计算微博相似度可以提高微博主题挖掘效率,对舆情治理、保障信息安全具有实践意义。针对微博文本语义稀疏、高维的问题,提出一种融入微博非文本特征的超边相似度算法。[方法/过程] 分析微博舆情发生机制,利用超网络模型表示微博舆情主题形成过程,通过计算各层子网相似度及各层子网对主题形成的贡献度构建超边相似度算法。[结果/结论] 研究发现,论文所提出的相似度方法有助于提升微博舆情信息的主题聚类效果,特别是对于文字性表述相似程度高的微博信息,具有明显的主题区分性。  相似文献   

20.
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号