共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。 相似文献
3.
提出一种基于文本聚类的开放式信息自动归类方法.它的主要特点是:适合自动归类不断增量的文档信息;不需要人为干预,完全靠自主学习的方式来确定各个主题的内涵范围:类别在聚类过程中动态产生.实验证明,该方法能实现增量信息的自动归类,且从评价函数的评价结果看,归类效果良好. 相似文献
4.
文本自动聚类技术研究 总被引:1,自引:0,他引:1
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述. 相似文献
5.
文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。 相似文献
6.
搜索引擎检索结果的文档列表通常过于庞大,给用户查找带来极大不便。作者在当前搜索引擎的工作机制基础之上,引入了智能代理知识库技术,加强了用户与系统的交互性,并自动对检索结果进行文档聚类,以一种导航的方式方便用户快速找到相关的文档。 相似文献
7.
基于本体图的文本聚类模型研究 总被引:2,自引:0,他引:2
为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。 相似文献
8.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。 相似文献
9.
本文结合运用信息管理和人工智能的原理与技术,探讨了文本知识的自动分类方法,包括:自动归类与聚类方法、基于实例的学习分类方法和基于特征值的元学习方法。 相似文献
10.
利用自组织映射网络(80M)可以实现文本聚类,在此基础上进一步对索引词聚类,从而可以得到文本聚类图和索引词聚类图。利用这两个图,就可以对普通文本进行超文本自组织,即对普通文本的某些知识点做超链接,以链接到与之相关的Web文档上。 相似文献
11.
12.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评. 相似文献
13.
14.
15.
16.
一种基于k最近邻的快速文本分类方法 总被引:5,自引:0,他引:5
k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在搜索k个最近邻时需要高强度的相似性计算,尤其是在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.本文提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明这一方法较传统方法性能有显著提升. 相似文献
17.
18.
全文检索系统新模式的探讨 总被引:7,自引:0,他引:7
针对全文检索的现状,提出一种新的模式:将单汉字无标引全文检索系统和全文后控检索系统的优点结合起来,既绕开了词切分问题,又有效地提高了系统的查全率,并用实例加以说明。 相似文献
19.
WNBTE网页正文抽取方法研究 总被引:1,自引:0,他引:1
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。 相似文献