首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
自动文本摘要技术综述   总被引:3,自引:0,他引:3  
随着互联网上信息爆炸式的增长,如何在互联网上有效地获取所需信息成为当前情报科学领域一个迫切需要解决的问题.为了更好地浏览和吸收互联网上的海量信息,自动文本摘要技术对文档进行压缩,压缩后的表示能够覆盖原文的所有主题且不重复.文章对目前单文档摘要和多文档摘要领域的一些最相关技术和方法做一个较为全面的综述性介绍,对该领域当前的一些最新发展趋势,如基于图排序的摘要方法也进行了简要的探讨.  相似文献   

2.
基于句子主题发现的中文多文档自动摘要研究   总被引:2,自引:0,他引:2       下载免费PDF全文
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

3.
提出一种基于文本聚类的开放式信息自动归类方法.它的主要特点是:适合自动归类不断增量的文档信息;不需要人为干预,完全靠自主学习的方式来确定各个主题的内涵范围:类别在聚类过程中动态产生.实验证明,该方法能实现增量信息的自动归类,且从评价函数的评价结果看,归类效果良好.  相似文献   

4.
文本自动聚类技术研究   总被引:1,自引:0,他引:1  
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述.  相似文献   

5.
文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。  相似文献   

6.
李旗 《现代情报》2004,24(2):200-202,205
搜索引擎检索结果的文档列表通常过于庞大,给用户查找带来极大不便。作者在当前搜索引擎的工作机制基础之上,引入了智能代理知识库技术,加强了用户与系统的交互性,并自动对检索结果进行文档聚类,以一种导航的方式方便用户快速找到相关的文档。  相似文献   

7.
基于本体图的文本聚类模型研究   总被引:2,自引:0,他引:2  
为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。  相似文献   

8.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。  相似文献   

9.
范宇中  张玉峰 《情报科学》2003,21(1):103-105
本文结合运用信息管理和人工智能的原理与技术,探讨了文本知识的自动分类方法,包括:自动归类与聚类方法、基于实例的学习分类方法和基于特征值的元学习方法。  相似文献   

10.
刘高勇  汪会玲 《情报科学》2007,25(6):929-931,937
利用自组织映射网络(80M)可以实现文本聚类,在此基础上进一步对索引词聚类,从而可以得到文本聚类图和索引词聚类图。利用这两个图,就可以对普通文本进行超文本自组织,即对普通文本的某些知识点做超链接,以链接到与之相关的Web文档上。  相似文献   

11.
介绍了一种新的基于汉语篇章结构的自动方法。在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构。经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评。  相似文献   

12.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评.  相似文献   

13.
基于改进VSM的Web文本分类方法   总被引:2,自引:0,他引:2  
Web文本自动分类技术是Web文本挖掘的关键技术之一.针对Web文档中不同标签中的文本具有不同的表达文档内容的能力,提出了改进的特征项加权计算方法.根据特征项在文档中的位置和出现频率计算其权值,并给出了具体的Web文本分类算法和评测方法.经实验验证,改进后系统的微平均查准率均大于0.8,分类性能明显好于改进前.  相似文献   

14.
基于CSCW的文本编辑系统   总被引:1,自引:0,他引:1  
朱玉玺  刘亚姝  袁文翠 《情报科学》2001,19(5):519-520,528
本文在分析协同工作实现机制的基础上,给出实现协同文本编辑系统所需要的协同要素、协同方式,并对协同编辑过程中的并发控制及多文档的管理进行研究,最后给出一个协同文本编辑系统的实例。  相似文献   

15.
基于多Agent的专利地图研究   总被引:3,自引:0,他引:3  
专利地图在未来的信息世界将会扮演重要的角色,它的核心是信息的收集和处理,多Agent系统适应专利地图的特点,在该领域有独特的优势。多Agent系统能够实现人机协同工作,处理结构化和非结构化的信息,而且在专利地图上具有很强的信息集成能力。通过介绍专利地图的定义、分类,提出了一个基于多Agent的专利地图模型,最后实现了一个基于多Agent的专利地图原型系统。  相似文献   

16.
一种基于k最近邻的快速文本分类方法   总被引:5,自引:0,他引:5  
k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在搜索k个最近邻时需要高强度的相似性计算,尤其是在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.本文提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明这一方法较传统方法性能有显著提升.  相似文献   

17.
随着甲骨文数字化研究地不断深入,需要处理的甲骨文信息变得越来越多,对甲骨文信息地提取变得非常困难。本课题就是要研究利用基于java的全文检索工具包Luence,建立甲骨文全文检索系统,使之能够在本地硬盘完成对甲骨文的全文检索,完成全文匹配。本文通过对目标文件夹建立索引,输入关键词后,能够检索到包含该关键词的目标文件的详细信息。  相似文献   

18.
全文检索系统新模式的探讨   总被引:7,自引:0,他引:7  
王莉  邓玲怡 《情报杂志》1999,18(1):36-38
针对全文检索的现状,提出一种新的模式:将单汉字无标引全文检索系统和全文后控检索系统的优点结合起来,既绕开了词切分问题,又有效地提高了系统的查全率,并用实例加以说明。  相似文献   

19.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号