首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
基于句子主题发现的中文多文档自动摘要研究   总被引:2,自引:0,他引:2       下载免费PDF全文
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。  相似文献   

2.
讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘要技术,对每类返回结果依主题思想自动提取多文档摘要,提高搜索引擎使用效率。分析了该系统的结构和算法,评价了实验结果,指出了未来的研究方向。  相似文献   

3.
文本自动分类技术研究综述   总被引:2,自引:0,他引:2  
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。  相似文献   

4.
陈卓群  王平 《情报科学》2015,(3):130-134
微博作为当前互联网最流行的社交媒体之一,其庞大的用户群体和用户数据使其具有巨大的商业价值。假设了两种微博数据的获取情景,并且提出七种具有微博特性的特征,使用线性模型对微博数据进行摘录式摘要实验,取得了良好的效果,证明中文微博的自动摘要是可行的。  相似文献   

5.
杨应全 《现代情报》2005,25(3):168-170
文本自动分类方法是指在给定的分类体系下,根据文本的内容自动判别类型的过程。它是当今信息搜索领域的重要研究方向。本文介绍了文本自动分类的重要作用及其关键技术。  相似文献   

6.
抽象文本摘要本质上做的一件事情是信息过滤,旨在将文本或文本集合转换为包含关键信息的简短摘要,解决信息过载及信息冗余的问题.目前,在抽象文本摘要领域使用的主流方法大多是基于深度学习的模型.深度学习模型使用多个处理层来学习原文的层次表示,在抽象文本摘要领域产生了最先进的结果,所以基于深度学习的抽象文本摘要方法是近几年的研究...  相似文献   

7.
[目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思想,结合MRR冗余控制算法与文本句特征标签,调整句子权重,高效筛选出贴合问题标签的摘要内容。[结果/结论]本文对知乎问答社区多个问题下的问答文本数据进行验证,结果证明该模型具有较高的可行性和有效性。但本文选取了500份回答文本数据进行实证,未来可进一步扩大数据量开展更为充分的验证。  相似文献   

8.
李念峰 《现代情报》2007,27(11):161-163
介绍一种网络情报收集系统的组成及体系结构,并结合这种体系结构分析系统实现过程中的关键技术及实现方法,提供生成自动摘要的流程.给出自动摘要生成过程中关键词及摘要句提取算法,分析摘要质量评价方法,提供了保障系统安全运行的措施,  相似文献   

9.
文本自动聚类技术研究   总被引:1,自引:0,他引:1  
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述.  相似文献   

10.
近年来,语音文摘提取技术作为人机交互研究的关键技术,受到了越来越多研究者的关注。而书面文档文摘技术已经发展了几十年,已经相当成熟。如何将书面文摘技术应用于语音文档文摘的抽取,已经有许多重要的研究成果。首先将对近年来的这些应用成果进行介绍,然后展望未来在语音文摘技术中可能出现的研究热点。  相似文献   

11.
介绍了一种新的基于汉语篇章结构的自动方法。在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构。经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评。  相似文献   

12.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评.  相似文献   

13.
多媒体数据库技术综述   总被引:5,自引:0,他引:5  
王娣 《情报杂志》2001,20(11):5-6,9
认为多媒体数据库研究和应用是数据库技术发展的一个主流方向,介绍了多媒体数据库的主要技术和现有的几个原型系统。  相似文献   

14.
介绍了数据挖掘和Web挖掘的基本概念,在此基础上,对基于Web的文本信息挖掘技术进行了分析研究,给出了一个基于Web的文本挖掘的结构模型。  相似文献   

15.
图像情报加密技术综述   总被引:3,自引:0,他引:3  
对目前常用的几种图像加密技术的原理、特点与算法实现做了阐述,并对这些图像加密技术做了分析与比较,指出了它们各自的优缺点和应用局限性,并讨论了今后的发展方向.  相似文献   

16.
[目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能。  相似文献   

17.
自由文本信息抽取技术   总被引:13,自引:0,他引:13  
李向阳  苗壮 《情报科学》2004,22(7):815-821,829
信息抽取是从自由文本语料库构建数据库,实现情报自动收集的有效途径之一。近十多年来,信息抽取技术逐步走向成熟,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上,结合信息抽取所面临的挑战,分析了信息抽取的三个趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号