共查询到17条相似文献,搜索用时 46 毫秒
1.
【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。 相似文献
2.
3.
文本自动分类技术研究综述 总被引:2,自引:0,他引:2
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。 相似文献
4.
微博作为当前互联网最流行的社交媒体之一,其庞大的用户群体和用户数据使其具有巨大的商业价值。假设了两种微博数据的获取情景,并且提出七种具有微博特性的特征,使用线性模型对微博数据进行摘录式摘要实验,取得了良好的效果,证明中文微博的自动摘要是可行的。 相似文献
5.
文本自动分类方法是指在给定的分类体系下,根据文本的内容自动判别类型的过程。它是当今信息搜索领域的重要研究方向。本文介绍了文本自动分类的重要作用及其关键技术。 相似文献
6.
抽象文本摘要本质上做的一件事情是信息过滤,旨在将文本或文本集合转换为包含关键信息的简短摘要,解决信息过载及信息冗余的问题.目前,在抽象文本摘要领域使用的主流方法大多是基于深度学习的模型.深度学习模型使用多个处理层来学习原文的层次表示,在抽象文本摘要领域产生了最先进的结果,所以基于深度学习的抽象文本摘要方法是近几年的研究... 相似文献
7.
[目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思想,结合MRR冗余控制算法与文本句特征标签,调整句子权重,高效筛选出贴合问题标签的摘要内容。[结果/结论]本文对知乎问答社区多个问题下的问答文本数据进行验证,结果证明该模型具有较高的可行性和有效性。但本文选取了500份回答文本数据进行实证,未来可进一步扩大数据量开展更为充分的验证。 相似文献
8.
介绍一种网络情报收集系统的组成及体系结构,并结合这种体系结构分析系统实现过程中的关键技术及实现方法,提供生成自动摘要的流程.给出自动摘要生成过程中关键词及摘要句提取算法,分析摘要质量评价方法,提供了保障系统安全运行的措施, 相似文献
9.
文本自动聚类技术研究 总被引:1,自引:0,他引:1
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述. 相似文献
10.
近年来,语音文摘提取技术作为人机交互研究的关键技术,受到了越来越多研究者的关注。而书面文档文摘技术已经发展了几十年,已经相当成熟。如何将书面文摘技术应用于语音文档文摘的抽取,已经有许多重要的研究成果。首先将对近年来的这些应用成果进行介绍,然后展望未来在语音文摘技术中可能出现的研究热点。 相似文献
11.
12.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评. 相似文献
13.
14.
15.
16.
17.
自由文本信息抽取技术 总被引:13,自引:0,他引:13
信息抽取是从自由文本语料库构建数据库,实现情报自动收集的有效途径之一。近十多年来,信息抽取技术逐步走向成熟,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上,结合信息抽取所面临的挑战,分析了信息抽取的三个趋势。 相似文献