共查询到18条相似文献,搜索用时 46 毫秒
1.
基于句子选择的自动文本摘要方法及其评价 总被引:1,自引:0,他引:1
王知津 《现代图书情报技术》1998,14(1):46-51
简要评述了自动摘要的文献, 介绍了一个基于句子选择的自动文本摘要系统, 分析了该系统的运行, 指出这种方法对于自动文本摘要的意义。 相似文献
2.
3.
4.
提出一种基于基本要素方法的中文自动文本摘要模型(BESM)。该模型主要借鉴基本要素的思想进行建立,和单纯的基于词的自动文摘模型相比,它将语义信息作为评估句子重要程度的一部分,实现基本要素中提出的将语义信息和统计方法的结合。通过与普通方法的实例对比,突出基本要素方法的优越性和BESM模型的可行性。 相似文献
5.
6.
7.
汉语自动分词研究展望 总被引:13,自引:1,他引:13
汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
8.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。 相似文献
9.
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 相似文献
10.
自动分词技术及其在信息检索中应用的研究 总被引:18,自引:1,他引:18
首先分析了自动分词与自然语言处理、自动分词与信息检索之间的关系, 在此基础上, 介绍了近年来自动分词系统实现的技术原理, 探讨了自动分词技术在信息检索中应用的问题。 相似文献
11.
12.
一种使用自动聚类思想的自动文摘方法 总被引:5,自引:0,他引:5
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘 相似文献
13.
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。 相似文献
14.
自动综述是指针对特定的主题进行多文档自动摘要,最终提供简洁、重要的信息.新闻专题自动综述是多文档自动摘要的一种应用形式,它可以帮助人们快速了解某个新闻事件的概貌.提出了一种基于名实体的新闻专题自动综述方法.该方法首先从新闻专题的文章集合中识别并挑选出代表新闻要素的时间、地点、人物、机构等名实体,经过语义处理后进行名实体的频率统计.然后根据句子中名实体的频率,结合句子位置、长度等因素计算句子的综合权值选出摘要句,最后根据句子的时间戳信息对句子排序输出得到最终的新闻专题综述.实验结果表明,该方法是有效的,具有实用价值. 相似文献
15.
Summarizing Similarities and Differences Among Related Documents 总被引:10,自引:0,他引:10
In many modern information retrieval applications, a common problem which arises is the existence of multiple documents covering similar information, as in the case of multiple news stories about an event or a sequence of events. A particular challenge for text summarization is to be able to summarize the similarities and differences in information content among these documents. The approach described here exploits the results of recent progress in information extraction to represent salient units of text and their relationships. By exploiting meaningful relations between units based on an analysis of text cohesion and the context in which the comparison is desired, the summarizer can pinpoint similarities and differences, and align text segments. In evaluation experiments, these techniques for exploiting cohesion relations result in summaries which (i) help users more quickly complete a retrieval task (ii) result in improved alignment accuracy over baselines, and (iii) improve identification of topic-relevant similarities and differences. 相似文献
16.
句子相似度计算是自动问答系统的重要理论基础和关键实现技术.目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便.依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息.通过对各类方法实验结果的比较,指出各自的优势和不足.同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点.另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度.通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考. 相似文献
17.
自动文摘系统的评测是自动文摘技术研究与发展的关键部分.随着摘要技术的快速发展,国外学者十分重视评测技术,研究工作也如火如荼,而国内相关工作相对贫乏.文摘评测对文摘系统的性能有重大影响,对自然语言处理、信息检索等相关技术有着促进作用.本文详细介绍了文摘评测的两大方法:内部评测和外部评测,并对多年来文摘评测中应用的关键技术做了简要总结,最后指出文摘评测面临的挑战及未来需要努力的方向. 相似文献