首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评.  相似文献   

2.
中文自动文摘在搜索引擎中的应用   总被引:2,自引:0,他引:2  
董建设  任丽  周燕玲 《情报科学》2006,24(2):267-269,309
将自动文摘应用与搜索引擎系统,可以使用户更方便、直观地了解被命中网页的内容。本系统在实现基于网页的自动文摘时,针对Web文本的特点,采用了以统计为基础,统计和规则相结合的自动文摘生成策略,实现了HTML标记加权处理、中文文本切分和同义词分析,在此基础上完成了基于统计的文摘句初步提取和基于语用规则的进一步处理。  相似文献   

3.
网络信息自动文摘研究   总被引:1,自引:0,他引:1  
陆和健  李祝启 《情报科学》2008,26(10):1597-1600
文章介绍了自动文摘的基本理论及主要方法,重点分析了当今搜索引擎的自动文摘技术,并对其存在的问题及未来的发展方向进行了分析.  相似文献   

4.
介绍了一种新的基于汉语篇章结构的自动方法。在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构。经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评。  相似文献   

5.
卢小平 《现代情报》2009,29(10):221-225
自动编制文摘不仅可以避免人工编制文摘的偏差,更能满足现代人对信息的快速获取需求。本文分析了自动文摘技术研究的进展,介绍了自动文摘的6种技术,即简单词频统计法、相对测度法、词组测度法、标题词法、特殊位置法和提示短语法,探讨了其存在的问题和未来的发展趋势。  相似文献   

6.
抽象文本摘要本质上做的一件事情是信息过滤,旨在将文本或文本集合转换为包含关键信息的简短摘要,解决信息过载及信息冗余的问题.目前,在抽象文本摘要领域使用的主流方法大多是基于深度学习的模型.深度学习模型使用多个处理层来学习原文的层次表示,在抽象文本摘要领域产生了最先进的结果,所以基于深度学习的抽象文本摘要方法是近几年的研究热点.面向具体的应用场景,介绍近年来基于深度学习方法抽象文本摘要自动生成的最新进展.首先,以不同的特征提取器为线索,详细总结基于深度学习的抽象文本摘要的方法和研究进展.其次,简单介绍抽象摘要任务的评价方法.然后,基于这些讨论,总结基于深度学习的抽象文本摘要自动生成方法面临的主要挑战以及可能的解决方案.最后,展望抽象文本摘要自动生成方法的发展方向与前景.通过分类和总结现有方法,为进一步的研究工作提供参考.  相似文献   

7.
[目的]利用向量空间描述语义信息,研究基于词向量包的自动文摘方法;[方法]文摘是文献内容缩短的精确表达;而词向量包可以在同一个向量空间下表示词、短语、句子、段落和篇章,其空间距离用于反映语义相似度。提出一种基于词向量包的自动文摘方法,用词向量包的表示距离衡量句子与整篇文献的语义相似度,将与文献语义相似的句子抽取出来最终形成文摘;[结果]在DUC01数据集上,实验结果表明,该方法能够生成高质量的文摘,结果明显优于其它方法;[结论]实验证明该方法明显提升了自动文摘的性能。  相似文献   

8.
农业学术期刊文摘编写的探讨   总被引:2,自引:0,他引:2  
GB 6447-86 <文摘编写规则> 对文摘的编写作了规定,文摘编写规则对规范期刊的文摘形式和提高文摘的质量具有重要的指导意义[1,2],但在学术期刊,特别是农业学术期刊编辑工作中,遇到的问题往往复杂多变,为了寻找其中未尽规则的规律性,使农业学术论文文摘内容更加准确、简洁、规范,笔者对<西南农业学报>1994~1996年发表的论文摘要进行调查分析,结果报道于后.  相似文献   

9.
0引言 文摘本身也是一种文本,它符合文本生成的一般或特殊条件.假定研究的目标(即形成一种文本的文摘)支配着文摘编写的全过程,那么,这种面向目标的观点与本领域中大多数面向来源文本的方法就形成了对比.  相似文献   

10.
以篇章内容分析在知识抽取、自动文摘、自动问答、文献自动综述的作用为切入点,剖析这四类信息处理系统的分类、主要流程、关键技术.然后分析出知识抽取、自动问答、自动文摘、文献自动综述在处理对象、处理结果、处理过程、分析层面、分析粒度等方面的区别,总结基于篇章内容分析的四类信息处理系统之间的共性与发展现状,并探讨它们的发展趋势.  相似文献   

11.
王德鹏 《科教文汇》2012,(32):67-67,73
多词表达在自然语言处理领域具有越来越重要的地位,多词表达的研究对于机器学习与机器翻译等有重要的意义.在中文中有一类特殊的多词表达,在文中具有特定的含义,因此成语在中文中的提取具有重要的地位,文中采用搭配同现相关性模型与直接提取模型相结合的方法对成语提取进行研究.  相似文献   

12.
本文介绍了一种建立在指代消解基础上的自动文摘方法。创新之处是在对文档内容使用自然语言处理技术全面分析的基础之上,只需对关键句进行指代消解,缩小了消解的范围,降低了对指代消解的要求。同时模拟人性思维,对于出现在不同位置的关键词和句子赋予不同的权重,凸显出含有关键词和总结性的句子。实验证明这种方法是可行的,有效的。
Abstract:
This paper introduces a method of automatic summarization which is based on anaphora resolu- tion. Based on the comprehensive analysis of the utilization of natural language processing technologies to process text file,its innovation is that you only have to make anaphora resolution for Keywords. Both the range of and the requirement for anaphora resolution are reduced. At the same time,the method simulates human thinking,gives different weights to keywords and sentences in different positions,and highlights the sentences containing keywords and sumups. The experimental results show that this method is feasible and effective.  相似文献   

13.
The SALOMON system automatically summarizes Belgian criminal cases in order to improve access to the large number of existing and future court decisions. SALOMON extracts relevant text units from the case text to form a case summary. Such a case profile facilitates the rapid determination of the relevance of the case or may be employed in text search. In a first important abstracting step SALOMON performs an initial categorization of legal criminal cases and structures the case text into separate legally relevant and irrelevant components. A text grammar represented as a semantic network is used to automatically determine the category of the case and its components. In this way, we are able to extract from the case general data and to identify text portions relevant for further abstracting. It is argued that prior knowledge of the text structure and its indicative cues may support automatic abstracting. A text grammar is a promising form for representing the knowledge involved.  相似文献   

14.
对汉语自然语言检索中的句法分析方法进行了探讨。自然语言检索中的一项重要工作就是对用户提问进行处理,而句法分析既是对用户提问进行处理的必须环节,也是对源文本分析的一个重要方法。本文探讨了基于局部分析的方法,并给出了相关的数据结构和处理流程。  相似文献   

15.
Compact graphic display of phrases from the original text is among abstracting assistance features being prototyped in the TEXNET text network management system. Compaction is achieved by embedding subphrases and by enabling the user to select rapidly word by word. Phrases displayed would not necessarily be those selected for automatic indexing.  相似文献   

16.
The automatic text summary concerns the language industries. This work proposes a system automatically and directly transforming a source text into a reduced target text. The system deals exclusively with scientific and technical texts. It is based on the identification of specific expressions allowing an evaluation of the relevance of the sentence concerned, which can then be selected for the elaboration of the summary. The procedure consists in attributing a score to each sentence of the text and then eliminating those having the lowest scores. To produce the RAFI system (automatic summary based on indicative fragments), we resorted to the linguistic means of discourse analysis and the computing capacity of data processing instruments. This system could be adapted to Internet.  相似文献   

17.
温有奎 《情报科学》2002,20(3):259-261,292
文中提出了一种文本知识分析中的概念层次网络方法。该方法是一种文本概念分析的新思路。探讨了用面向对象技术与框架技术结合实现文本知识的抽象概念和具体概念的自动分析、知识组织、检索智能化方法。  相似文献   

18.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

19.
Warning: This paper contains abusive samples that may cause discomfort to readers.Abusive language on social media reinforces prejudice against an individual or a specific group of people, which greatly hampers freedom of expression. With the rise of large-scale pre-trained language models, classification based on pre-trained language models has gradually become a paradigm for automatic abusive language detection. However, the effect of stereotypes inherent in language models on the detection of abusive language remains unknown, although this may further reinforce biases against the minorities. To this end, in this paper, we use multiple metrics to measure the presence of bias in language models and analyze the impact of these inherent biases in automatic abusive language detection. On the basis of this quantitative analysis, we propose two different debiasing strategies, token debiasing and sentence debiasing, which are jointly applied to reduce the bias of language models in abusive language detection without degrading the classification performance. Specifically, for the token debiasing strategy, we reduce the discrimination of the language model against protected attribute terms of a certain group by random probability estimation. For the sentence debiasing strategy, we replace protected attribute terms and augment the original text by counterfactual augmentation to obtain debiased samples, and use the consistency regularization between the original data and the augmented samples to eliminate the bias at the sentence level of the language model. The experimental results confirm that our method can not only reduce the bias of the language model in the abusive language detection task, but also effectively improve the performance of abusive language detection.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号