首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
汉语自动分词研究的现状与新思维   总被引:17,自引:2,他引:15  
汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础。本文对十余年来的汉语自动分词的研究方法与成果进行了综合论述, 分析了现有分词方法的特点, 提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的新思维。  相似文献   

2.
汉语自动分词与内容分析法研究   总被引:9,自引:0,他引:9  
汉语自动分词是计算机中文信息处理中的难题,也是文献内容分析中必须解决的关键问题之一。本文通过对已有自动分词方法及其应用研究的分析,指出了今后汉语自动分词研究的三个发展方向:克服汉语文本切分中的困难,继续研究传统文本切分的有效方法;将人工智能技术与汉语自动分词技术有机结合起来;改造汉语文本书写规则使之利于计算机切分。并分析了汉语自动分词和内容分析法之间的密切关系,以及汉语自动分词对内容分析法的影响  相似文献   

3.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

4.
基于神经网络的汉语自动分词系统的设计与分析   总被引:15,自引:1,他引:14  
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。  相似文献   

5.
汉语自动分词模式自动机构造研究   总被引:1,自引:2,他引:1  
基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。  相似文献   

6.
本文讨论了书面汉语的人工辅助分词和自动分词,并以汉语语言学为依据归纳了用汉语词素构词的类型。就书面汉语自动分词的复杂性和依赖于汉语词素构词法的自动分词的可行性进行了分析。本文给出了该自动切分方法分层处理的基本构思和程序框图。  相似文献   

7.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

8.
基于两字词簇的汉语快速自动分词算法   总被引:10,自引:1,他引:9  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现  相似文献   

9.
汉语自动分词研究进展   总被引:11,自引:0,他引:11  
汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析。指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。  相似文献   

10.
汉语自动分词研究展望   总被引:13,自引:1,他引:13  
 汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。  相似文献   

11.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

12.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

13.
基于Lucene的Ftp搜索引擎的设计   总被引:2,自引:0,他引:2  
针对当前网络中所使用的基于数据库的Ftp搜索引擎没有标准资源文档且不支持中文分词和动态数据更新的缺陷,提出基于Lucene这个功能强大的全文索引引擎工具包的Ftp搜索引擎的设计方案。此Ftp搜索引擎不仅能够自动生成标准格式的XML资源文档,而且采用基于字典的前向最大匹配中文分词法在Lucene中动态更新全文索引。该设计还能够对检索关键字进行中英文混合分析和检索。  相似文献   

14.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

15.
对中文时间词和数词在文本中的常见形式进行归纳,以此为基础构建用于识别时间词、数词的规则集,提出一个基于规则的时间词和数词自动识别算法,并对该算法在竞争情报分析领域和机器翻译领域中的应用价值进行论述。  相似文献   

16.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

17.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

18.
词汇链是文本中一系列词汇关联而成的语义链,构造词汇链有助于提高文本的连贯性,把握文本主题。借鉴概念层次网络(HNC)理论对词汇语义进行形式化描述的原理,研究基于语义网络节点遍历计算的词汇链构造方法。首先对汉语文本进行分词处理,从知识库中获得词语的HNC符号,然后对语义符号进行解析,获得词语的语义关联性并构造词汇链;最后,对词汇链进行优选处理,设定阈值获得优选词汇链。实验结果表明,该方法构造的词汇链可接受度较高,对主题标引、自动文摘、文本分类等有重要价值。  相似文献   

19.
智能信息处理系统的内核实现   总被引:2,自引:0,他引:2  
程军 《图书情报工作》2002,46(11):83-85
介绍当代智能文本处理的主要技术核心,以向量空间模型为基础的检索算法,并利用中文字符集的特点,设计并实现了以单字为匹配向量的算法,在全部使用散列函数的基础上,获得了非常快的文本处理速度。  相似文献   

20.
[目的/意义] 构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程] 本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论] 实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号