首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语自动分词与中华民族文化复兴紧密相联 ,但汉语自动分词又是目前中文信息处理中的难题。通过分析现有汉语词自动分词方法及其局限性、汉语词自动分词中存在的困难、汉语同西方语言和日语的差别 ,认为传统汉语文本具有不可自动切分性 ,从汉语自动分词的成本、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革。提出了一种新的自动分词思维 :“无词典切分” ,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,使汉语适于计算机自动处理。  相似文献   

2.
现阶段,绝大多数自动分词系统都是基于词典的方法,词典的完备性是决定分词系统性能的基础和关键,但词典的完备性一直都是很难完善的。本文介绍了机械分词法与无词典分词法,并利用两种分词法各自的优点将其整合,提出了具有自学习功能的智能词典这个概念,以弥补分词词典无法完备的缺陷。  相似文献   

3.
汉语自动分词技术的最新发展及其在信息检索中的应用   总被引:2,自引:0,他引:2  
岳涛 《情报杂志》2005,24(4):55-57,60
分析了汉语自动分词与自然语言处理、自动分词与信息检索之间的关系,在此基础上,介绍了近年来自动分词系统实现的技术,分析了自动分词技术在信息检索中应用的有关问题。  相似文献   

4.
基于相邻知识的汉语自动分词系统研究   总被引:2,自引:0,他引:2  
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系统运行效率的方法,指出了进一步发展的方向。  相似文献   

5.
陈玫  蒙祖强 《大众科技》2010,(11):140-142
文章对目前现有的一些中文分词算法进行简单介绍,结合医学词汇的特点,在基于字符串匹配的中文分词方法基础上,对医学知识的中文分词词典进行设计,构建树型的子关系词词典和数组型的同义词词典,同时给出对应的匹配算法,从而使得分词的同时将与用户输入的关键词相关的医学中的专业子关系词与同义词同时获取,进而为用户的网页搜索提供更为全面的关键词集合。  相似文献   

6.
介绍了应用高级程序没计语言标准C ,对应用于中文搜索引擎的汉语自动分!词系统设计方法进行了论述。  相似文献   

7.
一种快速中文分词词典机制   总被引:3,自引:0,他引:3  
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率.  相似文献   

8.
汉语文献自动分词存在的问题及趋向   总被引:3,自引:0,他引:3  
  相似文献   

9.
本文在已有研究基础上,针对中文粗分词,设计了多重哈希词典结构,以提高分词的词典匹配效率,同时基于删除算法改进了中科院ICTCLAS分词系统的K-最短路径搜索思想.最后,论文对所研究技术方案进行了系统实现.系统实验结果表明,对于大规模文本,论文所提出的粗分词方案体现出了很好的性能.  相似文献   

10.
11.
12.
熊泉浩 《科技广场》2009,(11):222-225
中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望.  相似文献   

13.
基于三数组Trie索引树的分词系统采用由短词及长词的确定性工作方式,在对汉字串的一遍扫描过程中就能得到结果,避免了整词二分词典查询机制中不必要的多次试探性查询,因而具有较高的处理效率.  相似文献   

14.
采用基于词典的正向增字最大匹配算法,分词词典采用改进的双层哈希表加动态数组的数据结构。在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,一定程度上提高了中文分词的速度和效率。  相似文献   

15.
通过对已有的分词算法尤其是快速分词算法的分析,提出了一种新的分词词典结构,并据此提出了二次Hash^+二分最大匹配快速分词算法。该算法具有较快的分词速度。  相似文献   

16.
中文专利权利要求书分词算法研究   总被引:1,自引:1,他引:0  
中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好.  相似文献   

17.
自动分词在中文信息检索中的应用   总被引:3,自引:0,他引:3  
董小芸  刘俊熙 《情报杂志》2003,22(12):65-66,69
论述了几种分词方法和算法,并阐述了自动分词在信息检索中的应用。  相似文献   

18.
一种基于词典的中文分词法的设计与实现   总被引:1,自引:0,他引:1  
中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动摘要、自动校对等领域。就中文分词的基本方法作了简单阐述,并介绍了一种基于词典采用最大匹配法实现中文分词的方法。  相似文献   

19.
自然语言检索中的中文分词技术研究进展及应用   总被引:3,自引:0,他引:3  
何莘  王琬芜 《情报科学》2008,26(5):787-791
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。  相似文献   

20.
中文分词算法研究综述   总被引:7,自引:0,他引:7  
中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。文章对各种中文分词算法进行了详细的阐述。并进行了比较和讨论。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号