首页 | 本学科首页   官方微博 | 高级检索  
     检索      

汉语文本自动处理之管见
引用本文:张国跃,王燕莉.汉语文本自动处理之管见[J].新乡师范高等专科学校学报,1998(4).
作者姓名:张国跃  王燕莉
作者单位:新乡师专图书馆 453000 (张国跃),新乡师专图书馆 453000(王燕莉)
摘    要:<正> 汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。一

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号