首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
汉语以字为基本书写单位,且缺乏形态变化,词的兼类现象相当普遍.因此,有效对汉语进行词性标注对利用计算机来理解和生成汉语自然语言具有基础性意义.通过实例分析介绍了四种主要的标注方法并对其优劣进行了比较.  相似文献   

2.
本提出了一种基于规则的汉语句法分析方法.通过对已进行分词与词性标注的句子进行短语的人工标注.形成精确度较高的语料.然后提取一些规则.分析出短语的结构和功能类型,为自然语言的计算机处理提供基础研究服务.  相似文献   

3.
本文提出在使用基于范例的方法进行汉语短语标注过程中范例库的建立过程。标注中使用上海师大短语的标准标注集,采用分层标注的思想进行标注。根据人工标注的语料建立范例库,通过归并相似性公式进行计算,可以把小于某一阈值的不同范例归并为同一范例。  相似文献   

4.
自然语言的理解是机器翻译(简称M T)的基础。机器理解汉语所面临的主要困难,包括自动分词,歧义消解,意义的多层次解读等。自然语言处理中的这些难题使得计算机难以对汉语语句做出正确的描述。基于规则的汉英机器翻译的质量还有待提高。基于语料库的方法为机器翻译研究提供了新的途径。将基于规则的理性主义方法同基于语料库的经验主义方法结合起来,必将极大地提高汉英机器的翻译的质量。  相似文献   

5.
对机器自动词性标注技术领域的三类主要理论方法(基于规则的方法、基于统计的方法和规则与统计相结合的方法)进行了研究分析和优缺点的对比,并在描述方式、标注依据、机器效率、鲁棒性、标注正确率和实用性等方面,对这三类方法进行认真的比较。比较结果显示规则与统计相结合的方法在各方面都占有较明显的优势,是目前最理想的标注方法。基于此类方法的自动词性标注技术可以较好地满足实际应用的要求。此外,本文还指出这类方法有待解决的三大难题。  相似文献   

6.
文章提出了一种基于范例的汉语短语标注方法,并将这一方法应用于计算机系统开发中,以小学语文课本作为基础语料,验证了系统的可用性,经过对熟语料的统计分析,建立起范例库,实现短语自动标注,为自然语言的计算机处理提供基础研究服务。  相似文献   

7.
论述了汉语中词、短语和短语词的概念,在此基础上讨论了中文信息处理中的汉语人名的标注问题以及相关的"专名+通名"式短语词的标注问题,提出了汉语人名的标注方法.这一问题的研究,对于汉语自动切词研究具有重要作用.  相似文献   

8.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。  相似文献   

9.
论述了汉语中词、短语和短语词的概念,在此基础上讨论了中信息处理中的汉语人名的标注问题以及相关的“专名 通名”式短语词的标注问题,提出了汉语人名的标注方法。这一问题的研究,对于汉语自动切词研究具有重要作用。  相似文献   

10.
单纯运用基于规则进行机器翻译系统很难有效地解决目前机器翻译所面临的一系列问题。笔者针对汉-蒙机器翻译系统中的译文效果,首先分析归纳了在基于规则的MT方法中遇到的一些难题,然后提出了运用基于实例(Example-Based)的转换和基于规则(Rule—Based)的转换相结合的方法.旨在解决汉-蒙机器翻译中存在的问题。  相似文献   

11.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

12.
对外汉语教材词性标注问题研究   总被引:1,自引:0,他引:1  
本文考察了发展汉语系列教材中的7部,指出了对外汉语教材词性标注的几个要注意的问题,以求教材词性标注更加科学化。  相似文献   

13.
中介语语料库的建设是对外汉语教学研究中的重要内容。留学生的各种语言错误,尤其是偏误信息,可以为研究者提供可靠的统计数据。然而,针对留学生文本中标注各种错误的方法尚没有较好地研究。本文从语料库加工流程的角度,探讨了这一问题,并借助XML(可扩展置标语言)提出了错误标注的具体实现方法。  相似文献   

14.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。  相似文献   

15.
为了建立一个面向中文信息处理的现代汉语复句精加工语料库,我们必须进行非分旬语言片段的自动识别工作,目的是把这些语言片段排除在分旬层次分析的范围之外。这项工作建立在自动分词和词性标注的基础上,主要分三个阶段进行。  相似文献   

16.
在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeofl2007的CTB、NCC、PKU三种语料,使用CRF+ +0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数.通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响.  相似文献   

17.
本文通过一个在FoxBASE 2.x或Foxpro下运行的程序,实现了将UCDOS下的所有能通过万能输入法程序加载的输入法自动转换为Windows95/98/NT下所支持的标准输入法编码格式文件(扩展名为TXT的文本文件),从而可以顺利使用Windows95/98/NT下内置的输入法生成器生成完全具有Windows95/98/NT特征的中文输入法。为Windows95/98/NT添加中文输入法提供了一种快捷、方便的途径。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号