共查询到18条相似文献,搜索用时 203 毫秒
1.
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeoff2006的评测语料上进行了封闭测试。 相似文献
2.
<正> 汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。一 相似文献
3.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法. 相似文献
4.
第5版《现代汉语词典》在区分词与非词的基础上,对所收的词进行了词性标注,这是一件意义非凡的事情。但我们在仔细阅读该词典后,却发现了一些值得商榷的问题,如同类词词性标注不一致;词性标注不当;词性缺标;释义与词性不一致等。 相似文献
5.
6.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。 相似文献
7.
8.
方芳 《乐山师范学院学报》2006,21(2):57-59
本文在语料库的基础上,通过考察、分析和统计人工分词和词性标注语料,采用语言学成果和计算机技术,对量名短语在语料库中的自动识别工作做了初步探讨。实验结果证明,利用匹配搭配词典和参考通过训练得出的搭配概率的方法,能够较好地在分词及词性标注文本上自动识别量名短语。 相似文献
9.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 相似文献
10.
汉语电子词典是汉语自动分词及词性标注系统的重要组成部分,其性能直接影响到分词及词性标注系统的速度和效果。本文介绍了一种通用的基于PB的汉语电子词典管理系统的设计与实现过程,通过该系统能有效地管理汉语电子词典,使得词典具有良好的性能和可扩展性,为汉语自动分词和词性标注等研究工作提供有力的工具支持。 相似文献
11.
基于组合度的汉语分词决策算法研究 总被引:1,自引:0,他引:1
提出了汉字组合的组合度概念,讨论了组合度与组合的成词能力之间的关系,利用决策树的方法挖掘了组合度与分词模板的关系.在此基础上得出了一种新的分词算法.实验表明组合度对组合成词能力的影响远远大于组合频率的影响.这种分词方法对汉语分词的歧义问题、人名、地名识别问题;新词识别问题等都有一定的作用. 相似文献
12.
13.
刘敏娜 《咸阳师范学院学报》2012,27(2):55-57
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。 相似文献
14.
词切分是指在阅读过程中把连续的语言信息切分成有意义的单元,以促进文本的阅读与加工。拼音文字中的词间空格起到了词切分的作用;而中文属于表意文字,书写方式与拼音文字不同,没有词间空格。拼音文字阅读词切分的研究发现,词间空格标示了词切分的位置,是词切分的依据,而且,空格有效地引导读者的眼动行为;而中文的文本没有类似空格的词边界的标记,人为标记词边界不能促进阅读,但是人为添加的词间空格能够促进单词的早期识别。关于中文的词切分已有大量研究,但仍存在如下需要解决的问题:(1)对中文词切分的切分依据的研究还没有一致的结论;(2)中文阅读眼动控制模型的构建还不成熟;(3)词切分与初学者学习之间的关系有待研究;(4)对外汉语教学的教材如何有效处理词切分;等等。未来研究应在以上方面加以探讨。 相似文献
15.
郑博 《南宁职业技术学院学报》2011,16(2):72-75
《分词规范》与《正词法》1在中文信息处理中有着同样重要作用,两者既有各自的侧重点又存在一些共性的,两者所规定的词均与"语法词"、"词汇词"存在着联系,但《正词法》规定的分词连写方式并不能够解决中文信息处理的分词问题,只有充分利用《正词法》的研究成果,再结合中文信息处理的特点,才能使《分词规范》更加完善,促进中文信息处理分词问题的解决。 相似文献
16.
甘秋云 《唐山师范学院学报》2013,(5):55-57
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。 相似文献
17.
联绵词造词探源 总被引:1,自引:0,他引:1
刘志纲 《江西师范大学学报(哲学社会科学版)》2006,39(6):42-48,97
从词本位出发,重新对联绵词进行探源,就会发现联绵词也有其造词理据,特别是原生造词阶段的联绵词.汉字未造之先,当有大量的复音词,包括联绵词.造字之后,可能有些联绵词会隐藏在一个字形里,和单音节词一起成为汉语的基本词汇.到了派生造词阶段,原生造词阶段的联绵词也会派生造出若干个联绵词;或者由原生造词阶段的单音节词通过重复的形式派生出叠音词,再由叠音词派生出联绵词.合成造词阶段虽说主要是合成词造词的方法,但也有不少联绵词的源词是由合成词在历史的演进中蜕变而成的. 相似文献
18.
先秦文献《孟子》自动分词方法研究 总被引:1,自引:0,他引:1
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。 相似文献