共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
基于EM算法的汉语自动分词方法 总被引:9,自引:1,他引:8
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。 相似文献
3.
本文讨论了书面汉语的人工辅助分词和自动分词,并以汉语语言学为依据归纳了用汉语词素构词的类型。就书面汉语自动分词的复杂性和依赖于汉语词素构词法的自动分词的可行性进行了分析。本文给出了该自动切分方法分层处理的基本构思和程序框图。 相似文献
4.
全文检索中的汉语自动分词及其歧义处理 总被引:3,自引:0,他引:3
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。 相似文献
5.
6.
汉语自动分词研究进展 总被引:11,自引:0,他引:11
汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析。指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
7.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。 相似文献
8.
汉语自动分词研究展望 总被引:13,自引:1,他引:13
汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。 相似文献
9.
一种面向中文信息检索的汉语自动分词方法 总被引:3,自引:1,他引:3
孙巍 《现代图书情报技术》2006,1(7):33-36
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。 相似文献
10.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。 相似文献
11.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效. 相似文献
12.
基于神经网络的汉语自动分词系统的设计与分析 总被引:15,自引:1,他引:14
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。 相似文献
13.
14.
汉语自动分词模式自动机构造研究 总被引:1,自引:2,他引:1
吴绍根 《现代图书情报技术》2006,1(5):47-49
基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。 相似文献
15.
16.
自动分词技术及其在信息检索中应用的研究 总被引:19,自引:1,他引:18
首先分析了自动分词与自然语言处理、自动分词与信息检索之间的关系, 在此基础上, 介绍了近年来自动分词系统实现的技术原理, 探讨了自动分词技术在信息检索中应用的问题。 相似文献
17.
神经网络技术在汉语歧义切分中的应用 总被引:4,自引:1,他引:3
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。 相似文献
18.
基于两字词簇的汉语快速自动分词算法 总被引:10,自引:1,他引:9
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现 相似文献
19.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
20.
用于汉语文献自动标引的词典结构研究 总被引:1,自引:0,他引:1
用于汉语文献自动标引的词典组织结构对自动标引的效率有很大影响,自动标引中运用的词典查找算法有其自身的特点,符合这种特点的词典结构能提高自动标引过程中分词的速度。本文在分析了几种常用的词典结构的空间效率和时间效率之后,提出了一种通用而高效的词典组织方法。采用这种方法的词典,其体积可以减小到原来的0.4倍,分词速度提高到原来的2.5倍。 相似文献