首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 469 毫秒
1.
基于EM算法的汉语自动分词方法   总被引:9,自引:1,他引:8  
李家福  张亚非 《情报学报》2002,21(3):269-272
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。  相似文献   

2.
基于神经网络的汉语自动分词系统的设计与分析   总被引:15,自引:1,他引:14  
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。  相似文献   

3.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

4.
本文讨论了书面汉语的人工辅助分词和自动分词,并以汉语语言学为依据归纳了用汉语词素构词的类型。就书面汉语自动分词的复杂性和依赖于汉语词素构词法的自动分词的可行性进行了分析。本文给出了该自动切分方法分层处理的基本构思和程序框图。  相似文献   

5.
一种面向中文信息检索的汉语自动分词方法   总被引:3,自引:1,他引:3  
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。  相似文献   

6.
汉语自动分词研究进展   总被引:11,自引:0,他引:11  
汉语自动分词是计算机中文信息处理中的难题,文章通过对现有自动分词方法研究进展的分析。指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。  相似文献   

7.
基于两字词簇的汉语快速自动分词算法   总被引:10,自引:1,他引:9  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现  相似文献   

8.
汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个,一个是切分的速度,一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法,可大大提高系统的切分速度,而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后,本文对消歧提出了一些设想。  相似文献   

9.
汉语自动分词研究展望   总被引:13,自引:1,他引:13  
 汉语自动分词是计算机中文信息处理中的难题。本文通过对现有分词方法的分析,指出了今后汉语自动分词研究的三个发展方向,即对传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。  相似文献   

10.
汉语自动分词是计算机中文信息处理中的难题。文章通过对现有分词方法的探讨,指出了汉语自动分词研究未来的发展趋势,即传统文本的有效切分,计算机技术的快速发展,改造书面汉语书写规则。参考文献35。  相似文献   

11.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

12.
基于Hash算法的中文分词的研究   总被引:1,自引:0,他引:1  
通过对已有算法的分析,提出一种新的词典结构,并根据词典给出分词算法。理论和实验证明,算法在速度和效率上有很大的提高。  相似文献   

13.
基于三数组Trie索引树的词典查询机制*   总被引:1,自引:0,他引:1  
对双数组Trie进行改进,设计实现基于三数组Trie索引树原理的汉语词典查询机制,并用递归算法实现构词状态表的自动构建。  相似文献   

14.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

15.
基于哈希算法的中文分词算法的改进   总被引:1,自引:0,他引:1  
中文分词是中文信息处理一个重要的部分,一些应用不仅要准确率,速度也很重要,通过对已有算法的分析,特别是对快速分词算法的分析,本文提出了一种新的词典结构,并根据新的词典给出了新的分词算法,该算法不仅对词首字实现了哈希查找,对词余下的字也实现哈希查找。理论分析和实验结果表明,算法在速度和效率比现有的几种分词算法上有所提高。  相似文献   

16.
Abstract

Changes in the state structure since 1989 and their effect on the development of culture are discussed, as is the liquidation of censorship. The transition of publishing from a monopoly state enterprise to a part of the market economy is described, along with the development of the new mass electronic media. A final section deals with the situation in public libraries after 1989 and the difficulties experienced by librarians in dealing with the threatened disappearance of traditional culture under the tidal wave of mass media for entertainment.  相似文献   

17.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

18.
图书流通信息多层关联规则挖掘法的优化与应用   总被引:1,自引:0,他引:1  
通过对FP-Growth算法的扩展,提出图书流通信息关联规则挖掘的新算法即MACLC-FP(Multilevel Association with Chinese Library Classification FP)算法;结合实例着重阐述应用该算法,采用多层关联分析技术,挖掘读者借阅行为中隐含规律的可行性;进而探讨该数据挖掘技术在现代图书馆中的应用前景。这对图书馆调整资源建设的学科结构、提升读者服务的工作水平都具有重要意义。  相似文献   

19.
We present a new ranking algorithm that combines the strengths of two previous methods: boosted tree classification, and LambdaRank, which has been shown to be empirically optimal for a widely used information retrieval measure. Our algorithm is based on boosted regression trees, although the ideas apply to any weak learners, and it is significantly faster in both train and test phases than the state of the art, for comparable accuracy. We also show how to find the optimal linear combination for any two rankers, and we use this method to solve the line search problem exactly during boosting. In addition, we show that starting with a previously trained model, and boosting using its residuals, furnishes an effective technique for model adaptation, and we give significantly improved results for a particularly pressing problem in web search—training rankers for markets for which only small amounts of labeled data are available, given a ranker trained on much more data from a larger market.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号