首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。  相似文献   

2.
正向最大匹配法在中文分词技术中的应用   总被引:2,自引:0,他引:2  
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.  相似文献   

3.
一个基于改进的反序分词词典的中文分词算法   总被引:1,自引:0,他引:1  
中分词是中信息处理最重要的预处理。章对传统的反序分词词典进行了改进,设计了反序词典词根HASH表,并给出了相应的分词算法,实验表明,改进是有效的。  相似文献   

4.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

5.
互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。  相似文献   

6.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

7.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

8.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

9.
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果.在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景.  相似文献   

10.
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.  相似文献   

11.
运用松弛匹配方法的基本思想,给出了用汉字轮廓点的差分作为轮廓跟踪及折断点选择的算法,提高了轮廓折线化速度;分类按汉字四周的外轮廓线分三级进行匹配,提出了动态有序弹性匹配方法,使全域松弛匹配得以在局部区域进行,从而有效地提高了匹配速度;在进行第一级初分类时,采用多个模块,有效地提高了按偏旁位置分布进行分类的正确率;最后利用内轮廓折射与字典逐字匹配,达到对离线手写印刷体汉字识别的目的。  相似文献   

12.
利用《通用字符集》和字处理软件Word2000,解决生僻字输入计算机。  相似文献   

13.
也谈生僻字的信息处理   总被引:3,自引:0,他引:3  
汉字生僻字的输入,一直是困扰史工作的难题,本试在他人的研究基础上,提出一些关于汉字信患处理的设想和相关的解决方案。  相似文献   

14.
本文论述导体处于超导态时,具有零电阻效应和完全抗磁性的奇异性质,超导材料应用前景十分广阔,如超导强磁体,超导储能,超导磁悬浮列车等。  相似文献   

15.
汉字的性质   总被引:5,自引:0,他引:5  
确定一种文字的性质,要根据这种文字的基本单位记录的是什么样的语言单位。汉字的基本单位是一个个的字,这一个个的字记录的是汉语的一个个语素,所以汉字是语素文字。从内部结构说,汉字主要是由意符和音符构成的,所以叫做意音文字。  相似文献   

16.
关于汉字的性质,目前学术界的认识很不一致,有些观点甚至截然对立。我们认为:汉字性质研究的目的是服务于汉字的教学和应用。所以,对汉字性质的认定必须立足于汉字的不同应用环境,只有在这个前提下才能考察汉字所体现出的具体性质特征。  相似文献   

17.
汉字的力量     
石华宁 《高中生》2012,(19):36-37
人类有历史悠久的四大文明,其中三大文明都几乎消失了,唯有中华文明流传至今。为什么?人类历史上那么多国家被人征服,然后分割,为什么唯有中国被分割不了?今日,有哪一个国家的人能读懂两千多年前原创的诗歌、散文?只有一个国家——中国。人类哪一种文化的音乐、绘画、诗歌,能达到天人合一、意境悠远之美?只有中华文化。这一切都只因一种东西——汉字。人类最早创立的文字本来就是象形文字,但只有汉字流传下来。回想起几年前到欧洲旅游,我一直在思考一个问题:为什么欧洲大陆并不大,却会有那么多语言文字、那么多小国家?法国、德国、意大利算是大的,却都不过如中国一个省大。多数国家就像中国一个地区或一个县那么大。卢森堡名气不小,但实际上从一头到另一头只有  相似文献   

18.
汉字在经历了近百年的汉字落后论的批判之后,迎来了“汉字优越论”的曙光,这两种截然相反的论调让 我们深思这样一个问题:在信息高速发展的社会中,应该怎样正确对待计算机汉字输入对标志中华民族文化的汉 字及其发展产生的冲击呢?本文以历史的眼光,纵观汉字发展史,对计算机汉字输入将会给汉字发展产生的影响 进行了较为深入的剖析。  相似文献   

19.
浅析汉字与文化的关系   总被引:3,自引:0,他引:3  
汉字与文化关系密切 ,文化是造字的依据 ,汉字可以充当研究造字时代社会状况的材料。除了记录语言 ,汉字还有许多其他的功用  相似文献   

20.
数学拟合问题和插值问题相类似,在插值问题中,要求f(x)=∮(x)在插值结点Xi上,满足f(xi)=∮(xi),要求所求曲线通过所有点(xi,yi),但一般实验中给出的数据总是有观测误差。而数据拟合法不要求曲线通过所有的点(xi,yi),而是根据数据之间的相互关系用其他方法给出它们之间合适的数学公式,画出一条近似曲线,以反映给定曲线的一般趋势。该曲线用EXCEL来实现更简单。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号