首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于反序词典的中文逆向最大匹配分词系统设计*   总被引:6,自引:0,他引:6  
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。  相似文献   

2.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

3.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

4.
网上答疑系统是现代远程教育系统中不可缺少部分,本文通过对中文信息处理技术的分析,构建一个基于Web的智能答疑系统,并研究探讨了中文分词切分、最大匹配算法的改进、问题特征分析等一系列问题。  相似文献   

5.
苗利明 《信息系统工程》2010,(6):137-137,131
设计了一个正向最大匹配和逆向最大匹配共用的正序分词词典,该词典占用内存较少并且易于维护。在此分词词典基础上用PHP实现了双向扫描发现歧义的程序,并对歧义句进行了标记输出。  相似文献   

6.
李玉鉴 《情报学报》2003,22(6):722-729
本文提出了一种设计和实现英汉翻译系统的新方法。该方法以模板匹配替换通用算法 (UAMRT)为基础 ,通过结合句型分析算法和从句分析算法建立启发式搜索机制 ,实现从源语言句子到目标语言句子的自动翻译。它不仅能够合理地利用基于规则和基于例子的翻译系统的优点 ,而且能够在一定程度上克服它们的缺点。速度测试表明以该方法为基础实现的英汉翻译系统在P IV1 7G的计算机上的翻译速度每秒可以达到 130 0个单词左右 ;质量测试表明该系统具有较好的发展潜力  相似文献   

7.
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。  相似文献   

8.
张新  党延忠 《情报学报》2007,26(6):813-820
为获取中文领域本体的概念提出了基于规则匹配和统计方法相结合的学习模型,充分利用现有的自然语言处理技术和统计学习方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念.该方法解决了现有中文本体学习方法对领域词典的依赖以及无法获得短语式特定领域概念的问题,同时解决了领域概念筛选问题.实验证明了该方法的有效性.  相似文献   

9.
基于Lucene的中文字典分词模块的设计与实现   总被引:8,自引:1,他引:8  
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。  相似文献   

10.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

11.
智能信息处理系统的内核实现   总被引:2,自引:0,他引:2  
程军 《图书情报工作》2002,46(11):83-85
介绍当代智能文本处理的主要技术核心,以向量空间模型为基础的检索算法,并利用中文字符集的特点,设计并实现了以单字为匹配向量的算法,在全部使用散列函数的基础上,获得了非常快的文本处理速度。  相似文献   

12.
汉语自动分词是中文信息处理的首要工作。衡量一个分词系统性能优劣指标主要有两个,一个是切分的速度,一个是切分的精度。本文提出的基于知识评价的汉语自动分词算法,可大大提高系统的切分速度,而且利用基于复杂特征集的规则、模式等可处理掉大部分切分歧义。最后,本文对消歧提出了一些设想。  相似文献   

13.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

14.
图像匹配是处理和解决各种图像信息的基础,已经成为虚拟现实和计算机可视化领域的研究热点。一直以来,研究人员对图像匹配技术进行了大量的研究,推出了许多匹配算法,其中特征匹配算法有着较高的精确度和稳定性,特别是基于尺度空间的特征检测可以很精确的对图像进行特征检测和匹配。SIFT(Sale Invariant Feature Transform即尺度不变特征变换)特征匹配算法就是其中比较成功的一种算法。图像中有很多关键点对尺度变换、旋转、亮度变化等现象能保持稳定不变的特征。SIFT特征匹配算法就是提取这些关键点来实现图像匹配。其强大的匹配能力,可处理图像之间发生位移、旋转、视角变换,仿射变换,光照变化情况下的匹配问题,更为精准的实现图像的匹配。  相似文献   

15.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

16.
本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。  相似文献   

17.
汉语句法分析是汉语研究和中文信息化处理中的一个关键环节,同时也是难点之一,面向汉语句法分析的辅助系统能为这个领域的研究与实践带来便利。本文概述了句法分析辅助系统的体系结构和基本功能,详细分析了系统实现中的两个关键算法,即括号匹配算法和句法解析算法,初步实验结果表明辅助系统效果良好,达到设计目的。  相似文献   

18.
一种模糊情报检索agent的研究   总被引:1,自引:1,他引:0  
本文讨论了基于模糊数学的近似计算机情报检索,给出了标引词模糊语义关联距离的定义,提出了N个agent元素堆上的agent近似模糊匹配算法和快速的模糊标引词agent检索算法,在限定检索词的条件下,其算法时间复杂性是0(n)的,最后给出了一个agent模糊匹配案例  相似文献   

19.
针对典型的分布式UDDI网络模型中语义Web服务匹配策略存在的问题,通过对经典的弹性匹配算法进行扩展,提出使用GCSM语义距离算法、类别系数和级别系数来量化Web服务的匹配程度即相似度,使得匹配结果更接近请求者的请求。  相似文献   

20.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号