首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 212 毫秒
1.
基于百科资源的多策略中文同义词自动抽取研究   总被引:3,自引:1,他引:2  
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13.  相似文献   

2.
这部印刷精美,装帧典雅的大部头词典的问世,无疑又将给中国辞书界带来一阵惊喜,又将给中国的英语使用者提供一个极佳的选择。(一)我自己也曾经和正在编撰双语词典。作为一名词典编撰人员,我深知编写一部词典所耗费的辛劳和时间,深知编译这样一个大部头词典意味着多么浩大的工程。这中间最大的困难当然是释义的处理。由于不同的文化架构和文化内涵,两种语言对现实的切割是不同的,因而常常出现对应词空白,或不容易找到对应词的情况。一个英语词往往需要若干个汉语释义才能将其词义完全地表达出来;有些看似同义词,但其中却有着细微…  相似文献   

3.
概念等级关系自动识别研究   总被引:1,自引:0,他引:1  
界定了信息检索用概念等级关系的涵义,明确了其包含的属种、实例和整部三种子关系类型并阐明概念等级关系自动识别研究在信息组织和信息检索领域的五种应用途径,详细介绍了常见的概念等级关系自动识别方法,包括基于同现统计的识别方法、基于句法模式匹配的识别方法、分布相似度计算方法、基于在线维基百科篇章结构的识别方法、基于词典定义的识别方法,并分析它们的优点和不足之处.最后建议中文等级关系的自动识别,可以借鉴以上方法,利用中文现有语料如<同义词词林>和汉语构词特点,综合使用多种方法以取得等级关系识别的最佳效果.  相似文献   

4.
基于词典和统计的语料库词汇级对齐算法   总被引:5,自引:0,他引:5  
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的  相似文献   

5.
WD-ZBJ中文文献自动标引检索系统   总被引:1,自引:0,他引:1  
本系统是在IBM-PC机上应用dbaseⅢ实现的。具有自动标引、机编索引、联机检索和定题服务等功能。采用“关键词的部件词一尾续词词典”和“非关键词部件词词典”对篇名(或文摘等)进行自动抽取关键词。其主要特点是采用“关键词规范化词典”对关键词进行规范处理,使同义词规范化,使同一族的一组词相对集中,显著提高了自动标引质量,从而提高了关键词法的检索效率。  相似文献   

6.
基于模式匹配的军事演习情报信息抽取   总被引:1,自引:0,他引:1  
以军事演习情报信息抽取为突破点,采用基于模式匹配的方法进行演习情报的抽取.在信息抽取的不同环节,采用层次自动分类方法进行待抽取文本筛选;采用基于种子模式的自举方法结合领域词典进行军事演习组块识别;采用基于语料标注的方法进行事件属性模式学习获取.实验结果表明该方法在特定领域内的有效性,在实际工程项目中达到可应用状态.  相似文献   

7.
语义词典在语言学和自然语言处理研究中占有相当关键的位置.利用聚类方法自动初步构造词典可以克服人工构造的主观缺陷,但对聚类后的结果比较难于评价.本文借鉴语言模型中的词混乱度概念对已经构建的语义词典进行自动评价,并计算比较SOM学习过程中不同阶段和不同输出网格的混乱度值;最后,与人工主观评价标准相比较,验证了混乱度方法对语义词典的评价与人工主观评价一致性;同时进一步分析了利用混乱度在真实语料库上对初建语义词典评价的客观性.  相似文献   

8.
利用语料库、释义词典、用户检索日志作为识别相关词的语境,设计并实现相关词自动提取系统。实验结果表明,虽然面向相同的基本词汇集合,但是基于不同语境提取的相关词之间的重复率很低,各个结果间的互补性很强,说明结果整合非常有必要。在本系统中,通过直接整合途径构建最后的相关词词表。  相似文献   

9.
刘伟 《图书情报工作》2013,57(16):15-19
从互联网中搜索同义词具有非常重要的理论意义和应用意义,但同时也存在一词多义情况下无法对不同词义的同义词进行区分的问题。针对这一问题,提出一种对互联网同义词搜索结果按照词义聚类的方法,该方法利用术语间的词义关系转化为图结构,实现词义自动聚类,无需人工干预和学科领域知识,能够达到较高的聚类准确性。  相似文献   

10.
工具书探幽一例——语文释义和百科释义的分野   总被引:1,自引:0,他引:1  
语文释义和百科释义在一般的语文词典中是有区别的。两者在精确性,概括性、周延性、破题性、有否源流和是否使用术语等方面都有差别。语文释义不要过于概括;百科释义不应过于烦琐。  相似文献   

11.
改进的中文字串多模式匹配算法   总被引:4,自引:0,他引:4  
针对中文字串匹配问题 ,提出了一种改进的多模式匹配算法。该算法采用新型组合状态自动机 ,解决了对大字符集语言构建字符完全Hash表时可能遇到的存储空间膨胀问题。此外 ,算法还充分利用中文大字符集语言的优势 ,将QS算法的思想融入到多模式匹配应用中 ,取得了良好的效果。实验结果显示 ,本算法明显优于DFSA算法 ,在平均情况下所花费时间仅为DFSA算法的 70 33%。  相似文献   

12.
串的模式匹配是信息检索中的一个热点.文章介绍了模式匹配的概念,分析了串模式匹配中的BF算法和KMP算法,并对KMP算法进行了改进.实验结果表明:改进的KMP算法使信息检索具有更快的响应速度.参考文献5.  相似文献   

13.
BM模式匹配算法的改进研究   总被引:5,自引:0,他引:5  
模式匹配在全文检索系统中有着重要的作用,本文介绍和讨论了国内外所应用的模式快速匹配算法,并对著名的BM算法中δ1函数作了部分修改,提出δ3函数设想,以进一步加快模式快速匹配的速度。文中详细叙述了δ3函数的设想和算法,以及修改后的模式匹配算法。  相似文献   

14.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

15.
条码技术在图书馆已得到广泛的应用,传统的条码识别设备成本高,功能单一。本文提出一种新的图书馆用条码识别设备,通过普通的视频摄像头结合图像处理和识别算法实现条码自动识别,具有成本低、可扩展性高的优点。实验结果和应用分析表明该设备是一个非常有前景的图书馆自动化设备。  相似文献   

16.
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要意义.文本分类的发展与模式识别的发展密切相关.文本分类具有的类目多、样本数目多、噪音多、各类别样本数目不均衡等特点,使各模式识别算法在应用于文本分类时存在许多缺点.近年来逐步发展起来的群集智能(Swarm Intelligence)理论和方法为文本分类提供一种新...  相似文献   

17.
修正传统图像信息描述方法,在人造物体图像解释过程中采用几何特征和先验知识相结合的方法,提出人造物体图像结构描述以及相应的匹配算法。通过特征点对目标图像的形状轮廓进行离散化和曲线拟合获取离散曲线段的几何特征向量,并根据特征点类型来描述曲线段之间的关系,最终还原人造物体图像结构描述的参数化模型。实验证明,该方法更能够满足人类的视觉特性,而且能够方便计算机还原出图像中的对象形状。  相似文献   

18.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

19.
本文在分析入侵检测系统Snort的规则匹配算法——Boyer-Moore(BM)算法的基础上,提出了一种更为优越的字符串搜索算法,该算法充分利用每一次匹配比较的信息以跳过尽可能多的字符进行下次比较。理论分析与实验表明,该算法具有更大的平均搜索步长、更少的匹配比较次数和更快的速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号