首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

2.
分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有更优秀的表现。使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析。  相似文献   

3.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

4.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

5.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。  相似文献   

6.
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,在一定程度上比较好地解决了未登录词和分词歧义的问题。  相似文献   

7.
简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。  相似文献   

8.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

9.
2010年11月23日,新闻出版总署发布了《关于进一步规范出版物文字使用的通知》,对规范使用外国语言文字的使用提出了要求。《通知》中规定:“在汉语出版物中,禁止出现随意夹带使用英文单词或字母缩写等外国语言文字……外国人名、地名等专有名词和科学技术术语要按有关规定翻译成国家通用语言文字。”  相似文献   

10.
2010年11月23日,新闻出版总署发布了《关于进一步规范出版物文字使用的通知》,对规范使用外国语言文字的使用提出了要求。《通知》中规定:“在汉语出版物中,禁止出现随意夹带使用英文单词或字母缩写等外国语言文字……外国人名、地名等专有名词和科学技术术语要按有关规定翻译成国家通用语言文字。”  相似文献   

11.
中文化学物质名称识别研究*   总被引:1,自引:0,他引:1  
在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词标注识别效果更佳;此外,还研究特征数量对实验效果的影响。  相似文献   

12.
英语影视片名翻译刍议   总被引:1,自引:0,他引:1  
英语影视片名翻译是一种艺术的再创造,优雅的译名揭示影片主题及其风格特色,起着积极的导视和促销作用。但片名 的翻译目前存在一些炒作和混乱现象,本文探讨了片名翻译的基本原则与技巧以及规范翻译的意见。  相似文献   

13.
文章总结了当前海量二次文献中机构名称多样性现状及由此产生的问题,介绍了机构多层级词表编制方法,以及机构多层级词表在文献计量评价与机构科研绩效管理中的应用效果。通过应用效果可以看出:机构多层级词表的应用,解决了海量数据中机构名称归一化问题,从而提高了文献检索的查全率、查准率,保证了文献计量结果的准确性;同时,通过多层级词表的应用,可以解决一个机构对其多层级下属机构的科研绩效管理问题。  相似文献   

14.
中国藏医药系列数据库建设与发展   总被引:3,自引:0,他引:3  
介绍中国藏医药系列数据库建设的背景、意义、内容和特色,概述在建库过程中应用西北民族大学中国民族信息技术研究院开发的同元藏文字处理软件的体会,并对该系列数据库的未来发展提出构想。  相似文献   

15.
孙佳佳  李雅静 《情报学报》2022,41(2):118-129
对作者关键词进行价值细分研究,有助于识别学科高价值研究热点主题,帮助研究者们精确把握高价值研究主题和学科研究前沿。本文引入营销领域客户价值细分RFM (recency,frequency,monetary)模型,对各个指标进行动态加权,多次实验后,形成多组关键词价值细分结果;从关键词生命周期的角度,结合医学领域的生存分析方法,使用Kaplan-Meier曲线和Logrank检验验证,识别出最优价值细分结果;依据帕累托原则和聚类算法得到高价值热点主题。数据源选择CSSCI (Chinese Social Sciences Citation Index)收录的图情档领域期刊论文,对1998—2019年的题录数据进行实验。相较于已有的热点主题识别方法,本文的识别结果考虑了关键词的价值属性和分类,较好地识别了高价值热点主题。  相似文献   

16.
设计一个可以自动识别古代汉语文献中姓名的模型系统,对纪传体古代汉语文献中的姓名识别作了实验和探索。以晋陈寿的《三国志·蜀书》十五卷为实验文本,对系统的识别效果进行测试,识别结果为召回率75.4%,准确率91.9%。实验证明,基于规则的方法对于识别纪传体古代汉语文献中的姓名是可行的。  相似文献   

17.
藏文词汇通用度统计研究   总被引:1,自引:0,他引:1  
文章介绍和论述了基于1.3亿字节藏文语料库,对藏文词汇频度与通用度进行统计研究及其具体实现的方法与过程。其研究成果有助于藏族基础教育、扫盲教育的语言文字教学,对藏语语言学研究和藏文信息处理具有重要的研究与煦用价值。  相似文献   

18.
文章重点分析藏族陶瓷器形,内容涉及:一、探讨生活陶瓷器形的民俗性;二、讨论陶瓷器形与宗教信仰的关系;三、简析建筑性陶瓷,最后针对藏区陶瓷器形及陶瓷业发展提出若干建议。  相似文献   

19.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号