共查询到20条相似文献,搜索用时 218 毫秒
1.
针对现有的命名实体识别方法不能很好地处理专业领域特定命名抽取的问题,提出一种基于启发式规则的专业命名识别方法。以中文文本中化学物质命名为研究对象,分析其领域特征及统计语言特征,建立适用于化学领域文献命名识别的启发式规则,为专业领域的命名实体识别提供新的解决方案。对比实验证明本文的方法能有效提升专业命名识别的效率。 相似文献
2.
基于本体的汉语领域命名实体识别 总被引:1,自引:0,他引:1
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点.本文将命名实体分为两大类:常规命名实体和领域命名实体.基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法.该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别.实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%.同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用. 相似文献
3.
本文通过研究开源自然语言处理平台GATE和条件随机场模型,提出一种高效的电子产品领域命名实体识别策略,为实习项目中的初步工作--通过计算机智能方法识别出电子产品领域的产品品牌、属性等命名实体提出解决方案,并为下一步可能开展的领域内自动问答系统等高层应用提供底层支撑.该方法是基于层叠模型的规则与统计相结合的新的方法,分别继承了基于规则和基于统计识别方法的优点.最终,通过分析电子产品领域自身的领域特点实现了如品牌、重量等二十余种命名实体的识别.对比实验结果表明,该系统达到了令人满意的识别效果. 相似文献
4.
1.药物命名问题药物命名比较复杂,同一化合物没有一个全球通用名称,不同的情报源以不同的名称作为检索入口,所以必须了解情报源中使用的名称。情报源中使用的药物名称有以下几类: (1)化学名(Chemical Name):描述药物所含化学物质的定量元素组成及其独特的结构特征。不同情报源以不同方式分割化学名及排序个个片段,可按字顺排成主题索引,也可进行亚结构的联机检索。 (2)分子式(Molecular Formula):描述化合物的原子数组成。可在产品描述中出现,也可做检索入口,但是由于存在同分异构现象,检索时最好以 相似文献
5.
基于马尔可夫转移矩阵的多步过程挖掘方法 总被引:1,自引:0,他引:1
针对目前过程挖掘算法对过程日志要求较高,且挖掘结果只能用特定形式化描述模型进行表示,提出一种基于马尔可夫转移矩阵的多步过程挖掘方法。首先基于日志构建马尔可夫转移矩阵,其次定义关系挖掘规则分析过程中的逻辑关系,接着设计过程挖掘算法建立活动间的结构关系,而后给出一种形式化表示算法将挖掘结果表示成有向网络图,最后通过仿真验证方法的可行性。 相似文献
6.
陈丽珊 《福建广播电视大学学报》2009,(1):70-74
本文针对目前基于聚类算法的入侵检测技术存在符号类型数据处理能力欠缺、误报率较高的问题。提出了一种基于聚类和关联规则修正的入侵检测技术。该方法将关联规则挖掘技术引入到聚类分析机制中.利用针对符号型属性的关联规则挖掘结果对聚类结果进行修正,从而有效降低由于在入侵检测单纯使用聚类分析所导致的误报。文中详细的阐述了改进的具体实现方案,并通过实验验证了该技术的可行性。 相似文献
7.
8.
本文详细介绍了美国<化学方法,并对两种不同出版形式下化学物质检索方法的选择及其优缺点作了简单总结.文摘>的光盘版CA on CD和网络版SciFinder Scholar中化学物质的检索 相似文献
9.
我国时至今日期刊名称问题并没有得到业内充分重视.对科技期刊各学科期刊名称中以各学科名称或通用词+“学报”命名的期刊在各学科中影响力进行定量化研究,将其主要认识类比为“黑天鹅事件”,并对这一发现的意外性、重要性和必然性进行分析,以期指导期刊定名及名称的商标注册等问题. 相似文献
10.
基于关联规则的Wikidata人物名称数据分析——以诺贝尔文学奖得主为主题 总被引:1,自引:0,他引:1
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。 相似文献
11.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。 相似文献
12.
13.
对中文时间词和数词在文本中的常见形式进行归纳,以此为基础构建用于识别时间词、数词的规则集,提出一个基于规则的时间词和数词自动识别算法,并对该算法在竞争情报分析领域和机器翻译领域中的应用价值进行论述。 相似文献
14.
基于词序的多关键词加权检索融合研究 总被引:1,自引:0,他引:1
李培 《现代图书情报技术》2008,3(10):32-37
分析国内外目前报道的三种元搜索多关键词加权方法,指出这些方法存在忽视词序的问题;进而提出结合词序特征的多关键词综合加权方法,对多关键词加权方法做重要改进;此外研究基于D-S理论的元搜索结果融合方法;实验表明,该方法可以明显提高检索性能。 相似文献
15.
由于自然语言的复杂性,使得情感挖掘仍存在一些问题需要解决,如情感词的领域依赖性、隐式特征识别、同指特征处理和特征极性计算等。为解决这些问题,提出一种基于语义的情感挖掘方法,该方法以主题图为指导进行特征及情感词的识别和情感极性强度计算,充分利用特征之间及其特征与情感词之间的语义关系,可以在一定程度上提高意见挖掘的准确性。 相似文献
16.
17.
18.
三种文档语义倾向性识别方法的分析与比较* 总被引:2,自引:0,他引:2
研究并实现三种文档倾向性识别的方法:基于情感词加权的方法、基于语义模式分析的方法和基于文本分类的方法。第一种方法利用特征词汇的情感语义倾向性。第二种方法对自然语言的句法结构进行简化,以获取合适粒度的倾向性语义模式。第三种方法则直接利用传统的基于文本分类的方法。通过在网络舆情分析系统中的具体实现,探讨这三种方法各自的不足和优势。 相似文献
19.
20.
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。 相似文献