首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
中文本体的自动获取与评估算法分析   总被引:6,自引:0,他引:6  
在下一代互联网,即语义网中,信息模式建立在本体描述之上。由于手工构建本体是一项工作量巨大并且繁杂的任务,因而,能否自动构建本体正逐渐成为语义网使用的关键性要素。在这样的背景下,本文对比和借鉴了国内外本体自动获取的方法和思路,将中文领域本体的提取划分为文本预处理、本体抽取和本体关系获取三个阶段。接着,本文讨论了这三个步骤所涉及的算法,包括基于统计模式对文本抽词、基于奇异值分解从词—文档矩阵中提取本体、基于语义相似度对本体进行聚类等。对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式得到的本体相似度来进行衡量的思路。  相似文献   

2.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

3.
利用本体关联度改进的TF-IDF特征词提取方法   总被引:3,自引:0,他引:3  
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。  相似文献   

4.
【目的/意义】本文希望通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。【方法/ 过程】综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域 本体,并且通过京东商城用户评论进行实证。【结果/结论】本文实现了手机本体的自动构建,发现该模型能够达到 较高准确率,消除了大量冗余,更符合用户需求。  相似文献   

5.
构建本体时获取概念方法研究   总被引:5,自引:0,他引:5  
论述了领域本体构建中本体概念获取的重要性,介绍了领域本体概念的获取方法,并且以食品安全领域本体构建为例对每种方法进行说明,最后对每种方法的适用性和本体概念具备的特征进行讨论,对于领域本体构建时概念的获取具有启发作用.  相似文献   

6.
[目的/意义]实现对领域概念的自动学习抽取,解决领域本体自动化构建的首要基础任务。[方法/过程]以无监督的学习方法和端到端的识别模式为理论技术基础,首先通过对主流词嵌入模型进行对比分析,设计提出了基于Word2Vec和Skip-Gram的领域文本特征词嵌入模型的自动生成方法;其次研究构建了以IOB格式的标注文本作为输入,基于自注意力机制的BLSTM-CRF领域概念自动抽取模型;最后以资源环境学科领域为例进行了实验研究与评估分析。[结果/结论]模型能够实现对领域概念的自动抽取,对领域新概念或术语的自动识别也具有一定的健壮性。[局限]模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

7.
讨论了基于Web页面的电子政务本体构建方法,其原理是基于WEB页面获取电子政务领域概念,采用模式分析方法获得概念关系,并以电子税务领域本体的构建为例进行说明.  相似文献   

8.
将本体概念引入综合评价体系中,通过建立评价体系的本体框架模型对领域内评语进行分析与获取,形成形式化的本体实例,同时结合模糊推理与决策逻辑对获取的评语进行分类汇总,最终自动生成领域内的综合评价文本。  相似文献   

9.
蔡皎洁  张玉峰 《现代情报》2012,32(8):37-40,44
本文提出了一种基于软件工程开发的领域本体构建框架,其中利用结构化方法从整体上将领域本体构建过程划分为规划、分析、设计、实施与运行5个阶段,而在领域本体分析阶段又利用原型化方法进行领域概念及概念关系的分析与设计。在领域本体构建中将两种软件工程开发方法相结合,扬弃了各自的优缺点,使生成的领域本体更高效地满足用户的需求。  相似文献   

10.
[目的/意义]大数据环境下学术创新力自动测度需要建立在相关学术评价指标和学科知识体系基础上,基于领域知识的本体构建将为学术创新力的自动测度提供基础支持。[方法/过程]用手工方式构建学术创新力概念本体,复用《中国分类主题词表》半自动化构建学术创新力评价知识资源的初始本体,加入CNKI期刊题录数据的高频关键词以丰富本体的知识。然后进行学术创新力概念本体和学术创新力评价知识资源本体的实例化。[结果/结论]以G3类题录数据为例,共建立了30 097个概念、41 484个实例以及320 609条关系,基本完成任务目标。  相似文献   

11.
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。  相似文献   

12.
对大数据的频繁项集挖掘是关联规则挖掘的关键步骤,通过有效的频繁项挖掘提高大数据量数据库的访问效率。传统方法中对大数据的频繁项集挖掘采用FP-Growth的粗糙集挖掘算法,扩展性和容错性不好。提出一种基于贝叶斯粗糙集的大数据频繁项挖掘技术,引入后缀项表的概念,通过后缀项表的构建,保留频繁项集的完整信息。构建FP-Tree,生成闭频繁项集,计算样本的密度,并抽取高密度区域的点集作为聚类中心集合,进行后缀项表的构造,按支持度分成若干集合,对各约简集内的属性集合进行融合,用变精度粗糙集的贝叶斯粗糙进行数据挖掘算法改进,仿真结果表明,算法不受可变参数的影响,鲁棒性较高,数据挖掘的准确度较高,运行时间较短。算法将在人工智能和数据挖掘领域具有更广的应用前景。  相似文献   

13.
基于本体的文本信息检索研究   总被引:5,自引:0,他引:5  
本文对如何构建基于本体的文本信息检索系统进行了探讨.并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。  相似文献   

14.
基于文本的本体学习方法研究   总被引:4,自引:1,他引:3  
梁健  王惠临 《情报理论与实践》2007,30(1):112-115,17
本文介绍了当前基于文本的本体学习主要方法,在种子概念的基础上,设计了一种基于文本的本体学习方法,同时分析了术语获取、概念分类、关系获取等基于文本的本体学习关键技术。实验表明,借助种子概念能够从纯文本中抽取概念,对概念进行分类,为本体开发提供基础。  相似文献   

15.
用户兴趣本体弥补了基于关键词的用户兴趣模型不能从语义上表达用户兴趣的缺陷,但大多是利用领域本体来构建,很难反映用户多方面和潜在兴趣,并且构建领域本体也是一个难点。本文据此提出一种基于词汇同现的用户兴趣本体构建方法。根据网页浏览记录找到用户兴趣网页集,经过数据处理将其转换成用户兴趣文本集。以TFIDF为指标抽取概念,词汇同现统计提取概念间关系,运用无尺度K-中心点聚类算法对其调整,将有关联用户的本体合并得到多用户本体,该本体能在语义上更全面反映用户兴趣并发现潜在兴趣。  相似文献   

16.
李晓敏  王昊  李跃艳 《情报科学》2022,40(4):156-165
【目的/意义】为帮助科研用户快速准确地找到与自身研究兴趣相关的学术论文,构建了基于细粒度语义实 体的学术论文推荐模型。【方法/过程】将实验前期识别出的研究主题、研究对象和理论技术类语义实体作为学术论 文和核心作者的内容特征,分别利用TF-IDF算法、TextRank算法和LDA模型得到学术论文和核心作者的特征词, 利用Word2vec对特征词进行向量化,再计算核心作者和学术论文的余弦相似度,将余弦相似度值靠前的Top20推 荐给作者。【结果/结论】利用准确率、召回率和F值对基于三种算法得到的特征词生成的推荐结果进行比较评价,结 果表明,基于TF-IDF算法得到的特征词生成的推荐效果最佳,并对推荐结果进行了实例展示,可以看出本文提出 的推荐模型能够更为全面地为科研用户推荐与其研究兴趣类似的学术论文,提高科研效率。【创新/局限】本文主要 是从学术论文的内容特征入手,对类型细分后的关键词利用不同算法进行核心作者特征词筛选,进而实现学术论 文推荐,但是对学术论文中包含的网络关系并未涉及。  相似文献   

17.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。  相似文献   

18.
盛姝  黄奇  郭进京  解绮雯  杨洋 《情报科学》2022,40(5):161-172
【目的/意义】作为医疗与管理科学领域最为重要的研究课题之一,在线健康社区智能诊疗在我国“互联网+医疗”新业态发展背景下扮演重要角色。【方法/过程】本文从本体论与CBR视角出发,构建基于知识库与案例库的在线健康社区诊疗解决方案自动推理模型;通过八爪鱼采集器获取“好大夫在线”疾病科普以及医患问答数据构建本体,并利用文本分析挖掘出可解释的疾病知识及解决方案,分别实现知识库与案例库的半自动构建;以成年人先天性心脏病为例,将ACHD-AP进行形式化定义,采用推理引擎对患者案例进行风险分类及划分至对应的疾病知识库,并实现诊疗解决方案的自动推理。【结果/结论】研究显示,本文诊疗解决方案推理结论与专家建议相似度较高,且OntoQA评估下的知识库以及案例库本体层次结构关系合理。【创新/局限】基于知识库与案例库的诊疗解决方案自动推理模型为后续在线健康社区实现智能诊疗以及服务模式的创新提供了方法上的参考。  相似文献   

19.
盛秋艳 《情报科学》2012,(8):1238-1241
本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。  相似文献   

20.
本体是基于本体的信息检索性能优劣的关键。目前的本体学习没有专门针对信息检索的查询扩展和检索结果组织的特点,导致信息检索效果不佳。提出面向信息检索的本体学习框架,采用基于相容类的概念层次关系学习方法,各层领域概念从相容类对应的文档集合提取。然后量化表示领域概念,挖掘概念中的同义词,基于同义词重新建立文档集合的概念空间。将获取的本体应用到信息检索实验中,实验表明该框架获取的本体可提高检索的准确性和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号