首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
[目的/意义] 信息技术的快速发展与广泛应用推动了敦煌学研究的变革,使敦煌学研究及其知识资源的利用更加便利,由于还停留在现有数据库传统知识平台与检索方式上,使敦煌遗书图像知识的价值挖掘不全面。为此,笔者对敦煌遗书图像研究进行梳理,对敦煌图像知识发现的深度和广度及其知识关联进行充分的语义描述,以利于发掘敦煌遗书图像的多元价值。[方法/过程] 通过敦煌遗书图像研究现状的考量、语义描述,根据敦煌遗书图像语义特征设计其语义特征层级模型,结合智能+关联数据技术构建敦煌遗书图像知识关联的组织框架,并深入分析了敦煌遗书图像知识关联及其组织框架中的数据收集层、语义描述层、数据关联层、资源应用层。[结果/结论] 提出敦煌遗书知识关联模型的实践价值,能够打通与外部开放数据关联渠道、提高敦煌遗书图像智能化的检索质量以及提升敦煌遗书图像知识服务的深度与广度。  相似文献   

2.
Latent Semantic Indexing (LSI) is a popular information retrieval model for concept-based searching. As with many vector space IR models, LSI requires an existing term-document association structure such as a term-by-document matrix. The term-by-document matrix, constructed during document parsing, can only capture weighted vocabulary occurrence patterns in the documents. However, for many knowledge domains there are pre-existing semantic structures that could be used to organize and categorize information. The goals of this study are (i) to demonstrate how such semantic structures can be automatically incorporated into the LSI vector space model, and (ii) to measure the effect of these structures on query matching performance. The new approach, referred to as Knowledge-Enhanced LSI, is applied to documents in the OHSUMED medical abstracts collection using the semantic structures provided by the UMLS Semantic Network and MeSH. Results based on precision-recall data (11-point average precision values) indicate that a MeSH-enhanced search index is capable of delivering noticeable incremental performance gain (as much as 35%) over the original LSI for modest constraints on precision. This performance gain is achieved by replacing the original query with the MeSH heading extracted from the query text via regular expression matches.  相似文献   

3.
敦煌遗书图像蕴含丰富的文化内涵,对于研究中国古代社会历史、宗教与美术具有重要意义,但传统单一线性的图像检索方式不利于敦煌遗书图像隐性知识的挖掘,影响知识发现的深度与广度。而关联数据能够连接多源异构资源,实现多种资源的语义互联,既能促进管理标准化与规范化,又有利于提升图像内容的深入整合,同时,将关联数据应用于敦煌遗书图像在理论、实践与技术上都具备可行性。为此,本文针对敦煌遗书图像的物理特征与内容语义特征构建敦煌遗书图像层次模型,使用元数据描述后将这些元数据进行关联;同时,本文基于关联数据设计敦煌遗书图像知识关联的组织模式,其自底向上分为数据收集层、语义描述层、数据关联层与知识应用层四层,旨在改善图像检索效果并利于敦煌遗书图像的知识发现与智能查询。  相似文献   

4.
个性化语义TRIZ构建研究   总被引:2,自引:1,他引:1  
[目的/意义]研究构建个性化语义TRIZ的方法、流程与关键技术.该语义TRIZ可对专利中隐性技术信息进行深度揭示与语义关联.[方法/过程]设计一个开放性语义TRIZ框架.该框架从概念空间、索引空间、应用空间3个维度构建语义TRIZ;从微观层SAO、中观层技术主题、宏观层技术范畴3个层面描述语义TRIZ索引结构.基于该框架,以大口径光学元件专利为例构建领域个性化语义TRIZ.[结果/结论]针对中等规模专利数据集(数千条),本方法能有效地半自动构建领域个性化语义TRIZ,支持专利深度技术挖掘应用.  相似文献   

5.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

6.
电子文件管理元数据中,时间元素存在4种语义结构:时间元素的前端模式语义结构、后端模式语义结构、连续体模式的语义结构、分面语义结构。建立电子文件管理元数据标准时, 最好以连续体模型为依据来建构,同时采用分面语义结构。表6。图3。参考文献5。  相似文献   

7.
本文介绍一种基于句法分析和格式语义结构,被称为“语义矢量空间模式”的文献自动标引/检索技术。在此模式中,自然语言文献和检索提问均表示为语义矩阵。通过计算语义矩阵的相似值,检索系统可以预测文献与给定提问之间的相关度,从而达到检索相关文献的目的。初步试验结果表明,若文献及检索提问较长,特别是以原文献作为提问样本时,此检索技术与康奈尔大学的SMART系统相比,在检全率、检准率和相关排序有效性方面均有所改进  相似文献   

8.
针对传统信息检索模型不能很好满足用户需求的问题,在分析现有相关研究的基础上,提出基于领域Ontology的知识检索模型。通过构建领域Ontology,对文档进行语义标注,对查询请求进行概念提取和语义扩展,从而得到语义索引项作为文档和用户请求的知识表达,进一步研究领域Ontology中词语间语义关系的计算模型。考虑到语义相似度与语义相关的内在关系,给出相关系数来衡量检索目标与候选者间符合程度。最后对提出的模型进行验证,结果表明检索性能有显著提高。  相似文献   

9.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

10.
基于专利文献的技术演化分析方法研究   总被引:1,自引:0,他引:1  
在分析现有方法之不足的基础上,提出一种更完善的基于专利文献的技术演化分析方法:①采用分类号替代关键词作为专利文档聚类的基础;②采用基于语义的分类号-专利文档相似矩阵代替关键词-专利文档存在矩阵聚类;③采用更适合小样本聚类的系统聚类法。以石墨烯传感器技术为例,进行实证分析,绘制出石墨烯传感器技术层次语义网络图与技术演化图。研究结果显示,该方法可较好地应用于专利技术演化分析。  相似文献   

11.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

12.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

13.
Meaning can be generated when information is related at a systemic level. Such a system can be an observer, but also a discourse, for example, operationalized as a set of documents. The measurement of semantics as similarity in patterns (correlations) and latent variables (factor analysis) has been enhanced by computer techniques and the use of statistics; for example, in “latent semantic analysis”. This communication provides an introduction, an example, pointers to relevant software, and summarizes the choices that can be made by the analyst. Visualization (“semantic mapping”) is thus made more accessible.  相似文献   

14.
This paper presents a Graph Inference retrieval model that integrates structured knowledge resources, statistical information retrieval methods and inference in a unified framework. Key components of the model are a graph-based representation of the corpus and retrieval driven by an inference mechanism achieved as a traversal over the graph. The model is proposed to tackle the semantic gap problem—the mismatch between the raw data and the way a human being interprets it. We break down the semantic gap problem into five core issues, each requiring a specific type of inference in order to be overcome. Our model and evaluation is applied to the medical domain because search within this domain is particularly challenging and, as we show, often requires inference. In addition, this domain features both structured knowledge resources as well as unstructured text. Our evaluation shows that inference can be effective, retrieving many new relevant documents that are not retrieved by state-of-the-art information retrieval models. We show that many retrieved documents were not pooled by keyword-based search methods, prompting us to perform additional relevance assessment on these new documents. A third of the newly retrieved documents judged were found to be relevant. Our analysis provides a thorough understanding of when and how to apply inference for retrieval, including a categorisation of queries according to the effect of inference. The inference mechanism promoted recall by retrieving new relevant documents not found by previous keyword-based approaches. In addition, it promoted precision by an effective reranking of documents. When inference is used, performance gains can generally be expected on hard queries. However, inference should not be applied universally: for easy, unambiguous queries and queries with few relevant documents, inference did adversely affect effectiveness. These conclusions reflect the fact that for retrieval as inference to be effective, a careful balancing act is involved. Finally, although the Graph Inference model is developed and applied to medical search, it is a general retrieval model applicable to other areas such as web search, where an emerging research trend is to utilise structured knowledge resources for more effective semantic search.  相似文献   

15.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。  相似文献   

16.
针对当前跨媒体检索算法没有充分利用不同媒体特征之间的潜在语义关联和无法解决跨媒体检索过程中的维度灾难与语义鸿沟问题,研究并设计基于语义关联挖掘的跨媒体检索算法。该算法主要由语义关联挖掘、跨媒体本体动态构建、跨媒体语义相似度计算三个部分组成。研究表明,该算法能够有效地提升跨媒体检索的准确率和效率,能够在一定程度上满足用户跨媒体检索的需求。  相似文献   

17.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

18.
19.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

20.
认为目前NSTL文献检索系统采用的是传统的基于关键词匹配的检索方法,影响检索结果的查准率和查全率。为提高检索服务的质量,利用文献中的语义信息资源,构建语义资源库,并介绍语义资源的提取方法、语义资源库的结构与构建方法,及其应用于NSTL系统中并实现检索结果聚类和推荐的功能,以方便用户对检索结果的浏览和理解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号