首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
针对目前信息服务机构只能提供文献的检索服务而不提供表格检索功能这一现状,提出一种基于向量空间模型的表格检索算法,并从表格特征抽取、特征词权值设置、检索结果匹配排序等方面进行讨论,为未来表格检索服务提供一定的理论依据。  相似文献   

2.
基于向量空间模型的文献相关性数据库的研究与实现*   总被引:1,自引:0,他引:1  
探讨“相关性”的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医学工程文献相关性数据库及其检索系统。  相似文献   

3.
基于向量空间的检索模型研究   总被引:1,自引:0,他引:1  
在设计搜索引擎时,由于Internet的飞速发展,现有的检索模型检索效率不高。为了提高搜索引擎的检索效率,在本文中我们对基于向量空间的检索模型(例如:QR模型,潜语义标引模型)进行了深入地研究。  相似文献   

4.
基于文档结构的向量空间检索模型研究   总被引:9,自引:0,他引:9  
韩毅 《情报学报》2004,23(2):158-162
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。  相似文献   

5.
基于HTML文档结构的向量空间模型的改进   总被引:8,自引:1,他引:8  
胡健  陆一鸣  马范援 《情报学报》2005,24(4):433-437
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能。实验结果表明,PFTF模型对于这两个方面都有提高。  相似文献   

6.
牛奉高  高旭霞 《情报学报》2021,40(3):278-285
随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。  相似文献   

7.
Mizzaro相关性模型的改进   总被引:1,自引:0,他引:1  
杨建林 《情报学报》2006,25(1):25-29
本文介绍了意大利学者Mizzaro提出的一种相关性模型,指出了它的优点和不足,并在此基础上对该模型做了一些改进。  相似文献   

8.
针对传统信息检索模型不能很好满足用户需求的问题,在分析现有相关研究的基础上,提出基于领域Ontology的知识检索模型。通过构建领域Ontology,对文档进行语义标注,对查询请求进行概念提取和语义扩展,从而得到语义索引项作为文档和用户请求的知识表达,进一步研究领域Ontology中词语间语义关系的计算模型。考虑到语义相似度与语义相关的内在关系,给出相关系数来衡量检索目标与候选者间符合程度。最后对提出的模型进行验证,结果表明检索性能有显著提高。  相似文献   

9.
基于文本的信息过滤模型   总被引:1,自引:0,他引:1  
信息过滤技术用于帮助用户在动态信息流中过滤出用户感兴趣的信息。通过对信息过滤概念的阐述,抽象出这类系统的一般模型。介绍了布尔模型、向量空间模型、潜在语义索引模型和神经网络模型等四种信息过滤模型,并就其特点进行了分析。  相似文献   

10.
与普通的属性信息相比,空间信息具有精度高、数据量大等特点。特别是光栅影像数据。针对空间信息的管理和利用,本文论述了一种空间信息管理系统模型,讨论了空间信息处理中涉及的关键技术。利用空间数据库对空间信息进行统一存放与管理;并提供空间信息访问接口的实现了空间信息的访问与处理。  相似文献   

11.
基于本体概念的矢量检索模型研究   总被引:1,自引:0,他引:1  
聂卉  龙朝晖 《图书情报工作》2007,51(9):121-123,134
针对传统矢量空间模型文本特征值的计算,给出将文本的评价由基于语法的词条空间转化为概念空间的方法和策略:基于领域本体,依据本体概念间的各种关联,先以一定的映射规则,将词条映射到领域的概念术语空间;然后用概念统计和语义归纳替代传统的词频统计,从概念语义的层次计算文本的特征矢量。实验证明,基于本体概念的矢量检索模型能够有效地表达文本的语义内容,获得更好的检索效果。  相似文献   

12.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

13.
在Gnutella系统中,节点之间转发消息的方式是泛洪,这必然会导致网络拥塞。根据小世界理论,在基于非结构化的P2P网络中构建具有小世界特性的P2P网络,使得网络中的每个节点都维护一定数量的邻居节点作为短程连接,同时每个节点还要维护一些长程连接来提高文本检索效率和减少节点之间的通信开销。  相似文献   

14.
Sowa在1984年提出了一个抽象模型,即概念图,作为基于语言学、心理学和哲学的知识表示语言.但是其概念图的定义比较简单,对于刻画文本中的语言组块的语义及语言单元之间的组合运算比较困难.为了能从形式上为将来的组块内部和组块之间的组合分析提供支持,深化概念图的表示形式,我们提出了一种适用于自然语言自动化分析的概念图的形式化描述,它可以看成是Sowa 概念图的递归扩展.然后我们将这种新颖的知识表示方式应用到文本检索领域的文本标引中,同时给出了以此为基础的概念图匹配算法.在和布尔检索的比较实验中,概念检索体现出比较明显的优势.  相似文献   

15.
Intelligent Indexing and Semantic Retrieval of Multimodal Documents   总被引:2,自引:0,他引:2  
Finding useful information from large multimodal document collections such as the WWW without encountering numerous false positives poses a challenge to multimedia information retrieval systems (MMIR). This research addresses the problem of finding pictures. The fact that images do not appear in isolation, but rather with accompanying, collateral text is exploited. Taken independently, existing techniques for picture retrieval using (i) text-based and (ii) image-based methods have several limitations. This research presents a general model for multimodal information retrieval that addresses the following issues: (i) users' information need, (ii) expressing information need through composite, multimodal queries, and (iii) determining the most appropriate weighted combination of indexing techniques in order to best satisfy information need. A machine learning approach is proposed for the latter. The focus is on improving precision and recall in a MMIR system by optimally combining text and image similarity. Experiments are presented which demonstrate the utility of individual indexing systems in improving overall average precision.  相似文献   

16.
全文数据库建库原理与应用技术   总被引:21,自引:2,他引:21  
王兰成  蒋丹  刘庆辉 《情报学报》1999,18(4):321-328
全文数据库是处理文献信息中知识与数据的有力工具,近年来得到迅猛发展。本文首先详细分析了全文数据库的特点,提出了建立全文数据库的各种数据结构,系统介绍全文数据库的开发步骤。然后论述全文数据库的标引和检索技术,提出一些新的处理技术。最后就全文数据库实际应用中的一些问题,提供了解决方案。  相似文献   

17.
Exploiting the Similarity of Non-Matching Terms at Retrieval Time   总被引:2,自引:0,他引:2  
In classic Information Retrieval systems a relevant document will not be retrieved in response to a query if the document and query representations do not share at least one term. This problem, known as term mismatch, has been recognised for a long time by the Information Retrieval community and a number of possible solutions have been proposed. Here I present a preliminary investigation into a new class of retrieval models that attempt to solve the term mismatch problem by exploiting complete or partial knowledge of term similarity in the term space. The use of term similarity enables to enhance classic retrieval models by taking into account non-matching terms. The theoretical advantages and drawbacks of these models are presented and compared with other models tackling the same problem. A preliminary experimental investigation into the performance gain achieved by exploiting term similarity with the proposed models is presented and discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号