共查询到17条相似文献,搜索用时 62 毫秒
1.
针对目前信息服务机构只能提供文献的检索服务而不提供表格检索功能这一现状,提出一种基于向量空间模型的表格检索算法,并从表格特征抽取、特征词权值设置、检索结果匹配排序等方面进行讨论,为未来表格检索服务提供一定的理论依据。 相似文献
2.
基于向量空间模型的文献相关性数据库的研究与实现* 总被引:1,自引:0,他引:1
探讨“相关性”的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医学工程文献相关性数据库及其检索系统。 相似文献
3.
基于向量空间的检索模型研究 总被引:1,自引:0,他引:1
在设计搜索引擎时,由于Internet的飞速发展,现有的检索模型检索效率不高。为了提高搜索引擎的检索效率,在本文中我们对基于向量空间的检索模型(例如:QR模型,潜语义标引模型)进行了深入地研究。 相似文献
4.
基于文档结构的向量空间检索模型研究 总被引:9,自引:0,他引:9
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。 相似文献
5.
6.
随着文本信息的迅猛增长,数据挖掘已成为知识发现的重要方法。短文本相似性(short text similarity,STSim)度量是数据挖掘研究的重要技术。为了更好的提高短文本相似性度量精度,本文提出了基于加权网络改进的中文短文本相似性度量的一种新模型。首先,基于词语间的共现频次对语义网络进行加权,利用加权复杂网络表征短文本;其次,考虑短文本加权复杂网络权重识别度低的特点及每个词语节点的位置,计算短文本中每个词语的加权复杂网络综合特征值;最后,根据新模型计算短文本相似性,并通过聚类实验评价其优劣。实验结果表明,新提出的相似性度量模型优于STSim模型。 相似文献
7.
8.
9.
基于文本的信息过滤模型 总被引:1,自引:0,他引:1
符敏慧 《图书馆理论与实践》2006,(2):43-45
信息过滤技术用于帮助用户在动态信息流中过滤出用户感兴趣的信息。通过对信息过滤概念的阐述,抽象出这类系统的一般模型。介绍了布尔模型、向量空间模型、潜在语义索引模型和神经网络模型等四种信息过滤模型,并就其特点进行了分析。 相似文献
10.
与普通的属性信息相比,空间信息具有精度高、数据量大等特点。特别是光栅影像数据。针对空间信息的管理和利用,本文论述了一种空间信息管理系统模型,讨论了空间信息处理中涉及的关键技术。利用空间数据库对空间信息进行统一存放与管理;并提供空间信息访问接口的实现了空间信息的访问与处理。 相似文献
11.
基于本体概念的矢量检索模型研究 总被引:1,自引:0,他引:1
针对传统矢量空间模型文本特征值的计算,给出将文本的评价由基于语法的词条空间转化为概念空间的方法和策略:基于领域本体,依据本体概念间的各种关联,先以一定的映射规则,将词条映射到领域的概念术语空间;然后用概念统计和语义归纳替代传统的词频统计,从概念语义的层次计算文本的特征矢量。实验证明,基于本体概念的矢量检索模型能够有效地表达文本的语义内容,获得更好的检索效果。 相似文献
12.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高. 相似文献
13.
14.
Sowa在1984年提出了一个抽象模型,即概念图,作为基于语言学、心理学和哲学的知识表示语言.但是其概念图的定义比较简单,对于刻画文本中的语言组块的语义及语言单元之间的组合运算比较困难.为了能从形式上为将来的组块内部和组块之间的组合分析提供支持,深化概念图的表示形式,我们提出了一种适用于自然语言自动化分析的概念图的形式化描述,它可以看成是Sowa 概念图的递归扩展.然后我们将这种新颖的知识表示方式应用到文本检索领域的文本标引中,同时给出了以此为基础的概念图匹配算法.在和布尔检索的比较实验中,概念检索体现出比较明显的优势. 相似文献
15.
Finding useful information from large multimodal document collections such as the WWW without encountering numerous false positives poses a challenge to multimedia information retrieval systems (MMIR). This research addresses the problem of finding pictures. The fact that images do not appear in isolation, but rather with accompanying, collateral text is exploited. Taken independently, existing techniques for picture retrieval using (i) text-based and (ii) image-based methods have several limitations. This research presents a general model for multimodal information retrieval that addresses the following issues: (i) users' information need, (ii) expressing information need through composite, multimodal queries, and (iii) determining the most appropriate weighted combination of indexing techniques in order to best satisfy information need. A machine learning approach is proposed for the latter. The focus is on improving precision and recall in a MMIR system by optimally combining text and image similarity. Experiments are presented which demonstrate the utility of individual indexing systems in improving overall average precision. 相似文献
16.
17.
Fabio Crestani 《Information Retrieval》2000,2(1):27-47
In classic Information Retrieval systems a relevant document will not be retrieved in response to a query if the document and query representations do not share at least one term. This problem, known as term mismatch, has been recognised for a long time by the Information Retrieval community and a number of possible solutions have been proposed. Here I present a preliminary investigation into a new class of retrieval models that attempt to solve the term mismatch problem by exploiting complete or partial knowledge of term similarity in the term space. The use of term similarity enables to enhance classic retrieval models by taking into account non-matching terms. The theoretical advantages and drawbacks of these models are presented and compared with other models tackling the same problem. A preliminary experimental investigation into the performance gain achieved by exploiting term similarity with the proposed models is presented and discussed. 相似文献