共查询到20条相似文献,搜索用时 265 毫秒
1.
2.
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。 相似文献
3.
4.
5.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
6.
基于文本聚类与LDA相融合的微博主题检索模型研究 总被引:1,自引:0,他引:1
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题. 相似文献
7.
8.
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。 相似文献
9.
自动文本分类技术研究 总被引:1,自引:0,他引:1
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。 相似文献
10.
大量图像信息的产生使得基于内容的图像检索技术成为研究热点.由于颜色特征具有稳定性和计算简单的特点,本文首先介绍了利用全局颜色直方图进行图像检索的基本思想,然后分析了它的局限性,并给出了改进的方法:特征提取采用结合空间信息的颜色一致向量方法.在特征度量时,依据所设计的评价实验,对这两种方法进行了比较,并给出了实验结果和图像检索性能的评价.实验表明,所述的图像检索方法具有较好的查全率和查准率. 相似文献
11.
本文在简要地介绍了关键词检索的现状之后,重点从文献检索的角度分析了专利文献特点,并探讨了完善关键词检索的3个方面。最后,就专利文献检索领域关键词检索的发展趋势进行了简要的分析。 相似文献
12.
现代信息技术正对传统的文献检索课程目标、教学内容、教学方式和评价产生深刻的变革和影响。计算机辅助教学已经不能完全覆盖信息技术对信息素养教育所产生的影响。信息技术与课程整合正开辟了一个崭新的研究领域和实践空间。因此,本文探讨了信息技术与文献检索课整合的含义、层次和整合点,旨在在新技术条件下从文检课的教与学方式、教学结构方面探索教学改革的新思路。 相似文献
13.
Luis M. de Campos Juan M. Fernández-Luna Juan F. Huete Carlos Martín-Dancausa 《Information processing & management》2010
Focusing on the context of XML retrieval, in this paper we propose a general methodology for managing structured queries (involving both content and structure) within any given structured probabilistic information retrieval system which is able to compute posterior probabilities of relevance for structural components given a non-structured query (involving only query terms but not structural restrictions). We have tested our proposal using two specific information retrieval systems (Garnata and PF/Tijah), and the structured document collections from the last six editions of the INitiative for the Evaluation of XML Retrieval (INEX). 相似文献
14.
目前大多数机器翻译和跨语言检索系统都是基于通用语料,对外文科技资料的翻译效果不理想,本文结合科技文献的加工方法,研究面向科技文献的跨语言信息检索系统的模型。首先对跨语言信息检索的概念和特点进行简单的概述,从3个角度介绍跨语言信息检索的研究方法,然后讨论构建跨语言信息检索系统的必要性,在此基础上设计出一个面向科技文献的跨语言信息检索系统模型以及主要功能结构。 相似文献
15.
Structured document retrieval makes use of document components as the basis of the retrieval process, rather than complete documents. The inherent relationships between these components make it vital to support users’ natural browsing behaviour in order to offer effective and efficient access to structured documents. This paper examines the concept of best entry points, which are document components from which the user can browse to obtain optimal access to relevant document components. It investigates at the types of best entry points in structured document retrieval, and their usage and effectiveness in real information search tasks. 相似文献
16.
Internet已成为全球最丰富的数据源,数据类型繁杂且动态变化,如何从中快速准确地检索出用户所需要的信息是一个亟待解决的问题.传统的搜索引擎基于语法的方式进行搜索,缺乏语义信息,难以准确地表达用户的查询需求和被检索对象的文档语义,致使查准率和查全率较低且搜索范围有限.本文对现有的语义检索方法进行了研究,分析了其中存在的问题,在此基础上提出了一种基于领域的语义搜索引擎模型,结合语义Web技术,使用领域本体元数据模型对用户的查询进行语义化规范,依据领域本体模式抽取文档中的知识并RDF化,准确地表达了用户的查询语义和作为被查询对象的文档语义,可以大大提高检索的准确性和检索效率,详细地给出了模型的体系结构、基本功能和工作原理. 相似文献
17.
We study several machine learning algorithms for cross-language patent retrieval and classification. In comparison with most of other studies involving machine learning for cross-language information retrieval, which basically used learning techniques for monolingual sub-tasks, our learning algorithms exploit the bilingual training documents and learn a semantic representation from them. We study Japanese–English cross-language patent retrieval using Kernel Canonical Correlation Analysis (KCCA), a method of correlating linear relationships between two variables in kernel defined feature spaces. The results are quite encouraging and are significantly better than those obtained by other state of the art methods. We also investigate learning algorithms for cross-language document classification. The learning algorithm are based on KCCA and Support Vector Machines (SVM). In particular, we study two ways of combining the KCCA and SVM and found that one particular combination called SVM_2k achieved better results than other learning algorithms for either bilingual or monolingual test documents. 相似文献
18.
在对信息检索过程中,文档的属性信息是不确定性或者是不完全的,很难做出决策。基于此,提出将粗集理论应用于信息检索模型中,构造语料库的邻接矩阵,通过对扩展的特征项与文档的上近似集和下近似集的重叠程度的比较,来确定文档与查询的相关性,并通过相关度来对文档进行取舍。通过实验证明,该方法可以提高信息检索的准确率。 相似文献
19.
"参考文献"与"引文"的差异 总被引:2,自引:1,他引:2
"参考文献"、"引文"是文献计量学中引文分析法常用的两个学术用语,针对目前某些文献中对这两个术语使用比较混乱的现象,本文从信息的角度论述了这两个术语的基本概念和相互关系. 相似文献