首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于神经网络的概念联想和概念聚类   总被引:8,自引:0,他引:8  
宋玲  马军  刘怀辉 《情报学报》2002,21(2):167-172
本文针对信息检索中自动标引和用户的检索提问问题 ,介绍了一种概念空间技术以及采用Hopfield神经网络进行概念联想与概念聚类的算法 ,并对其中部分算法进行了模拟和实验 ,针对存在的问题提出了改进方法 ,并通过数据说明其可行性  相似文献   

2.
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC (Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇。实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高。  相似文献   

3.
WWW中文信息自动分类方法研究   总被引:6,自引:0,他引:6  
郑家恒  宋文中 《情报学报》2002,21(5):532-536
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。  相似文献   

4.
用于中文信息自动分类的《中图法》知识库的构建   总被引:1,自引:0,他引:1  
分类号、主题词、关键词是三种主题概念标识,三者之间存在着概念对应关系,即兼容关系。中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。本文详细讨论了该知识库的构建原理、结构、编制使用的关键技术以及主要应用等。  相似文献   

5.
基于概率神经网络的文本自动分类研究   总被引:10,自引:2,他引:10  
施洁斌 《情报学报》2004,23(2):147-151
本文提出了将一种径向基网络的重要变形———概率神经网络应用于文本自动分类的研究 ,与常用的K 最邻近法相比 ,具有一定的优势 ,特别是在训练集中各类的训练样本数很不平衡时 ;与BP等其他神经网络相比 ,其特点是需调节的参数少 ,不需确定隐层数、隐层中的神经元数量等网络结构 ,比较容易使用。此外 ,从研究中的不同特征选择的评价函数来看 ,它们对分类有一定的影响 ,应用X2 统计进行特征选择的分类正确率最高 ,其次是文本证据权 ,而期望交叉熵的效果最差 ,说明特征选择在文本自动分类中也是非常重要的。  相似文献   

6.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

7.
基于控制词集的中文信息动态自动聚类研究   总被引:1,自引:0,他引:1  
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式。该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动聚类程序、聚类算法,以及结合控制词集对聚类结果进行优化控制等,最后对实验结果给出了概要评价。  相似文献   

8.
中文信息自动分类用知识库的设计与构建   总被引:9,自引:2,他引:9  
侯汉清  薛鹏军 《情报学报》2003,22(6):681-686
在计算机智能处理技术远未成熟的情况下 ,基于概念语义网络的自动分类采用知识库技术 ,仍将是一种实用的选择。本项研究根据分类语言、主题语言、自然语言三者兼容互换的原理 ,以众多标引员的主题标引和分类标引的经验 ,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础 ,建立一个以《中图法》为基础的的分类知识库———分类法与主题词表对照数据库。论文对构建分类知识库的思路、步骤及主要技术 ,包括关联度测度方案、标引词模式匹配、新词增补等进行了讨论  相似文献   

9.
用于中文信息自动分类的《中图法》知识库的构建   总被引:4,自引:0,他引:4  
中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干,组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。构建《中图法》知识库面临着一些难题:异构数据的整合;原始数据中分类号与主题词或词串之间一对多、多对多关系的筛选;标引词串与知识库中的词串的相符性比较等。图2。参考文献8。  相似文献   

10.
为选择差异度大的集成个体,构建精确度高的集成网络,。本文提出一种利于ABC算法(蜂群算法)去除冗余个体,新的选择性神经网络集成构造算法。该算法首先用可重复采样技术训练大量集成个体,继而采用蜂群算法,将网络集成预测误差作为优化目标函数,选择集成个体。并通过实验,在UCI数据集上,与传统算法进行了实验对比。实验结果表明,该算法无论从效率、精度、预测误差均优于传统算法。  相似文献   

11.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

12.
基于粗集理论和神经网络结合的数据挖掘新方法   总被引:12,自引:1,他引:12  
李仁璞  王正欧 《情报学报》2002,21(6):674-679
本文提出了一种基于粗集理论和神经网络的数据挖掘新方法。首先利用粗集理论对原始数据进行一致性属性约简 ,然后使用神经网络对数据进行学习和预测 ,并同时完成属性的不一致约简 ,最后再由粗集对神经网络中的知识进行规则抽取。该方法充分融合了粗集理论强大的属性约简、规则生成能力和神经网络优良的分类、容错能力。实验表明 ,该方法快速有效 ,生成规则简单准确 ,具有良好的鲁棒性。  相似文献   

13.
基于神经网络的汉语自动分词系统的设计与分析   总被引:14,自引:1,他引:14  
应用神经网络进行汉语自动分词研究是中文信息处理领域的重要课题。本文从分析神经网络的一个主要模型和算法入手,阐述了基于神经网络的汉语自动分词系统的设计方法,较详细地介绍了该系统的实验结果,并给出了必要的分析。  相似文献   

14.
网络环境下图书馆信息服务新理念   总被引:12,自引:0,他引:12  
吴琼 《图书馆论坛》2006,26(3):196-197,237
论述了在网络环境下,图书馆应树立全新的信息服务理念,即“大图书馆”服务观、“大读者”服务观、“人性化”服务现、“个性化”服务观和“特色化”服务观。  相似文献   

15.
VSM中词权重的信息熵算法   总被引:3,自引:1,他引:2  
刁倩  王永成  张惠惠  何骥 《情报学报》2000,19(4):354-358
本文提出一种基于Shannon信息熵的向量空间模型(VSM)中的词权重算法。同时结合词与文献的相关权重的经典计算方法IDF(InverseDocumentFrequency),进一步总结了向量空间模型(VSM)中两种词权重计算的具体公式。  相似文献   

16.
一种基于自组织神经网络的中文文本聚类新方法   总被引:8,自引:0,他引:8  
徐建锁  王正欧  王莉 《情报学报》2003,22(6):676-680
针对传统K—均值等算法在文本聚类中的缺陷 ,本文提出了一种树形动态自组织映射 (TGSOM)神经网络来实现中文文本聚类 ,克服了传统的K—均值等算法中文本种类需要预先给定的缺点。本文详尽描述了该网络模型的生成算法和算法中扩展因子的作用 ,并阐述了中文文本的数字化方法———TF .IDF .IG方法  相似文献   

17.
神经网络技术在汉语歧义切分中的应用   总被引:4,自引:1,他引:3  
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。  相似文献   

18.
首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号