首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
数据库的索引路径优化选择是实现对Deep Web数据库的深度访问和安全访问的关键。传统方法中对Deep Web数据库的路径选择采用关键字搜索方法,根据关键字罗列出所有可能复合信息的数据,当出现歧义特征时,数据索引准确度不高。提出一种基于语义高斯边缘化的数据库索引路径选择方法。构建Deep Web数据库的特征模型,计算节点与关键词的匹配度,得到高斯边缘化路径控制目标函数,把语义相似度分解为用户查询意图的相关性指向函数,实现高斯边缘化路径控制。将数据库的预测控制指令输入序列进行变量耦合加权,与邻阶跨层链路进行均衡处理,设置语义高斯边缘化索引复激活函数,提高对数据库的索引性能,实现路径优选。仿真结果表明,该算法能提高数据库的查准率,减少查询时间,实现对Deep Web数据库高效安全访问。  相似文献   

2.
Web文本挖掘在辅助研究中的应用   总被引:1,自引:0,他引:1  
刘进锋  荣冈 《情报科学》2006,24(3):400-404
应用Web文本挖掘对网络数据库中检索到的信息进行分析,能够得到对研究工作有辅助作用的知识。文中对数据收集、预处理和数据挖掘的方法进行了详细的介绍。实例证明利用Web文本挖掘能充分利用网络数据库中的信息,对辅助研究是有效的。  相似文献   

3.
在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。  相似文献   

4.
对Web网页抓取是实现Web文本特征数据检索的最佳方式,Web网页抓取路径损耗误差的优化估计可以提高对Web数据的挖掘性能。传统方法中,对Web网页抓取采用基于线性滤波检测的单模匹配抓取方法,受弱信号幅度和临界阈值约束,路径损耗较大,且无法有效实现路径损耗误差有效估计。提出一种基于叠加编码特征统计的Web网页抓取路径损耗误差估计算法。构建Web网页文本特征抓取的目标函数,进行Web网络路径损耗模型构建,设计叠加编码算法进行特征统计,得到Web网页抓取路径概念格。仿真实验表明,该算法能有效提高Web网页抓取路径损耗误差估计精度,进而提高了Web网页文本数据抓取的查准率和文本特征数据的挖掘性能。  相似文献   

5.
Web网络中存在海量文本,需要进行合理高效的文本抽取,实现Web文本数据挖掘。由于Web文本数据的高维特性,文本抽取过程中自动分类配对困难。提出一种基于RBF神经网络隐节点共振致密配对的Web数据文本抽取算法,进行Web数据文本特征采样与关联主特征挖掘,在每次移动中形成RBF隐节点共振致密配对,得到最优文本特征选择的路径,建立RBF神经网络分类器,实现基于蚁群算法的特征抽取算法改进。实验结果表明,该算法能有效实现对隐节点的共振致密配对,特征挖掘跟踪性能较好,保障了挖掘性能,系统所提取的特征分量与其他模糊分量差距较小,文本正确抽取召回率高于传统方法,在Web网络数据文本抽取中具有优越可靠的应用价值。  相似文献   

6.
为研究使用混沌分析的方法检测大型Web数据库的异常入侵特征新型问题,提出使用递归图分析的混沌特征分析方法检测Web数据库异常入侵。使用平均互信息算法和虚假最近邻点算法求取Web数据库信息流相空间重构的关键参数,使用递归图分析方法分析了各类异常入侵信号下真实Web数据库的检测。仿真结果表明平均互信息算法和虚假最近邻点算法能有效应用于对Web数据库信息流异常信号入侵检测的相空间重构中。递归图混沌分析的方法能有效检测出各类异常入侵特征,递归图中有规则图案,表明入侵信号和Web数据库信息流具有确定性成分存在,能对之实现有效检测和防御,研究结果证明检测算法能有效应用于网络数据安全检测实践。  相似文献   

7.
为了提高用户对网站使用的效率,提高网站本体模型的搜索性能,研究一种高效的网页语义概念树构建方法,进行搜索覆盖度层状拓展。传统方法中,使用搜索引擎的词语相似度算法进行搜索拓展,利用规则、聚类等技术对形式背景进行约简,无法有效简历概念间的上下位关系,性能不好。提出一种基于语义主题树特征匹配的搜索覆盖度层状拓展方法,进行Web语义模型和主题树构建,构建特征空间互信息区域文档词频向量模型,对数据库中记录的属性字段进行归类抽象,形成概念汇聚点,实现语义主题树构建搜索覆盖度拓展设计,构建语义主题树特征匹配算法,优化搜索引擎对文本特征的搜索敏感度,提高搜索覆盖度,实现文本搜索覆盖度层状拓展。实验分析得出,该方法具有较好的文本特征分类结果,语义层次结构清晰,可以有效提高文本数据召回率和查准率,展示了较好的应用价值。  相似文献   

8.
根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。  相似文献   

9.
张志美 《现代情报》2007,27(9):88-90
数字图书馆是采用现代高新技术所支持的数字信息资源系统.它改变了以往信息存储、加工、管理、使用的传统方式,借助网络环境和高性能计算机等实现信息资源的有效利用和共享。然而在网络日益普及的今天.绝大多数Web数据仍然以HTML文件的方式存贮而非数据库方式,这对数字图书馆的利用带来诸多不便,因为数据库的自治性和异构性妨碍了信息系统有效的互操作。基于此,本文从数字图书馆Web数据集成模式——RDF和采用XML Web Services中间件来实现各种异构数据库间数据共享两方面对数字图书馆数据集成进行了研究。  相似文献   

10.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。  相似文献   

11.
利用话题识别技术将Blog文本信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。文章重点研究话题识别模型中的词频,权重计算以及相似度计算,对聚类算法有简单的实现并通过该实验对聚类算法有了更深层次的认识。  相似文献   

12.
通过对文本数据库的优化索引提高信息检索功能,传统的数据库索引方法采用单层文本特征聚类方法,聚类特征不一致时,存在非法聚类和非法结果输出的安全问题。提出一种基于虚拟数据加速分布重组的数据库索引技术,首先构建虚拟数据加速分布重组模型,改进数据库的分布模型,提高对文本数据的索引能力,把需要的文档集经过预处理后,构建文本数据库,算出各个候选扩展词的权重后,需要根据各个词与原查询词的相关度,构成数据库文本扩展词集合,采用相关规则挖掘的规则词作为扩展,得到了虚拟数据的加速分布系统状态函数,构建规则库,从中提取与原查询相关的扩展词,进而实现查询扩展,实现数据库索引算法改进。仿真结果表明,该算法进行文本数据库索引的收敛性好,检索精度和有效连接数较高,执行时间短,展示了其优越性。  相似文献   

13.
针对高校多业务系统异构数据库的特征,提出基于Web Services的校园异构数据库数据集成的框架体系结构,并对数据集成的关键技术进行研究和设计,为校园数据共享和互联互通提供一种技术方案。  相似文献   

14.
利用Web挖掘技术实现个性化推送服务   总被引:3,自引:0,他引:3  
王凯  渠芳  王辉 《情报杂志》2006,25(11):86-88
利用Web挖掘技术可以从大量的Web文档和Web活动中发现和抽取有用的信息,可以使资源了解用户交互行为数据中所包含的意义。因此,可以使用该技术实现个性化推送服务。构造了一个基于Web挖掘的个性化推送模型,并阐述了如何实现此模型,提出了结合Web使用、页面内容和站点拓扑结构算法,利用此算法来实现生成频繁访问路径集,得到的结果有显著改善。  相似文献   

15.
利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。  相似文献   

16.
随着Web数据库技术的发展,需要对云数据进行索引管理,提高Web数据库访问能力。传统方法采用高斯边缘化路径控制方法进行索引,在无法及时获知Web云数据的先验语义特征信息时,索引精度不高。提出一种基于自适应特征映射的云数据管理索引算法。构建云数据管理模型,提取云数据自适应特征,采用语义相似度特征分析方法实现特征映射,采用一维搜索方法进行峰值搜索,初始化数据库索引起始时间点,设置语义高斯边缘化索引复激活函数,对本层链路和跨层链路进行均衡处理,达到云数据管理和优化索引的目的。仿真结果表明,采用该算法能有效提高云数据管理索引精度,提高云数据的准确调度和访问能力。  相似文献   

17.
刘荷花 《科技通报》2015,(2):104-106
对Web故障监测异常数据的自适应重写可以实现对Web数据库的极值扰动盲分离,提高Web故障监测数据库的访问能力,进而提高对Web网络故障的诊断性能。提出基于极值扰动的Web异常数据自适应重写算法,引入自适应经验函数,优化粒子群进化搜索能力。选择一定的基函数与故障监测信号进行匹配,为了使粒子群摆脱局部极值,增加了极值扰动算子,进行经验约束函数调控,提高对Web网络故障的诊断性能。仿真实验表明,该算法能有效实现对Web网络故障数据的自适应重写,信号恢复和跟踪效果较好,提高了对Web数据库的访问精度,在Web网络数据库故障检测和数据调度访问等领域具有较好的应用价值。  相似文献   

18.
关联规则数据结构分布重排的数据库索引算法   总被引:1,自引:0,他引:1  
数据库优化索引是实现文本数据信息智能存储和调用的关键技术,网络信息文本数据具有较大的关联规则特性,造成了数据结构类间干扰,影响数据库索引精度。传统方法采用虚拟数据分布重组数据库索引技术,文本数据库扩展查询中会出现聚类特征不一致。提出一种基于关联规则数据结构分布重排的数据库索引算法。先构建网络信息文本数据库相对关联状态系统模型与关联规则关系图,在此基础上进行数据库规则信息流的结构分布重排,挖掘关联特征,实现数据库索引算法改进。仿真结果表明,采用该算法进行文本数据库索引,提高了特征匹配效率,降低执行时间,展示了优越性能。  相似文献   

19.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

20.
姜鑫 《现代情报》2018,38(12):144-150
[目的/意义]利用词频分析法和内容分析法定量分析国际图书情报领域"科学数据"相关研究进展。[方法/过程]本文利用Web of Science数据库通过词频分析法和内容分析法揭示了2004-2018年国际图情领域"科学数据"相关研究文献的研究主题领域和研究方法类型,分析了国外相关研究的主题分布特点与研究方法特色,并在此基础上指出了对我国相关研究的借鉴与启示。[结果/结论]国外相关研究更多关注应用研究相关主题领域,广泛采用多种类型的研究方法进行实证研究,并注重借鉴、移植多学科方法进行创新性应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号