共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性——网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集来源于同一个样本集而忽视了测试集中可能包含无类别样本的可能。基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度。实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法。 相似文献
3.
为了解决云服务器的数据安全性的问题,本文在CP-ABE的基础上设计出一种云存储中基于属性层次权限变更的访问控制方案,首先对用户的文件进行对称加密,将所得的密钥利用CP-ABE进行加密。在用户要访问数据时,必需自已的属性要满足预先定义的访问框架结构,才能进行访问。本文的方案将属性的版本号作为属性动态更改的关键点。当属性改变时,Authority会生成一个新的密钥与更新密钥。用户使用该更新密钥,就能够对密钥进行更新,而数据的用户只要拥有当前最新密钥就能对数据进行访问。仿真实验结果表明本文提出的控制方案具有良好的运行效率以及安全性。 相似文献
4.
提出一种基于粗糙集和信息论的web日志挖掘方法,该方法利用web日志预处理后的数据集,建立描述用户访问模式特征属性的决策表,并利用粗糙集和信息论相关原理来解决因web日志自身缺陷而导致知识表达系统的不协调和属性决策表多种简化的问题,进而获取用户访问网站模式的最简化规则.通过实例分析和比较,表明该方法能从web日志预处理后的数据中获取简捷有效的用户访问模式规则. 相似文献
5.
基于分众分类的知识组织方法,对实现航海信息门户的个性化知识组织进行探讨。认为宜采用窄分众分类模式、适度控制用户权限、积极实现专业用户分类与叙词表有效融合等方法,以及充分利用Drupal的用户管理模块和分类模块功能、借助Drupal提供的基于角色的权限系统和强大的个性化环境,以实现航海信息门户知识组织的个性化、专业化与学术化。 相似文献
6.
基于分布式B树编译的高效并发访问控制算法 总被引:2,自引:0,他引:2
《科技通报》2015,(8)
在云计算环境中,根据数据的海量性和分布性特点,需要对云存储数据库进行访问控制。传统的访问控制算法采用散点信任评估的访问控制算法,融合云存储安全评估图进行均匀分布,当云存储节点分裂时导致数据访问性能不好。提出一种基于分布式B树编译的高效并发访问控制算法,根据访问服务器的数量,计算B树的高度和精度边界,查找缓冲的内部节点构成的B树,具有相同属性个数的边缘概念处于同一层,由此进行并发控制数据分类,对于包含有多个属性的类别,将其中的多个属性合并成一个属性,实现对云存储系统的高效并发访问控制。仿真实验表明,采用该算法,具有较小的CPU负载,明显提高了分布式B树的访问效率,并发访问控制精度较高,减轻服务器开销,提高数据访问能力,优化存储性能。 相似文献
7.
维数简约是肺结节分类识别问题中的关键步骤,现有的方法中都是将所有类别的数据作为一个整体进行降维,忽略了不同类别数据之间在特征子集上的差异性。本文提出了一种将类集和类对相结合的有监督流形特征抽取思想,并将之应用于肺结节的分类中,最终形成一个基于CT影像的肺结节分类系统。实验结果表明了方法的有效性。 相似文献
8.
基于关联的聚类分析在个性化服务中的应用 总被引:2,自引:0,他引:2
运用关联规则,确定用户频繁访问模式,使用页面相似聚类分析对用户频繁访问集分类,挖掘具有相似访问兴趣的网络用户的浏览模式,并对相关算法作了改进,从满足用户个性化信息服务出发,给出一种基于关联的用户访问模式聚类方法.实践证明,将基于关联的聚类分析方法应用到个性信息服务中是有效的. 相似文献
9.
10.
由于传统的数据分类查询方法查询失效所承担的额外操作代价不同,无法有效实现优化分类查询,提出一种基于变异遗传散布的云计算环境下海量数据优化分类查询方法,对于含有云计算环境下海量数据的数据库,给出遗传迭代查询散布及数据间的查询响应函数,获取云计算环境下海量数据灰度散布值,融入遗传执行算子数据,获取遗传变异散布分类查询系数,在充分宽的尺度和平移区域中获取最大类别之间的匹配值,得到数据查询响应函数,将其转换成变异遗传散布控制量,从而实现云计算环境下海量数据的优化分类查询。仿真实验结果表明,所提方法具有很高的精度。 相似文献
11.
《科技通报》2015,(12)
为解决数据库访问中的关联数据推荐问题,进行数据库的多层时态属性重构,提高数据库访问能力。传统的数据时态属性重构技术采用文本信息特征分类重构方法,无法有效满足多模数据推荐中的数据库访问环境。提出一种支持多模推荐的数据库多层时态属性重构优化访问技术。构建数据库的多层时态数据重构数据结构模型,在重构过程中进行实现自适应阈值寻优,计算各传输节点在数据分发中自身对对方的直接信任值和间接信任值,进行多模推荐关系图构造,采用平均互信息方法求解数据库多层时态属性的自适应阈值,对数据库访问节点的彼此行为进行监控,实现数据库访问优化。仿真结果表明,采用该方法能有效实现对数据库访问用户的多模推荐,提高数据库访问的性能,提高数据调度的普适性和准确性。 相似文献
12.
13.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。 相似文献
14.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 相似文献
15.
MARC等传统信息描述方式不适用于科学数据组织。RDA可描述各类型信息资源,基于资源描述框架理论,构建科学数据资源描述框架模型,包括科学数据集描述、数据集一数据文档描述、数据集一访问描述等,为图书馆应用RDA组织和管理科学数据提供基础。 相似文献
16.
传统流媒体资源交互方法采用传统的网络站点方式,采用单台计算机实现资源的访问与存储,由于系统网络速度的瓶颈因素,导致系统整体访问效率低下。为此提出一种基于分级结构的大压缩率流媒体资源高速访问技术,采用分段思想将同一时间对同一资源的访问群体分割问多个不同的段,然后根据站点的相似性,将访问特性相同的站点进行归类,在此基础上,对流媒体资源的大数据量进行有效的压缩控制,降低系统通讯载荷,从而实现高效的资源访问。采用100个随机分布的访问站点进行流媒体资源的访问测试实验,结果显示,采用分级结构和压缩算法后,系统的访问效率大大提高,能够满足下一代流媒体资源大数据量的访问需求,具有很好的工程应用价值。 相似文献
17.
根据产业经济学理论,界定大数据产业的内涵,即大数据价值实现以及属性特征即数据涌现性、信息技术性、强实时性和高融合性等;基于产业链概念从产品和服务视角将大数据产业划分为大数据资源供应业、大数据设备供应业、大数据技术服务业和大数据融合应用业等4大类别并归纳出对应的类别特征;鉴于企业的大数据产业属性和大数据产业类别都具有识别模糊性,依次建立属性隶属度函数和类别隶属度函数来判断某企业的大数据产业的属性程度与类别程度,并采用模拟案例说明其判断可靠性。 相似文献
18.
19.
提出基于图的半监督学习算法,即类别传播算,结合K均值算法改进,用于网页分类。该K均值类别传播方法使用欧式距离的建立带权∈NN图。在这个图中,图节点表示已标记或未标记的网页,边上的权重表示节点的相似度,已标记节点的类别沿着边向邻居节点传播,从而将网页分类问题形式化为类别在图上的传播。结合K均值方法,提高了计算速度以及图方法的归纳能力,经UCI数据集测试,结果表明,此算法比类别传播算法有更好的性能,能够有效地用于半监督网页分类。 相似文献