首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 5 毫秒
1.
在多智能体强化学习的研究中,如何进行Ad-Hoc协作,也就是说如何适应种类和数量变化的队友,是一个关键问题。现有方法或者有很强的先验知识假设,或者使用硬编码的规则进行合作,缺乏通用性,无法泛化到更一般的Ad-Hoc协作场景。为解决该问题,提出一种面向Ad-Hoc协作的局部观测重建算法,利用注意力机制和采样网络对局部观测进行重建,使得算法认识到并充分利用不同局面中的高维状态表征,实现了在Ad-Hoc协作场景下的零样本泛化。在星际争霸微操环境和Ad-Hoc协作场景上与代表性算法的性能进行对比与分析,验证了算法的有效性。  相似文献   

2.
由于机会路由能够利用无线信道的广播特性和有损特性,因此一直是提高无线网络路由性能的一个很有效的途径。提出一种基于深度强化学习的无线多跳网络能量高效机会路由算法,该算法使得智能体能够通过训练学习最优的路由策略,以通过机会路由的方式减少传输时间,同时平衡能耗延长网络寿命。此外,本算法还可以极大地缓解冷启动问题并获得较好的初始性能。仿真结果表明,与现有算法相比,该算法具有更好的性能。  相似文献   

3.
当前的卫星资源分配方案大多为同步轨道卫星设计,针对低轨卫星的高动态特性,以及存在频率和功率资源受限的问题,提出一种基于深度强化学习的功率分配算法。首先对低轨卫星功率分配场景进行建模,引入一种时隙划分方案来简化低轨卫星的动态特性模型,进一步提出一种基于深度强化学习算法的功率分配策略,该策略通过调节单颗低轨卫星各个波束中子载波的功率值,降低同频干扰,能达到提升低轨卫星频谱效率的目的。仿真结果表明,所提算法能够在较短时间内收敛并达到稳定状态,在总功率一定的条件下,该方案能有效提升单颗低轨卫星的吞吐量,其频谱效率明显高于注水算法和Q学习算法。  相似文献   

4.
在对多智能体的编队控制上,当输入和系统状态受到约束时,模型预测控制算法比传统的输入输出反馈线性化控制算法具有显著的优势,但传统的模型预测控制算法需要在线优化控制,从而导致巨大的在线负担.为减小这种在线负担,提出一种双模式模型预测控制算法.该算法使用模型预测控制器对控制变量进行在线优化,使得未来某时刻的系统状态进入终端约束集内;此时将系统状态作为输入输出反馈线性化控制器的输入,将系统状态驱动到稳定值;在目标函数中加入避碰函数来有效避免邻近多智能体间的碰撞.仿真结果表明,当输入和状态受到约束时,双模式模型预测控制算法在对多智能体编队控制上比仅使用输入输出反馈线性化控制算法具有明显的优势.  相似文献   

5.
本文主要研究在脉冲与切换控制下有通讯延迟的二阶多智能体一致性问题。基于脉冲与切换控制原理,运用一些线性矩阵不等式,提出了一个充分条件使得多智能体系统达到主从一致性。  相似文献   

6.
研究一类退化多智能体系统的迭代学习控制问题,该类系统是由一维双曲型退化偏微分方程构建而成。基于网络拓扑结构,利用邻近智能体的信息构建得到基于一致性的迭代学习控制协议。当该学习律作用于系统,迭代次数趋于无穷时,该一致性误差能够收敛于零。仿真结果验证了算法的有效性。  相似文献   

7.
为了研究在领导者的速度信息未知的情况下二阶非线性系统的分组一致性问题,在观测器的基础上,设计了一个基于邻域的分布式领导跟随算法,采用代数图论、李雅普诺夫稳定性理论对系统中领导者速度的估计进行了研究,取得了分组一致性跟踪问题的充分条件.数值仿真结果验证了构建模型的有效性.  相似文献   

8.
针对不同类型事件设计多状态跳转模型,结合两种深度神经网络实现对传统音频事件检测框架的改进。实验表明,在DCASE2017任务2的开发集数据上,改进后的DNN-HMM系统相比于基线系统取得F值8.9%的相对提升和错误率19%的绝对下降;基于多状态跳转模型聚类的卷积神经网络模型(SC-CNN),相比于基线系统取得F值18%的相对提升和错误率30%的绝对下降。  相似文献   

9.
基于多模块贝叶斯网络的恐怖袭击威胁评估   总被引:3,自引:0,他引:3  
通过考察恐怖袭击事件可能造成的后果, 针对恐怖袭击事件评估信息的多样性、不确定性及模糊性, 提出用贝叶斯网络方法对恐怖袭击威胁进行评估, 从而为反恐决策者提供决策支持, 以减少恐怖袭击所造成的影响.针对恐怖袭击事件的复杂性, 提出多模块贝叶斯网络的恐怖袭击威胁评估模型, 并对多模块贝叶斯网络的结构学习、参数学习和推理进行研究, 提出多模块贝叶斯网络的推理算法.最后, 给出恐怖袭击威胁度的计算方法, 并对多模块贝叶斯网络的威胁评估模型进行实例分析.实例表明, 基于多模块贝叶斯网络的恐怖袭击威胁评估模型, 能有效评估恐怖袭击事件的威胁程度.  相似文献   

10.
针对正交频分多址无线蜂窝系统下行链路,提出一种基于用户速率调和均值公平的多小区干扰协调功率分配算法.为了优先减轻小区边缘用户的同频干扰,把多小区功率分配问题建模为一个以用户速率调和均值公平为目标的非凸优化问题,并提出一种迭代算法求其接近最优解.该算法需要相邻的基站通过交互干扰信息进行相互协作.仿真结果表明,该算法在保证小区中心用户有较高通信速率的同时,极大提升了小区边缘用户的通信速率.  相似文献   

11.
针对移动边缘网络缓存问题,提出把计算资源推送到网络边缘,使边缘接入热点能有数据分析能力,构建基于深度学习的深度缓存策略,进一步提升缓存效率。在边缘接入热点处构建基于长短期记忆神经网络模型的缓存内容文件流行度预测系统,通过分析本地数据给出内容文件流行度预测。把内容文件流行度预测系统整合到移动边缘网络缓存系统中最大化缓存命中率,提出深度缓存策略,大大提升移动边缘网络缓存性能。在真实视频数据集上进行测试,实验结果表明:提出的内容流行度预测系统的准确度高于现有最优方法;提出的深度缓存策略与传统的缓存算法相比,在相同的缓存命中率指标下大约仅需一半的缓存存储空间。  相似文献   

12.
近年来全球社会治理方式的趋势已经由传统官僚式性构型,逐渐转向社会化、民主化的横向网络治理模式,而这种模式主要表现为社会性构型的治理模式。通过分析4种构型下的体育治理模式、特征,探讨不同社会构型的治理方式和其背后所支撑的政策思考。以协同治理和多中心治理理论为依据,对社会性构型下体育治理的社会关系网络和指标关系网络进行分析,旨在为体育治理研究提供宝贵的经验。  相似文献   

13.
为实现水面无人艇(unmanned surface vessel, USV)在未知环境下的自主避障航行,提出一种基于深度Q网络的USV避障路径规划算法。该算法将深度学习应用到Q学习算法中,利用深度神经网络估计Q函数,有效解决传统Q学习算法在复杂水域环境的路径规划中容易产生维数灾难的问题。通过训练模型可有效地建立感知(输入)与决策(输出)之间的映射关系。依据此映射关系,USV在每个决策周期选择Q值最大的动作执行,从而能够成功避开障碍物并规划出最优路线。仿真结果表明,在迭代训练8 000次时,平均损失函数能够较好地收敛,这证明USV有效学习到了如何避开障碍物并规划出最优路线。该方法是一种不依赖模型的端到端路径规划算法。  相似文献   

14.
传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后根据类重叠度抽取对分类起关键作用的支持向量,并且将代表每个样本点重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法克服了随机欠采样的支持向量机容易丢失重要样本信息和实验结果不稳定的缺点,且很好地提升了支持向量机在不平衡且含噪声的数据集上的分类精度,并保持较高的计算效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号