Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题. 为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性. 但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能. 针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF). 该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度. 此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力. 为了验证算法的有效性和知识迁移能力,分别在4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验. 结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力.
… … 相似文献Web 3.0数字经济体系以区块链平台为基础设施,围绕加密货币、NFT、数字藏品等数字资产和去中心化金融(DeFi)、游戏金融(GameFi)等去中心化应用(DApp)开展各项社会经济活动. 在公有链和开放联盟链下,作为DApp内核的智能合约可以由任何个人或组织予以部署,并对全体用户可见及可调用. 这种开放性给经济发展带来了新的机遇,同时也蕴含了许多金融风险. 以智能合约为中心分析了Web 3.0数字经济潜在的风险,并从智能合约的编码、功能、应用3个层面总结了风险感知技术的研究现状. 首先介绍了智能合约漏洞检测技术的研究挑战、安全漏洞类型和4类漏洞检测方法;其次分析了常见的智能合约骗局类型,并根据训练数据的不同分类总结了现有的智能合约骗局识别技术;接着介绍了基于区块链交易记录对4种非法交易行为进行检测的技术现状;最后结合对现有工作局限性的分析,展望了未来的研究方向.
… … 相似文献