当前位置:大学毕业论文> 职称论文>材料浏览

关于策略论文范文写作 体系对抗中的智能策略生成相关论文写作资料

主题:策略论文写作 时间:2024-03-02

体系对抗中的智能策略生成,这是一篇与策略论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

策略论文参考文献:

策略论文参考文献 智能建筑论文网络营销策略论文论文的目录怎么自动生成促销策略论文

本文围绕体系对抗中的智能策略生成问题,重点分析了围棋和即时战略游戏等计算机博弈问题的技术发展,总结了智能策略生成可能用到的关键技术,提出体系对抗智能策略AI系统的组成架构,并讨论了智能策略AI的军事应用,为体系对抗的研究提供了一定的支撑.

一、引言

当前,战争形态正在由机械化战争向信息化战争演变.信息化战争的重要内涵和根本要求是体系作战,需要运用信息系统,把各种作战力量、作战单元、作战要素融合集成为整体作战能力,通过灵敏感知战场、分布指挥控制、快速精确打击、全维一体防护和动态综合保障,实现作战效能最大化和作战进程最短化,在作战样式上集中表现为体系的对抗.

由于体系对抗的复杂性、动态性和对抗性等特点,传统的经验式、规则性的系统难以满足瞬息万变的战场要求,而利用人工智能技术的智能化系统将会给我们提供一条新的途径.智能化的体系作战将成为未来的趋势,体系对抗的智能水平也将成为决定作战双方对抗优势的重要因素.

美国很早就开始探索人工智能技术在体系对抗中的应用.DARPA于2007年启动了“深绿”计划,“深绿”计划核心思想是借鉴“深蓝”,预判敌人的可能行动,从而提前做出决策.虽因经费削减等原因该计划于2011年暂停,但其提出的思路和方法值做到借鉴.2015年12月,美国防部提出了第三次抵消战略,其发展方向是打造智能化作战体系,将带来以智能化军队、自主化装备和无人化战争为标志的军事大变革.2016年6月美国辛辛那提大学开发的AlphaAI系统,在空战模拟仿真器上,完胜经验丰富的美退役空軍上校.

目前国内军事信息系统基本停留在辅助劳力而非智能阶段,还需深入研究.

体系对抗是作战双方之间的博弈,博弈的本质问题是博弈参与方之间博弈策略的对抗.因此,体系对抗的关键是智能策略的生成.近年来,人工智能技术以人机大战为标志,在计算机博弈上取做到突破性重大进展,这对体系对抗中智能策略的研究有重要的借鉴意义.

本文基于人工智能技术在计算机博弈问题上的进展,围绕体系对抗,综述体系对抗智能策略生成中的人工智能技术,分析体系对抗智能策略系统的组成,为体系作战的研究和设计提供一定的支撑.

二、计算机博弈

计算机博弈是人工智能的一个重要研究分支,围棋、即时战略游戏、雅达利、等游戏AI都是计算机博弈的典型问题.

(一)围棋:从AlphaGo到AlphaZero

2016年,谷歌DeepMind发表于《Nature》上的计算机围棋AlphaGo击败了人类顶尖职业棋手,成为人工智能领域的一个里程碑事件.在此基础上,2017年DeepMind又研发了AlphaGo Zero,完全不用人类棋谱数据,就能达到更强的性能.而在2017年底,DeepMind又推出了更加通用的AlphaZero,在国际象棋、日本将棋以及围棋上分别战胜了此前最强的AI,而且在这三种游戏上,AlphaZero所用的算法设置、网络结构以及超参数都是完全相同的,是一种在多种任务上达到超越人类水平的通用性算法.

1. AlphaGo

计算机围棋被认为是人工智能领域的一大挑战,这是因为其搜索空间非常巨大并且棋盘盘面和走子难以评估.AlphaGo采用深度卷积神经网络来减少搜索宽度和搜索深度:使用策略网络采样动作来减少搜索宽度,使用价值网络评估盘面来减少搜索深度.

AlphaGo 主要包括三个策略网络和一个估值网络,最后用蒙特卡洛树搜索将策略网络和估值网络整合起来,形成完整的系统.策略网络主要用于预测下一步走棋,估值网络主要用于评估当前盘面.AlphaGo 利用人类下棋的样本数据,采用卷积神经网络训练了监督学习策略网络,又用线性softmax回归训练了快速走子策略网络,并用强化学习训练了增强策略网络,用卷积神经网络训练了估值网络.

AlphaGo完整的算法流程如图 1所示,包含离线学习与在线对弈两个阶段.在离线学习阶段,采用人类棋谱和自对弈的方式获取样本数据,利用样本数据进行训练,做到到监督学习策略网络、快速走子、增强学习策略网络以及估值网络.在在线对弈阶段,利用蒙特卡洛树搜索将训练好的网络整合起来,给出下一步落子的位置,从而完成整个过程.

2. AlphaGo Zero

AlphaGo Zero与之前AlphaGo的区别在于:只用自对弈强化学习来训练,从随机下法开始,完全不用任何人类数据;只用黑棋和白棋作为输入特征;只用一个神经网络,而不是分成策略网络和价值网络;采用的树搜索更简单,只依赖于一个神经网络来评估盘面和采样走子,不用蒙特卡洛走子.

AlphaGo Zero 完全不用任何人类数据,也不用给出除了基本规则外的其他领域知识,只用深度强化学习和蒙特卡洛树搜索就能训练到超过人类水平,显示了强大的性能.

3. AlphaZero

DeepMind 发表AlphaGo Zero之后,寻求将这种算法泛化到其他任务中的可能性,提出了AlphaZero.它是一种不使用游戏规则以外的任何知识,可以从零开始通过自对弈强化学习在多种任务上达到超越人类水平的通用性算法.AlphaZero在国际象棋、日本将棋以及围棋上分别战胜了此前最强的AI,展现出了强大的性能;而且在这三种棋类游戏上,AlphaZero都使用了相同的算法设置、网络结构和超参数,显示了通用性.

结论:关于对写作策略论文范文与课题研究的大学硕士、相关本科毕业论文策略论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

我国基层农业推广体系存在问题和解决策略
摘 要:伴随社会全面发展,党和国家对“三农”问题高度重视,基于我国的基本国情和农业技术的推广特点,中央要求深化改革我国基层农业推广力度,在实践中。

内蒙古高校大学生就业指导服务体系现状以与优化策略
摘要:文章采取随机抽样调查的方法,以内蒙古财经大学为例,对内蒙古高校大学生就业指导服务体系进行分析研究。通过调研,总结出内蒙古高校就业指导服务体。

高校财务内控体系的构建与完善策略分析
摘要:随着教学体制的不断变革,各大高校在教育体制、财务体系等各个方面都进行了更新。从目前的情况看,高校财务内控体系还存一些问题,阻碍了高校持续、。

中小企业内部控制体系存在问题和完善策略
摘要:市场竞争的日益加剧,为中小企业带来了更多挑战,为了帮助中小企业在激烈的市场竞争中取得一席之地,我们必须将完善内部控制体系作为首要任务。现阶。

论文大全