基于线性逼近的即时差分学习

一、基于线性近似的即时差分学习（论文文献综述）

朱萌萌^[1]（2019）在《基于勒贝格采样的随机系统最优控制研究》文中认为随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化领域科学者的研究热点。虽然,每个领域的科学研究对系统结构都有着各自的问题描述。但是,大多数研究方法都是围绕系统的最优性能为出发点,即寻找“最优策略”对系统性能进行优化。在性能势理论的基础上,本文将采用勒贝格采样技术,针对随机系统的优化问题进行策略研究。结合前人的观点,本文主要做了以下三方面的工作:1.针对随机动态系统的最优控制问题,采用策略迭代的方法进行求解。首先,基于性能势理论和反馈控制系统的最优性方程,给出了模型问题的策略迭代算法。然后,结合MATLAB仿真环境,在不需要辨识系统所有参数的情况下,运用该算法中的策略评价,可以从构造的样本路径上估计性能势。最后,实施策略改进以寻到最优策略来优化系统性能。2.针对勒贝格采样系统的最优控制问题,利用马尔可夫决策过程中的时间集结方法进行求解。首先,基于上一个工作中的最优控制问题的一般模型,给出了勒贝格采样系统的数学模型。然后,结合勒贝格采样技术、时间集结法、策略迭代算法和解析法对该模型进行求解,可以得出系统的最优性能以及相应的最优策略。最后,将勒贝格采样系统与传统的周期采样系统作比较,通过MATLAB仿真对比,得出勒贝格采样方法不仅可以改善系统性能,也能减小系统资源消耗。从而,在某种程度上解决了该类系统的“维数灾”问题。3.针对上述两类系统的优化问题,结合强化学习技术,解决了离散事件动态系统的最优控制问题。首先,基于样本路径和Q学习技术,给出了一阶连续时间随机动态系统的优化算法。然后,在性能势的基础上,引入一种在线策略迭代方法,又称SARSA算法,来求解该类系统的最优控制问题。最后,通过数值算例,与周期采样作比较,基于勒贝格采样的策略明显优于周期采样的策略。因此,勒贝格采样的方法更适用于实际的控制系统。

秦斐燕^[2]（2018）在《基于随机动态规划的混合动力汽车能量管理策略研究》文中提出混合动力汽车是解决环境污染和能源短缺问题的一条可行之路。在新能源的辅助下,如何进一步提高混合动力汽车的燃油经济性是一个重要的研究课题。全局工况已知的能量管理策略已经成熟,但可实时应用、在线应用的能量管理问题仍有待突破。为解决这一问题,本文系统的研究了混合动力汽车的能量管理策略。本文以单轴并联式混合动力电动汽车为研究对象,在对其动力系统建模后,用动态规划算法得到车辆在三种典型工况下的燃油经济性、电池荷电状态范围、工况末端时刻电池荷电状态、平均发动机效率、平均电机效率、平均电机能量回收效率等六个方面的性能参数。为克服动态规划算法需要全局工况信息且离线应用的局限性,本文研究了三种不同的能量管理算法:基于随机动态规划、基于正交小波基神经元动态规划以及基于随机模型预测控制的能量管理策略。基于随机动态规划的能量管理策略将未知工况对车辆的不确定性影响用驾驶员需求转矩表示,用非线性离散化方法将该转矩建模为一步马尔可夫链。在完成“状态-动作-阶段代价”数据采集后,用策略迭代法对能量管理问题进行求解。该方法采用了按照电池荷电状态区间变化的电池荷电状态阶段代价函数,更符合实际中电池的使用情况。实验结果表明,该方法在三种城市工况下都有较强的适应性。同时,该方法得到的策略是一个表格,在应用中可通过查表的方式获得最优控制动作。基于随机动态规划的能量管理策略存在用策略迭代法求解时计算量过大的问题。为解决上述问题,本文进一步研究了基于正交小波基神经元动态规划的能量管理策略。首先,提出了一种正交小波基神经网络,给出了网络结构的确定方法、隐层激活函数的确定方法、网络权值和小波参数更新方法。随后,将该神经网络用在正交小波基神经元动态规划能量管理策略的评价网络中。最后用一个修正模块对动作网络输出的控制动作进行修正,获取真正的控制动作。实验结果显示,该方法有在线应用的潜力。基于随机动态规划的能量管理策略是基于一步马尔可夫链的驾驶员需求转矩模型求解最优控制问题,因此会带来模型误差问题。本文研究了基于随机模型预测控制的能量管理策略。首先,建立了车辆的状态空间预测模型。随后,将动态规划法和多步即时差分算法相结合应用到滚动优化中。三种工况下的实验结果显示,与基于随机动态规划的能量管理策略相比,该方法因为反馈校正和滚动优化的特点,可以有效解决模型误差问题,得到更好的车辆燃油经济性和动力系统部件效率。本文对基于动态规划、随机动态规划、正交小波基神经元动态规划和随机模型预测控制算法的四种能量管理策略进行了比较研究和实验。结果显示:基于正交小波基神经元动态规划和基于随机模型预测控制的能量管理方法可以得到次优的燃油经济性和车辆部件效率;基于随机动态规划的方法因为有离散误差和马尔可夫链模型误差问题,与后两种方法相比,燃油经济性和车辆部件效率均较低。

赵舟^[3]（2018）在《基于AIS的船舶避碰策略研究》文中提出船舶碰撞事故是威胁海上航行安全造成危害与损失的重要因素。海上交通的高速化和密集化对传统的避让决策方式带来了压力。为了应对严峻的避碰形势,根据法令船舶自动识别系统在远洋或大型船舶上强制安装,系统能够快速信息收集并作简要分析。随着人为因素在船舶碰撞事故中占比过大,船舶自动识别系统等已成为研究自动决策避碰的基础。目前,船舶自动避碰方法对于避碰中动态过程的研究稍显缺乏,多以会遇形式判断后采用直接的目标性避让动作。基于开发AIS获取更具实时性避碰决策方法的目的,选择强化学习搜索避碰动态过程的优化序贯决策,构造即时避让调整寻求路线最优。首先根据避碰的节点定义避碰吸收Markov过程;鉴于连续状态空间和行为空间,进一步选取自适应启发评价算法作为决策结构;完善算法中的评价器和决策器,选取输入信息包括船舶位置、航向、航速,确定决策输出为航向转向角度;依据船舶碰撞危险度和转向角度设定再励信号,将避让经验和避碰规则融入到Markov过程中;最后在多种会遇局面下,完成避碰动态过程的强化学习,收敛得到决策方案和避让路径。决策结果在MATLAB环境中由避让路径表示,针对两船会遇下对遇、交叉、追越和多船会遇下不同局面,给出了各船依据自动避碰算法分别航行的路径轨迹。结果表明应用自适应启发评价避碰决策的船舶能够遵守避碰规则并实现安全避碰。通过与已有自动避碰算法的路径表示结果比较,具有更明显的实时性。

刘云龙^[4]（2018）在《接入与回传一体化小基站资源分配算法研究》文中研究说明在即将到来的5G通信中,随着智能终端的普及和移动宽带业务的丰富,网络流量不断递增。为了满足移动数据业务的快速发展,需要将部署很多低功率无线接入与回传一体化小基站作为实现超密集网络部署的关键技术。如何对无线自回传小基站资源进行高效的分配是实现小基站灵活部署首要考虑的因素,也是提高频谱利用率的有效方法。针对上述问题,本文重点研究了5G超密集组网下基于无线自回传小基站的动态资源分配问题,主要研究内容和创新工作总结如下:1.针对视频流业务下无线自回传小基站的场景,为了最大化用户质量满意度,提出了一种无线自回传小基站的动态资源分配算法。该算法首先通过对用户的队列状态信息更新、信道状态信息的观察和溢出概率的计算,动态调整下一周期队列传输所需频谱资源,以期改变系统实际可达速率并建立用户质量满意度最大化模型,其次运用Lyapunov随机优化方法把初始问题转化为Lyapunov偏移加惩罚项的优化,将溢出概率约束转化为关于自变量的不等式,最后运用层次分解法将目标问题分解为用户回传带宽分配子问题和用户接入带宽分配子问题、回传和接入带宽分配子问题分别通过拉格朗日对偶分解法和内点法求解,并得到基站和用户关联机制。仿真结果表明,该算法能在保证系统稳定性的同时提高系统用户质量满意度。2.针对全双工无线接入与回传一体化小基站场景下相对长期的频谱效率和能效同时最大化问题,提出了一种基于近似动态规划理论的小基站接入控制与资源分配联合优化算法。该算法首先联合考虑当前基站的资源使用和功率配置,在任一用户需求动态到达以及平均时延、小基站回传速率和传输功率约束下,使用马尔科夫决策过程（Markov decision process,MDP）建立频谱效率最大化和功率消耗最小化的多目标优化模型,其次运用切比雪夫理论将原问题转化为单目标问题,并使用拉格朗日对偶分解法进一步转化为非受限的MDP问题,最后通过所提算法进行求解,得到此时最优的接入与资源分配策略。仿真结果表明,该算法能在保证平均时延约束、小基站回传速率约束和传输功率约束的同时最大化长期平均频谱效率和能效。

姜俊超,朱坤杰,张云飞,杨坚^[5]（2017）在《SDN中DASH路由规划和码率调节联合决策算法》文中认为随着互联网技术的快速发展以及智能设备的普及,基于HTTP的动态自适应流媒体（Dynamic Adaptive Streaming over HTTP,DASH）业务发展迅速.但在带宽受限网络中,大规模用户的视频请求,将会加重网络负载,严重影响网络带宽资源的有效利用,同时用户码率调节缺乏全局协调控制机制,容易造成网络拥塞.针对软件定义网络中的DASH视频传输业务,将视频业务提供商长期平均收益最大化作为优化目标,设计并实现了基于神经元动态规划的DASH视频路由和用户码率调节联合决策算法.最后,通过在Mininet平台上建立SDN（Software-Defined Networking）网络环境并进行对比实验,我们验证了本文提出的联合决策算法能够提高网络带宽资源利用率,最大化DASH视频业务提供商长期平均收益.

向旭东^[6]（2015）在《云计算性能与节能的动态优化研究》文中认为随着云计算（CC, Cloud Computing）勺蓬勃发展,云数据中心高能耗、高碳排放的问题日益凸显,给云服务提供商带来高额运营成本的同时,严重制约了云计算的可持续发展。云计算应用领域的不断拓展使其服务对象已由传统的桌面用户群渗透到移动用户群,催生了移动云计算（MC2, Mobile Cloud Computing）这一新兴计算模式。MC2通过移动互联网连接移动设备端与云端,对端到端数据传输的能效提出了较高的要求。本文围绕CC和MC2的性能与节能优化展开研究,运用动态优化方法构建理论分析模型,设计在线控制算法,优化系统的能耗和性能。论文的研究内容和成果包括：（1）数据中心计算资源自配置的性能与节能优化。首先,运用马尔科夫决策过程（MDP, Markov Decision Process）理论构建资源自配置问题的动态优化模型；然后,鉴于外部环境模型的未知性,综合运用强化学习和近似动态规划方法,提出了一种计算资源自配置算法RASA, RASA算法利用服务器CPU的动态频率调节机制,动态匹配资源分配量与系统负载,优化系统能耗和性能；仿真实验验证了RASA算法的有效性。（2）分布式SaaS云请求路由与虚拟机调度的节能优化。首先,构建分布式SaaS云成本与性能管理问题的动态优化模型,目标是在保证应用请求队列稳定性的前提下,最小化时间平均（Time Average）能源成本、碳税成本和带宽租用成本；然后,运用Lyapunov随机优化方法,提出了一种分布式的在线调度算法GREEN,在运营成本最优性与队列稳定性之间实现平衡控制；最后,设计基于真实数据集的仿真实验,验证GREEN算法在非稳态环境下的有效性。（3）MC2链路选择与传输调度的性能与节能优化。首先,运用MDP理论构建端到端上下行数据传输问题的动态优化模型；然后,提出了一种基于近似动态规划的在线学习算法eLean,该算法利用不同链路的能效差异性和部分移动应用的延迟容忍特性,通过动态的链路选择与数据传输调度,优化移动设备能耗和吞吐量；最后,设计仿真实验对eLean算法的有效性进行了验证。

梁振成^[7]（2015）在《中长期发电优化调度的近似动态规划模型与算法》文中指出随着清洁能源的大规模开发利用,提高电网接纳清洁能源的能力,实现多种发电资源的优化配置,已经成为发电优化调度研究的重要内容。流域梯级水电厂群的开发和利用,使得水火协调、跨流域互补、梯级互动等优化调度方案的实施成为了可能,但也带来了复杂的“电耦合”及“水耦合”等问题,并且来水的不确定性极大影响着水电优化调度能力的发挥。在大规模风电接入后,风电功率的随机波动性、间隙性以及难以预测性增加了调度的不确定性和电网调峰的难度。此外,市场竞争机制的引入,打破了传统的垂直垄断管理模式,在价格的导向作用下,发电厂商在追求发电收益的最大化和发电成本的最小化,发电调度转向以市场为中心。电力市场增加了系统运行的复杂程度,给发电优化调度带来了新的困难。电力系统中长期发电优化调度关注于多种发电资源在长时间尺度内的联合优化,其周期更长,调节的范围更广,随机性更强,本质为随机动态优化问题,面临着建模和求解困难问题。传统基于确定性数学规划理论推导出来的模型对于系统规模大,不确定性因素多的中长期发电调度具有较大的局限性。2011年,普林斯顿大学的Powell教授提出了近似动态规划（Approximate Dynamic programming, ADP）的统一理论,并指导性地给出求解思路后,具有统一处理确定性与不确定性、连续与离散规划问题能力的ADP方法被广泛认为是解决大规模随机动态优化问题的有效途径。ADP是本文构建中长期发电优化调度新模型的基础,其建模思路清晰,应用动态规划（Dynamic programming, DP）的概念和符号描述多阶段优化决策问题,通过随机过程作用于系统状态的方式将随机性影响纳入阶段优化决策中,开放式的近似寻优策略扩展了ADP的应用范围。综上所述,本文围绕着中长期发电优化调度问题,针对不同条件下的发电优化调度方式,采用ADP方法进行建模和求解。主要开展了以下研究工作：（1）在研究火电、水电、风电等发电技术的基础上,分别建立了含梯级库群的水电运行模型,水火电联合优化调度模型,分析了不可调节发电技术的调度方式,以及电力市场新环境下发电优化调度所面临的更多不确定性。构建基于场景树模型的随机过程表示这些不确定性因素,并采用随机模拟与场景缩减技术相结合的方法压缩预测场景集合,在尽量减少场景数量的同时,保持随机变量场景树模型的重要特征。（2）结合ADP的多阶段优化决策理论,提出了一种不确定性条件下水电厂商优化自调度的多阶段决策模型。模型从水电厂商的角度出发,以含梯级库群的水电运行模型为调度基础,将远期合约和日前市场交易电量的分配视为ADP框架下的阶段决策,以预测场景集合表示的随机过程考虑流域天然来水和日前市场电价的影响,优化水电厂商的远期合约电量决策以获得稳定的收益。设计了水库蓄水的近似值函数策略求解基于ADP的水电优化自调度模型。最后以某省水电系统为例验证ADP模型求解随机规划问题的优越性,并分析了不确定性条件下水电厂商的决策对收益和水库调度的影响。（3）基于ADP的多阶段优化决策方式,提出了一种中长期发电计划的ADP-RO模型。模型从电力调度部门的角度出发,将中长期发电计划的制定视为风水火等发电资源的优化配置（Resource Optimization, RO）问题,以预测场景表示日前市场煤价、流域来水、风速预测随机变量,将合约购煤与市场购煤、水库用水视为ADP框架下的阶段决策。分阶段决策降低了问题的求解规模和难度,提出的燃煤库存和水库蓄水的值函数近似策略解决了如何优化决策并保持阶段分解后的整体优化特性问题。通过在决策和近似值函数之间的迭代,求解出近似最优决策,进而获取风水火发电计划、燃料供应计划,水库优化运行等优化调度方案。（4）利用ADP的模拟优化作用,提出了一种考虑大规模风电接入后备用容量和风电计划出力的优化模型,用以分析大规模风电并网对电网调度运行的影响。模型以备用容量和风电计划出力为待优化的系统参数,将日前计划和实时调整连接起来交替执行,以预测和实时数据模拟运行,优化参数的选择,并获得各种类型机组的出力状况。在此基础上讨论备用容量的大小、风功率预测精度、储能容量对电力系统调度运行的影响,可为规划大规模风电接入提供理论和实证分析工具。最后,对全文进行了总结和展望,指出ADP多阶段优化决策的方法适用于中长期电力系统发电优化调度等大规模随机动态优化问题。本课题的研究成果可应用于电网调度部门制定中长期发电计划,燃煤供应计划,水库优化运行等。同时也拓展了ADP的应用范围。

夏新海^[8]（2013）在《面向城市自适应交通信号控制的强化学习方法研究》文中提出由于城市交通的迅速发展，城市道路功能增多，密度加大，国外从20世纪60年代便开始了自适应交通信号控制的研究。自适应交通信号控制是缓解城市交通拥挤的很有潜力的方法。但由于城市交通系统具有非线性、动态性、非确定性、模糊性、复杂性等特征，传统的自适应交通信号控制系统及智能控制方法虽然取得了一定的成绩，但由于对多变的交通流在一定程度上不能适应，对交通模型依赖较严重。强化学习方法由于不需要外部环境的数学模型，对环境的先验知识要求低，可在大空间、复杂的非线性系统中取得良好的学习性能，因此，近年来许多学者提出的基于agent（智能体）的强化学习方法在自适应交通信号控制中将有广阔的发展前景。本论文首先为每个信号控制的交叉口定义一个agent,即交叉口交通信号控制agent，分析了面向自适应交通信号控制的标准强化学习的过程及有效性，研究了面向自适应交通信号控制的几种典型强化学习算法的应用，包括分布式Nash Q-学习方法、多遇历史学习方法、策略梯度上升方法。论文的重点及创新成果如下：（1）交叉口交通信号控制agent体系结构模型的构建针对交叉口交通流具有的多干扰、动态性、不确定性等特性，以agent的BDI理论模型为基础，将认知型agent结构和反应型agent结构进行融合，根据“感知-认知-行为”模式构建了交叉口交通信号控制agent体系混合结构模型。（2）面向自适应交通信号控制的标准强化学习算法的实现利用标准强化学习方法中方法对交叉口交通信号进行控制。首先设计了独立标准强化学习算法对单交叉口交通信号进行控制，并与定时控制方法进行对比分析，验证了独立标准强化学习控制方法的有效性。针对独立标准强化学习算法存在的维数灾难问题，通过引入协调机制对独立标准强化学习算法进行延伸设计了基于协调机制的标准强化学习算法，并与独立标准强化学习进行了比较，分析了其收敛性和有效性。（3）面向自适应交通信号控制的分布式Nash Q-学习方法的设计针对交叉口间交通流的相互关联性，利用n人非零和Markov对策建立了交叉口交通信号控制agent间的交互数学模型，提出了求解该模型的分布式Nash Q-学习算法。在所提出的算法中各个交叉口交通信号控制agent的配时动作选择不仅仅依赖自身的Q值函数，而且必须考虑其他交通信号控制agent的Q值函数，选择的配时动作是当前所有交叉口交通信号控制agent的Q值函数下的Nash平衡解，这种方法使得每一交叉口交通信号控制agent在联合配时动作及不完备信息下更新Q值。通过理论分析和仿真实验证明了此算法的收敛性，并与基于独立强化学习算法的交通信号控制、定时交通信号控制、基于国外相关文献算法的交通信号控制等进行比较分析，验证了其有效性。（4）面向自适应交通信号控制的多遇历史学习法的设计针对目前应用多agent学习协调机制进行自适应交通信号控制存在着完备知识假设和单遇交互假设的不足，利用对策论构建了城市交叉口交通信号控制agent间多遇交互数学模型，通过引入记忆因子设计了多交互历史学习协调算法。在此模型和算法中，每一交叉口交通信号控制agent与相邻交叉口交通信号控制agent进行交互，根据选择策略获得的效用值来更新它的混合策略，并且交叉口交通信号控制agent通过对其他相邻交叉口交通信号控制agent以往历史交互行为，特别是最近的历史行为的记忆学习达到协调。从理论上分析了此算法的收敛性。以数个交叉口相连接的干道交通信号协调控制为例分析了记忆因子、学习概率、交叉口交通流变化率等参数对此方法的性能的影响，并与国外相关文献方法进行了比较分析，证明了该方法的有效性，并具有一定的动态环境适应能力和协调能力。（5）面向自适应交通信号控制的策略梯度上升方法的设计由于城市交通系统的环境状态信息很难被控制系统完全感知，将自适应交通信号控制看成是POMDP（Partially Observable Markov Decision Process，部分感知马尔科夫决策）问题，建立了交叉口自适应交通信号控制POMDP环境模型，在引入GPOMDP算法的基础上，针对一般策略梯度估计法的不足，将自然策略梯度、值函数方法的优点进行融合，设计了在线NAC（NaturalActor Critic）算法来进行自适应交通信号控制。通过仿真实验分析了相关参数等对两种算法收敛性的影响，并与基于饱和度平衡策略的交通信号控制、定时交通信号控制及基于国外相关文献方法的交通信号控制进行了比较分析，证明了采用策略梯度上升强化学习方法的有效性，表明了其对自适应交通信号控制具有一定的适用性。

房曙光^[9]（2013）在《无线网络QoS保障跨层优化若干问题研究》文中研究说明无线通信为当今通信领域中最为活跃的研究热点之一，其服务质量（Quality of Service,QoS）保障对于无线通信系统的设计是非常重要的，特别是多媒体业务等对服务质量具有严格要求的应用就更为突出。网络服务质量是无线网络数据传输质量的度量指标，第三代和第四代无线网络均具有支持多种QoS需求业务流特性。现代无线网络中信道的时变性、业务流的复杂结构和到达随机性以及网络结构的复杂性，使得无线网络QoS保障技术十分复杂和重要。本论文借助马尔科夫过程理论、队列理论、最优化理论、在线学习理论，研究无线网络通信中QoS保障的若干关键问题，包括无线信道服务过程突发特性及无线信道马尔科夫过程建模方法、分层无线网络QoS指标垂直映射模型及跨层优化技术、无线多跳网络中节点公平性保障技术，并利用Matlab工具对所提出各种算法模型进行性能仿真和分析，验证它们的有效性，论文主要创新点有以下五个方面。（1）首次构建AMC瑞利衰减无线信道服务过程模型。借助队列理论，分析数据链路层业务流、链路队列以及物理层调制编码技术对AMC无线信道服务过程的影响，得出AMC无线信道服务过程模型；并应用突发特性的离散时域尖度因子函数表示法，通过数值方法分析AMC无线信道服务过程所呈现突发特性，以及其与信道接收端服务速率、系统期望包差错率以及信道信噪比关系。（2）基于AMC无线信道服务过程突发特性，提出一种突发特性等效的AMC无线信道马尔科夫模型建模方法，并且用数值分析方法与现有建模方法对比，验证了其有效性和优越性。（3）针对无线网络垂直QoS映射问题，基于层间虚拟缓存概念，提出一种统一的层间QoS垂直映射模型，并且采用队列分析方法和仿真初步验证了其有效性。（4）针对无线环境下业务流和无线信道的不可预测问题，提出一种基于在线学习的层间QoS优化方法，并给出了其求解算法。（5）提出一种新的无线Mesh网络中路由节点公平性的度量方法。该方法基于加权最大最小公平性优化原理，以路由和中继节点加权吞吐量冗余的一致性衡量无线Mesh网络中节点公平性，并提出一种节点吞吐量和节点公平性优化结构，利用该结构和仿真分析节点吞吐量和节点公平性关系。

林闯,万剑雄,向旭东,孟坤,王元卓^[10]（2012）在《计算机系统与计算机网络中的动态优化:模型、求解与应用》文中研究说明动态优化是计算机系统与计算机网络中进行资源分配与任务调度等方面研究所采用的主要理论工具之一.目前,国内外已开展大量研究,致力于深化动态优化的理论研究与工程应用.文中从模型、求解与应用3个角度,对马尔可夫决策过程动态优化理论模型进行了综述,并重点介绍了将动态优化理论与随机Petri网理论相结合的马尔可夫决策Petri网和随机博弈网模型,详细讨论了这些模型的建模方法、求解算法与一些应用实例.最后,对全文进行了总结,并对未来可能的研究方向进行了展望.

二、基于线性近似的即时差分学习（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于线性近似的即时差分学习（论文提纲范文）

（1）基于勒贝格采样的随机系统最优控制研究（论文提纲范文）

致谢

摘要

Abstract

主要符号表

1 绪论

1.1 研究背景

1.1.1 随机系统最优控制

1.1.2 马尔可夫系统与性能势理论

1.1.3 基于学习和优化的方法

1.2 研究的意义与课题来源

1.3 课题研究现状

1.4 论文主要研究内容和结构

2 预备知识

2.1 马尔可夫决策过程

2.1.1 马尔可夫性与系统状态

2.1.2 马尔可夫过程

2.1.3 半马尔可夫过程

2.1.4 标准马尔可夫决策过程与策略

2.2 性能势

2.2.1 构造样本路径

2.2.2 性能势

2.3 策略迭代

2.4 勒贝格采样技术

2.5 本章小结

3 基于策略迭代的最优控制

3.1 引言

3.2 控制系统的模型建立

3.3 在线学习和优化方法

3.3.1 状态空间的离散化

3.3.2 策略迭代方法

3.3.3 性能势和相关参数的估计

3.4 数值算例

3.5 本章小结

4 基于勒贝格采样的最优控制

4.1 引言

4.2 问题描述

4.3 基于勒贝格采样系统的最优控制

4.3.1 勒贝格采样系统

4.3.2 时间集结法

4.3.3 策略迭代算法

4.3.4 解析法

4.4 周期采样系统的优化控制

4.5 仿真结果与分析

4.6 本章小结

5 基于样本路径的学习与优化

5.1 引言

5.2 问题描述

5.3 Q学习因子

5.4 SARSA算法

5.5 仿真结果与分析

5.6 本章小结

6 结论与展望

参考文献

作者简历

学位论文数据集

（2）基于随机动态规划的混合动力汽车能量管理策略研究（论文提纲范文）

摘要

abstract

第1章引言

1.1 研究背景

1.2 国内外研究现状分析

1.2.1 混合动力汽车发展现状

1.2.2 能量管理策略发展现状

1.3 课题研究思路

1.4 论文内容及安排

第2章车辆模型与基本方法

2.1 车辆建模

2.2 最优化能量管理问题

2.3 基于动态规划的能量管理

2.4 硬件在环实验平台搭建

2.5 实验结果

2.6 本章小结

第3章基于随机动态规划的能量管理策略

3.1 随机最优问题建模

3.2 基于随机动态规划方法的能量管理策略

3.2.1 马尔可夫链

3.2.2 驾驶员需求转矩的马尔可夫链模型

3.2.3 随机动态规划法

3.2.4 随机动态规划的计算方法

3.3 实验结果

3.4 本章小结

第4章基于正交小波基神经元动态规划的能量管理策略

4.1 近似最优问题建模

4.2 正交基小波神经网络

4.2.1 小波变换理论

4.2.2 小波神经网络

4.2.3 函数的多分辨分析理论

4.2.4 正交小波基神经网络

4.3 基于正交小波基神经元动态规划方法的能量管理策略

4.3.1 评价网络

4.3.2 动作网络

4.3.3 算法流程

4.4 实验结果

4.5 本章小结

第5章基于随机模型预测控制的能量管理策略

5.1 问题描述

5.2 基于随机模型预测控制的能量管理策略

5.2.1 预测模型

5.2.2 反馈校正

5.2.3 滚动优化

5.3 实验结果

5.4 几种能量管理策略比较

5.5 本章小结

第6章总结

6.1 全文总结

6.2 论文创新点

6.3 研究展望

参考文献

致谢

作者简历及攻读学位期间发表的学术论文与研究成果

（3）基于AIS的船舶避碰策略研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景

1.2 自主避碰决策的研究现状

1.3 AIS的船舶避碰应用

1.4 本文研究内容

第二章 AIS避碰算法研究

2.1 强化学习与线性时域差值

2.2 学习控制算法

2.2.1 Q学习算法

2.2.2 Sarsa学习算法

2.2.3 自适应启发评价学习算法

2.3 本章总结

第三章 AHC避碰决策算法实现

3.1 避碰局面及避碰措施

3.1.1 两船会遇局面

3.1.2 多船会遇局面

3.2 AHC避碰算法实现

3.2.1 AHC避碰算法设定

3.2.2 AHC避碰决策

3.2.3 避碰转向强化学习

3.3 碰撞危险度与再励信号计算

3.3.1 船舶碰撞危险度

3.3.2 再励信号设定

3.4 本章总结

第四章避碰结果与比较分析

4.1 避让路线

4.1.1 两船避碰

4.1.2 多船避碰

4.2 避碰路径对比

4.2.1 分布式避碰决策方法

4.2.2 避碰方法比较分析

4.3 本章总结

第五章总结与展望

5.1 结论

5.2 展望

参考文献

致谢

攻读硕士学位期间已发表或录用的论文

（4）接入与回传一体化小基站资源分配算法研究（论文提纲范文）

摘要

abstract

注释表

第1章绪论

1.1 研究背景和意义

1.2 无线接入与回传一体化小基站概述

1.2.1 无线接入与回传一体化小基站的定义与主要技术

1.2.2 无线接入与回传一体化小基站部署中的关键挑战

1.3 无线自回传小基站的资源分配问题

1.4 论文研究内容和结构安排

1.4.1 论文研究内容

1.4.2 论文结构安排

第2章无线自回传小基站资源分配关键技术研究

2.1 引言

2.2 无线自回传小基站资源分配相关技术

2.3 无线自回传小基站资源分配研究现状

2.4 无线自回传小基站资源分配算法分类

2.4.1 基于大规模MIMO技术的资源分配方案

2.4.2 基于李雅普诺夫稳定性的资源分配方案

2.4.3 基于缓存技术的资源分配方案

2.4.4 基于毫米波技术的资源分配方案

2.4.5 基于全双工技术的资源分配方案

2.5 本章小结

第3章一种基于无线自回传小基站的用户满意度最大化算法

3.1 引言

3.2 系统模型及优化问题建模

3.2.1 系统模型

3.2.2 无线自回传小基站资源调度问题数学建模

3.3 优化性能与用户满意度最大化资源分配算法分析

3.3.1 系统优化性能分析

3.3.2 基于拉格朗日对偶分解的用户接入带宽分配算法

3.3.3 基于内点法的回传和接入带宽分配算法

3.3.4 基于接入与回传一体化小基站的用户满意度最大化全局算法

3.4 性能仿真与结果分析

3.4.1 仿真场景及参数

3.4.2 仿真结果分析

3.5 本章小结

第4章无线自回传小基站接入控制与资源分配联合优化策略

4.1 引言

4.2 系统模型及优化问题建模

4.2.1 系统模型

4.2.2 基于MDP的小基站接入控制与资源分配联合优化策略

4.3 优化性能与接入控制与资源分配联合优化算法分析

4.3.1 系统优化性能分析

4.3.2 基于随机梯度法的样本值函数逼近近似值函数算法

4.3.3 基于蒙特卡罗方法的外部用户需求随机变量采样算法

4.3.4 基于近似动态规划的无线自回传小基站资源动态分配算法

4.4 性能仿真与结果分析

4.4.1 仿真场景设置

4.4.2 仿真结果分析

4.5 本章小结

第5章结束语

5.1 主要工作与创新点

5.2 后续研究工作

参考文献

致谢

攻读硕士学位期间从事的科研工作及取得的成果

（5）SDN中DASH路由规划和码率调节联合决策算法（论文提纲范文）

1 引言

2 系统建模及神经元动态规划决策算法

2.1 系统模型

2.2 动态规划建模

2.3 神经元动态规划近似求解

2.4 基于即时差分学习的迭代算法

2.5 基于神经元动态规划的路由与码率决策过程

3 实验结果和算法性能分析

3.1 系统搭建及实验设计实现

3.2 对比算法

3.3 实验结果和分析

4 结论

（6）云计算性能与节能的动态优化研究（论文提纲范文）

致谢

摘要

Abstract

插图清单

附表清单

英文缩略词清单

1 引言

1.1 研究背景

1.2 研究问题

1.2.1 数据中心计算资源自配置的性能与节能优化

1.2.2 分布式SaaS云请求路由与VM调度的节能优化

1.2.3 MC2链路选择与传输调度的性能与节能优化

1.3 研究难点与挑战

1.4 研究内容与成果

1.5 论文组织

2 相关研究综述

2.1 数据中心资源自配置的性能与节能优化

2.1.1 以提升系统性能为目标的资源自配置

2.1.2 兼顾系统性能与能耗的资源自配置

2.2 分布式数据中心的性能与节能优化

2.2.1 服务器级的DFS机制与整合

2.2.2 数据中心级的动态容量供应与请求路由

2.2.3 分布式数据中心级的请求路由

2.2.4 利用再生能源的数据中心性能与节能优化

2.3 MC2端到端数据传输的性能与节能优化

2.3.1 高能效的代码卸载技术

2.3.2 动态链路选择

2.3.3 数据传输调度

2.4 总结与分析

3 动态优化研究方法

3.1 马尔科夫决策过程

3.2 马尔科夫决策问题的限制条件

3.2.1 非受限的马尔科夫决策问题

3.2.2 受限的马尔科夫决策问题

3.3 马尔科夫决策问题的求解方法研究

3.3.1 精确求解方法

3.3.2 强化学习方法

3.3.3 近似动态规划方法

3.3.4 Lyapunov随机优化方法

3.4 本章小结

4 数据中心计算资源自配置的性能与节能优化

4.1 概述

4.2 资源自配置框架

4.2.1 云数据中心架构

4.2.2 云数据中心能耗模型

4.2.3 应用请求路由

4.3 资源自配置问题的MDP描述

4.3.1 系统状态

4.3.2 DFS配置行为

4.3.3 状态转移方程

4.3.4 成本与目标函数

4.4 资源自配置算法设计

4.4.1 定义决策后状态

4.4.2 应用程序性能预测模型

4.4.3 RASA算法初步设计

4.4.4 线性值函数近似

4.4.5 随机梯度参数更新

4.5 RASA算法性能评价

4.5.1 仿真实验设计

4.5.2 仿真结果分析

4.6 本章小结

5 分布式SaaS云请求路由与VM调度的节能优化

5.1 概述

5.2 系统模型与假设

5.2.1 地理分布式SaaS云的架构

5.2.2 应用请求到达与服务模型

5.2.3 能源供需与成本模型

5.2.4 碳税成本模型

5.2.5 带宽租用成本模型

5.2.6 模型假设

5.3 成本与性能优化问题描述

5.3.1 控制行为

5.3.2 控制目标

5.3.3 DT-SDP问题描述

5.4 GREEN算法设计与理论性能分析

5.4.1 原问题的转化

5.4.2 问题分解与算法设计

5.4.3 算法理论性能边界

5.5 仿真验证与性能评价

5.5.1 实验数据集

5.5.2 对比算法与评价指标

5.5.3 算法性能评价

5.6 本章小结

6 MC2链路选择与传输调度的性能与节能优化

6.1 概述

6.2 数据传输问题的SDP模型

6.2.1 系统状态

6.2.2 控制行为

6.2.3 控制目标

6.2.4 问题描述

6.3 链路选择与传输调度算法设计

6.3.1 决策后状态的定义

6.3.2 值函数近似策略

6.3.3 随机梯度参数更新

6.4 eLean算法性能评价

6.4.1 仿真实验设计

6.4.2 仿真性能评价

6.5 本章小结

7 结论

7.1 研究内容与成果

7.2 工作展望

参考文献

作者简历及在学研究成果

学位论文数据集

（7）中长期发电优化调度的近似动态规划模型与算法（论文提纲范文）

摘要

ABSTRACT

符号说明

第一章绪论

1.1 研究背景和意义

1.2 国内外研究动态

1.2.1 电力系统发电优化调度

1.2.2 规划算法的发展及应用

1.3 主要研究内容及章节安排

第二章发电优化调度概述

2.1 引言

2.2 发电技术

2.2.1 火力发电

2.2.2 水力发电

2.2.3 风力发电

2.2.4 其他发电技术

2.3 发电优化调度计划

2.3.1 发电调度的周期

2.3.2 水电优化调度

2.3.3 水火电联合优化调度

2.3.4 不可调节发电的调度计划

2.3.5 市场环境下的发电调度

2.4 发电调度中的不确定性

2.4.1 流域来水

2.4.2 市场电价

2.4.3 燃煤价格

2.4.4 风速预测

2.4.5 场景生成与缩减

2.5 小结

第三章近似动态规划简介

3.1 引言

3.2 从DP到ADP

3.3 ADP的基本思想

3.4 ADP的建模

3.4.1 状态变量

3.4.2 决策变量

3.4.3 随机变量

3.4.4 转移函数

3.4.5 目标函数

3.5 ADP的求解策略

3.5.1 短视策略

3.5.2 前瞻策略

3.5.3 策略函数近似

3.5.4 值函数近似策略

3.6 ADP应用举例

3.7 小结

第四章不确定性条件下水电厂商的优化自调度

4.1 引言

4.2 水电运行模型

4.3 中长期合约电量决策

4.3.1 随机规划的基本思想

4.3.2 决策框架

4.3.3 二阶段决策模型

4.4 ADP的求解方法

4.4.1 ADP模型

4.4.2 ADP的决策流程

4.4.3 水库蓄水的值函数近似策略

4.4.4 随机变量的场景生成

4.4.5 求解流程

4.5 计算与讨论

4.5.1 系统描述

4.5.2 径流和日前市场电价的随机过程

4.5.3 近似值函数的迭代

4.5.4 随机解价值的分析

4.5.5 典型场景下决策的分析

4.6 小结

第五章中长期发电计划的近似动态规划方法

5.1 引言

5.2 中长期发电优化调度

5.2.1 风水火电中长期运行特点

5.2.2 燃料供应计划

5.3 RO的数学模型

5.4 ADP的求解方法

5.4.1 总体求解思路

5.4.2 ADP-RO模型

5.4.3 值函数近似策略

5.4.4 随机变量的场景生成

5.4.5 求解步骤

5.5 计算与讨论

5.5.1 系统描述

5.5.2 预测值模型计算

5.5.3 随机模型分析

5.5.4 发电调度分析

5.6 小结

第六章大规模风电并网后备用容量和风电计划出力的优化

6.1 引言

6.2 大规模风电并网

6.2.1 风电建设规划状况

6.2.2 出力特性分析

6.2.3 调度机制和控制策略

6.3 风电并网的调度模拟优化

6.3.1 模型假设

6.3.2 日前计划阶段

6.3.3 实时调整阶段

6.3.4 基于ADP的优化模型

6.3.5 优化参数的方法

6.4 模拟数据

6.4.1 风功率数据

6.4.2 负荷数据

6.5 计算与讨论

6.5.1 算例描述

6.5.2 不同季节特性分析

6.5.3 风功率预测精度的影响

6.5.4 储能容量的影响

6.6 小结

第七章结论与展望

7.1 结论

7.2 展望

参考文献

附录A 实例系统数据

附录B 水电厂运行特性参数的拟合

附录C 攻读博士学位期间发表的论文

附录D 发表的论文与学位论文相关章节的对应表

致谢

（8）面向城市自适应交通信号控制的强化学习方法研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 城市自适应交通信号控制基础理论

1.2.1 自适应控制定义及研究现状

1.2.2 交通信号控制基本概念

1.2.3 城市交通信号控制的范围

1.2.4 城市交通信号控制方法

1.2.5 城市交通信号控制方式和结构

1.3 强化学习的发展概况

1.3.1 机器学习

1.3.2 强化学习的定义

1.3.3 强化学习的发展过程

1.4 面向自适应交通信号控制的强化学习研究现状

1.4.1 国内外研究现状

1.4.2 现有研究不足

1.5 课题来源、组织结构、研究内容及创新之处

1.5.1 课题来源

1.5.2 组织结构

1.5.3 研究内容

1.5.4 创新之处

第二章交叉口交通信号控制 Agent 体系结构

2.1 交叉口交通信号控制 agent 理论模型

2.2 agent 基本体系结构

2.3 交叉口交通信号控制 agent 体系结构模型

2.4 本章小结

第三章 Agent 强化学习基础理论

3.1 强化学习基本结构及原理

3.2 强化学习关键要素

3.3 MDP 和 POMDP 基本模型

3.4 强化学习的基本算法

3.4.1 算法基础

3.4.2 TD（Temporal Difference,瞬时差分）法

3.4.3 Q 强化学习

3.4.4 Sarsa（state,action,reward,state,action）算法

3.5 POMDP 强化学习

3.6 多 agent 强化学习

3.7 本章小结

第四章面向自适应交通信号控制的标准强化学习算法

4.1 面向自适应交通信号控制的独立标准强化学习算法

4.1.1 独立标准强化学习算法设计

4.1.2 仿真实验分析

4.2 引入协调机制的标准强化学习算法设计

4.2.1 基于间接协调机制的标准强化学习

4.2.2 基于直接协调机制的标准强化学习

4.2.3 仿真实验分析

4.3 本章小结

第五章面向自适应交通信号控制的分布式 Nash Q-学习算法

5.1 基于 Markov 对策论的 TSCA 间的交互数学模型

5.2 面向自适应交通信号控制的分布式 Nash Q-学习算法

5.2.1 单 agent 独立 Q-学习算法

5.2.2 MAS 分布式 Nash Q-学习算法

5.2.3 方法收敛性的理论分析

5.3 实例分析

5.3.1 收敛性分析

5.3.2 有效性分析

5.4 本章小结

第六章面向自适应交通信号控制的多遇历史强化学习算法

6.1 交叉口交通信号控制 agent 多遇交互数学模型

6.1.1 基于对策论的多遇交互数学模型

6.1.2 面向相邻交叉口交通信号控制 agent 交互的信号博弈分析

6.2 交叉口交通信号控制 agent 间的交互循环学习过程

6.3 交叉口交通信号控制 agent 间多遇历史学习算法

6.3.1 算法设计

6.3.2 算法收敛性理论分析

6.4 实例分析

6.4.1 参数对方法性能影响分析

6.4.2 方法有效性分析

6.5 本章小结

第七章面向自适应交通信号控制的策略梯度上升强化学习算法

7.1 交叉口自适应交通信号控制 POMDP 环境模型

7.2 面向自适应交通信号控制的策略梯度强化学习算法设计

7.2.1 参数定义和假设

7.2.2 目标函数

7.2.3 传统的策略梯度学习算法

7.2.4 带有值函数逼近器的策略梯度算法

7.2.5 改进的策略梯度学习算法算法

7.2.6 可分解的策略梯度的学习

7.3 基于策略梯度学习算法的自适应交通信号控制

7.3.1 学习系统的结构

7.3.2 性能评价标准

7.4 实例分析

7.4.1 基准策略

7.4.2 仿真网络

7.4.3 有效性分析

7.4.4 收敛性分析

7.5 本章小结

结论

参考文献

攻读博士学位期间取得的研究成果

致谢

附件

（9）无线网络QoS保障跨层优化若干问题研究（论文提纲范文）

摘要

Abstract

图表索引

主要缩略语说明

第1章绪论

1.1 研究背景

1.2 相关研究现状与存在的问题

1.2.1 无线信道建模

1.2.2 QoS 指标映射

1.2.3 WMNs 网络 QoS 保障

1.2.4 无线网络 QoS 保障研究所面临的挑战

1.3 论文研究内容

1.4 论文创新点

1.5 论文组织结构

第2章多速率调制无线信道服务过程及信道建模

2.1 引言

2.2 过程突发特性的描述方法

2.2.1 变异系数法

2.2.2 自相关函数

2.2.3 分散性指标

2.2.4 尖度因子函数

2.3. AMC 信道服务过程突发特性

2.3.1 AMC 技术

2.3.2 AMC 无线信道服务过程St

2.3.3 AMC 无线信道服务过程S t突发特性描述

2.4. AMC 无线信道突发特性等效建模

2.4.1 信道服务过程二阶矩

2.4.2 定义中间变量EYi

2.4.3 求无线信道服务过程状态转移概率矩阵

2.5. 数值分析

2.6 小结

第3章无线网络分层 QoS 垂直映射模型及跨层优化方法

3.1 引言

3.2 分层 QoS 机制及其映射

3.3 QoS 参数的自下向上垂直映射

3.4. 相邻协议层 QoS 指标的跨层优化

3.4.1 跨层优化

3.4.2 强化学习算法

3.4.3 基于强化学习的相邻协议层跨层优化

3.5. 仿真验证

3.5.1 网络层与传输层 QoS 指标垂直映射

3.5.2 Q 学习的跨层优化

3.6. 小结

第4章 WMNs 网络中 QoS 保障的节点公平性研究

4.1 引言

4.2 MR 节点 QoS 吞吐量与 MR 节点公平性优化及公平性度量

4.3 、数值分析

4.3.1 各节点 n取值相同

4.3.2 各节点 n取不同值

4.4 小结

第5章结束语

5.1 论文工作总结

5.2 进一步工作展望

致谢

攻读博士学位期间的学术成果

主持的科研项目

参与的科研项目

发表学术论文

参考文献

四、基于线性近似的即时差分学习（论文参考文献）

[1]基于勒贝格采样的随机系统最优控制研究[D]. 朱萌萌. 河南理工大学, 2019(08)
[2]基于随机动态规划的混合动力汽车能量管理策略研究[D]. 秦斐燕. 中国科学院大学(中国科学院深圳先进技术研究院), 2018(01)
[3]基于AIS的船舶避碰策略研究[D]. 赵舟. 上海交通大学, 2018(01)
[4]接入与回传一体化小基站资源分配算法研究[D]. 刘云龙. 重庆邮电大学, 2018(01)
[5]SDN中DASH路由规划和码率调节联合决策算法[J]. 姜俊超,朱坤杰,张云飞,杨坚. 小型微型计算机系统, 2017(06)
[6]云计算性能与节能的动态优化研究[D]. 向旭东. 北京科技大学, 2015(09)
[7]中长期发电优化调度的近似动态规划模型与算法[D]. 梁振成. 广西大学, 2015(01)
[8]面向城市自适应交通信号控制的强化学习方法研究[D]. 夏新海. 华南理工大学, 2013(05)
[9]无线网络QoS保障跨层优化若干问题研究[D]. 房曙光. 南京邮电大学, 2013(05)
[10]计算机系统与计算机网络中的动态优化:模型、求解与应用[J]. 林闯,万剑雄,向旭东,孟坤,王元卓. 计算机学报, 2012(07)

标签：动态规划论文; 自适应算法论文; 强化学习论文; 近似算法论文; 随机算法论文;

基于线性逼近的即时差分学习

一、基于线性近似的即时差分学习（论文文献综述）

二、基于线性近似的即时差分学习（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、基于线性近似的即时差分学习（论文提纲范文）

（1）基于勒贝格采样的随机系统最优控制研究（论文提纲范文）

（2）基于随机动态规划的混合动力汽车能量管理策略研究（论文提纲范文）

（3）基于AIS的船舶避碰策略研究（论文提纲范文）

（4）接入与回传一体化小基站资源分配算法研究（论文提纲范文）

（5）SDN中DASH路由规划和码率调节联合决策算法（论文提纲范文）

（6）云计算性能与节能的动态优化研究（论文提纲范文）

（7）中长期发电优化调度的近似动态规划模型与算法（论文提纲范文）

（8）面向城市自适应交通信号控制的强化学习方法研究（论文提纲范文）

（9）无线网络QoS保障跨层优化若干问题研究（论文提纲范文）

四、基于线性近似的即时差分学习（论文参考文献）

猜你喜欢