节点文献

基于深度强化学习方法的1-2-3流体弹球尾流控制

Wake Control of 1-2-3 Fluidic Pinball Using Deep Reinforcement Learning

【作者】 孙伟

【导师】 Bernd Rainer Noack;

【作者基本信息】 哈尔滨工业大学 , 电子信息(专业学位), 2023, 硕士

【摘要】 流动分离发生在非流线型钝体的尾部,这将导致阻力增加、升力波动和其他影响。流动分离会使尾流区产生再循环气泡。当再循环气泡中的压强小于来流方向的压强时,就会造成压差阻力。在高速的相对运动中,这种压差阻力可能会远大于摩擦阻力。因此,通过抑制流动分离现象实现减阻的流动控制成为了一个热门的研究课题。流动控制在交通运输、节约能源、建筑安全等方面具有重要意义。流动控制技术分为被动流动控制和主动流动控制。被动流动控制通过优化物体的表面形状达到减阻效果,不需要消耗额外的能量。应用最普遍的一种被动流动控制技术是涡流发生器。但是由于流动环境的变化十分复杂而且难以准确预测,被动流动控制的减阻效果通常很低。主动流动控制分为开环控制和闭环控制。闭环控制通过使用传感器测量环境状态并反馈给控制器,能够随时根据环境的变化调整控制量的大小。因此,主动流动控制的控制效果通常远优于被动流动控制。主动流动控制虽然需要消耗额外的能量用以施加激励,但通过合理的控制策略,通常减少阻力所节约的能量远大于消耗的能量。常见的主动流动控制技术包括吸吹控制、合成射流控制、旋转控制等。本文所使用的控制技术就是旋转控制。常见的流动控制模型包括钝体、斜坡、空腔等。其中,钝体是指非流线体,包括圆柱、椭圆柱、多圆柱等。本文所使用的流体弹球(fluidic pinball)模型属于多圆柱钝体模型。随着人工智能技术的高速发展,机器学习控制展现出了巨大的潜力。机器学习分为无监督学习、半监督学习和监督式学习。研究人员将机器学习算法引入到流动控制领域中。成功应用的算法包括深度神经网络、正则正交分解、主成分分析、集群算法、强化学习、遗传规划等。大量研究表明,在流动控制领域,机器学习算法能够解决复杂的高维度非线性问题,其表现通常远优于传统控制方法。1-2-3流体弹球按照三角形的形状并列放置的六个可旋转的圆柱组成的模型,它的简化模型是1-2流体弹球。1-2流体弹球是三个可旋转圆柱体并列放置构成的呈三角形形状的模型。由于1-2-3流体弹球的输入输出维度更高,流动状态更复杂,因此本文先对包含3个可旋转圆柱的1-2流体弹球进行流动控制研究,再以此为基础,研究1-2-3流体弹球的尾流控制。在1-2流体弹球的流动模型中,流场设置为[-5,20]×[-4,4]的长方形二维流动域,三个圆柱呈三角形放置,其中两个圆柱组成的一边与来流方向垂直,另一个圆柱指向来流方向。来流为粘性不可压缩匀速流。激励器为可旋转圆柱,控制量为圆柱的旋转角速度,速度的符号表示旋转方向。在尾流区,垂直于来流方向并列放置了五个速度传感器。这些传感器可以测量其所在位置的x轴方向和y轴方向的速度分量并反馈给控制器。因此,流动弹球是一个包含3个输入、10个输出的多输入多输出模型。1-2-3流体弹球的流场区域与1-2流体弹球相同,六个圆柱的分布与1-2流体弹球相似。在尾流区放置了是个传感器,因此1-2-3流体弹球是一个包含6个输入、20个输出的更复杂的多输入多输出模型。仿真实验中,采用Noack教授等人提供的UNS3(unsteady Navier-Stokes solver)软件计算流场的流动状态。UNS3是一个Navier-Stokes解算器,采用有限元法和隐式积分法计算不可压缩流动中任意位置的流动状态。流动控制的典型初始状态是尾流区出周期性漩涡脱落的不稳定解。UNS3的运行的初始状态是一个稳定解,通过微小扰动法可以快速获得了周期性漩涡脱落的不稳定解。以不稳定解为初始状态,运行UNS3,可以观察到流体弹球的尾流区出现周期性漩涡脱落现象。计算各圆柱的阻力和升力,以及传感器测量的速度分量,均已稳定在固定值附近周期性波动。这证明流动已经达到所需的不稳定解状态,可以施加控制。深度强化学习根据环境的状态做出动作,并根据“奖励”的值调整策略。深度强化学习包括基于策略的方法和基于值的方法。“演员-评论家”算法将这两种方法结合使用,通过训练价值网络协助训练策略网络。近端策略优化算法(proximal policy optimization,PPO)在“演员-评论家”(Actor-Critic)算法的基础上添加了“离线”学习和优势函数的方法,能够充分利用数据来训练策略网络。本文中应用了PPO算法的改进方法。改进的PPO方法在采样控制动作时,方差并不是固定不变的,而是由策略网络生成,这有助于PPO算法提高训练速度;此外,本文还引入了“mini-batch”的方法,避免了训练陷入局部最优解。为了测试PPO算法的性能,本文使用PPO算法稳定Landau振荡子和Lorenz系统。实验结果表明,PPO算法能够将这两个不稳定的非线性系统稳定至平衡点。通过在一个不稳定的振荡子上添加“障碍”,使其具有非线性特性。在这个震荡子上,分别使用线性二次型规划器(linear quadratic regulator,LQR)和PPO算法,将状态变量稳定至平衡点。实验结果显示,PPO算法能够更快地将状态变量稳定至平衡点,其损失函数远低于使用LQR算法的损失函数。上述实验证明,PPO算法能够应用于非线性控制系统,并且其控制性能高于最优控制算法。在流体弹球的尾流控制实验中,设置损失函数为净减阻量,即所有圆柱所受总阻力与激励消耗的能量之和。使用一个包含两个隐藏层的神经网络作为控制策略网络,以Re LU函数作为激励函数使控制策略具有非线性,传感器测量的速度分量作为状态输入策略网络,以策略网络的输出作为控制量。“奖励”值设置为损失函数的相反数。在不施加任何激励时,1-2流体弹球的损失函数值为1.46。施加激励后,经过一段时间的训练,策略网络收敛,损失函数几乎不变。由于引入了“可训练方差”,在开始阶段方差较大,PPO算法不断探索动作区域。随着经验的积累,PPO算法逐渐找到优化的方向,策略网络输出的方差开始变小,使得探索次数变少,策略网络快速向着最优的方向优化。“可训练方差”使得训练的速度得到提升。使用训练得到的最优控制策略网络控制流体弹球,经过200个控制周期后,损失函数不再变化,传感器的测量值呈周期性变化。此时尾流区漩涡首次发生脱落的位置明显提前,再循环气泡更小。观察三个可旋转圆柱所受压力,均比施加控制前有所降低,总阻力减小了58.93%。三个圆柱的角速度曲线显示,位于来流区的圆柱沿逆时针、顺时针方向交替做小幅度旋转,将流动分配到上下两个方向。而靠近尾流区的两个圆柱分别沿顺时针、逆时针方向做转速接近的旋转,从而将流动从近尾流区向中间吸入并加速。这导致了漩涡脱落的位置更加靠近流体弹球,再循环气泡变小,背压增加,从而减小了流体弹球承受的阻力。此时损失函数值为0.97,净减阻达到33.56%。以1-2流体弹球尾流控制实验为基础,将PPO算法用于1-2-3流体弹球尾流控制。未施加激励时,损失函数值为3.07。施加激励后,由于流动变得更为复杂,训练初期的探索阶段变长,并短暂陷入到局部最优。由于“mini-batch”方法的引入,状态变量很快离开局部最优值,继续训练一段时间后策略网络收敛,损失函数不再变化。观察流动状态可以发现,尾流区漩涡首次发生脱落的位置同样提前了,尾流区整体形状与流体弹球的尾流区相似。不同的是,最右侧靠下的两个圆柱分别沿顺时针、逆时针方向旋转,在再循环气泡内形成了一个小的“船尾型”抑制区,从而进一步减小了阻力。由此可见,PPO算法在更复杂的流动环境中,能够训练出更有效的控制策略网络。此时,六个圆柱额总阻力为2.07,减小了32.57%;损失函数的值为2.64,净减阻达到14.01%。由于深度强化学习对参数非常敏感,不同的参数将使训练结果和训练速度相差很大。因此对PPO算法训练中的参数进行调优。本实验中的参数包含两部分,一部分来自PPO算法本身,另一部分来自PPO智能体与环境的交互过程。通过观察和分析发现,训练消耗的时间主要由控制周期和单次最大运行步数决定。实验结果表明,这两个参数能够极大地影响训练时长。将它们设置为最优值时,可以使训练时间减少94.01%。此外。还对批量大小、更新频率和更新次数三个参数进行调整,在取得最优值时,净减阻量由14.01%增加到19.51%;同时,训练时长进一步减小,由最初的697.00小时减小至34.17小时,减少95.01%。最后,对PPO算法的鲁棒性进行测试。将流体的雷诺数设置为60、80、100、120、140,分别使用训练得到的最优控制策略对1-2-3流体弹球尾流进行控制。实验结果表明,在不同雷诺数的工况下,PPO算法训练得到的最优控制策略均表现出色,取得了相似的控制效果,净减阻率相近,证明了PPO算法具有良好的鲁棒性。

【Abstract】 Wake control is at the heart of engineering applications such as drag reduction and lift fluctuation mitigation for cars,trucks,airplanes and wind turbines to cite a few examples.However,wake control faces high-dimensionality and time-delay between actuation and response.These challenges render linear control theory impractical but also constitute opportunities for improved performances.Recently,deep reinforcement learning(DRL)has been successful in controlling fluids flows in numerical simulations and experiments.Yet,the influence of DRL hyperparameters and the robustness of the algorithm are to be established.This work addresses these gaps through the implementation of proximal policy optimization algorithm(PPO)for the net drag reduction of a cluster of 6 rotatable cylinders—the 1-2-3 fluidic pinball.The cylinders are distributed in 3 rows of 1,2 and 3 cylinders,respectively,forming a pyramid pointing upstream.The control is achieved by the independent rotation of the cylinders and the flow is monitored with velocity sensors downstream.After 200 episodes,PPO learns a control reducing the net drag by 19.51%compared to the unforced case for the 1-2-3 fluidic pinball.This control combines boat-tailing and phasor control.The controlled flow displays a reduced recirculation region behind the rearward cylinders.The key PPO hyperparameters are control cycle,timesteps per episode,update frequency,batch size and number of updates.Moreover,with a set of optimized hyperparameters,the training time is reduced by 95.10%compared to the original implementation.Finally,we test the robustness of PPO.The optimal control strategy generated by PPO can achieve similar results for a large range of Reynolds numbers.This study is the first implementation of DRL for the wake control of 1-2-3fluidic pinballs and the first exploration of the effect of hyperparameters on flow control.The optimal hyperparameters of PPO in flow control are also presented for the first time.We believe this work will largely benefit future implementations of DRL in flow control experiments.

  • 【分类号】O35;TP18
节点文献中: 

本文链接的文献网络图示:

本文的引文网络