首页>>生活 >>内容

研究人员开发了一种用于交通信号控制的元强化学习算法

发布时间:2022-11-14 09:11:59编辑:愉快的缘分来源:

交通信号控制影响着居住在城市地区的人们的日常生活。现有系统依赖于基于理论或规则的控制器,负责根据交通状况改变交通信号灯。目标是在不饱和交通条件下减少车辆延误,并在拥堵期间最大化车辆吞吐量。

研究人员开发了一种用于交通信号控制的元强化学习算法

然而,现有的交通信号控制器无法实现这样的目标,人工控制器只能管理几个路口。有鉴于此,人工智能的最新进展集中在实现交通信号控制的替代方式上。

目前在这方面的研究已经探索了强化学习(RL)算法作为一种可能的方法。然而,由于交通环境的动态特性,RL算法并不总是有效,即十字路口的交通取决于附近其他路口的交通状况。虽然多智能体RL可以解决这个干扰问题,但随着交叉点的增加,它的维数呈指数增长。

最近,由KeeminSohn教授领导的韩国中央大学研究人员团队提出了一种元强化学习模型来解决这个问题。具体来说,该团队开发了一个扩展的深度Q网络(EDQN),并结合了基于上下文的元RL模型,用于交通信号控制。

“现有的研究已经设计了基于交叉口几何、交通信号相位或交通状况的元强化学习算法。本研究根据拥堵程度处理信号控制的非平稳方面。元强化学习在检测交通方面自主工作状态、交通状况分类和信号相位分配,”Sohn教授在谈到他们的研究时解释说,该研究发表在计算机辅助土木和基础设施工程上。

该模型的工作原理如下。它通过利用指示整体环境条件的潜在变量来确定交通状况(饱和或不饱和)。基于交通流量,该模型要么最大化吞吐量,要么最小化延迟,类似于人工控制器。它通过实现交通信号阶段(动作)来实现。

与智能学习代理一样,动作由提供“奖励”来控制。这里,奖励函数设置为+1或-1,分别对应于处理流量相对于前一个区间的更好或更差的性能。此外,EDQN充当解码器以联合控制多个交叉口的交通信号。

在理论发展之后,研究人员使用商业交通模拟器Vissimv21.0训练和测试了他们的元强化学习算法,以模拟现实世界的交通状况。此外,首尔西南部由15个十字路口组成的交通网络被选为真实世界的测试平台。在元训练之后,该模型可以在元测试期间适应新任务,而无需调整其参数。

仿真实验表明,所提出的模型可以在没有任何明确交通信息的情况下切换控制任务(通过转换)。它还可以根据交通状况的饱和程度来区分奖励。此外,基于EDQN的元强化学习模型优于现有的交通信号控制算法,并且可以扩展到具有不同转换和奖励的任务。

尽管如此,研究人员指出,需要一种更精确的算法来考虑从交叉路口到交叉路口的不同饱和度。“现有的研究采用强化学习来控制具有单一固定目标的交通信号灯。相比之下,这项工作设计了一种控制器,可以根据最新的交通状况自主选择最佳目标。如果交通信号灯控制机构采用该框架,可以产生以前从未体验过的旅行好处,”Sohn教授总结道。