深入强化学习辅助任务卸载和资源分配方法,实现自我驱动目标检测新闻资讯

杂志简介

INTRODUCTION

在线投稿

发表流程

联系我们

李编辑

QQ:2269294467

刘编辑

QQ:3247895862

王编辑

QQ:2876129038

新闻资讯

深入强化学习辅助任务卸载和资源分配方法,实现自我驱动目标检测

摘要：随着通信技术和移动边缘计算(MEC)的发展,自动驾驶已获得越来越多的研究兴趣。然而,大多数自动驾驶车辆的目标检测任务仍在车辆终端进行,这往往需要在检测精度和速度之间进行权衡。为了在不牺牲精确度的情况下实现有效的目标检测,我们提出了一种基于深度强化学习的终端-边缘协作目标检测方法。我们使用一个时间效用函数来衡量对象检测任务的效率,并旨在提供一个在线方法来最大限度地增加所有时段的时间效用的平均总和。因为这是一个非线性规划问题,提出了一种基于深度强化学习和分段线性化的任务卸载和资源分配在线方法。将深神经网络(DNN)作为基于道路交通条件和无线网络环境的学习卸载策略的一种灵活的解决方案,大大降低了计算复杂性。此外,为了加速DNPL网络的收敛性,通过车辆内摄像头对DNN输出进行分组,通过置换形成卸载策略。数值结果表明,对于各种车辆本地计算机资源方案,从时间效用来看,该方案至少要比一些具有代表性的卸载方案有效10%。将深神经网络(DNN)作为基于道路交通条件和无线网络环境的学习卸载策略的一种灵活解决方案,大大降低了计算复杂性。此外,为了加速DNPL网络的收敛性,通过车辆内摄像头对DNN输出进行分组,通过置换形成卸载策略。数值结果表明,对于各种车辆本地计算机资源方案,从时间效用来看,该方案至少要比一些具有代表性的卸载方案有效10%。将深神经网络(DNN)作为基于道路交通条件和无线网络环境的学习卸载策略的一种灵活解决方案,大大降低了计算复杂性。此外,为了加速DNPL网络的收敛性,通过车辆内摄像头对DNN输出进行分组,通过置换形成卸载策略。数值结果表明,对于各种车辆本地计算机资源方案,从时间效用来看,该方案至少要比一些具有代表性的卸载方案有效10%。通过车辆内摄像头将DNN输出分组,通过置换形成卸载策略。数值结果表明,对于各种车辆本地计算机资源方案,从时间效用来看,该方案至少要比一些具有代表性的卸载方案有效10%。通过车辆内摄像头将DNN输出分组,通过置换形成卸载策略。数值结果表明,对于各种车辆本地计算机资源方案,从时间效用来看,该方案至少要比一些具有代表性的卸载方案有效10%。

导言
由于MEC的爆炸性发展,自动驾驶技术取得了显著的发展。目标检测作为自驾车的重要组成部分,已被广泛用于帮助自驾车探测周围的物体,如其他车辆、行人、交通标志和车道。

为了提高检测精度,建立层次较深、结构较复杂的卷绕神经网络(cnns)是一个主要趋势。例如,亚历克谢特等网络[ 1 ],视觉几何组[ 2 ],深部残余网络[ 3 ],紧密相连的卷绕网络[ 4 ]及重新审议[ 5 ]已广泛应用于图像分类等工作[ 6 ],目标侦测[ 7 , 8 和语义分割[ 9]。虽然这些网络的准确性已经提高,但其深度也大大增加。训练有素的网络模型通常具有数千万的超重参数,这可能导致对计算机资源的巨大需求。一般而言,自驾车的目标检测任务具有严格的延迟约束和推理精度要求。因此,资源有限的车辆终端很难执行这种计算密集型任务。

得益于MEC技术,车辆对一切(V2X)蜂窝远程通信正在指数增长。V2X旨在使车辆对车辆(V2V)[ 10 , 11 ], vehicle-to-infrastructure (V2I) [ 12 ], and vehicle-to-network (V2N) [ 13 通过将所有或部分终端任务卸载到周围的基础设施,支持高效处理终端任务的通信。边缘装置可协助自行驾驶车辆执行目标检测任务,例如,使用新的背景感知方法[ 14 ]以加速目标侦测速度或通过抽取和压缩某些感兴趣的区域[ 15被送到边缘云端。这些方法将目标检测任务转移到边缘云或云中心,这可以有效地缓解本地的计算压力;然而,这些方法过度依赖于边缘服务器,而在大量任务的涌入下,边缘服务器容易出现网络阻塞。一旦无线网络状态恶化,就很难保证任务的执行效率。此外,压缩图像以确保检测结果在规定的时间内传回,这将不可避免地导致检测精度的损失。

为了提高目标检测的效率,同时确保准确性,我们需要制定一种更智能的端边缘协作方法来应对时变无线环境和复杂的交通环境。本文提出了一种基于drl的端边缘协作对象检测方法,以生成任务卸载和本地计算资源分配策略。根据时间-变无线网络环境和道路交通条件,该方法可以最大限度地提高每个目标检测任务的平均时间和实用程序。这项工作的主要贡献归纳如下:

为了在不牺牲精度的情况下实现自动驾驶车辆的有效目标检测任务,我们提出了一个混合整数非线性规划问题,以共同优化任务卸载和本地计算资源分配策略。特别是,检测任务被卸载到边缘服务器,并在不丧失准确性的情况下,以最大化的平均时间和实用程序完成。就我们而言,以往的研究仅侧重于其中一个方面。

提出了一种基于深强化学习和分段线性化的在线方法来解决上述MINLP问题。在这种方法中,MINLP问题被分解为一个卸载策略子问题和一个资源分配子问题。

我们根据车辆导航指令和历史目标检测结果开发了一种优先排序机制,以适应复杂的道路交通环境。此外,为了加速DLUL算法,我们利用摄像头对深神经网络(DNN)输出进行分组,并通过置换形成候选卸载策略。

本文件其余部分的编排如下。在…里面相关工作部分,我们回顾相关工作.在…里面系统模型和问题形式化部分,描述了系统模型,并对问题进行了形式化.在…里面 DIRL算法在此基础上,给出了该算法的详细设计。在…里面数值结果分析我们报告数字结果。最后,我们总结这篇论文。

相关工作
边缘计算技术可以通过集成核心网络、计算、存储和应用能力的开放平台,提供尽可能靠近设备或数据源的服务。这种技术可以减少终端设备的能源和资源消耗,同时快速响应终端要求和满足实时需求。

边缘计算技术
边缘计算技术具有重要意义,已引起广泛的研究关注.最近的一些研究工作侧重于不同的应用场景。例如,在无人驾驶飞行器方面,南等人。[ 16 研究了基于结果反馈延迟的车辆边缘计算的联合任务卸载和资源分配问题。高等人[ 17 研究了车辆边缘计算中的联合任务卸载、任务调度和资源分配问题,以及车辆与边缘服务器之间的快速变化通道,以最大限度地减少车辆边缘计算的延迟和能耗。邓等人。[ 18 以DNN为典型的AI应用,提出了优化DNN模型决策、计算、通信资源分配和无人机轨迹控制的优化问题。周等人。[ 19 提出了一种基于梯度的动态迭代搜索算法,以获得近似的最优解。在无线动力移动边缘计算方面,毛等人。[ 20 研究了多用户无线动力MEC系统中能源效率与延迟的基本权衡。他们通过联合调度能源、无线电和计算资源来协调无线电力MEC系统中的异构性能要求来填补这一空白。陈等人。[ 21 ]提出了一个用于在线优化无线电力传输MEC系统,以最小化系统长期平均能量需求的增强两级深Q网络。邓等人。[ 22 提出了一种基于干扰李亚普诺夫优化的动态吞吐量最大算法,在任务和能量队列稳定性约束下最大限度地提高系统吞吐量。

而一些研究工作则集中在具有各种优化目标的网络资源调度或计算卸载算法的设计上。毛等人。[ 23 提出利用智能反射表面技术提高无线能量转移和任务卸载的效率,以实现更高的总计算率。斯纳威尔等人。[ 24 设计了联合优化智能反射曲面反射系数和选择路径的新方法。他们提出了一个通用的数学公式来解决系统的总能耗最小化问题。宋等人。[ 25 ]]提出了一种动态道路网络近近检测的计算卸载方案和动态道路网络状态更新模型,目的是有效地缩短每次最优延迟的计算时间。周等人。[ 26 提出了一种新的基于深强化学习的卸载和服务缓存机制,以联合优化卸载决策、服务缓存和资源分配策略。目的是尽量减少成本,同时确保移动用户的延迟要求。

然而,上述研究在自我驾驶物体检测方面缺乏,尽管应用方案的范围很广,目标问题也很多。

基于边缘计算技术的自动驾驶车辆视觉物体检测方法
边缘计算技术的繁荣,同时也带来了自动驾驶技术的显著增长[ 27 ]。最近,研究人员开始研究边缘计算方法,以协助自我驾驶物体检测。郭等人。[ 14 收集的上下文信息(天气、时间、流量等)),并将这些上下文特征与MEC服务器上图像的视觉特征相结合。金姆等人。[ 15在边缘服务器上部署对象检测网络。当通道质量不足以支持实时目标检测时,自驾车辆根据感兴趣的区域压缩图像数据,并将压缩数据传输到边缘云。然而,上述对自行驾驶车辆边缘计算机辅助对象检测的研究存在一定的局限性:自行驾驶车辆过于依赖边缘服务器,忽视了时变无线传输环境;此外,压缩图像以加快目标检测可能导致关键交通信息的丢失,影响目标检测的准确性。因此,开发一种高效、准确、智能的目标检测方法仍然是一个悬而未决的问题.

基于任务卸载方法
该算法实时观察环境,并依靠深神经网络(DNNS)从训练数据样本中学习。它最终从时变状态空间产生最佳映射[ 28 ]至行动空间[ 29 ]。最近,许多研究工作已经开始研究如何使用DEL来制定移动终端的任务卸载策略。针对MEC、陈等公司计算卸载和资源配置的联合优化问题。[ 30 提出了一种基于深Q网络(DQN)的时态注意决定论政策梯度。针对车辆边缘计算中服务迁移的信任问题。[ 31 设计了一种基于A3c的动态服务卸载和迁移算法。确保汽车服务因特网的质量,哈扎里卡等人。[ 32 提出了一种基于深度确定性政策梯度和双延迟的决策梯度算法的对优先级敏感的任务卸载和资源分配方案。然而,在我们的场景中,如果我们选择基于dqn的网络,那么当我们使用不同的无线信道增益和流量条件作为输入状态向量时,我们可能会受到收敛缓慢的影响。此外,由于DQN在选择每个迭代中的动作时具有详尽无遗的搜索性质,它不适合处理高尺寸动作空间的问题[ 33 ].

本文在深入强化学习和分段线性化的基础上,提出了一种自驱动车辆的端边协作目标检测方法,该方法可以最大限度地提高各目标检测任务的平均时间和。此外,为了加快我们的新潮,受到了[ 34 ],我们用摄像头将深神经网络(DNN)输出进行分组,并通过置换形成候选的卸载策略。

系统模型和问题形式化
如图所示。 1 ,我们考虑一个自动驾驶车辆的视觉物体侦测问题我摄像头,指的是 . 同样结构的训练有素的cnn被嵌入其中,每个相机中有一个另一个在边缘服务器上。同时,车辆终端设有驾驶控制系统(DCS),该系统负责收集无线环境信息和在每个时间段的车辆导航指令我 = { 1 , 2 , 3 , … , 我}我 + 1我j = { 1 , 2 , 3 , … , N} ,并根据每个摄像机在时间段中的目标检测结果生成相应的任务执行优先次序。此外,DCS将优先级信息和无线信道增益传递给边缘端的DLUL,并决定是在车内摄像头检测网络中执行本地执行还是卸载逻辑块的输出我 ,将边缘作为逻辑块的输入。同时,该系统还分配了车辆终端的本地计算机资源。在这里,我们考虑到自动驾驶车在任何时间槽的边缘服务器的通信范围内行驶。我们采用的符号摘要见表 1 .

Fig. 1
图1
基于端边缘协作的目标检测任务卸载方法

全尺寸图片
表1说明
大号桌
每台车内摄像头的优先级
自驾车的交通状况复杂且变化迅速,在任何时间和地点都可能发生意外情况。此外,车辆终端和边缘服务器之间的通道状态也随传输介质的变化而变化。因此,对于一个计算机资源有限的汽车终端来说,对周围环境进行高效和准确的检测是一个巨大的挑战。在本节中,我们根据时间档中的导航命令,为每个对象检测任务开发优先排序机制 j 目标检测结果是时间槽 .j − 1

车辆导航指令对每个车内摄像头执行任务优先级的影响
自驾车不同部件的不同摄像头主要负责监测不同的距离。例如,假设在某一时间段,导航指令将直接向前推进;然后,将首先调动主要负责监测自驾车前方道路环境的摄像机(例如探测道路、其他周围车辆、其他车辆、行人和其他目标),其优先级将高于其他摄像机。

目标检测结果对每个车内摄像头执行任务优先级的影响
自驾交通环境变化无常,随时可能出现意想不到的情况,因此车辆需要经常检测周围环境,并及时进行应急操作。因此,不仅应考虑到实际的车辆导航指令,而且还应考虑到道路状况,确定每个摄像头的优先次序。

我们假设在时间上 j , 在摄像机的视觉范围内探测到物体我 .每个物体 X , ,其特征可量化为六个单元 ,在哪里表示结果类别 , 表示检测框架的大小 , 显示结果的概率属于Xj我 X_I^j Z_{i,x}^j =\left\{ Y_{i,x}^j, R_{i,x}^j, P_{i,x,y}^j, \overline{P}_{i,x,y}^j, A_{i,x}^{j,y}, \epsilon _{i,x}^{j,y}\right\} Y_{i,x}^j Z_{i,x}^j R_{i,x}^j Z_{i,x}^j P_{i,x,y}^j Z_{i,x}^j \overline{P}_{i,x,y}^j Z_{i,x}^j A_{i,x}^{j,y} Z_{i,x}^j \epsilon _{i,x}^{j,y} Z_{i,x}^jX ∈Xj我Zj我 , X = {Yj我 , X,Rj我 , X,Pj我 , X , y,P¯¯¯¯j我 , X , y,Aj , y我 , X,ϵj , y我 , X}Yj我 , XZj我 , XRj我 , XZj我 , XPj我 , X , yZj我 , X y 当目标检测算法达到正确检测时, 显示结果的概率属于 y 当算法有检测错误时, 显示成绩的分数确定属于危险物体类别时的对应性 y ,以及表示结果的阈值确定属于危险物体类别时的对应性 y .P¯¯¯¯j我 , X , yZj我 , XAj , y我 , XZj我 , Xϵj , y我 , XZj我 , X

一般来说,我们可以假设被检测对象的检测帧尺寸越大,其危险级别就越高。然而,在一些复杂和可变的交通环境中(例如:即使是训练有素的物体检测算法,也不可避免地会产生检测错误。图形 2 展示了对象检测结果与简单和复杂背景的例子.被检测对象的范围由一个橙色矩形框表示,属于某一类别的被检测对象的概率值在矩形框的上方显示。图形 2 (a)在简单的背景下显示检测结果。由于图中的目标是清晰的,没有其他因素的干扰,因此精度是可信的,目标检测结果的框架是精确的。相反,在图中有一个复杂背景的场景. 2 (b)在太阳阴影下的黑色车辆与其周围环境的颜色相似,而在直接阳光下的车辆具有与其附近白墙相似的特征;在这两种情况下,这些相似之处都导致了探测错误。如果我们使用检测框架的大小作为唯一的指标来确定一个对象的危险级别,那么一些任务的优先级就会被错配。因此,我们需要将检测框架的尺寸和检测精度结合起来,对每个目标的危险级别做出联合判断。本文提出利用检测帧尺寸和检测精度的乘积来表示物体的危险程度,计算结果如EQ所示。( 1 ).

Aj , y我 , X = E×Rj我 , X×P¯¯¯¯j我 , X , y + ( 1 − E ) ×Rj我 , X×Pj我 , X , y,
(1)
在那里,考虑到交通条件的复杂性, E 表示对象检测算法存在检测误差的电位.回到上面,我们可以看到显示结果的概率属于 y 当目标检测算法达到正确检测时, 显示结果的概率属于 y 当算法存在检测错误时.Pj我 , X , yZj我 , X \overline{P}_{i,x,y}^j Z_{i,x}^jP¯¯¯¯j我 , X , yZj我 , X

Fig. 2
图2
不同背景下的检测精度

全尺寸图片
在任何时间段 j ,如果相机至少有一个目标检测结果我其危险值超过其危险阈值,即, ,然后车内摄像头的优先级我定在高处。如果没有发现危险物体,即:, ,每个检测任务的优先级是根据导航指令确定的。确定为高优先级任务的优先权值被设置为1,其余的被设置为0。Aj我 , X≥ϵj , y我 , X , ∃ X ∈Xj我Aj我 , X<ϵj , y我 , X , ∀ X ∈Xj我

总之,调整每台车内摄像机目标检测任务优先次序的规则如下:如果没有发现危险物体,则根据导航指令确定每台探测任务的优先次序;如果任何摄像机发现至少一个危险物体,则该摄像机的优先次序定得很高,其余摄像机其他目标检测任务的优先次序仍根据导航指令确定。算法1给出了优先排序算法的细节.

算法1
图A
车辆内摄像头的优先级确定算法

全尺寸图片
任务执行时间实用新型
在时间段 j ,摄影机目标侦测任务的特点我可由四组代表 ,在哪里说明车内摄像头的目标检测任务我在时间段 j , 表示任务的局部计算规模在卸载分区点之前 v , 指示任务的数据大小在卸载分区点 v , 表示任务的延迟容忍度Sj我{Cj我 , v,Mj我 , v,τj我,Oj我}Sj我Cj我 , vSj我Mj我 , vSj我τj我Sj我 ,以及显示任务的优先性 .随着自驾车和边缘服务器之间环境的变化,无线通道条件也相应改变。如果有无线链接,自驾车可以选择将目标检测任务卸载到边缘服务器,也可以通过无线链接从边缘服务器接收结果。除此之外,例如,当无线信道遭受深度衰落时,所有目标检测任务都必须在本地执行。这里,我们假设边缘服务器的计算能力要比自动驱动器强大得多,所以我们将边缘服务器上的执行时间设置为一个常量Oj我Sj我Υ,以下列出不同优先次序的任务的时间效用函数。

本地计算
我们用的在卸载分区点之前表示对象检测任务的本地计算时间 v ,可按情商计算。( 2 ).tj , v我 , l

tj , v我 , l=Cj我 , vfj我×FL, ∀ 我 ∈ 我 , j ∈ N , v ∈ V,
(2)
在哪里显示车辆终点站的计算资源及说明分配给车内照相机的计算资源的比例我在时间段 j .FLfj我

边缘计算
我们用的表示在卸载分区点将特性数据传输到边缘服务器的时间 v .这里,我们假设带宽足够,没有必要在车内摄像机之间分配带宽。数据传输率可按EQS所示计算。( 3 ) and ( 4 ) respectively.tj , v我 , U Ptj , v我 , U Prj我

tj , v我 , U P=Mj我 , vrj我, ∀ 我 ∈ 我 , j ∈ N , v ∈ V,
(3)
rj我 = B ×圆木2 ( 1 +P×HjN0 ) , ∀ 我 ∈ 我 , j ∈ N,
(4)
在哪里显示时间槽中的通道增益 j .Hj

目标检测任务的总时间可以计算在情商。( 5 ).Sj我

tj , v我=tj , v我 , l+tj , v我 , U P + Υ , ∀ 我 ∈ 我 , j ∈ N , v ∈ V.
(5)
在这里,由于5G背景下的超低传输延迟,我们不关注由数据传输失败造成的延迟。同时,我们忽略了从边缘服务器返回到车辆终端的计算结果的传输时间。

时间效用计算
不同优先任务的完成时间对自驾车有不同的影响。在此,我们为不同的优先任务设定不同的时间效用函数[ 35 ],它可以按计算结果计算。( 6 ) and ( 7 ).

高度优先任务的时间效用功能可编写如下:

Uj , H我 , v=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪圆木2 ( 1 +τH−Cj我 , vfjj×FL−Mj我 , vB ×圆木2 ( 1 +P×HjN0))tj , v我≤τH,−ΥH O t H e r w 我 s e .
(6)
低优先任务的时间效用功能如下:

Uj , L我 , v=⎧⎩⎨⎪⎪⎪⎪ΥLΥL×e− C (Cj我 , vfj我×FL+Mj我 , vB ×圆木2 ( 1 +P×HjN0)−τL)tj我≤τL,O t H e r w 我 s e ,
(7)
在哪里和说明高度优先和低优先任务的延迟容忍度。τHτL

问题表述
根据任务的优先次序,平均时间的总和在给定的时间范围内 j 是用eq表示的。( 13 ).Uj我

Q (Hj,Oj我,fj我,Aj我 ) ==1N×∑j = 1N∑我 = 1我Uj我1N×∑j = 1N∑我 = 1我Oj我×Uj , H我 , v + ( 1 −Oj我 ) ×Uj , L我 , v.
(8)
在这里,我们 ,在哪里 =1表示高度优先, =0表示低优先级,及表示相机目标检测任务的卸载分区点我在时间段 j .在每个时间段中,我们的目标是在给定的信道增益和任务优先级下,最大化每个车内摄像头的平均时间和实用程序。具体计算如下:Oj我 ∈ { 0 , 1 }Oj我Oj我Aj我

( Q 1 ) :Q^(Hj我,Oj我 ) =最大值fj我,Aj我 Q (Hj,Oj我,fj我,Aj我)
(9)
s . t .∑我 = 1我fj我 ≤ 1 , j ∈ { 1 , 2 , 3 , … , N } ,
(10)
0 ≤fj我 ≤ 1 ,
(11)
Aj我 ∈ { 0 , 1 , 2 , … , V } .
(12)
在一组约束中,约束(10)保证分配给每台车内摄像机的车辆终端计算资源的比例总和不超过1。约束(11)确保分配给任何车内摄像头的车辆终端计算资源的比例在0到1之间。约束(12)确保摄像头对象检测任务的卸载分区点我在时间段 j , i.e. ,不超过预先设定的卸载分区点集 V 每个车内摄像头。Aj我

第一项
(Q1) is NP-hard.

证明
我们通过将简化的(Q1)形式转化为NP问题来证明它的np-硬。□

第一步:我们首先将目标函数简化为一个线性函数,表示为一个封闭形式的和 , i.e.:fj我Aj我

Qj我(ωj我,fj我,Aj我 ) ==Fj我(ωj我,fj我,Aj我)ωj我×Aj我 × g(fj我 ) ,
(13)
在哪里, 是一次行动 ,我们假设是已知的。g(fj我)fj我

步骤2:原来的问题变成了第一个问题。Qj我

Q1′ : M A X∑我 ∈ 我 , j ∈ Nωj我×Aj我 × g(fj我)
(14)
s . t . ( 10 ) , ( 11 ) , ( 12 ) .
(15)
可以看出,Q1是一个0-1背包问题,这是一个众所周知的NP问题。由于(Q1)的简化形式是np硬,我们可以推断(q1)是np硬。

问题(Q1)是一个MNLP问题,是个难题[ 35 , 36 , 37 ]。不过,有一次被确定,未知数的数量减少,并且(Q1)变得可以解决。何时经确定,问题(第一季度)可转化为问题(第二季度):Aj我Aj我

( Q 2 ) :Q^(Hj我,Oj我,Aj我 ) =最大值fj我 Q (Hj,Oj我,fj我,Aj我)
(16)
s . t . ( 10 ) , ( 11 ) .
(17)
因此,问题(Q1)可以分解为两个子问题,即。,任务卸载策略问题及资源分配策略问题(Q2),如图所示。 3 .

任务卸载策略:直觉上,我们需要搜索可能的卸载策略找到一个满意的。然而,由于搜索空间的指数增长,该方法需要很长时间才能收敛。我们建议采用基于深度强化学习的方法来帮助寻找合理的卸载策略。V我

资源分配策略:在问题(Q2)中,本地计算机资源的优化分配仍然是一个非线性规划问题。因此,我们需要用分段线性化方法(PLM)将该问题转化为线性规划问题,并找到其近似解。

Fig. 3
图3
求解的两级优化结构(Q1)

全尺寸图片
解决问题(Q1)的主要难点是处理卸载策略问题。传统的优化算法需要通过多次迭代来调整卸载策略,在此过程中,无线环境和道路交通发生了迅速的变化。使用这种算法很难有效地处理目标检测任务.针对该问题的复杂性,提出了一种新的基于深度强化学习的网上卸载算法,该算法能很好地适应时变环境信息,找到一种满意的卸载策略。

DIRL算法
如前一节所述,为了获得最大的平均时间效用,我们必须首先用一个dnn获得候选的卸载策略,然后将它们输入(q2),以确定最佳的本地计算资源分配策略。直觉上,我们可以计算 (每辆自行驾驶车辆均有) 我他们每个人都有 VV我可能的分区点)。然而,这种强制力搜索是计算密集型的,特别是当由于时变信道增益和道路交通条件而需要频繁地重新分配本地计算机资源时,很难有效地获得目标检测结果。为了解决这些问题,我们提出了能够对无线和通信环境作出适应性和快速响应的DLUL。

算法概述
该算法的结构如图所示。 4 .我们使用DNN作为生成候选卸载策略的基本网络,并根据最大时间效用选择最优策略来参与每个时间段的培训。我们的目标是想出一个卸载策略基于通道增益以及每个对象检测任务的执行优先级在时间段 j ,由 .πjHjOj我 { 我 = 1 , 2 , … , 我}πj : {Hj,Oj我 } →A∗j

Fig. 4
图4
基于DPLL的卸载战略生成和更新

全尺寸图片
尤其是,在第一个时间槽开始时,我们随机设置了内部的dnn超参数 (即,隐藏层神经元之间的链接权重),而dnn根据通道状态和车辆内初始摄像头优先级信息生成第一个卸载策略(这里,所有摄像头在默认情况下在第一个时间槽设置为低优先级)。时间档 j ( ),由导航命令和对象检测所决定的优先级信息来自时间档 ,结合当前通道状态输入到DNN以获得一个初始向量θ1j ≥ 2j − 1A^j .此时,内部的dnn超参数更新到 .我们分开进入我以不同的车内摄像头为基础的小组。每组包括 V 及其概率值的总和 V 每组元素为1。我们分别选择每个组中具有最大概率值的元素,从而获得 K 候选人卸载策略(每种卸载策略都有我尺寸)。我们依次输入 K 选择卸载向量进入(Q2)并选择卸载策略θjA^jk′A∗j 相当于最大的时间效用值 . 与国家相结合形成状态-动作对 ,这是添加到经验记忆单元。Q^(Hj我,Oj我,A∗j)A∗j(Hj,Oj我){ (Hj,Oj我 ) ,A∗j}

在一般时间段 j ,我们从内存中随机抽取一批样本来训练DNN,并从到 .新的卸载策略下一个时间框架。时间档 ,我们制作卸载策略基于新信道增益和新的车内摄像头优先级信息受国家警察监督。此后,随着环境的持续观测和迭代操作的重复,DNN生成的策略逐渐得到改进。θjθj + 1πj + 1j + 1A∗j + 1(Hj + 1,Oj + 1我)

基于分组和扩展的卸载战略生成
时间槽中DNN的参数 j 代表着 (这里,最初的参数使用HE初始化方法随机分配。通过输入通道增益和优先信息我们可以得到一个向量与…有关尺寸。映射关系表达如下:θjθ1HjOj我A^j我 × V

A^j=Gθj(Hj,Oj我 ) , 我 = 1 , 2 , … , N,A^j ∈ [ 0 , 1 ] .
(18)
在这里,我们将输出分组在不同摄像头的基础上,增加一个软MAX函数,使每个组的结果正常化,从而使 V 每个组中的卸载分区点为1。A^j

但是,如果选定的卸载决策划分点的数目 V 是大于某一值的,这将导致每个组之间的概率差异很小。如果我们在每次训练迭代中只选择最大概率的卸载决策划分点,那么我们将会损失大量关于其他可能点的信息。这将导致网络收敛缓慢,大大增加培训周期,耗费太多时间,影响网络的判断能力。因此,我们建议选择每个组中概率值最大的候选人卸载分块点,并通过排列将它们组合起来形成k′K=k′ 我卸载策略。然后,我们选择了相应于最大时间效用的卸载策略 K 参加每个时间段培训的候选人退出策略。

时间效用函数的分段线性化
如前一小节所述,我们需要输入 K 按顺序将策略卸载到(Q2),通过最大化任务时间效用值来确定本地计算资源分配策略,然后选择相应的最佳卸载策略在每个时间段。A∗j

由于本文中的时间效用函数是部分非凸的分割函数,所以需要将原函数转换为分段线性函数来求解。PLM通常被用来近似复杂的非线性函数,作为分段的;通过这种方法,复杂的优化问题可以转化为线性优化问题[ 38 , 39 ]。时间效用函数的分割点是从延迟公差之间的关系转换而来的任务的执行时间与本地计算机资源分配政策的关系 .时间效用函数τj我tj我fj我Uj我是图中的图解。 5 .人民解放运动的具体步骤如下:

第1步:我们将本地计算机资源分配比例除以 f (间隔[0.1]) D 每段对应于 :Δ f

Δ f=1D.
(19)
步骤2:每个部分 ,我们联系到把它变成线性函数 , , .D ∈ D(fD,Uj我(fD ) )(fD + 1,Uj我(fD + 1 ) )Fj我 , D , D ∈ { 1 , 2 , … , D }我 ∈ { 1 , 2 , … , 我}j ∈ { 1 , 2 , … , N}

第三步:我们使用两套参数, 与…有关和与…有关 ,及下列公式将原来的分段非线性函数转换为 D -段线性函数:φj我 , DD ∈ { 1 , 2 , … , D + 1 }θj我 , DD ∈ { 1 , 2 , … , D }

∑D = 1Dθj我 , D = 1 , ∀ 我 ∈ 我 , j ∈ N;
(20)
fj我=∑D = 1D + 1φj我 , D×fD, ∀ 我 ∈ 我 , j ∈ N;
(21)
∑D = 1D + 1φj我 , D = 1 , ∀ 我 ∈ 我 , j ∈ N;
(22)
Uj我=∑D = 1D + 1φj我 , α×Fj我 , D(fD ) , ∀ 我 ∈ 我 , j ∈ N;
(23)
φj我 , 1≤θj我 , 1, ∀ 我 ∈ 我 , j ∈ N;
(24)
φj我 , D≤θj我 , D − 1+θj我 , D, 2 ≤ D ≤ D , ∀ 我 ∈ 我 , j ∈ N;
(25)
φj我 , D + 1≤θj我 , D, ∀ 我 ∈ 我 , j ∈ N;
(26)
θj我 , D ∈ { 0 , 1 } , ∀ 我 ∈ 我 , j ∈ N;
(27)
0 ≤φj我 , D ≤ 1 , ∀ 我 ∈ 我 , j ∈ N,
(28)
在哪里是一个与点相关的重量和是一个二进制变量下降在 D 第30段。φj我 , D ∈ [ 0 , 1 ]fDθj我 , Dfj我

Fig. 5
图5
时间效用函数示意图

全尺寸图片
通过添加在EQS中给出的新约束来回收问题(Q2)。( 20 )–( 28 ),我们可以得到下列的宽松线性公式(Q2')。

( Q2′ ) :Q^(Hj我,Oj我,Aj我 ) =≅最大值φj我 , D,θj我 , D Q (Hj,Oj我,fj我,Aj我)最大值φj我 , D,θj我 , D1N×∑我 = 1我∑j = 1N∑D = 1D + 1φj我 , α×Fj我 , D(fD)
(29)
s . t . ( 20 ) − ( 28 ) .
(30)
在分段线性化后,将原有的非凸非线性问题(Q2)转化为分段线性问题,可以用CLUT求解。CLUTUT是一个商业优化软件包,广泛用于解决数学规划问题,包括线性规划、混合整数规划、二次规划等。

卸载政策更新
在DNN训练阶段,训练样本相互关联,因为每个摄像头的优先级是由连续帧中的道路状况信息决定的。这可能导致脱载分点选择算法在一个行的一定次数的迭代中呈现向同一方向的梯度下降,且该算法的训练损失可能不会收敛。为了避免这种情况,我们在算法中添加了一个经验重放模块来存储过去的状态-动作对。时间档 j ,使用PLM来选择卸载动作相当于最大的时间效用 K 候选人退出战略。以及国家信息A∗jA∗j(Hj,Oj我) 在那个时间段,然后形成一个新的训练样本 .{ (Hj,Oj我 ) ,A∗j}

我们使用体验记忆单元,通过随机选择一批培训样本从样本的部分状态在记忆里把它们放进神经网络。然后,将结果与计算交叉熵,结果作为训练损失去训练国家警察。交叉熵计算公式如下:ξ(Hξ,Oξ我)( (Hξ,Oξ我 ) ,A∗ξ , ξ∈Δj)A∗ξL O s s (θj)

L O s s (θj ) =−1|Ψj|∑ξ∈Δj ( (A∗j)T l O gGθj(Hξ,Oξ我)+ ( 1 −A∗j)T l O g ( 1 −Gθj(Hξ,Oξ我 ) ) ) ,
(31)
在哪里表示从内存单元中选择的时间索引集。Ψj

算法2
图B
基于端-边缘协作的DLUL任务卸载与资源分配算法

全尺寸图片
总之,在每一个时间段,自行驾驶车辆的每一部车内摄像头的优先状态是根据其导航指令和目标检测结果确定的,优先信息作为状态信息和训练通道增益输入到DNN中。然后,我们将初始向量分组为几个候选动作并分别计算时间效用值,选择该动作对应最大时间效用,然后将它与状态信息相结合A∗j{ (Hj,Oj我 ) ,A∗j} 获取存储在内存单元中的当前状态-动作对.最后,DNN迭代地从存储状态--动作对中学习,以便随着时间的推移产生更合理的卸载策略。在这里,由于内存空间有限,我们设置DNN仅从卸载策略生成的最新数据样本中学习。详情见算法2。我们的算法不涉及CNN上的任何训练或推理操作。我们主要关注的是执行DLL算法的推理。我们可以很容易地从公式中获得DLL模型的计算复杂性。 . Here, 我显示输入层的尺寸, OF L O P s = ( 2 × 我 − 1 ) × O 表示输出层的尺寸.例如,一个四层结构化的DNN模型:一个输入层,两个隐藏层和一个输出层。神经元的数量是7,160,80,30。我们可以计算出这个模型的计算量大约是30000 草皮 .

数值结果分析
在这一节中,我们介绍了本文所报道的实验的细节,包括车内摄像头的设置,模拟实验的参数,以及训练数据的来源。在这里,我们设置了上述参数,以尽可能接近真实世界的交通场景。并对实验结果进行了分析和说明.

实验参数
车内摄像头
在这里,我们假设自动驾驶车有六个车内摄像头,其视野共同覆盖车辆周围360度,每个CNN摄像头都有五个卸载分区点。相机视图包括:正面、左、左前方、右前方、右前方、左后方、右后方、直接后方,以确保对环境的全面监控。具体的相机分布情况如图所示。 6 .

Fig. 6
图6
车内摄像头的分布及其视野。 A 就在前面。 b 他左/左前,右/紧前。 C 左后方,右后方。 D 直接后面的

全尺寸图片
培训国家网络的优先数据
车辆导航指令包括直接前方(DA)、左转弯/左前方(L/LF)、右转弯/右前方(R/射频)、左后方(LS)、右后方(rr)和直接后方(dr)。与图一致。 6 ,每台车内摄影机的导航指令与优先级之间的对应关系见表 2 .

表2根据不同导航指令(NCS)的车辆内摄像头优先次序
大号桌
在这里,我们考虑四个检测类别 Y :行人、汽车、卡车和自行车。我们假设,出现在道路上属于这四个类别中的每一个类别的物体的概率是0.4。与检测结果相对应的矩形框的长度和宽度的像素范围及其每个类别的阈值见表 3 .

表3每种类型物体的矩形检测框像素值
大号桌
模拟实验参数
在本部分中,我们使用模拟方法来评价该算法。表中列出了实验中使用的模拟参数。 4 .模拟中使用的设备是一台笔记本电脑,其参数如下:CPU为amdRysen75800H,带有拉登图形,运行速度为3.20千兆赫;GPU为rtx3060,内存为12GB;内存大小为32.0GB。在DLUL中,我们考虑一个由一个输入层、两个隐藏层和一个输出层组成的完全连接的DNN,第一和第二隐藏层分别有160和80隐藏神经元,而输出层有30个神经元。

表4模拟参数
大号桌
数值结果分析
在这一部分中,我们通过数值模拟来评价我们所提出的DLUL算法的性能,该算法分为以下六个算法验证主题:收敛性验证;分段段数验证;置换基值验证;任务执行时间分析;卸载策略和资源分配结果分析;以及与其他卸载分选点选择算法的效用比较。k′

聚合验证
无花果树。 7 ,我们绘制训练损失函数以及时间效用的平均值。如图所示。 7 (a)当培训周期数达到时,平均的时间和公用事业单位在发展和土地管理计划下逐渐收敛。 ,平均时间效用值超过0.17。同时,如图所示。 7 (b)培训损失逐渐减少并稳定在0.05左右,此后其波动主要是由于随机抽样的培训数据。L O s s (θj)≥ 300

Fig. 7
图7
平均效用和培训损失值的收敛

全尺寸图片
我们还研究了不同的超参数,包括不同的学习率、内存大小、批处理尺寸和训练间隔,对实验收敛行为的影响。不同训练超参数对实验结果的影响如图所示。 8 .

Fig. 8
图8
不同典型超参数下平均效用的收敛

全尺寸图片
图形 8 (a)显示平均时间效用与不同学习率的收敛。当学习率为0.1时,时间效用值的收敛达到局部最优。随着学习率的下降,时间效用曲线的收敛速度较慢。图形 8 (b)显示不同批处理尺寸对平均时间效用收敛的影响。当批处理大小设置为32或64时,训练过程往往无法充分利用内存中的丰富数据。另一方面,当批处理规模太大时,每次迭代都会使用大量的"旧"数据,这将极大地影响网络的收敛性能。图形 8 (c)显示不同内存大小对平均时间效用收敛的影响。当内存大小过小或过大时,时间工具的收敛速度会慢一些。尤其是当内存大小等于1024时,DNN需要更多的训练数据才能达到收敛。图形 8 (d)显示不同训练间隔对平均时间效用收敛的影响。训练间隔越大,网络收敛越慢,但训练间隔不影响最终收敛的效用值。

分段段数对实验结果的影响
无花果树。 9 研究了不同分段数对实验结果的影响。当分段尺寸为2或5时,分段曲线不适合原函数,导致收敛性较差。随着分段尺寸的增加,通过分段线性化(即:分段线性化)得到的曲线,(Q2)的曲线更接近原来的效用曲线(即。,情商曲线。( 13 ),而当分块尺寸达到某一值时,时间效用曲线基本上是相同的趋势。考虑到计算成本,本文将分段尺寸设为10.

Fig. 9
图9
不同分段线性化段数的平均效用的收敛

全尺寸图片
置换基数对实验结果的影响
在量化膨胀阶段,我们选择顶部在每个组中以最大可能性的最大概率卸载分配点,并将以这种方式获得的候选卸载策略依次输入到线性规划块中。k′

如图所示。 10 ,何时我们只选择与每个组中的最大概率值相对应的卸载分区点来形成卸载向量来参与迭代网络训练。由于我们在每个时间槽中只使用一个卸载向量来更新网络,而不提供任何其他选项,因此可能会丢失许多更好的卸载解决方案。因此,网络需要太多的迭代才能聚合。因此,我们增加了很合适。当值设置为2时,网络收敛速度大幅提高.但是,当进一步增加到3,4或5,网络收敛曲线几乎一致.考虑到每增加一次k′ = 1k′k′k′ 在计算中导致指数增加的值 = 2.k′

Fig. 10
图10
不同排列基数的平均效用的收敛

全尺寸图片
任务执行时间分析
图形 11 在每个训练步骤中显示目标检测任务的执行时间和与任务执行时间在延迟公差内的相机比率。图形 11 (a)显示自驾车每个摄像头内每个训练步骤的目标检测任务执行时间的总和。随着训练步骤数量的增加,根据通道状态和优先级信息选择更合适的卸载分区点,从而使任务执行时间逐渐减少。任务执行时间随通道状态的变化而波动,不同的卸载数据大小和局部计算尺寸的卸载分配点也不同。图形 11(b)显示在每一训练步骤中,具有任务执行时间的摄像机的延迟容忍度的比例。在训练之初,网络尚未收敛,分配给每台相机的卸载分块点和计算资源也不适应时变无线和通信环境。当网络收敛时,摄像机的目标检测任务基本上在延迟公差时间内完成。

Fig. 11
图11
每个训练步骤的任务执行时间和摄像头与任务执行时间在延迟容忍度内的比例

全尺寸图片
卸载战略和资源分配结果分析
为了进一步研究神经网络收敛后任务卸载和资源分配的实验结果,我们随机选择了几个时间槽。如图所示。 12 (a)、(b)和(c),我们根据通道增益将选定的实验结果分成三组 H .从左到右的每一个街区都按顺序显示1号至6号摄像机的信息。其中,白色块中的数字表示对象检测任务的执行优先级。有色块表示为每个摄像机的目标检测任务选择的卸载分区点,有色块上标记的数字表示分配给每个车内摄像机的本地计算资源的比例。我们可以看到当 H 是小型的,向边缘服务器卸载任务将需要更多的时间,最好是在本地执行高度优先任务,如图所示。 12 (a)。同时,根据彩色块上的数字,资源分配策略倾向于向高度优先任务分配更多的资源。何时 H 是大的,自驾车与边缘服务器之间的数据传输时间较短。然后,优先任务优先被优先选择为卸载执行,如图所示。 12 (c)即使选择在当地执行高度优先任务,分配给它们的计算机资源也多于低优先任务。当 H 如图所示,值是中等的. 12(b)根据实际情况选择每台车内摄像机的检测任务进行卸载和资源分配,目的是使每台摄像机的任务执行时间效用值最大化。

Fig. 12
图12
不同通道状态下的任务卸载和资源分配结果

全尺寸图片
不同任务卸载算法执行时间效用的比较分析
为了验证该算法的有效性,我们选择了几种具有代表性的算法进行比较.

边缘计算[ 23 ]:在每个时间段 j ,车内摄像机的所有目标侦测任务均已卸载至边缘服务器,以供执行。, , , .Aj我 = 4我 = 1 , 2 , … , 我j = 1 , 2 , … , N

本地计算:在每一个时间槽J,车内摄像头的所有目标检测任务都是本地执行的,即。, , , .Aj我 = 0我 = 1 , 2 , … , 我j = 1 , 2 , … , N

贪婪:在每个时间段 j ,我们选择贡献最大的分区点来最大化每个对象检测任务的平均时间和工具。在这里,我们定义分区点的贡献度 v 相机的我作为 ,按通讯计算比率计算[ 40 ]。如果值均小于1,我们选择与最小值对应的卸载分区点用于高度优先任务,以及用于本地计算的低优先任务。如果D e g r eej我 , vD e g r eej我 , vD e g r eej我 , vD e g r eej我 , v 值均大于1,高度优先任务执行本地计算,低优先任务选择与最小值相应的分区点用于卸载计算。如果两者都值大于1和小于1并存,我们计算两个部分之间最远的距离 from 1,i.e. 和分别,如果 ,我们会把情况当作值都大于1,如果 ,这个案子被当作D e g r eej我 , vD e g r eej我 , vD e g r eej我 , vDjg r e A t e rDjl e s sDjg r e A t e r>Djl e s sD e g r eej我 , vDjg r e A t e r<Djl e s sD e g r eej我 , v 价值观都小于1。

随机卸载:在此算法中,我们随机选择局部或卸载的计算,在每个时间槽的每一个车内摄像头的检测任务。

无花果树。 13 ,我们比较了不同的卸载算法,根据在不同大小的本地计算机资源下,每个目标检测任务的平均时间和实用工具。系列1是所有计算卸载的平均时间效用,系列2是所有计算都在本地执行的平均时间效用,系列3是贪婪算法的平均时间效用,系列4是随机卸载算法的平均时间效用,而系列5是本文提出的DIRL算法的平均时间效用。

Fig. 13
图13
不同卸载算法在不同情况下的平均效用性能比较价值观FL

全尺寸图片
如图所示。 13,由于本地计算资源和无线带宽都是有限的,如果我们只选择本地计算或卸载计算,平均任务执行时间效用值是小的,甚至可能是负的,如果本地计算资源的丰富性是足够低的。这表明,即使是高度优先任务也没有在其时间延迟允许范围内完成。该贪婪算法考虑了时变无线环境,获得了较好的时间效用值。然而,它确实利用了历史上的战略经验。随机算法所选择的卸载策略是不稳定的,因此该算法是不有效的。相比之下,该方案产生了考虑到历史任务卸载经验的卸载策略,因此显示出了更好的性能。我们可以看到在不同的考虑下FL 价值观、发展和生产力促进方案实现改善12.8% , 17.4 第15.5节和第15.5节在平均时间效用与任务卸载方法相对应的最大平均效用在每个组。%%%

结论
本文针对自行驾驶车辆的目标检测任务,提出了一种新的目标检测方法。我们最大化了所有插槽中每个对象检测任务的平均时间和工具。该算法可以充分利用历史任务卸载经验,与基于PLM的本地计算资源分配策略相结合,逐步改进DNN,生成更好的卸载策略。我们还开发了基于车辆导航指令和历史目标检测结果的优先级确定机制。同时,为了加速网络收敛,我们用摄像头对DNN输出进行分组,并通过排列来扩展它们。该算法很好地解决了复杂交通环境下自动驾驶车辆的目标检测任务卸载和局部计算资源分配问题。数值结果表明,与传统的算法方案相比,该算法具有明显的优越性.

本文探讨了一种自驾车的任务卸载和资源配置问题。然而,所建议的DLUL方法也适用于多个自驾车辆。在未来的工作中,我们将使用实际的流量和无线环境数据来进一步验证我们的实验。此外,我们将探索训练加速算法的DL网络模型,以确保我们提出的方法在实际情况下尽可能的及时性。

发布日期:2023-09-18