自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(七)

自动驾驶小能手 发表了文章 • 0 个评论 • 176 次浏览 • 2019-08-01 12:46 • 来自相关话题

1.png2.png3.png4.png5.png

B、实验结果

所提出的轨迹跟踪控制系统在一辆原型自动驾驶轮内电机4WID电动车辆上实施并成功测试,原型车如图17所示。

选择四个永磁无刷直流(BLDC)电动机作为轮内电动机。角位移传感器用于测量车轮的转向角。横摆率,纵向速度和滑移角等车辆状态量由GPS / INS导航系统精确测量和估算[28],[29]。原型车配备实时视觉系统,由两个CCD摄像头和一个基于PC的中央处理系统组成,视觉系统的处理时间小于每帧20ms。值得一提的是,视觉系统可以实时检测预定的跟踪轨迹并精确确定横向误差和角度误差[15]。道路附着力估计器的带宽为25Hz [27],控制器的采样间隔限制为40ms。图18示出了在实验测试中使用的参考轨迹。相应的初始横向误差和偏航误差分别设定为0.1m和2deg,纵向速度假设为25km/ h。

图19显示了横向误差的实验结果,可以看出所提出的控制方案和LQR控制方案的稳态横向误差分别限制在±0.2m和±0.4m之内,最大横向误差发生在曲率最大的路段。图20示出了角度误差的实验结果,应注意所提出的控制方案和LQR控制方案的稳态角度误差分别在±1°和±2°范围内。图19和图20表明,所提出的AFSMC控制器可以确保自动驾驶车辆实时跟踪参考轨迹,并且与LQR控制器相比,它产生更高的精度和更低的超调量和振荡。图21和图22示出了滑移角和横摆率的响应结果,它们表明所提出的控制器和LQR控制器可以分别将滑移角和横摆率限制在可接受的范围内。然而,所提出的控制系统显着提高了响应精度。图23示出了比较的前转向角,可以看出所提出的控制方案的控制输入比LQR控制器更平滑。图24显示了所提出的控制方法的外部横摆力矩。可以看出,所提出的控制方案可以实时产生外部横摆力矩,这可以增强自动驾驶车辆的横向稳定性。

5.结论

本文提出了一种新的四轮独立驱动自动驾驶汽车的自适应分层轨迹跟踪控制方案。首先,提出了一种基于LMI的自适应滑模高级控制算法,用于确定自动驾驶车辆的前转向和外横摆力矩矢量。由于参数不确定性和外部扰动通常是不可测量的,因此通过模糊控制系统估算所提出的高级控制律的不确定项和控制增益,并引入自适应模糊边界层。然后,设计伪逆控制分配策略以将期望的外部横摆力矩动态地分配到冗余轮胎致动器中。此外,仿真和实验结果表明,所提出的控制方案可以在不同的驱动条件下实现良好的跟踪性能。

参考文献

[1]  J. Guo, K. Li, and Y. Luo,“Coordinated control of autonomous four wheel drive electric vehiclesforplatooning and trajectory tracking using a hierarchical architecture,” J. Dyn.Syst. Meas. Control, vol. 137, no. 10, p. 101001, 2015.
[2] S. Thrun, M. Montemerlo, andH. Dahlkamp, “Stanley: The robot that won the DARPA grand challenge,” J. FieldRobot., vol. 23, no. 9, pp. 661–692,2006.
[3]  E. Kayacan, E. Kayacan, H.Ramon, O. Kaynak, and W.Saeys, “Towards agrobots: Trajectory control ofanautonomous tractor using type-2 fuzzy logic controllers,” IEEE/ASME Trans.Mechatronics, vol. 20, no. 1, pp. 287–298, Feb. 2015.
[4]  R. Marino, S. Scalzi, and M.Netto, “Nested PID steering control for lane keeping in autonomous vehicles,”Control. Eng. Pract., vol. 19, no. 12, pp. 1459–1467, 2011.
[5]  J. Guo, P. Hu, L. Li, and R.Wang, “Design of automatic steering controller for trajectory trackingofunmanned vehicles using genetic algorithms,” IEEETrans. Veh. Technol., vol.61, no. 7, pp. 2913–2924,Sep. 2012.
[6]  J. Huang and M. Tomizuka, “LTVcontroller design for vehicle lateral control under fault in rearsensors,”IEEE/ASME Trans. Mechatronics, vol. 10, no. 1,pp. 1–7, Feb. 2005.
[7]  H.-S. Tan, F. Bu, and B.Bougler, “A real-world application of laneguidance technologies—Automatedsnowblower,” IEEE Trans. Intell.Transp. Syst., vol. 8, no. 3, pp. 538–548,Sep. 2007.
[8]  P. Falcone, F. Borrelli, J.Asgari, H. E. Tseng, and D.Hrovat, “Predictive active steering controlforautonomous vehicle systems,” IEEE Trans. Control Syst.Technol., vol. 15, no.3, pp. 566–580, May 2007.
[9]  N. M. Enache, S. Mammar, M.Netto, and B. Lusetti, “Driver steering assistance for lane-departure avoidancebased onhybrid automata and composite Lyapunov function,” IEEETrans. Intell.Transp. Syst., vol. 11, no. 1, pp. 28–39,Mar. 2010.
[10] L. Liang, J. Gang, C. Jie, Z. Hongjun, C. Dongpu, and S.Jian, “Anovel vehicle dynamics stability controlalgorithm based on the hierarchicalstrategy with constrain of nonlinear tyreforces,” Int. J. Veh. Syst. Dyn.,vol. 53, no. 8, pp.1093–1116, 2015.
[11] C. Geng, L. Mostefai, M. Denai, and Y. Hori, “Direct yaw-momentcontrol of an in-wheel-motored electric vehiclebased on body slip angle fuzzyobserver,” IEEE Trans.Ind. Electron., vol. 56, no. 5, pp. 1411–1419, May2009.
[12] M. Doumiati, O. Sename, L. Dugard, J.-J. Martinez-Molina,P. Gaspar,and Z. Szabo, “Integrated vehicle dynamics control viacoordination of activefront steering and rear braking,”Eur. J. Control, vol. 19, no. 2, pp. 121–143,2013.
[13] C. Hu, R. Wang, F. Yan, and N. Chen, “Output constraint control onpath following of four-wheelindependently actuated autonomous groundvehicles,” IEEETrans. Veh. Technol., vol. 65, no. 6, pp. 4033–4043,Jun. 2016.
[14] J. Wang and R. G. Longoria, “Coordinated and reconfigurablevehicle dynamics control,” IEEE Trans. Control Syst. Technol., vol. 17, no. 3, pp. 723–732, May 2009.
[15] J. Guo, L. Li, and K. Li, “An adaptive fuzzy-sliding lateralcontrol strategy of automatedvehicles based on vision navigation,” Int. J.Veh. Syst.Dyn., vol. 51, no. 10, pp. 1502–1517, 2013.
[16] H. Lee and M. Tomizuka, “Coordinatedlongitudinal and lateral motioncontrol of vehicles for IVHS,” J. Dyn. Syst., Meas., Control, vol. 123, no. 3,pp. 535–543, 2001.
[17] R. Wang, C. Hu, Z. Wang, F. Yan, and N. Chen, “Integrated optimaldynamics control of 4WD4WS electric ground vehiclewith tireroad frictionalcoefficient estimation,” Mech.Syst. Signal Process., vols. 60–61, pp. 727–741, Aug. 2015.
[18] H. Li, J. Yu, C. Hilton, and H. Liu, “Adaptive sliding-mode controlfor nonlinear active suspension vehiclesystems using T–S fuzzy approach,” IEEETrans. Ind. Electron., vol. 68, no. 8, pp. 3328–3338, Aug. 2013.
[19] H. Ho, Y. F. Wong, and A. B. Rad, “Robust fuzzy tracking control forrobotic manipulators,” Simul. Model. Pract. Theory, vol. 15, no. 7, pp.801–816, 2007.
[20] S. Tong and Y. Li, “Adaptivefuzzy output feedback trackingbackstepping control of strict-feedback nonlinearsystems with unknown deadzones,” IEEE Trans. NeuralNetw., vol. 20, no. 1, pp. 168–180, Feb. 2012.
[21] A. F. Amer, E. A. Sallam, and W. M. Elawady, “Adaptive fuzzy slidingmode control using supervisory fuzzy controlfor 3 DOF planar robotmanipulators,” Appl. SoftComput., vol. 11, no. 8, pp. 4943–4953, 2011.
[22] R. de Castro, M. Tanelli, R. E. Araújo, and S. M. Savaresi, “Designofsafety-oriented control allocation strategies for overactuatedelectricvehicles,” Int. J. Veh. Syst. Dyn., vol. 52,no. 8, pp. 1017–1046, 2014.
[23] J. A. M. Petersen and M. Bodson, “Constrained quadratic programmingtechniques for control allocation,” IEEE Trans. Control Syst. Technol., vol.14, no. 1, pp. 91–98, Jan. 2006.
[24] O. Härkegård and S. T. Glad, “Resolving actuator redundancy—Optimalcontrolvs. control allocation,” Automatica, vol. 41, no. 1,pp. 137–144, 2005.
[25] D. Kasinathan, A. Kasaiezadeh, A. Wong, A. Khajepour, S.Chen, andB. Litkouhi, “An optimal torque vectoring control forvehicle applications viareal-time constraints,” IEEETrans. Veh. Technol., vol. 65, no. 6, pp.4368–4378, Jun.2016.
[26] T. Goggia et al., “Integralsliding mode for the torque-vectoringcontrol of fully electric vehicles:Theoretical design and experimentalassessment,” IEEETrans. Veh. Technol., vol. 64, no. 5, pp. 1701–1715,May2017.
[27] L. Chen, Y. Luo, M. Bian, Z. Qin, J. Luo, and K. Li, “Estimation oftire-road friction coefficient based on frequencydomaindata fusion,” Mech. Syst. Signal Process., vol. 85,pp. 177–192, Feb. 2017.
[28] Y. Dai, Y. Luo, W. Chu, and K. Li, “Vehicle state estimation basedon the integration of low-cost GPS andINS,” in Int. Conf. Adv. Veh. Technol.Integr.,Changchun, China, Jul. 2012, pp. 677–681.
[29] W. Chu, State Estimation and Coordinated Control forDistributedElectric Vehicles. Berlin, Germany: Springer, 2016.
[30] J. Guo, Y. Luo, and K. Li, “Dynamic coordinated control foroveractuated autonomous electricvehicles with nonholonomic constraints vianonsingular terminal sliding modetechnique,” Nonlinear Dyn., vol. 85, no. 1,pp. 583–597, 2016.

全文完结

来源:同济智能汽车研究所

 

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(六)

自动驾驶小能手 发表了文章 • 0 个评论 • 170 次浏览 • 2019-08-01 12:37 • 来自相关话题

4.结果与讨论为了评估第三节中提出的控制方法的表现,在不同的工作条件下进行了一系列的模拟和实验测试。 ...查看全部

4.结果与讨论

为了评估第三节中提出的控制方法的表现,在不同的工作条件下进行了一系列的模拟和实验测试。

1.png2.png3.png


图(9):双车道变换模拟试验中的横向误差

A、模拟结果

在本节中,为了说明所提出的控制方法对轨迹跟踪问题的有效性,实施了一些matlab-
adams协同仿真测试,在Adams soft中,建立了非线性车辆模型来模拟车辆的可靠动态行为[30]。

首先,对所提出的控制方法进行了鲁棒性能分析,自动驾驶车辆在湿滑路面上以100km/h的高速行驶,附着系数设定为0.3。前后轮胎刚度的不确定参数在测试中的变化范围为正常值的20%到正常值。假设自动驾驶车辆沿直线行驶,初始横向和角度误差分别假设为0.2m和3.5deg。

所提出的轨迹跟踪控制方法的响应结果如图4到图7所示。图4和图5分别描绘了横向误差和角度误差的动态响应。可以发现,在不同的驱动条件下,横向误差和角度误差可以收敛到零,尽管在正常轮胎刚度下的误差振荡比在20%正常轮胎刚度值下误差振荡小。

图6和图7分别示出了滑移角和横摆率的响应结果,它们可以收敛到期望值,这表明自动驾驶车辆在这两个驱动情况下是稳定的。此外,可以看出,所提出的轨迹跟踪控制系统对于自动驾驶车辆的参数不确定性具有很强的鲁棒性,并且实现了良好的跟踪性能。

其次,采用双车道变换作为参考轨迹来说明所提出的控制系统的动态特性,自动驾驶车辆在干路面上以70km/ h的初始速度运行,具有高的道路附着系数0.7并且行驶过程中保持直线行驶没有转向角。双车道变换轨迹如图8所示。自动驾驶车辆以初始横向误差0.1m和初始偏航角1.8deg开始行驶。此外,传统的具有两个控制输入和ΔM的线性二次调节器(LQR)[5]被设计为高级控制律,与现有的AFSMC控制方法形成对比。

图9显示了横向误差的响应结果,当自动驾驶车辆进入车道变换过程时,所提出的AFSMC控制方法和LQR方法的最大横向误差分别为±0.1m和±0.4m。角度误差的响应结果如图10所示,可以发现所提出的控制方法和LQR控制方法的稳态角度误差是有界的,它们的最大值分别小于1.5°和3°。

1.png2.png3.png4.png

图11显示了所提出的ASMFC和LQR控制器提供的相应滑移角,显然,可以发现它们都可以稳定并收敛到可接受的值,但是所提出的控制系统控制的滑移角的超调量比LQR控制系统的小。图12说明了横摆率的响应结果,值得注意的是,与LQR控制器相比,所提出的控制器显着降低了振荡并提高了响应速度。

图13表示转向角的响应结果。可以发现,在路径的曲线部分中由所提出的控制器控制的转向角的幅度变化比LQR控制器的小。图14显示了外部横摆力矩的响应结果,可以看出由所提出的AFSMC方法控制的外部横摆力矩的振荡远小于LQR方法。图15和图16示出了所提出的控制系统和LQR控制系统的四个附加轮胎纵向力的响应结果。它们表明,所提出的PI控制分配法可用于获得更好的分配结果。

未完待续……

来源 | 同济智能汽车研究所 智能转向研究组

 

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(五)

自动驾驶小能手 发表了文章 • 0 个评论 • 169 次浏览 • 2019-08-01 12:29 • 来自相关话题

然后,基于 ...查看全部

1.png

然后,基于指定的模糊控制规则库,将饱和函数固定的边界层厚度替换为时变的。

所提出的模糊逻辑系统的输入和输出变量分别是滑动表面矢量s和厚度Φ的2范数。具有模糊集小(SM),中(NM),大(B)的三角型输入隶属函数和具有模糊集宽(W),中(S),窄(N)的输出隶属函数用于模糊逻辑系统,如表1所示。

备注3:控制定律(23)的方向应用时可能会发生抖动,因为它包含符号函数和信号不连续性。

备注4:有必要建立一个准确的车辆动力学模型,以避免由于系统的不确定性引起的控制律的高振幅。

D、伪逆控制分配

自动驾驶4WID电动车采用冗余致动器来提高可靠性和操纵稳定性,但这种过度致动系统的主要挑战是如何有效地处理物理约束和致动器冗余[22]-[24]。由上述高级控制律产生的外部横摆力矩ΔM应分配到四个轮胎中。为了最佳地确定轮胎纵向力并最小化能量消耗[25],[26],自动驾驶车辆的外部横摆力矩的控制分配可以适当地转换为多约束优化问题,如下所示:

2.png3.png4.png

未完待续……

来源 | 同济智能汽车研究所 智能转向研究组

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(四)

自动驾驶小能手 发表了文章 • 0 个评论 • 168 次浏览 • 2019-08-01 12:22 • 来自相关话题

1.png2.png1.pngQQ截图20190801114748.png1.png1.png1.png

未完待续……

来源 | 同济智能汽车研究所 智能转向研究组

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(三)

自动驾驶小能手 发表了文章 • 0 个评论 • 165 次浏览 • 2019-08-01 12:07 • 来自相关话题

3.系统建模轨迹跟踪控制的掩模用来监督自动驾驶车辆,使其及时跟踪所需路径,并提高乘坐舒适性和稳定性。在本节中,为了处理这些外部干扰、自动驾驶4WID车辆的参数不确定性和过度致动特征[1],[17],设计了一 ...查看全部

3.系统建模

轨迹跟踪控制的掩模用来监督自动驾驶车辆,使其及时跟踪所需路径,并提高乘坐舒适性和稳定性。在本节中,为了处理这些外部干扰、自动驾驶4WID车辆的参数不确定性和过度致动特征[1],[17],设计了一个由两个层次组成的新型自适应分层控制系统,以及相应的控制框架。如图3所示。1.png2.png3.png4.png6.png

未完待续……

来源 | 同济智能汽车研究所 智能转向研究组

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(二)

自动驾驶小能手 发表了文章 • 0 个评论 • 166 次浏览 • 2019-08-01 11:58 • 来自相关话题

2.系统描述推导该模型的主要假设如下:1)忽略滚动、俯仰和垂直运动。2)忽略由于载荷变化造成的左右车轮之间轮胎转弯特性的差异;将轮胎模型近似为线性的。3)折扣执行器动态。第一个假设是有效的,在典型的和稍微严 ...查看全部

2.系统描述

推导该模型的主要假设如下:1)忽略滚动、俯仰和垂直运动。2)忽略由于载荷变化造成的左右车轮之间轮胎转弯特性的差异;将轮胎模型近似为线性的。3)折扣执行器动态。第一个假设是有效的,在典型的和稍微严重的车辆操纵下没有明显的精度损失[16]。假设纵向速度为常数值,则使用牛顿定理基于上述假设可得到横向动力学方程,  

1.png

然后,如图1所示,一个以滑移角β和偏航率r为自由度的的两自由度(DoF)动力学模型表示为:

2.png
其中ΔMz为:
3.png
其中参数m是车辆总质量,Iz表示围绕重心(CG)的车辆惯性,vx是纵向速度,δf是前转向角,ls是轮距的一半,lf和lr表示前轮轴和后轮轴距CG的距离。Fyi和Fxi表示第i轮胎的纵向和横向轮胎力,并且i = 1,2,3,4 =fl,fr,rl,rr。

使用轮胎/道路界面的线性模型,则轮胎侧向力可以用前后轮滑移角表示,如下:

4.png
其中Fyf和Fyr分别代表前轮胎和后轮胎的广义轮胎侧向力。Fyf = Fyfl+ Fyfr且Fyr = Fyrl + Fyrr,Cf和Cr分别代表前后转弯刚度。af和ar分别表示前后轮胎侧滑角,其可以计算为:
5.png
将(4)和(3)代入(1),可以得到下列等式:
6.png
其中
7.png
8.png
图2所示为自动驾驶车辆的轨迹跟踪运动学模型,其视觉系统提取道路特征,然后计算车辆和期望路径之间的位置误差。ey是横向误差,其表示当前车辆位置到期望路径的距离,ea是角度误差,其表示车辆航向与预定距离DL处的期望路径的切线方向之间的误差。轨迹跟踪运动学模型可以通过测量获得,如下[15]:
9.png
其中KL(t)表示所需轨迹的曲率。


车辆横向动力学方程(1)与轨迹跟踪动力学(2)相结合,形成具有不确定性和外部扰动的多输入多输出(MIMO)线性系统,可表示为:
10.png
其中系统矩阵可以写成如下形式:
11.png
其中x =[ey ea βr ]T和u =[δf ΔM]T分别是系统的状态向量和系统的控制输入。y =[ey ea]T是系统的测量输出,ω= [KL]T是外部干扰。 ΔA和ΔB分别是不确定项。


所需假设如下:
1)数组(A,B)是稳定的。
2)数组(A,C)是可检测的。
3)状态x可用,w是具有有界变化值的干扰向量。
4)存在已知的常数ρA和ρB,使得II ΔA(t)II≤ρA且II ΔB(t)II≤ρB。
未完待续……
来源 | 同济智能汽车研究所 智能转向研究组

自动驾驶四轮独立驱动电动汽车的自适应分层轨迹跟踪控制方法(一)

自动驾驶小能手 发表了文章 • 0 个评论 • 165 次浏览 • 2019-08-01 11:47 • 来自相关话题

编者按:轨迹跟踪在自动驾驶汽车的驾驶性能中起着极其重要的作用,而对于实现四轮独立驱动(4WID)的轨迹跟踪控制这一点,存在许多诸如参数不确定、不可避免的外部干扰等研究阻力。但文章中提出了一种新颖的自适应分层的自动驾驶跟踪 ...查看全部

编者按:轨迹跟踪在自动驾驶汽车的驾驶性能中起着极其重要的作用,而对于实现四轮独立驱动(4WID)的轨迹跟踪控制这一点,存在许多诸如参数不确定、不可避免的外部干扰等研究阻力。但文章中提出了一种新颖的自适应分层的自动驾驶跟踪控制框架,可以用来监控四轮独立驱动自动驾驶汽车的横向运动。文章主要贡献在于提出了一种自动驾驶4WID电动汽车的分层轨迹跟踪控制结构,其包括自适应高级控制律和低级伪逆控制分配律;并且构造了一种具有基于线性矩阵不等式(LMI)的切换表面的自适应模糊滑模高级横向控制器,可以在车辆具有外部扰动、时变和参数不确定性的条件下保持鲁棒性;最后用仿真和实验结果进一步证明了方案的有效性和可行性。该研究改进了不同驱动条件下的自动驾驶轨迹跟踪性能,有一定的研究意义。

 

本文译自《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 2018》收录文章《An Adaptive Hierarchical Trajectory Following Control Approach ofAutonomous Four-Wheel Independent Drive Electric Vehicles》

原作者:
Jinghua Guo, Yugong Luo, and Keqiang Li
原文链接:
https://ieeexplore.ieee.org/document/8057584
摘要:本文研究了一类具有参数不确定性、外部干扰和过度驱动特征的自动驾驶汽车的跟踪控制问题。提出了一种新颖的自适应分层控制框架,用于监控自动驾驶四轮独立驱动电动汽车的横向运动。首先,设计了一种具有以线性矩阵不等式为基础的切换面的自适应滑模高级控制律,用于产生前转向角和外部横摆力矩矢量,其中不确定项和切换控制增益由逻辑模糊技术进行自适应调节。为了进一步缓和抖振现象,引入了自适应边界层。其次,提出了一种伪逆低级控制分配算法,通过协调和重构轮胎纵向力来优化分配外部横摆力矩。最后,数值模拟和实验结果验证了所提出的自适应控制方法具有突出的跟踪性能。

关键词: 自动驾驶汽车,自适应分层控制,轨迹跟踪控制,车辆横向动态

1.前言

在过去几十年中,有关交通拥堵,意外伤害和环境污染的社会问题变得越来越严重。自动驾驶四轮独立驱动(4WID)电动车,提供四轮独立驱动,可以快速生成对自动驾驶车辆的灵活和精确的扭矩响应[1],并被视为一种有效和系统的方法,以提高道路利用率,提高车辆安全性并降低移动成本。
轨迹跟踪控制在自动驾驶汽车的驾驶性能中起着极其重要的作用,其致力于以尽可能精确的连续和平滑的方式迅速地遵循期望的轨迹。对自动驾驶4WID电动车辆的轨迹跟踪控制的挑战涉及自动驾驶电动车辆具有参数不确定性和不可避免的外部干扰。更重要的是,自动驾驶电动汽车是一种具有非完整约束的机械系统,这进一步增加了车辆动态控制的难度。因此,对于自动驾驶4WID电动车辆的轨迹跟踪控制要求控制方法能够处理参数不确定性、不可避免的外部干扰和不可避免的轮胎滑动效应。

近年来,学者们在自动驾驶车辆的各种轨迹跟踪控制方法上花费了很多的努力。在文献[2]中,设计了一种自动驾驶汽车非线性反馈轨迹跟踪控制系统,该系统参与了2005年DARPA大挑战。在文献[3]中,提出了一种用于自动驾驶车辆轨迹跟踪控制的滑模反馈学习控制器,并提出了2型(Type-2)模糊神经网络的参数更新规则。在文献[4]中,构建了自动驾驶车辆的嵌套比例 — 积分 — 微分控制结构,从理论上研究了该闭环轨迹跟踪控制系统关于速度变化和不确定车辆物理参数方面的鲁棒性。在文献[5]中,提出了一种最优模糊轨迹跟踪控制器来模拟更加人性化的驾驶行为,其中隶属函数和规则的参数由遗传算法(GA)调节。由于车辆横向动力学对纵向速度的变化敏感,因此基于反馈线性化方法和一个不匹配的观测器设计了线性时变控制器[6]。在文献[7]中,为轮胎引起的低速振荡构建了一种新的动态轮胎缺陷模型,并设计了基于线性矩阵不等式(LMI)优化的自动驾驶车辆反馈横向控制结构。在文献[8]中,提出了一种非线性模型预测控制策略,用于自动驾驶车辆的轨迹跟踪控制,以确定在最高可能进入速度下的前轮转向角。在文献[9]中,输入/输出混合自动机框架被设计用于自动转向,并且初步实验测试验证了所提出的控制方法的可行性,其确保了轨迹跟踪控制系统的高性能。

研究车辆操纵和横向稳定性的控制问题是至关重要且有吸引力的。学者们已经在车辆的横向动力学控制策略上付出了很多努力,例如,电子稳定程序(ESP)[10],直接横摆力矩控制(DYC)[11]和主动前轮转向(AFS)控制[12]。由于DYC具有有效改善车辆操纵性和严重驾驶操纵中的主动安全性的能力,因此被认为是一种有前景的横向控制策略。众所周知,DYC设计在四轮独立驱动车辆中以处理轮胎执行器的冗余。为了进一步提高车辆可靠性和操纵稳定性,集成的DYC和AFS控制也得到了广泛的应用。关于车辆的自动转向控制,DYC的应用可以提供快速的扭矩响应和灵活的驱动。但是,基于DYC的自动驾驶车辆轨迹跟踪控制研究却比较有限[13]。

特别地,众所周知自动驾驶4WID电动车辆是过度驱动的系统[14],其可以有效地增强自动驾驶车辆的可用性和可靠性。然而,在冗余自动驾驶车辆系统中,需要将期望的外部力矩最佳地分配给每个轮胎执行器。

本文提出了一种自适应分层轨迹跟踪控制系统,以提高自动驾驶4WID电动汽车的跟踪性能,提高横向稳定性。本文的主要贡献如下:

(一)提出了一种自动驾驶4WID电动汽车的分层轨迹跟踪控制结构,其包括自适应高级控制律和低级伪逆控制分配律。   

(二)构造了一种具有基于线性矩阵不等式(LMI)的切换表面的自适应模糊滑模高级横向控制器,可以在车辆具有外部扰动、时变和参数不确定性的条件下保持鲁棒性。

(三)仿真和实验结果进一步证明了所提出的分层控制方法的有效性和可行性。

本文的其余部分安排如下:在第二节中,讲述自动驾驶4WID电动汽车的横向动力学模型开发。在第三节中,提出了一种新的自适应分层控制框架,包括自适应模糊滑动控制方案和用于自动轨迹跟踪控制的伪逆控制分配方案。提出的控制框架的在严苛的操作条件下的模拟和实验结果在第四节中说明。最后,在第五节中得出结论。

未完待续……       

来源 | 同济智能汽车研究所 智能转向研究组

宝马、戴姆勒、奥迪的自动驾驶战略分析

自动驾驶小能手 发表了文章 • 0 个评论 • 201 次浏览 • 2019-07-31 12:08 • 来自相关话题

01 宝马  传感器布置   目前L2级的5系由13个传感器构成:  1个前置立体摄像头,可识别交通状况,调节前向移动、识别行人,由Veoneer提供(挡风玻璃顶部)  博世的3个LRR模 ...查看全部

01 宝马

  传感器布置 

  目前L2级的5系由13个传感器构成:

  1个前置立体摄像头,可识别交通状况,调节前向移动、识别行人,由Veoneer提供(挡风玻璃顶部)

  博世的3个LRR模组(一个前端,两个后端)

  1个用于定位的GPS,由Harman/Trimble供应;地图由HERE提供,可显示高速公路出口数据(车辆顶部)

  博世的8个超声波

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  功能包括高级自适应巡航控制、交通堵塞辅助、主动辅助、自主泊车助手和其他辅助系统。

  主动辅助(Active Assist):360度防撞系统。宝马为i3配备了四个LiDAR,用于测量和识别周围环境。如果驾驶员太靠近识别到的障碍物,车辆会自动进行制动,甚至让车辆完全停止。但如果驾驶员开始远离障碍物,则制动器被释放,因为系统感知到驾驶员仍然在控制车辆。

  自主泊车助手(Valet Parking Assistant):无需操作员在车内进行自动泊车。适用于在狭小空间和狭窄车库停车。使用智能手表远程激活。

  完全自动驾驶路线图 

  宝马已经为多系列车型搭载了L2级系统。宝马的目标是到2021年与其主要的自动硬件技术供应商Mobileye合作,并在大陆、Aptiv、麦格纳和百度等其他合作伙伴的帮助下达到L3。

  到2021年,宝马计划推出L4/5的测试车队,目标是到2022年具备生产完全自动驾驶车辆的能力。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  下图为宝马的自动驾驶路线图:

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  转型为技术公司 

  宝马的目标是转变为一家技术公司,以便将自动驾驶汽车技术推向市场。为了实现这一目标,宝马正在建设两个额外的自动驾驶园区和一个新的驾驶模拟中心。

  新的慕尼黑自动驾驶园区是迈向全自动驾驶的下一步,覆盖从软件开发到道路测试。该园区将拥有敏捷的团队,办公室之间的距离很短,决策过程也会很短。最后宝马希望在这个新园区雇用大约1,800名员工。

  第二个办事处将在以色列特拉维夫,主要负责自动驾驶领域前瞻性技术与趋势的研究。由来自不同学科的专家组成的小型敏捷团队将与当地初创企业密切联系,评估并推动相关趋势、技术和创新。他们会将以色列的所有技术企业纳入考虑范围,该团队还将寻求与大学建立联合研究项目。

  宝马认为,位于慕尼黑的新驾驶模拟中心将成为世界上最先进的现实驾驶情况模拟设施。该公司的目标是在2020年完成这个新模拟中心的指导。

  主要合作伙伴 

  自动驾驶:Intel/Mobileye、大陆、FCA、麦格纳、Aptiv、百度

  传感器:摄像头、雷达、LiDAR

  传感器数据融合

  道路模型

  驾驶策略/计划

  高精地图与定位:HERE、Intel/Mobileye、四维图新

  厘米级精度

  实时能力

  高可靠性

  5G基础设施:奥迪、戴姆勒、Intel、爱立信、华为、诺基亚

  超低迟延

  超高可靠性

  超高数据传输速度

  监管机构与协会:NHTSA、VDA、ACEA

  全球法规

  统一认证

  道路侧开发的安全性

02戴姆勒 

  传感器方案 

  奔驰在自动驾驶领域其实有比较长的历史了,代表性的研发成果就是S500 Intelligent Drive,结合了强大的软件算法、摄像头和雷达,不需要任何人驾驶汽车。相同技术的开发已应用于商用的2017款E Class。

  奔驰在汽车安全系统方面拥有数十年的创新,其中许多都是当今整个行业的标准配备了。下面显示了奔驰在车型上引入的安全系统的时间表。它的范围从1959年的Crumple Zone到如今的可降低内耳损伤风险的系统。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  奔驰目前的L2高端车型的传感器融合方案共包含23个传感器,

  12个超声波(前后各6个),供应商是博世

  4个多模雷达(4角),供应商是Veoneer

  4个摄像头(前后各1个,两个后视镜上各1个),供应商是麦格纳

  1个LRR(前),供应商是大陆

  1个多用途立体摄像头(挡风玻璃顶部),供应商是Veoneer

  1个转向柱位置传感器

  当然供应商的部分似乎也有后补的方案,不过是按量大的写的。

  自动驾驶路线图

  L0 

  奔驰的车型有各种L0级警告和主动安全功能,其中许多是标配。

  L1 

  截至2019年,奔驰的车型基本都提供了L1/L2驾功能。L1的一个例子是称为Active Distance Assist DISTRONIC的ACC,此功能可自动保持与同一车道前方车辆所需的跟随距离。根据距离,系统可实现在正常操作条件下自动制动或加速。但还无法处理所有交通情况,因此需要预警和驾驶员保持注意力,并在需要时及时接管操作。

  奔驰的另一种L1功能是主动转向辅助系统,帮助驾驶员保持车辆在其行驶车道内。但主动转向辅助系统只能与ACC一起启动。当这两个L1功能都处于启动状态时,就构成了L2功能。

  L2 

  上面说的L2功能就能在正常条件下自动进行制动、加速和转向,同时仍需要驾驶员实时监控车辆的状态。为了保持安全操作,必要时需要手动转向、制动或加速。

  另一个L2功能是主动停车辅助系统,可在驾驶员监督操作时自动停泊车辆。

  L3 

  除了上面提到的驾驶辅助功能外,奔驰还在开发名为DRIVE PILOT的L3系统。

  与L1/L2不同的是,DRIVE PILOT在系统启动时不需要驾驶员的监督,当系统运行时驾驶员可以做其他事情。当系统检测到驾驶条件已经发生变化且预计不能再可靠地运行时,它就会进行如下操作:

  请求故障回复,预备让用户恢复驾驶(具有足够的接管时间)

  如果操作员没有响应,系统将使车辆运行到某一点并使车辆处于受控制的停止状态

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  DRIVE PILOT的传感器融合架构

  当然,奔驰与博世、Nvidia正在合作开发L4/5,计划先从城市及市郊开始提供运输和网约车服务。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

03奥迪 

  传感器方案与自动驾驶技术 

  奥迪在自动驾驶技术的研发方面也有很长的历史了。目前奥迪自动驾驶的最终目标是到2025年推出L4的AV。

  奥迪采用了集成不同系统的方法,也是从ADAS到完全自动驾驶的渐进式路线。奥迪已经在不同的平台上创建了各种版本的Piloted Driving。这个可追溯到2010年,代号为Shelley的奥迪TTS在Pikes Peak进行了全自动驾驶测试。在那之后,许多其它平台也采用了相同的传感器技术进行了测试。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  奥迪典型的L2系统上部署的传感器总数为20个:

  5个摄像头。1个位于前格栅,供应商为KOSTAL;1个3D摄像头,前风挡;1个后部摄像头;2个后视镜上的摄像头

  1个GPS天线模块

  1个LiDAR。位于前格栅,法雷奥的SCALA,目前市场上唯一车规级激光雷达

  2个LRR。前保险杠,供应商为博世

  2个MRR。前保险杠

  2个MRR。后翼子板

  2个SRR。后翼子板

  4个超声波。前后翼子板,供应商为法雷奥

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  此外,法雷奥的SCALA现在更加紧凑了,只有咖啡杯大小,现在在前格栅中被隐藏了起来。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  前挡风挡摄像头视觉部分使用的是Mobileye EyeQ3,与V2X、以太网和HERE的地图(可升级)配合。由奥迪和TT Tech开发的“zFAS”自动驾驶中央计算单元(由德尔福集成),现在只有平板电脑大小,配备英伟达Tegra K1 CPU和192核Kepler GPU,安装在手套箱内。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  自动驾驶路线图 

  奥迪已经在Traffic Jam Pilot里面有了Remote Parking Pilot辅助功能,适用于奥迪A8,对外是以L3进行商业推广的。尽管2019款奥迪A8具备L3功能,但在美国等市场中此功能已停用,因为尚未有法规支持。

  宝马、戴姆勒、奥迪的自动驾驶战略分析 

  奥迪计划到2023年实现三个阶段性目标:

  用于高速公路的L3系统Highway Pilot

  用于城市地区的L3系统City Pilot

  自主泊车,包含在City Pilot里

  2025年,奥迪的目标是推出首款L4级AV,代号为Aicon,是在地理围栏内的完全自动驾驶。这一概念在2017年法兰克福车展上第一次亮相,奥迪希望在2021年率先推出首批Aicon车队。Aicon项目的主要合作伙伴包括法雷奥、Mobileye、大陆、博世和英伟达。


专访“锂电之父”John Goodenough:电池技术的未来!

tututu 发表了文章 • 0 个评论 • 184 次浏览 • 2019-07-10 10:46 • 来自相关话题

锂电之父”John Goodenough教授在2017年2月接受CleanTX组织的访谈。视频分为两部分,分别针对大众和专业人士。 一、大众版1.锂离子电池仍然是可靠的化学电池技术吗 ...查看全部

锂电之父”John Goodenough教授在2017年2月接受CleanTX组织的访谈。视频分为两部分,分别针对大众和专业人士。 


一、大众版

1.锂离子电池仍然是可靠的化学电池技术吗?有没有替代品?

2.哪种能源存储技术最有希望在未来五到十年内实现大规模发展?

3.当下的电池技术对环境的可持续性怎么样?

4.固态存储是电池科技的未来吗?


链接:https://v.qq.com/x/page/d0837r0wyey.html?start=65


二、专业版

1.铅酸电池和镍氢电池的前景

2.为什么锂离子电池科技不适合电动车?

3.固态电解质技术的前景

链接:https://v.qq.com/x/page/w0838pvym51.html

注:以上视频来自油管MoleCluesTV,仅用于学术交流,不得用于其他用途。



人物简介

John Goodenough,被誉为“锂离子电池之父”。1944年本科毕业于耶鲁大学(Yale University,骷髅会成员)。此后加入美国陆军,以气象学家身份参加二战。1952年博士毕业于芝加哥大学(University of Chicago),并先后在麻省理工学院(MIT)和牛津大学(University of Oxford)进行科研工作。自1986年,执教于德州大学奥斯汀分校的机械工程和材料科学系。(维基百科)

来源:译学术

作者:xupengtao

本文地址:https://www.d1ev.com/news/renwu/94462


北京理工大学教授孙逢春:新能源汽车车联网大数据平台

betty19920416 发表了文章 • 0 个评论 • 176 次浏览 • 2019-06-25 14:13 • 来自相关话题





中国工程院院士柳百成:创新 强基 智能:建设制造强国

betty19920416 发表了文章 • 0 个评论 • 199 次浏览 • 2019-06-25 14:11 • 来自相关话题


激光雷达的“误区”与“误解”,马斯克可以“用得起”

betty19920416 发表了文章 • 0 个评论 • 244 次浏览 • 2019-06-19 11:12 • 来自相关话题

过去几年,围绕激光雷达能否满足汽车行业对于价格、性能、重量、尺寸、温度/寿命(车规级)、可大规模自动化生产等要求“议论纷纷”。目前,行业内对于可用于前装车规级量产的激光雷达有一个相对明确的要求:1、测距范围:200-300米; ...查看全部

过去几年,围绕激光雷达能否满足汽车行业对于价格、性能、重量、尺寸、温度/寿命(车规级)、可大规模自动化生产等要求“议论纷纷”。

目前,行业内对于可用于前装车规级量产的激光雷达有一个相对明确的要求:

1、测距范围:200-300米;

2、分辨率及视场角:0.1-0.2度,120-180度;

3、价格:批量供货价格在500--1000美金

4、可靠性:车规级及功能安全认证;

5、生产:半自动化及自动化产线,保证产品一致性和生产效率;

而之所以有一部分企业“自称”不需要激光雷达,很大一部分原因还在于车规、价格等因素。要知道,目前,全球范围内只有一家法雷奥能够量产过车规的产品,单一供应商对于汽车制造商来说,存在着不小的风险。

这也是为什么目前行业内存在两种不同的自动驾驶传感器组合,一种是基于摄像头+毫米波雷达;一种是基于摄像头+毫米波雷达+激光雷达。

但如果要遵从自动驾驶的安全冗余要求,激光雷达的配置在大多数主机厂和自动驾驶公司来说,都是必须的传感器。

当然,价格和可靠性是相对较难的部分。不过,价格方面部分厂商的传统机械式激光雷达已经开始松动。


比如,镭神智能的32线360°机械式激光雷达售价已经降至6万元,16线360°机械式激光雷达批量售价已经下探到1.2万元。

而该公司即将要推出的车规级32线120°混合固态激光雷达售价将会降至1万元以内,车规级16线120°混合固态激光雷达大批量售价将会降至4千元左右,完全可以符合车厂前装的价格和性能要求,马斯克完全可以不用为激光雷达的价格原因降低安全性而困扰。

一、激光雷达的“真相”

自从车载激光雷达开山鼻祖Velodyne的代表性产品360度机械式旋转激光雷达被大多数企业划定为“几乎不可能过车规”的行列后,几十家初创公司开始在混合固态、纯固态的激光雷达“量产”之路上拿出了十八般武艺。

“固态激光雷达”实际上是一个涵盖多个非旋转激光雷达设计的总称。其中一种路线是MEMS——微机电系统——它使用一个微小振镜来控制激光束。

其他路线还有光学相控阵,一种完全没有任何运动部件的技术路线。还有就是Flash激光雷达,它不需要光束控制,只需在一个闪光中照亮整个场景,用类似于数码相机的二维传感器阵列探测返回的光线。

由于几乎没有或只有很少的运动部件,这三种设计都有可能实现小体积、低成本和可靠性。从长远来看,支持者们设想将几乎所有的电子部件——包括激光本身、波束控制电路、探测器和支持计算的电源——封装到一个芯片上。

从理论上讲,这一切听起来都不错。但上述三种固态设计(MEMS严格意义上仍处于混合固态)面临着实现目标的重大挑战,最大的困难是目前全世界做MEMS振镜的厂家没有一家可以提供能达到车规要求的MEMS振镜(这些或许很难从这些企业负责人口中听到)。

MEMS系统中的小镜子只能反射有限的光束。这使得将激光束反射到远处的物体上并探测到反射回来的光束变得非常困难。

此外,MEMS反射镜仍然存在一些问题:车辆的运动极易影响镜子的运动;车载环境的较宽的温度范围也会影响扫描。

由于MEMS扫描仪是一种共振设备,这意味着它在每次扫描的中间扫描速度最快,在扫描结束时扫描速度最慢。结果就是扫描的中心分辨率最低,与激光雷达的要求相反。

同时,MEMS镜子悬挂在非常细的扭力杆之间,扭力杆在使用过程中容易突然断裂。

当然,这并非说明MEMS路线就是不可行,比如已经有车规级量产经验的法雷奥,目前也在研发MEMS混合固态雷达,但时间点在2021年。

相控阵方法产生的光束往往比其他技术发散得更大,相控阵芯片对激光功率损耗很大,旁瓣很难压制,因此很难实现远距离、高扫描分辨率和宽视场的性能,而且接收得采用面阵的APD阵列探测器,成本远没美国某公司说的那么美妙。

FLASH激光雷达,来自每个闪光的光被分散到整个视野中,这意味着只有一小部分光照射到任何一个特定的点。而且光探测器阵列中的每个像素都必须非常小,这限制了它能够捕获的返回光的数量。

还有一种近年来兴起的技术路线,就是使用VCSEL技术,一种垂直腔面发射激光器(代替传统的激光发光源)。VCSEL的一个关键区别是激光从晶圆片垂直发射,而不是像边缘发射激光那样水平发射。

这是制造中的一个关键优势,因为VCSEL可以在晶圆片上测试。这降低了生产成本,因为故障芯片可以在封装前被筛选出来。标准的边缘发射激光器只能在后期的生产过程中进行测试。

此外,VCSEL耗电量更低、对温度的敏感性也较低,这是车规级产品验证的关键一环。

同时,雷达厂商可以封装集成数百个VCSEL、电子束控制和晶片尺度的微透镜,使其能够瞄准、聚焦并形成结构化的探测模式。不过,VCSEL目前仍然较为昂贵。而且,FLASH激光雷达的抗干扰能力是所有的这些激光雷达技术方案中最差的。

这也是为什么迄今为止,只有法雷奥和Ibeo合作开发的SCALA“过了车规”,其使用的嵌入式旋转镜是以恒定速度的扫描,已经被证明在移动物体应用中具备足够的可靠性和寿命。

一些汽车行业的人士表示,对于激光雷达的移动部件“质疑”很多时候不一定是对的。“传统汽车里有很多活动部件,它们可以使用10万英里甚至更长时间。”

那么,接下来对于传统机械式雷达的改造就是将发射和接收模块做成固态不动,只有棱镜旋转,也就是SCALA的混合固态模式。

3.jpg

比如,以镭神智能推出的128线激光雷达为例,其采用的正是上述的混合固态的设计,其接收和发射模块都是固定不动的,里面只有一个棱镜转动。

这个背后依靠的是镭神自主研发的全球首款激光雷达专用16通道TIA芯片,而且已经大批量流片成功,它不仅集成了接收模拟信号处理的多种功能和配置控制,同时还将高频高带宽模拟晶体管、多级增益可配置低噪声放大器、多路开关选择器和功率控制单元等集成到比指甲盖还小的芯片中。

这意味着,用单颗芯片就可以实现多线束激光雷达模拟接收处理,且适配所有采用TOF测量原理的多线(200/160/128/64/32/16线)、单线、MEMS和OPA激光雷达。

而在安装方面,除了之前的装在车的四周和车顶,镭神智能的128线是前装设计,可以直接嵌入车头,一辆车可能只须要装一台128线加两个补盲的雷达,比起旧方案,无论是安装还是算法方面都将更简单更省钱。

此外,在敏感的价格方面,128线激光雷达目前报价据说也不超过16.8万元,而后续还将陆续推出32/16/8/4线的车规级混合固态激光雷达,规模化量产后价格有望达到数千元级别,马斯克完全可以不用为激光雷达的价格原因降低安全性而困扰。

如果考虑到未来几年激光雷达在其他工业领域的大面积应用,对于车载激光雷达的成本下降也会有极大的促进作用。Waymo早前宣布从今年开始向非汽车行业出售激光雷达,目的也是通过规模化降低成本。

二、传感器“冗余”也至关重要

除了技术路线的争议,对于未来量产来说,过去对于激光雷达的误区在于大部分企业仅仅关注长距离产品(200米以上)。

实际上,考虑到未来L2+、L3、L4的长期需求共存因素,对于激光雷达的需求也存在两种:一种是前向的长距离探测,另一种是360度环视的中短距离探测(用于盲区)。

尤其是L3开始,不管是制动、转向、ECU等需要冗余,传感器组合也需要配置一定的冗余。

比如,典型的Waymo自动驾驶车的配置,3个中长距离激光雷达安装于车顶“构成”360度环视以及2个安装于两侧翼子板上方、1个安装于前方保险扛的短距离激光雷达。

而这3个短距离激光雷达(最短探测距离为0)可以保障对行人和骑行人的安全识别。尤其是夜间,摄像头失效的情况下,毫米波雷达也可能存在一定的问题,比如对横向穿行物体探测能力差。

最典型的反向例子就是Uber。Uber在将首批福特自动驾驶车型换成了沃尔沃XC90后,将识别行人的激光雷达传感器数量从7个减少到了1个,导致车辆周围出现盲点(大概3米长的盲区)。

因为在Uber早期的介绍中,有这样一段说明:“安装在前后和侧翼上的激光雷达有助于探测接近车辆的障碍物,以及可能在其他传感器盲区的较小障碍物。”

而在这起致命事故中,推着自行车的受害者正是横向穿行马路。当时,摄像头已经失效(道路几乎没有灯光),而毫米波雷达对横向移动物体能力较差。

此时,即便顶部激光雷达探测到自行车,但没有任何其他多余传感器进行验证,进而可能导致决策算法的判断错误。

显然,对于安全是自动驾驶第一要素的基本准则下,仅仅是依靠摄像头+毫米波雷达的组合,仍然存在一定的盲区风险。

这也是为何马斯克的“激光雷达无用论”会引起业界一片震惊与哗然的原因。特斯拉仅依赖摄像头+毫米波雷达做自动驾驶导致的数起交通事故已堪称警醒行业发展的经典案例。

比如,2016年一辆Model
S在自动驾驶状态下撞上对向正在转弯的卡车,该事故导致驾驶员死亡。据报道,当时特斯拉的Autopilot因为卡车车体反光,摄像头并未识别对向的卡车。

至今,或许特斯拉引以为傲的算法能力已获得数倍提升,摄像头+毫米波雷达的方案与激光雷达相比安全系数可能也就99
%和99.9999%的细微差异,然而正是这点差异恰恰可以成为生命安全的重要保障。


4.bmp

可见,此时选择增加激光雷达作为冗余传感器依然是保证安全的必要举措之一。对此,Waymo相关负责人一再强调,“摄像头、雷达和激光雷达系统是‘互补的’,各尽所能。激光雷达能提供‘更丰富、更准确的数据’,如果只是依赖摄像头会有更多的限制。”

曾在特斯拉任职6年的Waymo硬件主管萨蒂什·耶亚桑德兰(Satish
Jeyachandran)表示,“每一个传感器对于创造出性能强大、安全的自动驾驶汽车都很重要。尤其是涉及到自动驾驶时,整个套件比单个输入更重要。”

Waymo表示,目前激光雷达的价格正在下降,而且随着应用范围的扩大,价格还将继续下降。从目前全球的激光雷达行业来看,镭神智能的激光雷达在价格和性能已足够诱人,自动驾驶真正规模化落地也该不远了吧。

基于兴趣区域投票的多任务车辆检测

betty 发表了文章 • 0 个评论 • 178 次浏览 • 2019-06-19 10:42 • 来自相关话题

编者按:车辆检测是自动驾驶车辆感知模块中的关键技术之一。由于视角、遮挡和截断造成的大规模内部分类的不同,使得车辆检测非常具有挑战性。这篇文章提出了一个基于多任务CNN和RoI投票的车辆检测方法,实验结果表明,该方法优于大多数现有的车辆检测框架。 ...查看全部

编者按:车辆检测是自动驾驶车辆感知模块中的关键技术之一。由于视角、遮挡和截断造成的大规模内部分类的不同,使得车辆检测非常具有挑战性。这篇文章提出了一个基于多任务CNN和RoI投票的车辆检测方法,实验结果表明,该方法优于大多数现有的车辆检测框架。

本文译自:《Multi-Task
VehicleDetection With Region-of-Interest Voting》

原作者:Wenqing Chu , Yao Liu,Chen Shen, Deng
Cai

原文链接:https://ieeexplore.ieee.org/document/8066331/

摘要:车辆检测是自动驾驶系统中的一个具有挑战性的问题,因为其具有较大的结构和外观变化。在本文中,我们提出了一种基于多任务深度卷积神经网络(CNN)和感兴趣区域(RoI)投票的新型车辆检测方案。在CNN体系结构的设计中,我们以子类别、区域重叠、边界框回归和每个训练ROI的类别作为一个多任务学习框架来丰富监督信息。该设计允许CNN模型同时在不同车辆属性之间共享视觉信息,因此,可以有效地提高检测鲁棒性。此外,大多数现有方法独立考虑每个RoI,忽略了其相邻RoI的线索。在我们的方法中,我们利用CNN模型来预测每个RoI边界朝向相应标注过的数据的偏移方向。然后,每个RoI可以对那些合适的相邻边界框进行投票,这与该附加信息一致。投票结果与每个RoI本身的得分相结合,以从大量候选中找到更准确的位置。KITTI和PASCAL2007车辆数据集的实验结果表明,与其他现有方法相比,我们的方法在车辆检测中实现了卓越的性能。

1·引言

车辆检测是许多视觉计算应用的基本问题,包括交通监控和智能驾驶。不幸的是,由于不同视点,遮挡和截断引起的较大类内差异,车辆检测非常具有挑战性。图1显示了一些具有不同复杂性的例子,这些例子来自PASCAL2007汽车数据集[1]和最近提出的KITTI车辆检测基准[2]。


图1.来自两个数据集的车辆检测的复杂性的图示(a)PASCAL
VOC2007汽车数据集[1]由不同视点和较少遮挡的单车组成。(b)KITTI车辆基准[2]包括安装在驾驶汽车上的摄像头拍摄的道路上的汽车,该汽车具有更多的遮挡和截断。

通常,车辆检测可以被视为通用对象检测的特殊主题。在过去几年中,研究人员在提高物体检测性能方面取得了显着进展[3-8]。解决此问题的常见流程包括两个主要步骤:(1)生成建议目标,(2)特定类的评分和边界框回归。对于第一步,有很多精心设计的方法[8-11]用于生成建议目标或仅仅是[5]中使用的滑动窗口方式。然后提取对象边界框的一些特定视觉特征,并利用分类器确定有界区域是否是期望对象,其中代表性方法包括AdaBoost算法[3],DPM模型[5]和深度CNN模型[7]。然而由于车辆的结构和外观变化较大,尤其是普遍存在的遮挡,这进一步增加了类内差异,使得车辆检测仍然具有挑战性,此外,许多车辆检测基准要求联合交叉(IoU)超过0.7以评估正确的定位,这显著提高了对模型的性能要求。

在本文中,我们提出了一种基于多任务深度卷积神经网络(CNN)、感兴趣区域(RoI)投票和多级定位的新型车辆检测方案,由RV-CNN表示。多任务学习旨在实现信息共享,同时解决多个相关任务,提高部分甚至所有任务的性能[12]。在我们的方法中,CNN模型在四个任务上进行训练:类别分类,边界框回归,重叠预测和子类别分类。在这里,我们引入子类别分类任务来使得CNN模型在不同的遮挡,截断和视点下都能学习车辆的良好表示。我们利用[13]中提出的3D体素模式(3DVP)概念进行子类别分类。
3DVP是一种对象表示,它共同捕获关键对象属性,这些属性涉及到在聚类过程中刚性对象的外观、对象姿态、遮挡和截断。然后每个3DVP被认为是一个子类别。

大多数检测方法利用CNN模型的预测分数进行非极大值抑制(NMS),以得到最终的边界框位置。但是,高于某一水平的检测分数与边框提案的可靠性没有很强的相关性[14]。原因之一是训分类器被训练为从背景中对对象进行分类,而不是对联合交叉(IoU)进行排序。因此,我们建议使用邻近的RoI来完善这一评分。首先,我们使用CNN模型同时预测从RoI到每个边界的标注过的数据的偏移方向。有了这些额外的信息,我们设计了一个简单而有效的投票方案来重新分配这些ROI。在所有提案的得分重新计算后,我们可以应用NMS得到最终结果此外,我们观察到,在IOU超过0.7的限制下,区域提案网络[8]的产出不能保证达到100%召回。这将对以下检测网络构成挑战,因为它必须在没有高质量建议的情况下处理一些困难的案例。此外,在更快的R-CNN
[8]中,NMS的预测框的检测分数不准确,因为它在回归之前应用了RoI的卷积特征。考虑到这两个缺点,本文提出了一种多级定位方案,进一步提高了检测精度和可靠性。

我们已经在两个常用的车辆检测数据集(KITTI车辆基准[2]和PASCAL
VOC2007汽车数据集[1])上评估了我们的方法。我们的方法在KITTI车辆检测基准上实现了91.67%的Ap,显著超越了最近的结果[15-17]。此外,我们还对PASCAL
VOC2007汽车数据集进行了实验。实验结果表明,与基线和相关方法相比,我们的RV-CNN模型具有了一致且显着的性能提升。

2·相关工作

在本节中,我们将简要回顾一下最近关于一般物体检测和车辆检测的工作。

通用目标检测是近年来研究的一个活跃领域,有着大量的前期工作。[3]中的级联式检测器是最早实现相对高精度实时检测的方法之一。这种结构已广泛用于实现人脸[3],[18],行人[19]和车辆[20]的滑动窗口探测器。基于部分的模型也是文献中最强大的物体检测方法之一,其中可变形的组件模型(DPM)[5],[21]是一个很好的例子。该方法采用定向梯度直方图(HOG)特征作为输入,并利用由根滤波器和组件滤波器组成的星形结构来表示高度可变的物体,使其能够检测出被严重遮挡的物体。

最近,深度卷积神经网络(CNN)表现出了卓越的性能,在各种视觉任务中占据了最高精度基准[22-26]。这些工作提出了大量的方法[7],[8],[27-36]解决了CNN模型的问题。在这些方法中,具有卷积神经网络(R-CNN)框架[7]的区域已经取得了很好的检测性能,并成为对象检测的常用范例。其基本步骤包括使用选择性搜索的建议目标生成[9],CNN特征提取,基于CNN特征的对象候选分类和回归。

然而R-CNN带来了过多的计算成本,因为它为数千个建议目标重复提取CNN特征。为了加速R-CNN中的特征提取过程,提出了空间金字塔汇集网络(SPPnet)[28]和基于快速区域的卷积网络(Fast
R-CNN)[29]。其缺点是仍然采用自下而上的建议目标生成,这是效率的瓶颈。相反,在[8]中提出了一种区域生成网络(RPN),它与检测网络共享全图像卷积特征,从而实现了几乎无成本的区域生成。MS-CNN
[15]由提议子网和检测子网组成。在提议子网中,在多个输出层执行检测,以便匹配不同尺度的对象。这种方案也用于SSD [32]和TextBoxes
[37]。另一个有趣的工作是YOLO [31],它在7x7网格内输出对象检测。该网络以40fps运行,但检测精度有所降低。

大多数这些深度模型都针对一般物体检测。为了更好地处理被遮挡车辆的检测问题,在[38]中的一个DPM模型提供的根和组件分数配置上使用了第二层条件随机场(CRF)。最近,在[39]和[40]中提出了一个和或结构,以有效地将遮挡配置与经典的DPM进行比较。在[41]中,作者建议将车辆检测和属性注释结合起来。此外,改进模型泛化的一种常见方法是学习对象类[20]中的子类别。子类别已被广泛应用于车辆检测,并提出了几种子类别分类方法[42-45]。在[42]中,使用局部线性嵌入和HOG特征以无监督的方式学习学习对应于车辆方向的视觉子类别。参考文献[43]根据对象的视角执行聚类,以发现子类别。在[45]中研究了区分性子分类,其中聚类步骤考虑了负面实例。最近,[13]提出了一种新的对象表示,即三维体素模式(3DVP),它共同编码对象的关键属性,包括外观、三维形状、视点、遮挡和截断。该方法以数据驱动的方式发现3DVPS,并为3DVPS训练一组专门的检测器。在[46]中,作者利用3DVP子类别信息训练子类别卷积层,输出特定位置和比例下某些子类别存在的热图。在我们的工作中,我们将子类别分类作为改进基于CNN的检测性能的多任务的一部分,并且可以使用在[13]、[42]和[43]中获得的子类别标签来实现该组件。

3·具体检测过程     

在本节中,我们描述了用于解决车辆检测问题的多任务深度卷积神经网络。对于每个输入图像,我们的方法包括三个主要阶段。首先,我们生成一个由多尺度区域生成网络(RPN)[8]获得的对象提议池。然后我们使用多任务CNN模型来预测每个RoI的属性。根据回归结果,一些提案将由二级回归网络处理。最后,我们采用有效的投票机制来优化每个RoI的最终得分。此外,由于我们可以获得子类别信息,因此我们引入了子类别感知的非极大值抑制(NMS)来更好地处理遮挡。最后,我们可以获得在实际应用中非常准确的预测框。

A.多任务损失函数

最近,多任务学习已经应用于许多计算机视觉问题,特别是在缺乏训练样本的情况下[12]。多任务学习的目的是在同时解决多个相关任务的同时,加强信息共享。这种共享已经被证明可以提高部分或全部任务的性能[12],[47],[48]。对于车辆检测问题,我们通过子类别,区域重叠,边界框回归和每个训练RoI的类别作为多任务学习框架,丰富了监督信息。接下来,我们将详细解释多任务CNN模型的提议方法的细节。图2显示了所提出的多任务学习框架的总体流程。如图2所示,在生成RoI之后,我们将[29]中提出的RoI池化层应用于每个RoI的池卷积特征。然后,汇集的卷积特征用于完成四个任务:类别分类,边界框回归,重叠预测和子类别分类。最后一部分“偏移方向预测”将在下一节中描述。每个被训练的RoI都标有真实类和真实边界框回归目标,类似于[29]中的设置。通常,该监督信息用于设计分类损失L
cat和边界框回归损失L loc。

接下来,第三个任务是子类别分类。对于复杂和杂乱的城市场景中的车辆检测,遮挡和视点是关键方面。如在[40]中,处理遮挡需要能够捕获组件层面上遮挡的基本规律(即不同遮挡配置),并且明确地利用与遮挡共同发生的上下文信息,这超出了单车辆检测的范围。此外,不同视图中的2D图像也难以识别。这些显着增加了类内差异。为了表示遮挡和视点变化,我们采用最近在[13]中提出的3D体素模式(3DVP)的概念。
3DVP是一种对象表示,它共同捕获与外观,三维形状和遮挡掩膜相关的关键对象属性。参考文献[13]提出在网络上的存储库中利用3DCAD模型,例如Trimble3D
Warehouse,并将这些3D CAD模型与2D图像一起标注以构建3D体素示例。更具体地说,对于训练集中的每个图像,使用从预定义的模型集合中选择的3D
CAD模型来标记图像中的对象,选择的模型是有与真实3D长方体最接近的纵横比的模型。然后使用相机参数将所有标注的3D
CAD模型投影到图像平面上并获得深度排序掩模。在下文中,深度排序掩模确定投影的3D CAD模型的哪个像素是可见的,被遮挡的或截断的。
3DVP表示一组三维体素示例,这些示例共享在其三维体素模型中编码的类似可见性模式。参考文献[13]通过在统一的三维空间中聚类三维体素样本来发现3DVP。有关详细信息,读者可以参考他们的项目网站。

图2.多任务框架的图示

在[13]之后,我们对刚性物体(即KITTI中的车辆)采用3D体素模式(3DVP)表示,它在聚类过程中共同模拟物体姿态,遮挡和截断。然后每个3DVP被认为是一个子类别。图3显示了Kitti车辆数据集中不同子类别车辆的几个示例。通过这些附加的注释,CNN模型可以捕获更多关键信息进行检测。如图2所示,CNN模型在K
+ 1个子类别上输出离散概率分布(每个RoI),p =(p 0,...,p
K)。与往常一样,p是由一个全连接层的k+1个输出上的softmax计算的。因此,子类别分类的损失公式为Lsub(p,u) =
logpu,它是真实分类u类的对数损失。

图3.每一列为一个子分类

此外,我们发现预测RoI与相应的标注过的数据之间的重叠对其他任务是有益的。对于重叠回归,我们使用下列方程中的损失。

其中

是一种强大的L1损耗,其对异常值的敏感性低于L2损耗,这需要仔细调整学习速率以防止爆炸梯度。
Op表示由CNN模型预测的重叠,并且根据ROI和标注过的数据计算Og。

总结,整个多任务框架的损失可以表述为:

上式中的超参数λ1,λ2,λ3用于控制四个任务损失之间的平衡。我们在验证数据集上调整了这些超参数。具体地,在实验中将λ1,λ2,λ3设定为1,10,1.2。

B.感兴趣的区域投票

我们观察到检测分数不能很好地表示有界区域的可靠性或置信度。在[14]中,作者还认为,高于某一水平的检测分数与与框提议的最优性没有很大关系。实际上这并不奇怪,因为分类器被训练为从背景中分类对象而不是对IoU进行排序。另外,预测框的分数由RoI的卷积特征计算,其与回归框略有不同,这也是值得怀疑的。为了解决这个问题,我们使用邻近的RoI来优化其得分。首先,我们使用CNN模型同时预测从每个RoI边界到标注过的数据边界的偏移方向。然后我们可以得到四个变量来指示实际的方向。在我们的方法中,我们分别用D
l,D t,D r,D d表示这四个变量,分别用于RoI的左边界,顶边界,右边界和下边界。例如,D
l的可能预测如下:“向左转”,“向右转”,“在此处停止”和“此RoI周围没有实例”。对于D
t,“上升”,“下降”,“在此处停止”和“此RoI周围没有实例”是可能的训练标签。这些标签可以根据ROI的位置和训练前的地面实况来计算。

如前所述,我们使用多尺度RPN模型来生成数千个对象提议。利用所提出的多任务CNN框架,预测每个RoI的边界框偏移,得分和方向。然后结合每个ROI的坐标和相应的框偏移量,我们可以得到大量的预测框,这比实际的图像中的物体数量大得多。因此,我们将一个图像中的所有预测框分成组,每组对应一个对象。分组方案简单如下:我们选择具有最高分数的预测框作为种子,并将具有高IoU的框与种子放入一个组中。此过程将迭代,直到分配了所有框。该方案在物体检测中很常见[5],[7],[8],[29]。我们的目标是为每个组找到最佳对象预测框。以前的方法直接选择具有最高预测分数的预测框。

在这里,我们利用来自每个预测框的相邻RoI的附加信息来优化分数。如果预测框的位置与其相邻RoI的预测方向一致,则该预测框更可靠。否则,应减少预测框的最终得分。为清晰起见,假设预测框具有坐标和得分s。并且我们用B表示它的相邻RoI,用N表示B中RoI数量,用si表示的第i个RoI的得分,用表示预测方向。然后我们制定投票方案,如下所示:

其中

其他r
b(b,b i)函数遵循与r l(b,b
j)相同的规则。在所有预测框的得分重新计算后,我们可以应用NMS得到最终的结果。

这种RoI投票方法有几个优点。首先,不同于被训练以从背景中对对象进行分类而不是对IoU进行排名的类别分类器,我们的RoI投票方法预测朝向标注过的数据的偏移方向,这对于位置是合理的。此外,该RoI投票方法利用来自相邻RoI的统计信息,这使得结果更加稳健和可靠。其次,与基于CNN的回归任务解决检测问题的方法相比,我们的方法采用了更加文件的分类模型,既简单又有效。CNN模型在分类任务上通常比回归任务取得更好的性能[49]。由于具有softmax损失的偏移方向的分类使得模型在真实方向上最大限度地激活,而不是在边界框坐标的精确值上激活。此外,预测朝向标注过的数据的方向可以作为多任务框架的一部分来实现,这不会给计算带来额外的负担。

C.
多级定位

在Fast RCNN[29]等常见的目标检测流程中,我们发现了两个缺点。首先,由于许多检测基准要求IOU超过0.7才能评估正确的定位,因此区域生成网络[8]经常无法达到100%的召回率。这将对以下检测网络构成挑战,因为它必须在没有高质量建议的情况下处理一些困难的案例。其次,在快速的R-CNN中,用于进行NMS的提案的分数不准确,因为它们在回归前采用了特征。这两个因素将降低这些检测器在实际车辆检测任务中的性能。因此,我们引入了一个多层次的定位框架,以粗到细的方式解决这两个问题。具体来说,我们的定位方案从区域生成网络[8]开始,通过迭代评分和细化它们的坐标来工作。在这里,我们实施了一个两阶段方案。首先,我们将所有与标注过的数据重叠大于0.5的提案作为培训第一阶段回归网络的正样本。由于我们发现RPN在直接使用0.7时未能召回所有车辆,而在0.5时所有车辆都有正面建议。在测试阶段,该回归网络可以将召回率从97.8%提高到98.9%。在第二阶段,我们使用来自第一阶段的预测边界框来训练第二级目标检测网络,使用与标注过的数据重叠大于0.7的建议作为阳性样本。在这个阶段,大多数车辆都有高质量的建议,这使得回归任务相对容易。此外,我们发现第一级网络的输出提供了强有力的建议,使第二网络产生更准确的定位。另外,由第二网络计算的边界框偏移通常很小,这使得预测框的得分更准确。

图4.在复杂的交通场景中,标准流程会导致漏检

(a)原始图像(b)NMS之前的部分车辆检测结果

考虑到速度,我们对所有提案进行一级定位,并选择其中的一部分进行二级定位。选择的规则是:如果一个提案与预测框有很大的重叠,我们将不会进行第二次定位。我们认为,如果重叠度很大,评分是准确的,提案不需要再次回归。在实验部分,我们将此阈值设置为0.9。在多级定位之后,我们获得了一系列检测结果,这些检测结果都具有高召回率和准确定位。我们考虑重用卷积层功能来进行多级定位。但是,性能增益并不令人满意。因此,对于第二阶段,我们训练一个新的回归网络。我们采用这种设计是因为我们希望通过相应边界框的卷积特征尽快准确地计算提案的分类分数。

D.子类别的NMS

在复杂的交通场景中,遮挡使得车辆检测非常具有挑战性。例如,图4中的蓝色圆圈中有两辆汽车彼此靠近,它们的IOU大于0.7。虽然我们之前的管道可以检测到它们的位置并为它们分配高分,但标准的后处理步骤NMS将过滤其中一个分数较低的边界框。如果我们将NMS的阈值设置得更高,则可以保留两个边界框。

但是,检测结果的精度会非常低。为了解决这个难题,我们引入了子类别的NMS(subNMS)方法。在我们的多任务框架中,我们可以获得子类别信息。由于蓝色圆圈中的两辆车属于不同的子类别,我们的subNMS利用级联管道。首先,我们为属于同一子类别的边界框执行标准NMS,其严格阈值为0.5。然后,NMS将处理所有边界框,其阈值为0.75。通过所提出的subNMS,检测结果的精确度和召回率可以达到平衡。

E.实施细节

我们的框架是使用caffe[50]实现的,运行在配置了Nvidia
M40
GPU卡的工作站上。我们不从零开始培训我们的RPN和检测CNN,而是应用在ImageNet[22]上预训练的模型来初始化卷积层和前两个全连接层,然后对整个网络进行微调。在KITTI基准测试中,我们对第一级定位的AlexNet
[22]和第二级定位的GoogleNet [51]进行了微调。

为了解决尺度的变化,我们使用多尺度方式来训练第一级定位。由于GPU内存限制,我们无法直接培训多尺度GoogleNet检测网络。因此,我们独立裁剪和调整RoI,不在同一输入图像中共享卷积计算。用于多任务学习的全连接层分别由标准差为0.01和0.001的零平均高斯分布初始化。偏差初始化为0。所有层对权重使用1的每层学习率,对偏差使用2的每层学习率,全局学习率为0.001。在对KITTI训练数据集进行训练时,我们运行SGD进行30k小批量迭代,然后将学习率降低到0.0001并训练另外10k次迭代。学习在40,000次迭代后停止,并且在学习期间,将conv1-1到conv2-2的层参数固定,以实现更快的训练。

在对VOC07  trainval
car数据集进行训练时,我们运行SGD进行8K小批量迭代,然后将学习率降低到0.0001,再进行2K迭代培训。使用0.9的动量和0.0005的参数衰减(基于权重和偏差)。

4·实验

在本节中,我们在两个公共数据集上评估我们的方法:KITTI车辆检测基准[2]和PASCAL
VOC2007汽车数据集[1]。

A.KITTI验证集的实验

KITTI数据集由7481个训练图像和7518个测试图像组成。训练中的物体总数达到51867,其中汽车仅占28742。KITTI汽车检测任务的关键难点在于大量汽车尺寸较小(高度<40像素)并且被遮挡。

由于KITTI测试集的基本真实注释不公开,我们使用[46]的训练/验证分割来对我们的框架进行分析,其中分别包含3682个图像和3799个图像。对于KITTI的验证,我们使用125个子类别(125个3DVP用于汽车),而对于KITTI的测试,我们使用227个子类别(227个3DVP用于汽车)。关于子类别的数量,我们遵循[13]中的配置。
3DVP是一种数据驱动方法,子类别的数量是聚类算法中使用的一个超参数。对于验证数据集,仅使用训练数据集来发现3DVP模式。对于测试数据集,训练数据集和验证数据集的结合更加复杂,所以子类别的数量更多。

图5 
检测成功和失败案例示例(绿色框表示正

确定位,红色框表示错误报警蓝色框表示检测缺失)

我们根据KITTI基准[2]建议,在三个难度级别(简单,适度和难度)上评估我们的识别结果。为了评估物体检测精度,在整个实验中报告平均精度(AP)。

汽车的KITTI基准采用0.7重叠阈值。表I显示了三个类别的检测结果,其中我们证明了各种组分对KITTI的RV-CNN性能的影响。从表I可以看出,多任务学习,RoI投票和多层次本地化的组成部分都是有效的设计。对于那些中等和难度级别的汽车,我们的方法可以通过更多组件实现更好的性能。

6.jpg

0.jpg

为了展示我们方法的稳健性,我们给出了图6中不同IOU阈值下的AP。此外,图5显示了我们在KITTI验证数据集上的检测结果的一些示例。我们可以看到,检测中失败的大多是那些难以看到的被遮挡的汽车。将来,我们需要将CNN模型与一些遮挡推理机制相结合,以更好地处理这些困难案例。

B.KITTI测试集的实验

为了与KITTI检测基准的最新方法进行比较,我们使用所有KITTI训练数据训练我们的RPN和RV-CNN,然后将我们的结果提交到官方网站,在KITTI测试集上测试我们的方法。

表2列出了三类检测结果,我们将我们的方法(RV-CNN)与KITTI评估的不同方法进行了比较。这些结果是在2017年3月提取的。最近,评估脚本已经更改,并提供了原始结果。我们的方法在基于中等难度结果的所有已发布方法中排名第一。实验结果证明了我们的CNN能够处理具有更多遮挡和截断的车辆。图7给出了中等类别的KITTI测试装置的精确召回曲线。

C.VOC Pascal
2007车辆数据集的实验

我们还将我们方法与几个竞争模型:DPM
[5],RCNN [7],快速RCNN [29]和更快的RCNN [8]在另一个公共数据集上进行了比较:PASCAL
VOC2007汽车数据集[1]。这些方法在一般物体检测方面获得了最先进的性能,并且这些代码是公开可用的。

13.jpg

图8.PASCAL2007汽车数据集上的精确召回曲线

我们在VOC-RELEASE5[65]中采用训练好的车辆模型用于DPM,而基于CNN的其他模型和我们的方法则基于预训练的VGG16模型。提取PASCAL
VOC 2007数据集中的训练集和测试集(总共1434个图像)中包含的所有图像以进行评估。

汽车检测评估标准与PASCAL目标检测相同。联合交叉(IoU)设置为0.7以以确保定位正确。图8显示了PASCAL
VOC2007汽车测试集的精确召回曲线。由于3DVP需要标注过的数据3D注释(立方体)和相机参数,我们没有找到PASCAL
VOC的这些标签。因此,我们删除了PascalVOC数据集实验中的子类别分类任务。APS分别为63.91%(我们的模型)、38.52%(RCNN)、52.95%(快速RCNN)、59.82%(快速RCNN)和57.14%(DPM)。尽管这个数据非常小,但我们的方法依旧胜过了其他方法。

5·结论

在本文中,我们开发了一种基于多任务深度卷积神经网络(CNN)和感兴趣区域(RoI)投票的新型车辆检测方案。KITTI和PASCAL2007汽车数据集的实验结果表明,我们的方法优于大多数现有的车辆检测框架。在未来,我们将探索一个更有效的投票机制的端到端框架。此外,我们希望将CNN模型与一些遮挡推理方法相结合,以更好地处理这些困难案例。

增程式电动汽车难道真的省油吗?

tututu 发表了文章 • 0 个评论 • 239 次浏览 • 2019-06-17 10:25 • 来自相关话题

增程式电动汽车本质就是串联式混动,发动机不会直接驱动车轮,而是专门发电。犹如在汽车后面加了一个大号充电宝,解决了续航里程焦虑症。但是增程式电动汽车,在增程模式下中低速行驶时(市区内)效率最高,能耗要比燃油车低。持续高速行驶时能量转换损失大, ...查看全部

增程式电动汽车本质就是串联式混动,发动机不会直接驱动车轮,而是专门发电。犹如在汽车后面加了一个大号充电宝,解决了续航里程焦虑症。

但是增程式电动汽车,在增程模式下中低速行驶时(市区内)效率最高,能耗要比燃油车低。持续高速行驶时能量转换损失大,能耗要比起燃油车没有优势,甚至还要更高一些。因此这类车型跑长途时油耗不占据优势,増程器只能解决里程焦虑而不能提高燃油效率。

6.png

串联式混动汽车中低速省油的原理:燃油车中低速行驶时,发动机利用率是非常低的。例如市区内走走停停,怠速等信号灯,或者中低速行驶。这些工况下发动机不能停机,低速低档位行驶时发动机的功率远远大于车辆实际所需的功率,例如同样转速下不同档位下汽车速度也会不一样,在不拖档的情况下同样的燃油高档位行驶距离远于低档位。因此市区内行车油耗普遍要比市郊行车高很多,高1/3都是正常的。

这时候串联式混动的优势就凸显出来了。串联式混合动力汽车,车辆由电动机驱动。电动机驱动车辆除了动力表现好之外还有一个优点:能效高!与内燃机不同的时,电动机功率是可以随意调节的,能量按需分配。行驶时调节电机电流使电动机功率比汽车所需功率高一点就可以,控制更精准,能量损失小。内燃机中低速工作时富余功率多,而且富余功率没有办法回收,白白的变成热量散发掉。

当串联式混动汽车电池电量不足时,増程器就会启动。此时汽车进入混动模式,发电机开始工作、发电后一部分电量驱动电动机行驶,富余电量可以为电池充电。而且内燃机工作在高效率区间,内燃机效率高、发电机转换效率高,油电转换率高。这也是为什么能源经过两次转换后油耗依然比燃油车低的原因。

而中高速行驶时,串联混动油耗上就不占据优势了!中高速行驶时发动机机并不能直接驱动车轮,电机功率可控的节能优势也不复存在,因为车辆巡航功率都是一样的,燃油车与电动车是相同的。这时候电动机只能乖乖的向内燃机一样工作,没有了工况优势,持续工作消耗的功率是一样的。此时内燃机通过变速箱直接驱动车轮的效率是最高的,而串联混动因为内燃机要驱动发电机发电,发电过程中有了一次能量损失,随后电能驱动电机做功时还会有一次能量损失,这就是高速行驶时串联式混动不省油的原因。

增程式电动汽车值不值得购买?增程式电动汽车的电池容量要比插电混动汽车容量高很多,纯电动续航里程也增加很多。例如增程式电动车续航里程200-300公里,插电混动汽车纯电续航60-80公里。增程式电动汽车日常使用成本更低,大多数时不需要开启増程器。充一次电行驶距离更远、省心省事,偶尔电力不足或者长途时开启増程器就可以解决续航里程之忧。如果跑长途次数不多,偶尔跑长途那么增程式电动汽车更实在,更值得购买。如果纯市区内行驶、不跑长途、那么纯电动汽车更划算 ,毕竟购车成本更低。如果必须选混动汽车,而又经常跑长途那么插电混动汽车更合适, 动力更强、油耗更低。


朱西产:智能网联汽车技术发展及其应用场景的分析(附全文PPT)

tututu 发表了文章 • 0 个评论 • 225 次浏览 • 2019-06-14 17:40 • 来自相关话题

3D-LaneNet:端到端3D多车道检测网络

betty19920416 发表了文章 • 0 个评论 • 201 次浏览 • 2019-04-23 10:33 • 来自相关话题

编者按:三维车道检测是实现自动驾驶的关键技术,它需要对主控车辆的可行驶车道的三维位置进行精确估计。这篇文章提出了一个基于CNN的端到端的3D车道线检测网络3D-LaneNet,可以直接检测多个车道,并估计车道曲率,对三维车道检测的相关研究具有重大的启发与促进作 ...查看全部
编者按:三维车道检测是实现自动驾驶的关键技术,它需要对主控车辆的可行驶车道的三维位置进行精确估计。这篇文章提出了一个基于CNN的端到端的3D车道线检测网络3D-LaneNet,可以直接检测多个车道,并估计车道曲率,对三维车道检测的相关研究具有重大的启发与促进作用。
 
摘要:
这里介绍一种架构,它可以直接从一张图像预测出道路场景中的三维车道,这项工作标志着首次尝试通过在线感知解决这一任务,而不是依赖于预先映射的环境。我们的网络架构,3d-lanenet中有两个新的概念,1.网络内部的反透视变换。2.基于anchor的车道线表示。网络内反透视变换投影使得在常规图像视图和俯视图中都能方便地表示信息流.一个基于anchor的列输出表示使得我们这个端到端的方法能够替代传统的启发式方法,比如聚类和奇异点处理。此外,我们的方法精准的解决了复杂情况,比如车道的合并以及车道的分开(比如一条车道延伸之后分叉类似这种情况)。在我们的new 3D lane synthetic dataset 上,架构表现出了非常好的结果。为了和现有的方法作对比,我们验证了在image-only tuSimple lane detection benchmark 上的有效性,并获得了非常具有竞争力的表现。
 
 
1.介绍
 
三维车道检测是实现自动驾驶的关键技术,它包括对相对于主控车辆的可行驶车道的三维位置的精确估计。存在两种互补的技术解决方案:加载离线生成的预映射车道和基于感知的实时车道检测。离线解决方案在给定精确当前车辆定位(在地图坐标中)的情况下具有高的几何精度,但是部署和维护起来很复杂。最常见的基于感知的解决方案是使用单目摄像头作为主要传感器来解决任务。现有的基于相机的方法检测图像中的车道,然后通过平坦地面的假设,将它们投射到三维世界,当然当地面平坦这个假设不对的时候,会导致不准确的估计与检测。
 
受到近年来CNN在单目深度信息预测的成功激励,我们提出了直接检测3D车道线的方法。更正式地说,给定从前置摄像头拍摄的一张图像,任务是输出一组车道实体,每个实体在相机坐标中表示为3D曲线,描述车道分隔符(分隔符就是传统意义上的车道线)或车道中心线(中心线是两条传统意义上的车道线中间的线)。我们提出了3D- lanenet,一个基于CNN的模型,可以进行3D车道检测。该网络经过端到端的训练,输出是在道路的每一个纵向切片上(道路被竖着分为很多的列,每一个列相当于一个切片。),这些输出包括车道线经过这个纵向切片的置信,以及他的3D曲线坐标。我们的方法原理在图1中做了解释。 我们直接的单阶段的方法避免了使用现有方法进行后处理,包括聚类,奇异点处理等。整个网络的架构基于一个创新的双通路(并不是并行的)结构,这个结构在网络内部,对特征图进行一些透射投影变换以生成虚拟的鸟瞰视图。这种双特征表示(正常视图特征,以及鸟瞰视图特征,原文是image view 以及 top view)提高了在道路场景下,网络的推断能力。输出被表示为一个新的基于列的anchor编码(即在该anchor下的各种参数信息),这使得网络具有水平不变形,并且保证了端到端。每个输出都对应一个anchor,类似于基于anchor的单阶段目标检测办法,比如SSD[20],YOLO[27]。

1.webp_.jpg

图1.(a)端到端的方法的原理图解,以及在俯视图上的车道检测结果实例。(b)结果在原图上的投影。
 
为了完成这项任务,获取带有3D标记的地面真实数据是一项需要多传感器和昂贵的高清地图的工作,在我们的工作中,我们训练和测试我们的网络通过一个新的和合成数据集synthetic-3D-lanes,你可以获得每一条车道线的所有的精确3D位置坐标。数据集目前限制在高速公路场景中,尽管有一些道路模拟器,但是他们的目的不是为了3D车道线检测任务的。并且限制了相关场景属性(如车道曲率)的可变性。我们在该领域的主要成就是能够随机生成具有可变三维形状和车道拓扑结构的高速路段。而我们方法的主要优势在于估计3D车道线,还有纯图像进行车道线检测。我们在tuSimple数据集上对我们的直接方法进行了训练和测试,在不使用通常的后处理技术的情况下,我们获得了与现有技术相媲美的结果。
总结一下我们的主要贡献:


  • 定义了3D车道线检测任务的度量标准,同时也第一个提出了3D检测任务的解决办法


  • 一个创新的双通路带有内部投影变换的结构.


  • 一个新的基于anchor的车道线输出表示,使得网络支持直接的端到端的预测。这可以应用于3D车道线检测和基于图像的检测


  • 一种随机生成具有车道拓扑变化(车道数、汇集、分叉)和三维形状的合成样本的方法。


 
2. 相关工作
 
传统的车道检测系统(将低层次的操作(如方向滤波器)与高层次的启发式(如霍夫变换)结合起来检测图像中的连续车道。一个通常的流程包括4个阶段:局部车道特征提取(1)、车道模型拟合(2)、图像与世界的对应(3),聚合(4)。近年来,局部特征提取阶段是通过对图像应用一个或多个CNNs来完成的,但总体上流程仍然非常相似,后期处理仍然存在。
 
具体来说,CNNs可以通过增强边缘图或分类候选块来改进特征提取。Huval检测本地车道线通过目标检测CNN。VPGNet Lee等人遵循类似的概念,并且额外检测其他道路标记和消失点,以改进车道检测。KIM和park重新定义了特征提取阶段,将其作为一个分割问题,这个问题有两个分类类别,左车道线和右车道线,延伸网络的范围来执行(extending the reach of the network to perform clustering.)但是,仍然必须为每个cluster安装一个世界坐标车道模型,并且无法处理多车道问题。Nevenetal.[23]尝试端到端多车道检测,通过训练CNN不仅创建一个0,1车道像素掩码,而且还为每个像素点嵌入用于聚类车道点的特征向量。Ghafooria提出使用生成对抗网络使语义分割网络的工作输出在车道检测的背景下更加真实。一些工作(如Meyer等人的,Oliveira等人的)是基于类似的方法构建的,其中主车道和相邻的车道是语义类(车道内部整片而不是车道线)。
 
与所有提出的方法相反,3D- lanenet统一了前三个阶段的共同流程,提供了一个完整的在三维世界坐标体系的多车道表示方法,并且只通过一次前向传播。此外,以往的方法采用平面假设进行图像到世界的对应,而我们的方法估计了车道的整个三维形状。
 
IPM通过相机视角图像生成一个场景的虚拟的鸟瞰图,这个的具体操作Mal-lot et al. [21]在障碍检测中解释了。并且第一次被Pomer-leau在车道线检测中使用,IPM已经在车道线检测任务中被广泛的使用,因为在鸟瞰图视角中,车道线相互平行,并且他们的曲率情况可以用低阶多项式拟合。此外,进行透视变换后,使得他们看起来更加的想近了,(当然会有一些模糊效果)(本来远处的车道线在相机图像上比较小。)最近,He等人引入了一种“Dual-viewCNN”它由两个独立的子网络组成,每个子网络产生一个车道线描述(每个视图一个车道线描述),然后将描述符连接并应用于候选图像位置。Li等人使用CNN直接在鸟瞰图上检测车道标记和几何属性,如局部位置和方向,在鸟瞰图上,这些属性保持不变。此外,他们还部署了第二个循环网络,该网络遍历图像以检测一致的车道。Neven等人使用子网络(“H-net”)预测每张图像中的俯仰,将车道投影到俯视图,以改进曲线拟合。与以前的工作不同,我们使用协同的单一网络方法来利用这两种观点。
 
更一般地,我们提出了第一种方法,这种方法使用端到端训练的CNN直接检测多个车道,并估计每个车道的三维曲率。我们还展示了我们的方法既适用于中心线,也适用于通常意义下的车道线,并且具有处理汇聚和分叉的能力,无需任何进一步的后处理。

2.webp_.jpg

图2.在测试集’synthetic-3D-lanes dataset’上,置信度大于0.5的车道中心线估计结果实例。在每一幅图片中,对真值(蓝色)和方法的结果(红色)进行了展示,并配有一个3D的可视化。需要主要的是,3D可视化轴的尺度根据场景而变化。被忽略的车道被标记为蓝绿色。右下角是一个失败的例子,可能是由于阻塞,在这个例子中,这条路被错误地认为是右车道。
 
 
3.方法
 
我们的方法从安装在车辆上的前置摄像头获取单个图像作为输入,如图4。我们假设相机的内参矩阵κ已知(焦距,光心)我们还假设车辆相对于路面的侧倾角为0。我们假设不知道高度和俯仰角,因为随着车辆的动力学运动,他们是会改变的。道路场景中的车道线可以被表示为中心线的集合[size=11]{Ci}i=1:Nc或者车道线的集合{Di}i=1:Nd(之后车道线就指代传统的我们说的车道线,中心线就是两条车道线中的线),如图3所示。每条车道实体(中心线或车道线)用摄像机坐标体系[/size]Ccamera下的三维曲线表示。我们将任务定义为检测给定图像的一组车道中心线和车道线。

3.webp_.jpg

图3. 带注释的例子。中心线用蓝色标出,车道线用黄色虚线标出
 

4.webp_.jpg

图4.相机姿态和道路投影面
 
 3.1俯视图投影我们简要回顾 (IPM)。简而言之,IPM是一个单应性变换,它获取一个前视图图像并生成一个虚拟鸟瞰视图图像,如图1(a)中的图像所示。这相当于应用相机旋转矩阵,然后在各个方向上进行不同尺度的缩放(放大或缩小)处理。在我们的实现中,我们想要确保鸟瞰视图图像中的每个像素在道路上对应一个预定义位置(路面坐标系下的绝对位置),这个位置独立于摄像机的内部特性及其相对于道路的姿态。 如图4所示,对照此图进行定义,相机坐标Ccamera = (´x,´y,´z) 是一个集合,´y是他的镜头面法线(´y是深度方向),Proad是路面的切面。我们这样定义路面坐标系Croad=(x,y,z),z方向是路面的法线,y是相机坐标系´y在Proad的投影,原点也是相机坐标系原点在路面切面上的投影,Tc2r是一个6自由度的变换矩阵(3个旋转,3个平移),他描述从相机坐标系到路面坐标系的一个变换,既然我们假设了侧倾角为0,那么Tc2r实际上被俯仰角θ以及高度hcam所定义。单应性矩阵(K*Tc2r-1),将路面上的每一个点映射到图像坐标系上。最后IPM通过单应性矩阵以及一组参数被获得,决定了俯视图上的边界以及从米到像素的缩放尺度,俯视图通过双线性差值采样,这个过程定义Sipm。
 3.2射影转换和双特征模块在我们的结构中一个主要的部分是射影变换层。它对Ui(普通图像视图)进行可微采样,获得Ut,Ut对应俯视特征图。具体的在俯视图投影部分讲述了(就是三维的STN)。双特征模块,正如在图5中所示,使用射影变换层,创造更高描述层级的特征图。信息在在多通道的特征图Ut(对应正常视图特征)和Vt(对应俯视图特征)之间流动,使用上述的采样方法(类STN方法)Ui被变换为Ut,并且和Vt合并,他么分享共同的空间尺度。以上就只这个基础模块,他可以在网络中重复使用。考虑现在有一个特征图Mt,他的获得是通过将Vt与Ut合并为[Vt;Ut],然后应用一个卷积层,获得Mt,Mt组合了在车道线检测中的两个有用的性质。1.首先,俯视图上的平移不变性,这十分有价值,因为在俯视图上,车道线有着相似的样子和空间上的几何结构。第二,保存了在两个视角下的信息(正常视图与俯视图),正常视图编码了一些在俯视图上没有的信息,比如栅栏,天际线,树木。这对于3D空间结构至关重要。特别的,对于远处来说,正常视图有着更加丰富的视觉信息,相比于俯视图,描述了一个更大的真实空间。

5.webp_.jpg

图5.双特征模块
 3.3网络架构
架构总览如图6所示,信息在两条通路中被处理,正常视图通路,俯视图通路,我们管这个叫做双通路结构。正常视图通路处理和保存信息,而俯视图通路提供具有平移不变性的特征,并用于预测3D车道线输出。正常视图通路基于VGG16[29],俯视图通路类似。信息经过射影变换层后流向俯视图通路,这样的通路有四条。为了避免流入的特征图的通道(C)数超过原有的通道数,通过1*1的卷积对其进行了降维,当然除了第一次流入(第一次流入没有原来的)。

6.webp_.jpg

图6.3D-LaneNet的整体结构
 3.3.1道路投影预测分支这条通路估计路面投影平面Proad,具体的,分支预测Tc2r(通过监督方式),Tc2r决定了Hr2i,以及Sipm过程。这些是俯视图处理通路所需要的参数。在推理时,也被用于将网络的输出,输出是Croad坐标转换为Ccamera坐标。正如前边所描述过的,Tc2r使用俯仰角θ以及hcam定义的,因此道路投影预测分支预测这两个参数。
 3.3.2车道线预测头我们的端到端方法的核心是基于anchor的车道线结果表示,受到目标检测方法的启发,我们使用anchors去定义候选车道线,并且用精细的几何表示方法来描述每个anchor的精确的3D车道线形状。输出所在的坐标体系是Croad,这个体系被前边定义的hcam,和θ所定义。我们的ahcnors在这个坐标系下对应纵向线,对于每一个anchor,根据3D点,做最终3D车道线的精细化处理。正如图7所展示的那样。我们将anchor定义为垂直于x轴的等距纵向线,他的集合是{XiA}i=1:N,每一个XiA线对应着2K个输出,这个输出集合表示为(xi,zi)={(xij,zij)}j=1:K,K是预先定义的一个超参数,对应着预先定义好的K个y方向上的位置,他们一起组成一个3D点集。xi代表着相对于anchorXiA的水平偏移,这意味着(xi,zi)代表着点(xi,XiA,yi,zij),这个坐标是在Croad这个坐标体系下的。此外对于每一个anchor i,我们还会输出一个置信pi,这个代表着车道线与anchor的关联程度。我们使用一个预先定义的纵坐标Yref位置来表述这种关联,具体来说与XiA相关联的车道线,是在y = Yref这条水平线上,x的坐标偏移最小的那条车道线(简单看一下output的数量 2K个点加上一个置信p也就是说一个anchor对应2K+1个输出,如果只预测一条中心线,或者只预测一条车道线的话)。

7.webp_.jpg

图7.输出表示。注意输出的anchor的数量等于输出层的宽(图6中被标记为w/8)
 
每一个anchor,网络输出3种类型的车道分割,前两组代表着中心线,第三组代表着分隔线,为每个anchor分配两条可能的中心线将产生对汇聚和分叉的描述支持,这通常会导致两条车道的中心线在Yref重合,并在不同的道路位置分开,如图7中最右边的例子所示。车道线的拓扑结构相比于中心线来说,通常会更加的复杂,我们现在的这种表示方式,还不能描述所有的情况,比如图7中车道线没有经过Yref。车道线预测头被设计为输出如我们描述的那样的输出,通过一系列的y方向的无padding的卷积,特征图在H方向上逐渐减小,最终形成N×1×3×(2K+1)的输出(按照标准pytorch描述,可以说成是batch, (3*(2K+1),1,N),前面最后一个之所以乘3,是对每一个车道输出三种描述,分别是中心线,中心线,和车道线)中的一个i∈{1...N},对应着一个anchorXiA,每一个anchor,XiA,类型t∈{c1,c2,d}被输出表示为(xti,zti,pti),最终的输出还会经过一个1D的非极大抑制,就如在目标检测中的那样,只保留局部最大置信度的车道(与左右相邻anchor相比),每一个被保留的车道线,都有少量的3D(K个)点,然后利用他们,利用样条插补的方式完成光滑曲线的生成。
 
 3.4训练与真值关联给定一个图片,和他对应的3D曲线,训练过程如下:第一真值坐标系Croad被定义为与当前路面切面相关的,使用θ和hcam定义的,如前面所描述的那样。接下来,每一个车道曲线,投影到Croad坐标系下的X–Y平面上,并且与他们关联的anchor定义为在Yref处与他们最近的那个。(这里的关联就是这个anchor负责预测哪个,与yolo里目标中心落在哪个小方格中心,哪个小方格就预测谁类似)对于每一个anchor来说,最左侧的中心线,以及最左侧的车道线t∈{c1,c2,d}被定义为集合中的c1和d1,如果还有额外的中心线,那门它被定义为c2。这种方式将真值定义为与输出相同的形式,每一个anchorXiA和类型t相关的GT被标记为(xti,zti,pti),pti是在坐标系Croad下的分配标识(我理解为有就是1,没有就是0)。 在训练以及评估阶段,整个车道将会被忽略,如果他们在俯视图中在y = Yref处没有值,并且如果他们被地形所挡住,他呢也将被忽略(比如被小山丘挡住),整个的loss函数被给出,如下,它结合了三个等权重的loss,车道线检测(有无)(交叉熵损失)三维几何形状损失,以及道路平面估计损失。

8.webp_.jpg

 
 
4. 模仿合理行为
 
我们的实验描述按如下步骤:我们先回顾一下我们生成的synthetic-3D-lanes 数据集,我们的大多数结论产生于此。接下来,我们描述下对于3D车道检测任务的评估方法,然后,我们展示在我们制作的这个数据及上的结果,以及控制变量法检查每一个概念(方法)对于我们整个方法的贡献。最后,为了证明我们的方法在真实数据上的可用性,我们将我们的方法与其他单图片车道检测办法在tuSimple benchmark 上进行了比较。
 4.1合成的3D车道数据集
我们生成synthetic-3D-lanes 数据集使用考元的图形引擎blender,我们的方法允许我们随机生成模型的各个部分,从场景的3D几何形状,到目标的类型,如图8所示。

9.webp_.jpg

图8.随机生成的数据集。(a)路面(b)道路拓扑结构和曲率(c)路与路面(d)渲染场景。
 
 
生成每一个场景的步骤如下:

  • 3D地形:地形通过随机生成参数的高斯混合分布来生成,如图8a所示。

  • 地形拓扑:车道的数量是被选定的,然后我们选择是否有第二条路,和在这条路里的车道,取决于后来在场景中相机的方向,第二车道的连接被视为一个车道汇聚或者车道分叉。

  • 车道曲率:每一个车道在俯视图中的几何形状用三次多项式建模,如果存在汇聚/分叉,则选择连接点,这个在俯视图上的结果如图8b所示,车道的宽度被随机选择为3到4米。

  • 3D车道:俯视图上生成的三次多项式会被映射到之前生成的地形上,第二车道也是,模仿正常道路的拓扑结构,如图8c所示的那样。

  • 地形和道路表示:道路和地形的纹理是从一组纹理中选择的。车道标记的类型和颜色也是随机的。

  • 目标:车辆和树木分别摆放在场景中、道路上和道路外。它们的模型是从一组可选模型中选择的。

  • 场景生成:主车相机通过选择它的车道和他相对于车道中心的横向偏移放置在主道路上。相机的高度被随机设置为140cm到190cm,俯仰角被随机生成为0到5度,最终,光度被设置,并且场景从相机视角生成,每条车道中心线与车道线的3D点被转换为相机坐标系下的坐标,来产生真值。图8包括几个场景的例子,展现了场景的多样性与复杂性。

  • 应用细节:正常视图通路用预训练的VGG16进行初始化,我们使用adam优化方法,学习率设置为5.1*10-4,我们使用在循环学习率上的变化机制如[30]中描述的那样,并且设置最小的学习率为10-6俯视图上的场景在真实场景中的尺寸为80m*20m,IPM在xy两个方向上具有不同的缩放尺度,在第一次俯视图特征图上(第一次变换的)每一个像素点代表着真实世界16cm的宽度(x向)和38.4cm的长度(y向)最后一张特征图的边长是第一张的八分之一,并且每一列代表一个anchor,所以两个临近的anchor之间的距离为真实世界中的128cm(16*8),我们将K设置为6,预设的y的位置为:y={5,20,40,60,80,100}和Yref=20m。 


 4.1.1评估方法我们提出一种对于3D车道检测的评估办法,他讲检测的准确率与几何估计准确率分割开来,检测准确率通过标准的平均精度办法(AP)来计算回归曲线的精度。我们首先计算真值曲线与预测曲线的加权欧式距离,我们计算在预先设定的各个y位置上距离,每80cm的图片距离代表实际的80m,远处的点的距离计算给予较低的权重,然后,我们通过选择减少相似性的配对来执行一对一(曲线)匹配,当他们的加权距离小于一个阈值,匹配被认为是成功的,迭代这个阈值,已获得更加精确地阈值。 对于配对的曲线,我们评估几何估计精度通过计算他们误差的分布,(这在计算距离的时候用到过),我们将整个数据集的车道线点分为近距离(0-30m)与远距离(30-80m)由于他们误差的巨大差异。然后我们计算误差为1δ误差的,比如百分之68这样,还有误差为2δ误差的,比如百分之95类似这样,道路中心线与车道线都各自用这种方法评估。在训练阶段被忽略的那些点,在评估的时候也被忽略。
 4.1.2评估结果在测试集上典型的网络结果如图2,用真值做标记。表1第一行为3D-LaneNet中心线检测定量结果。一个对合成数据集有必要的担心是,他的变换实在是太有限了,导致网络记住了整个样例空间,而不是去学习如何泛化,一个积极地结果表明这种情况没有发生是测试集的AP(0.952)略低于训练集AP(0.966)对于几何误差也是同样的。在接下来的控制变量实验中,我们都用训练好的3D-LaneNet的参数做初始化,用以减少训练时间。
表1.在synthetic-3D-lanes dataset 上的中心线检测结果

10.webp_.jpg

 我们首先通过与其他结构进行比较来探求双通路结构的作用,只有正常视图通路的版本,将网络后部分直接连接到lane detection head 输出Croad下的3D坐标,就如完整版本那样,这个时候anchor 被最后一张特征图上的列所决定,对于每一列,我们在预定义的图像y坐标上选取一个像素,并将其投影到俯视图中,以确定与列对应的anchor。只有俯视图版本,首先将图片投影到俯视图上,然后后面继续进行和完整版本的俯视图通路同样的计算。除此之外,我们还测试了两个版本,它们包含双通路结构,但是这个机构的个数和位置不同。Early IPM版本包含一个双特征模块(dual context module),并且是第一个,late IPM同样只包含一个,不过包含的的是最后那个。结果在被总结在表格1中,结果表示了,带有完全体双特征模块的相对于其他变体有着非常好的超级表现,特别的,只有正常视图通路的有着最差的结果,这说明,俯视图通路的处理是十分有必要的。注意late ipm版本,只包含一个双特征模块,表现出了第二高的准确率,但是却减少了很多的计算,这使他成为一个可实时应用的候选模型。 我们尝试了几个版本的道路投影平面定义,这是我们架构和输出表示的核心,我们的第一个尝试是在没有显示监督的情况下,学习每个场景的最佳道路投影平面,类似于[23]中的“H-net”地平线估计,但是这种方法没有得到令人满意的结果。我们认为这一方向值得进一步研究,因为这是最自然的方向。另一个自然的选择是在拟合道路平面时考虑整个场景,而不仅仅是局部道路的发现。为此,我们设计了一种地面真值生成算法,该算法取最远处可见的道路点,并将其与当前道路位置相连接以确定俯仰角。由于这种方法类似于水平估计方法,所以在表格中将其称为水平(horizon)。显然,它的表现总的来说略差,虽然我们一直观察的情况下,场景地形有利于这一定义。我们也尝试假设一个固定的相机位置,其中平均俯仰角为(2.5◦)和相机高度(165厘米)这两个数据被用来定义Tc2r。 表格1中的最后一行显示了假定地面是平坦的图像到世界转换的结果。这通过将我们完整版的网络中估计的z设置为0来实现。尽管这个糟糕的结果有一些繁琐,并且有着高度的数据依赖性,但他还是告诉我们3D车道探测的重要性。带着0.966的AP,完整版的3D车道检测网络在车道线的检测上超过了中心线的检测,这可能是因为在图片中,车道线有比较明显的显示。在他们的位置误差分布上也是同样的(nearrange: 10.5cm@1σ,28cm@2σ; far range:27.3cm@1σ and 106cm@2σ) 既然输出从路面坐标系通过Tc2r转换到了相机坐标系,我们也评估了这种估计的质量以及他对最终结果的影响。俯仰角和相机高度误差的中位数为0.09°和2.4cm,为了消除这两个误差对最终结果所造成的影响,我们评估了Croad下的坐标,方法是通过直接拿到网络的原始输出。
 
 
5. 总结及未来工作
 
我们提出了一个单帧单次cnn前向传播,不需要其他后续处理工作的车道检测办法。在tuSimple benchmark 上,我们展现了富有竞争力的结果,并且在我们合成的3D车道线数据及上,我们的方法能够进行多车道的3D检测。最重要的是,接下来的研究证明了这是可以应用在真是世界的数据上的。我们现在的表示在(在纵向上的anchor,判断Yref存在与否)还比较粗糙,这限制了该方法对车道复杂拓扑结构的表示,比如城市内部,在接下来的工作中,我们会更新我们的表示方法使用端到端的机制来来处理这些情况。

谷歌ChauffeurNet:训练能够鲁棒地驾驶实车的网络

betty19920416 发表了文章 • 0 个评论 • 216 次浏览 • 2019-04-23 10:21 • 来自相关话题

编者按:Waymo于2018年底发表了本论文,介绍如何利用并改进模仿学习以获得能够较为鲁棒的驾驶模型ChaufferNet。它与典型的端到端学习不同,采用的是mid-mid的方式,在仿真环境和实车测试中都有不错的表现。模型一方面基于大量数据模仿学习合理的驾驶行 ...查看全部
编者按:Waymo于2018年底发表了本论文,介绍如何利用并改进模仿学习以获得能够较为鲁棒的驾驶模型ChaufferNet。它与典型的端到端学习不同,采用的是mid-mid的方式,在仿真环境和实车测试中都有不错的表现。模型一方面基于大量数据模仿学习合理的驾驶行为,另一方面通过在合理驾驶轨迹上附加扰动以制造各种特殊的驾驶情形,结合对应的附加损失函数,训练网络如何应对扰动和避免不良行为。ChaufferNet驾驶模型具有较好的鲁棒性,虽然目前还不能够和运动规划方法竞争,但的确是机器学习驾驶模型前进的一大步。
 
 
摘要:
我们的目标是通过模仿学习训练出能足够鲁棒地驾驶真实车辆的网络。我们发现单纯的行为模仿不能应对复杂的驾驶场景,即使我们利用感知系统预处理传感器输入,同时利用控制器在车辆上执行模型输出:3000万量级的学习样本仍然不够。我们尝试利用在合理驾驶的数据上附加扰动得到的合成数据来辅助学习,创造出一些特别的驾驶情形,如车辆发生碰撞或驶离道路。我们不是纯粹模仿所有合理驾驶的数据,而是在模仿损失上增加了一些损失,用于惩罚不良的行为并鼓励学习的进展。在合理驾驶的数据上增加的扰动为这些损失提供了重要信号,并导致学习得到的模型具有鲁棒性。我们证明了ChauffeurNet模型可以应付仿真环境中的复杂情形且能够合理地应对随机因素,同时进行了实验对本文提出的各项改进的重要性加以说明。最后我们展示了使用训练得到的模型在现实世界中驾驶汽车的效果。
 
关键词:深度学习 mid-mid驾驶 驾驶行为学习 轨迹预测
 
 
1.介绍
 
驾驶员在驾驶时需要观察和理解环境中的各种物体,预测它们未来可能的行为和交互情况,然后思考如何控制汽车,在遵从道路交通规则的条件下安全到达目标位置。这项任务对于机器来说是很有挑战性,人类却可以很好地完成,因此模仿学习是解决这个问题的一种很有前景的方法。我们工作的目标就是使得模仿学习得到的模型能够达到可用于驾驶真实车辆的水平。我们在利用大量训练数据(3000万现实世界中合理驾驶的样本,相当于持续驾驶约60天)的基础上尽可能高效地构建了我们的系统。的确,端到端的驾驶行为学习有很多令人兴奋的地方。它们通常致力于通过学习,在相机或激光雷达数据等原始传感器输入数据的基础上,直接预测诸如转向或制动等原始控制输出。但为了降低样本的复杂性,我们选择了建立在感知和控制组件之上的中级输入和中级输出表示。我们使用能够加工处理原始传感器信息的感知系统来产生这种中级输入:俯视的环境表达和目标路线,车辆等物体被绘制为有向的边界框,道路信息和交通信号灯状态也在其中。我们将这种中级输入注入到一个名为ChauffeurNet的循环神经网络中,由这个网络输出一条驾驶轨迹,再由控制器将此驾驶轨迹转换为转向和加速度控制指令。使用这些中级表示的另一个优点是:网络既可以使用实际数据,也可以使用模拟数据来训练,且可以在部署到实车之前在闭环仿真中轻松完成测试和验证工作。
 
我们的第一个发现是,即使在拥有3000万个驾驶样本并使用中级输入和中级输出表示减轻感知与控制负担的条件下,单纯的模仿学习依然不能达到目标。例如我们发现这种情形:本车会与一辆停在狭窄街道一侧的车发生碰撞或者卡在这辆车后不动,然而此时避让和超车都是完全可行的。关键的挑战是我们需要闭环地运行系统,而误差的累积将会导致驾驶情形偏离训练时的分布。这一结果是单纯的模仿学习在驱动车辆驾驶领域具有局限性的很有价值的证据。此外我们还发现在模仿损失的基础上,增加一些抑制不良行为并鼓励学习进展的损失,同时增加附加了扰动的合成驾驶轨迹可以克服这一挑战。这些改进使得模型能够接触到发生碰撞和驶出道路等非常规行为,同时损失函数的增大将引导模型避免这些行为。正是由于采用中级的输入输出表示,我们才能得到大量这样的合成驾驶轨迹。这些扰动很难从原始传感器输入或直接馈送到车辆的控制器输出中生成。
 
我们首先在仿真中评估整个系统以及进行损失函数扩增和数据扩增的重要性,之后展示最终模型如何在现实世界中驾驶汽车,并协调处理涉及其他交通参与者、转弯、停车标志和交通信号灯等对象的驾驶情形。变道等具有高度互动性的驾驶情形,仍然需要在强化学习的框架内进行大量的探索。这就要求实现对其他交通参与者例如行人的模拟,而这种模拟也是一个正在迅速发展的值得探索的研究领域。本文的贡献可以理解为:在没有使用强化学习的条件下,我们仍然可以用纯粹的离线数据来完成更多的驾驶学习任务。
 
2. 相关工作
 
ALVINN上数十年的工作(Pomerleau(1989))揭示了浅层神经网络如何直接利用相机数据和激光测距数据使车辆沿着道路行驶。以端到端的方式学习自主驾驶在近些年掀起新的热潮。Chen等人最近的工作(2015)展示了使用一个卷积网络来预测可行驶空间,例如和前方车辆的距离。预测的可行驶空间可用于控制器的编程,控制在高速公路上行驶的车辆。NVIDIA的研究者们(Bojarski等人(2016,2017))展示了如何训练一个端到端的深度卷积神经网络,利用相机输出的数据作为输入,控制车辆的转向。Xu等人同样利用相机输出的数据,训练了一个神经网络用于预测离散的或连续的动作。Codevilla等人(2018)也训练了一个网络,使用相机的输出作为输入,使用高级的控制指令来输出对转向和加速度的控制。Kuefler等人(2017)使用生成对抗模仿学习(GAIL),使用简单的affordance-style特征作为输入,以克服基于行为复制策略得到的模型中经常出现的过大误差,因而对于扰动有更好的鲁棒性。Hecker等人最近(2018)训练了一个使用360度环视相机输出作为输入,包含目标路线规划模块的驾驶模型,可以预测转向和车速。CARLA模拟器(Dosovitskiy等人(2017))在Sauer等人的工作(2018)中都有用到,它可以基于传感器数据估计若干个可行驶空间并在仿真的城市环境中驾驶车辆。Muller等人(2018)利用和本文思路相似的中级表示,在仿真环境中使用CARLA训练了一个系统。具体的方法是从一个场景分割网络中训练驾驶策略,并输出高级的控制指令,方便了后续基于迁移学习的方法利用现实世界驾驶数据训练得到的一个不同的场景分割网络。Pan等人(2017)同样描述了如何利用基于学习的intermediate场景标注方法,将仿真环境中训练得到的模型向真实世界中迁移。Shalev-Shwartz等人(2016)提到在模拟器中使用强化学习训练机器完成诸如变道等复杂的且具有高度交互性驾驶任务。目前已经有机器学习之外的大量的车辆运动规划方面的工作,Parden等人(2016)对此给出了一个很好的调研。
 
3.模型架构
 
3.1输入输出表示
首先描述网络如何处理俯视的输入表示,进而输出可行驶的轨迹。在任何时间t,本车状态可以俯视坐标系中的坐标pt,θt,st来表示,其中pt=(xt,yt)表示位置,θt表示航向角或行驶方向,st表示速度。俯视的坐标系按照以下规则选定:本车在当前时刻t=0的位置p0始终位于图像中的固定位置(u0,v0)。为了在训练阶段扩增数据,每一个训练样本都在θ0±Δ的角度范围内随机选择坐标系的方向,其中θ0表示本车在当前时刻t=0的航向角或行驶方向。俯视图由一组分辨率为W×H的图像表示,地面的采样分辨率为φ米/像素。随着本车的移动,这些环境视图也发生移动,因此本车总是观察一个固定前视范围内的环境,即[Rforward=(H-v0)φ]米。这样就模拟出了车载的传感器只观察车辆前方Rforward米范围内的环境的情形。
 

1.webp_.jpg

                                                                                    图1:驾驶模型的输入(a-g)和输出(h)
 
如图1所示,模型的输入由几个大小为W×H,并且调整到俯视坐标系的图像组成。(a)路线图:一幅3通道彩色图像,包含各种地图特征如车道、停车标志、人行横道和路缘等。(b)交通信号灯:灰度图像的时间序列,序列中的每一帧表示一个过去时间步的交通信号灯状态。我们在每一帧中为每个车道的中心线着色,最亮的灰度级对应红灯,中间灰度级对应黄灯,较暗的灰度级对应绿灯或未知信号灯。(c)限速:单通道图像,车道中心的着色灰度与本车道对应的限制车速成比例。(d)路线:驾驶的目标路线,它由一个路线规划模块产生。(e)本车边界框:显示了本车在当前时间t=0的完整边界框。(f)环境中的动态对象:图像的时间序列,序列中用有向边界框的形式显示所有的动态物体(车辆,骑自行车者,行人等)。(g)本车的历史位姿:本车的在各个历史时刻的位姿,用单个灰度图像中某个点的运动轨迹表示。

2.webp_.jpg

图2:驾驶模型的训练 (a)ChauffeurNet的模型核心是一个FeatureNet网络和一个AgentRNN网络 (b)共同训练的路标预测网络和PerceptionRNN (c)训练的损失函数以蓝色显示,绿色部分代表真值。虚线箭头表示从一次迭代到下一次迭代的预测值的循环反馈。
 
我们使用δt的固定时间间隔,来采样过去或者未来时间点上的信息,例如上述输入中的交通信号灯状态和动态对象状态。在过去的Tscene秒内对交通信号灯和动态对象进行采样,在过去的Tpose秒甚至更长的时间间隔内对本车的位姿进行采样。这种简单的输入表示,特别是用边界框表示其他动态对象,使得从仿真或实际感知系统记录的检测和跟踪对象日志中生成输入数据变得更加容易。这样在实车运行之前,就可以在闭环仿真中完成测试和验证的工作。仿真数据的利用,使得模型可以充分探索现实中较少发生的驾驶情形,从而改进模型。例如在现实世界中,我们很难获得与发生碰撞相关的数据。使用二维的俯视图还意味着可以实现有效的卷积输入,允许以灵活且易读的方式表示各种数据以及它们的空间关系。使用I表示上面列举的输入图像的集合,ChauffeurNet模型便以这些输入为基础反复预测本车的未来位姿,如图1(h)中绿色的点所示。

3.webp_.jpg

                                                            图3:(a)ChauffeurNet概览    (b)多次迭代中的存储单元更新
 
公式1中,当前位姿p0是已知的输入,然后ChauffeurNet执行N次迭代并输出预测的未来轨迹{ pδt,p2δt,…,pNδt }和如未来速度等一些其他的属性。该轨迹可以输入到优化控制器内,以计算出具体的驾驶控制指令(例如转向和制动命令)。当然,这些控制指令要满足车辆动力学约束。不同类型的车辆可能利用不同的控制输出来实现相同的驾驶轨迹,这也印证了训练网络直接输出低层次的转向和加速度控制指令在这里是不太合适的。
 
3.2 模型设计
概括地说,驾驶模型由如图2所示的若干部分组成。图中(a)部分是ChauffeurNet模型的主要部分,由特征提取卷积网络(FeatureNet)组成。FeatureNet使用中级输入数据来创建可由其他网络共享的特征表示。这些特征被本车的循环神经网络(AgentRNN)使用,以迭代地预测驾驶轨迹中的后继点。轨迹中时刻t对应的点用位置pt=(xt,yt),航向角θt和速度st来描述。AgentRNN还在未来的每个时间步上,以heatmap的形式预测车辆的边界框。图的(b)部分可以看到另外两个网络,它们使用相同的特征表示作为输入共同训练。Road Mask网络预测视野中的可驾驶区域(道路与非道路),感知循环网络(PerceptionRNN)迭代地预测描述空间分布的heatmap。利用和主要任务共享的特征表示来很好地完成这些附加任务,改进了模型在完成主要任务基础上的泛化能力。图2(c)显示了训练模型过程中使用的各种损失,这些损失将在下面详细讨论。

                                                           
4.webp_.jpg

                                                                图4:信息流图表示的端到端驾驶软件架构
 
图3更详细地说明了ChauffeurNet模型。图1中的输入传递给具有skip-connections结构的卷积神经网络FeatureNet。FeatureNet输出的特征表示F中包含了环境的上下文信息。这些特征被提供给AgentRNN,并由AgentRNN基于一系列条件预测驾驶轨迹的下一个点pk以及预测本车边界框的heapmap:Bk。这些条件包括FeatureNet得到的特征表示F,迭代次数k:{1,…,N},对AgentRNN的过去获得的预测结果的记忆Mk-1,以及在前一次迭代中预测的本车边界框heatmap:Bk-1
                                                             
                                                                         
5.webp_.jpg

 
存储单元Mk是由单通道图像组成的叠加式存储单元。AgentRNN的第k次迭代中,存储单元(单通道图像)在AgentRNN预测的图像位置pk处增加1个点,然后此存储单元传递给下一次迭代。AgentRNN在heatmap上输出对本车下一位姿的预测,使用arg-max操作可从heatmap中获取位姿的粗略估计pk。AgentRNN采用一个较浅的且具有一个全连接层的卷积网络,对姿势δpk进行亚像素级别的细化,并估计出航向θk和速度sk。在训练时AgentRNN会展开固定次数的迭代,下面要描述的损失将在这些展开的迭代步中进行累加。这样之所以可行,是因为我们使用的是非传统的RNN,采用的存储单元是显式设计的而不是通过学习产生的。
 
3.3系统架构
图4表示的是在自动驾驶系统中如何使用神经网络的系统层面的概述。通过感知系统处理真实世界传感器输出或者从仿真环境获取,更新本车和环境状态。目标路径从路径规划模块获得,且根据本车是否能够跟随过去的目标路径驾驶进行动态更新。环境信息被整合到图1所示的输入图像中并传递给RNN,由RNN输出未来的轨迹并送到优化控制器,进而输出驱动车辆的低级控制信号(在现实世界或仿真环境中)。
 
 
4. 模仿合理行为
 
4.1 模仿损失
4.1.1本车位置,航向角和边界框预测
AgentRNN在每次迭代k产生三个输出:(1)基于空间softmax得到的预测路点在空间坐标系中的概率分布P
k(x,y)。(2)当前时间步k对应的预测本车边界框heatmap: Bk(x,y),基于逐像素的sigmoid激活函数生成,表示本车占据特定像素的概率。(3)回归获得的边界框航向角输出θk。掌握上述预测量真值的条件下,我们可以为每次迭代定义相应的损失:
 

                                                                                         
6.webp_.jpg

 
其中上标gt表示对应的真值,而H(a,b)是交叉熵损失函数。注意[Pgtk]是二值图像,只有对应目标真值坐标的像素的值才被设置为1。
 
4.1.2本车预测
预测网络在每一次迭代中,基于特征并且使用回归的方式,对粗略的路点估计结果生成亚像素级别细化的δp
k以及每个点的速度估计sk。我们对这两种输出均采用L1损失函数:
 

7.webp_.jpg

 
4.2 对过去运动行为的dropout
训练过程中,过去的运动历史被作为输入之一提供给模型。训练过程中的运动历史来自合理驾驶的示范,因此网络可以基于过去作出僵化的推断而不是发现行为背后的具体原因,类似“欺骗”。在进行闭环推理时这种“欺骗“就会崩溃,因为运动历史来自于网络本身在过去的预测。这样训练出来的网络,也许会只有在过去运动历史中发现减速时,才在停车标志前停车,永远不会在闭环推理时在停车标志前停车。为了解决这个问题,我们引入了一个针对运动历史的dropout机制:对于50%的样本,在输入数据中的本车历史位姿这一通道中,仅仅保留本车当前位姿(u0,v0)。这一点迫使网络寻找环境中的其他线索,来解释训练样本中的提供的未来运动数据。
 

8.webp_.jpg
图5:轨迹的扰动。(a)原始记录的训练样例,其中智能体沿着车道的中心行驶。 (b)扰动样例,通过扰动原始记录中当前智能体的位置(红色点)使其远离车道中心,然后拟合新的平滑轨迹,该轨迹使智能体沿车道中心返回到原始目标位置。
 
 
5. 在纯模仿之外的工作
 
5.1合成扰动
将模型作为闭环系统的一部分运行,随着时间的推移,输入数据会偏离训练时的分布。为了防止这种情况出现,我们在训练模型时对一部分本车轨迹的样本,附加现实中可能出现的各种扰动。轨迹的起点和终点保持不变,扰动施加在轨迹中点的周围,且在周围的多个轨迹点上得到平滑。定量地来看,各个轴上产生在[-0.5,0.5]m范围内均匀分布的随机抖动,航向角产生在[-π/3,π/3]弧度范围内的随机抖动。我们用平滑的轨迹拟合扰动后的点和原始的起点与终点。这类附加扰动的训练样本,使汽车在受到扰动后能够回到原来的行驶轨迹上。我们通过设置轨迹曲率的阈值,滤除了一些实际中不太可能出现的扰动后的轨迹。我们允许扰动后的轨迹与其他车辆发生碰撞或驶离道路,因为只有这样,网络才能在原有样本中没有类似情况出现的条件下,也能经历并且学会如何避免这样的行为。训练过程中我们给附加了扰动的样本的权重是真实样本的权重的1/10,避免学到的模型有始终在扰动状态下驾驶的倾向。
 
5.2 模仿损失之外的损失
5.2.1 碰撞损失

由于我们的训练数据没有任何实际碰撞,因此避免碰撞的想法是隐式的,不能很好地泛化。为了缓和这个问题我们增加了一个专门的损失函数,直接度量在每一个时间步上预测的边界框Bk与场景中所有物体的边界框真值的重叠率。
 

9.webp_.jpg

 
其中Bk是输出本车边界框预测的似然图,Objgtk是时间k对应的二值化的掩模图像,所有被其他动态物体(其他车辆,行人等)占据的像素的值都为1。训练过程中的任何时候,如果模型预测到将会发生碰撞,大的重叠率会造成的损失增加,进一步影响到模型更新的梯度,从而纠正这种错误。但是这种损失仅在训练的初始阶段有效,也就是在模型还没有能够预测出接近真值的位置时。在轨迹上附加扰动之后,这个问题得到了缓和。这是因为在附加扰动的样本中,人为制造出来的碰撞情形使得上述损失函数在训练过程中能够发挥出作用,影响模型更新的梯度。此外这种方法还达到了类似在强化学习中设置在线探索的效果。
 
5.2.2 驶离路面损失
轨迹扰动同时会产生车辆驶离道路或驶上路缘的情形。为了训练网络避免车辆驶上道路边缘,我们增加了一个专门的损失函数,在每一个时间步k上度量预测的本车边界框和表示视野中的道路和非道路区域二值掩模图像Roadgt的重叠率。
                                                           
                                                               
                                                         
9.webp_.jpg
   
 
5.2.3 目标轨迹几何损失
我们希望显式地约束本车,使其沿着独立于速度曲线的目标轨迹行驶。通过用平滑曲线拟合目标路点,并将此曲线调整为俯视坐标系中的二值化图像,来对目标轨迹几何形状进行建模。该曲线的宽度被设定为和本车宽度相等。我们用类似定义碰撞损失的方式,通过预测的本车边界框和二值化的目标轨迹几何图像Geomgt的重叠率,度量这种与目标轨迹几何形状相关的损失。边界框的任何不与目标几何轨迹重叠的部分,都将被转化为惩罚值并加入损失函数中。
 
                                                               
10.webp_.jpg


                                                               
11.webp_.jpg
图6:在样例输入上将预测和损失函数可视化。上面一行是输入的分辨率,而下面一行是当前智能体位置周围的放大视图。
 
5.2.4 附加损失
与预测本车轨迹类似,循环网络也可以用来预测其他交通参与者。因此我们添加了一个感知循环网络PerceptionRNN,它使用FeatureNet创建的共享特征F和它自己在前一次迭代预测的heatmap:Objk-1作为输入,并预测每次迭代的heatmap:Objk。Objk(x,y)表示k时刻位置(x,y)被动态物体占据的概率。对于k=0的迭代步,使用动态对象的真值数据输入到PerceptionRNN中。
 

11、12.jpg

 
5.3 Imitation Dropout
总的来说我们的损失可能分为两组。模仿损失如下:
 

13.webp_.jpg

 
环境损失如下:
                                                          
                                                           
14.webp_.jpg

 
模仿损失导致模型模仿合理驾驶的示范行为,而环境损失抑制了诸如碰撞等不良行为。为了进一步增加环境损失的有效性,我们试验时使用了具有随机退出机制的模仿损失,称为"imitation dropout"。在实验中我们证明"imitation dropout"相比于简单地降低模仿损失的权重,可以得到更好的驾驶模型。在"imitation dropout"过程中,每个训练样本的模仿损失wimit被按照一定的概率随机置为0或1。整体损失由下式给出:

15.webp_.jpg

 
 
6. 总结
 
在本文中,我们介绍了让模仿学习在现实世界的完成驾驶任务也能拥有良好表现的研究经验。我们发现成功的关键在于,在合理驾驶行为的基础上附加扰动合成出各种驾驶情形,并增加适当的损失来抑制不良的行为。这些改进可以使模型学会如何避免发生碰撞和驶离道路,即使这些情形在合理驾驶的样本中很少出现。为了支持这一点,并更好地利用合理驾驶的数据,我们使用了中级的输入和输出表示,从而轻松混合真实和仿真数据并减轻学习感知和控制的负担。基于这些要素我们得到了一个足以驾驶真实车辆的模型。虽然该模型还没有完全实现与运动规划方法展开竞争,但我们认为这是机器学习驾驶模型迈出的一大步。通过在模拟中探索罕见和困难的情景,对合理的驾驶行为进行彻底的增强(也许是在强化学习框架中完成),将是提高这些模型的性能并将其用于具有高度交互性的交通场景的关键。

自动驾驶发展现状及热点研究——仿真模拟平台

奇点汽车 发表了文章 • 0 个评论 • 178 次浏览 • 2019-04-01 13:43 • 来自相关话题

对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。 仿真模拟平台 ...查看全部
对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。


仿真模拟平台

顺便介绍一下,仿真模拟平台的发展。

DARPA当年比赛的时候前几名都做了模拟系统,谷歌收购斯坦福团队以后就先把模拟仿真平台升级了。毕竟它是一个软件系统,谷歌天生就强。这里不包括那些车体动力和电子性能的模拟仿真工作,这个已经存在好多年,是车企的强项,比如它们常用的CarMaker,PreScan,CarSim等商用软件系统。

这是谷歌CarCraft和Xview的样子:

33.jpg

34.jpg




其中提到的"fuzzing"图就是这样的:

35.jpg



仿真模拟平台已经是自动驾驶开发的标配,看看Daimler汽车公司这部分工作的介绍:

36.jpg



还有自动驾驶高校研究的例子:北卡的AutonoVi-Sim

37.jpg



专做这块的小公司,比如英国的rFpro,这两个图来自它发的一篇论文:


38.jpg

39.jpg



以上就是个人总结的自动驾驶几大板块的研究热点,欢迎探讨。

自动驾驶发展现状及热点研究——规划控制

奇点汽车 发表了文章 • 0 个评论 • 243 次浏览 • 2019-04-01 13:41 • 来自相关话题

对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。 规划控制 下面该是规划控制( ...查看全部
对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。

规划控制

下面该是规划控制(包含预测和决策)。

规划分三个层面,路径规划(任务规划),行为规划和运动规划。最后一个运动规划,和后面的控制模块捆在一起,基本上L2-L4都通用了,除非软硬件联合开发,L2和L4用的运动规划(经典的有RRT,Lattice planner)及控制(PID,MPC之类)没啥变化。路径规划,就是基于道路网络确定地图上A点到B点的路径,这个以前导航地图也是要做这个任务。那么,剩下一个最新的问题就是行为规划了。

行为规划需要定义一个行为类型集,类似多媒体领域采用的ontology,领域知识的描述。而行为规划的过程,变成了一个有限状态机的决策过程,需要各种约束求解最优解。这里对周围运动障碍物(车辆/行人)的行为也有一个动机理解和轨迹预测的任务。上面谈到的,感知模块对周围车辆行人的行为理解,就会在这里扮演一个重要的角色。

深度学习在这里有价值了。行为模型的学习过程需要大量的驾驶数据,包括感知和定位的输出,路径规划和车辆的运动状态作为输入,最终的车辆行驶的控制信号(方向盘,油门,刹车)作为输出,那么这就是一个E2E的行为规划+运动规划+控制的模型;如果把车辆轨迹作为输出,那么这个E2E就不包括控制。

如果把传感器/GPS/IMU/HD Map和路径规划作为输入,那么这个E2E就是前端加上感知的模型,这就变成特斯拉想做的software 2.0,不过感知太复杂了,不好办。还是觉得把感知和定位的输出作为输入吧,这样放心:)。

这里不得不提到自动驾驶的仿真模拟系统,按我看,这种规划控制的行为模型学习,最适合在模拟仿真环境做测试。Waymo在Carcraft仿真系统中测试左拐弯行为时候,会加上各种变化来测试性能,称子为“fuzzing"。

这里给大家推荐两篇重要论文做参考:
1 “A Scenario-Adaptive Driving Behavior Prediction Approach to Urban Autonomous Driving”
2 “ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst”

第一篇是中科大的论文,个人认为非常适合大家了解百度刚刚发布的Apollo 3.5的行为规划模型。这篇文章我一年前就读了,不是深度学习的方法。这里贴几个截图:

25.jpg

26.jpg

27.jpg

28.jpg






第二篇论文是Waymo最近发的research工作,是深度学习方法,完全依赖其强大的感知模块输入,还有1000万英里的驾驶数据,强烈推荐。附上几个截图:

29.jpg

30.jpg

31.jpg

32.jpg

自动驾驶发展现状及热点研究——地图与定位

奇点汽车 发表了文章 • 1 个评论 • 243 次浏览 • 2019-04-01 13:36 • 来自相关话题

对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。  再谈地图和定位。 我们知道自动驾驶在L2是 ...查看全部
对自动驾驶而言,传感器、感知、地图定位和规划控制是目前研究的热点,本文奇点汽车美研中心首席科学家兼总裁黄浴博士从多个方面综述了目前自动驾驶的技术水平以及不同板块的重要性。
 再谈地图和定位

我们知道自动驾驶在L2是不需要地图的,特别高清地图(HD Map),带有车道线信息,L2级别用不上,现在有一种“降维打击”模式,采用L4技术去开发L3甚至L2,主要是地图定位可以提供很多辅助信息,简化一些感知负担,比如车道线,路牌和红绿灯位置。

一般我们看到的地图,俗称导航地图,基于GPS进行车定位和道路规划。现在又出现了一种ADAS地图(四维图新就提供这种服务),其实就是在导航地图上附加一些信息,比如道路曲率和坡度,可以有助于车辆控制的时候调整参数,如ACC,LKS。

我们一般谈到定位,可以是GPS/IMU,也可以是高清地图。前者有误差,要么采用差分GPS,如RTK(国内的千寻网络就是提供这样的服务),要么和其他方式融合,比如激光雷达的点云匹配,摄像头的特征匹配,也包括基于车道线和路牌的识别定位。

谈到高清地图,以前提到过两种模式,一是谷歌的高成本方式,采用高价的数据采集车,获取环境的激光雷达点云以及反射灰度图,滤除不需要的物体(行人/车辆/临时障碍物),提取车道线/红绿灯/路牌(停止/让路符号,街道距离信息)/车道标志(箭头/限速/斑马线)等等,另外也标注了道路的其他信息如曲率,坡度,高程,侧倾等等。

这是一个谷歌HD Map的截图:

20.jpg



由于激光雷达点云数据大,大家就考虑压缩的方法,比如TomTom的RoadDNA,国内高德地图的道路指纹匹配,美国startup地图公司CivilMaps也有类似地图指纹技术,不过前者是在视觉层,而后者是在点云层。有些公司是不提供点云层,因为数据太大,相反视觉层和语义层可以给,基本矢量图就能描述,数据量小多了,但匹配难度大。地图的绘制,存储和访问是相当复杂的工程,所以投入很大,尤其是底图(base map)的绘制。

这是TomTom的RoadDNA定位的介绍截图:

21.jpg



高清地图的第二种方式就是Mobileye和Tesla采用的,一般低成本,期望通过众包实现。不用激光雷达,采用摄像头获取道路标识,Mobileye称之是REM(Road Experience Management),也是“路书”(Roadbook)。REM提取的信息有道路边缘线、车道中心线、车道边缘线以及静态物体的标示。

截图来自Mobileye的REM介绍:

22.jpg



Bosch基于此,还提出一种基于毫米波雷达的方法提取道路其他信息,比如隔离栏、电线杆和桥梁等等,称为Bosch Road Signature(BRS)。追随这种众包方法的公司也不少,如特斯拉出来的人成立的公司Lvl5,国内有几家,如宽凳科技,MOMENTA,深动科技,最近地平线也给出一个NavNet平台,支持这种众包的低成本制图方式。

这是Lvl5作图的一个示意图:像VO的例子吧。

23.jpg



其实“实时更新”是高清地图提供服务的关键,而对这个服务的成本考虑当然是第二种方式容易推广。众包的缺点是容易数据碎片化,同时摄像头的制图难度也远大于激光雷达方法,视觉SLAM是比较有挑战性的,当然如果限制一下做车道线和路牌为主的目标取地图特征,难度可以降低。

美国地图公司HERE采用的更新方法也是通过众包,只是它先建了底图。所以,一些提出众包建图的公司都想先拥有底图。Mobileye就和HERE合作,最近它在日本已经完成了REM的高速公路建图。

这张图是在今年CES介绍REM的一页PPT:

24.jpg



定位是基于地图的,融合方式是包括GPS/IMU/HD Map,比如隧道就没有GPS信号,甚至高楼大厦密集的地方也不会有稳定的GPS信号,如果网络不好造成地图下载不利,基本就是靠IMU和L2的车道线/路牌识别了(激光雷达的反射灰度图可以做车道线识别,但是传感器性能有时候限制它的工作距离,不如摄像头灵活),这时候“降维打击”的方法都失效了,回归原始,就靠现场感知了,真正的“老司机”做派:)。

值得一提的是,MIT教授就有在研究如何不用地图做自动驾驶。