无人驾驶汽车核心技术(报告)(五)

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航 ...查看全部

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航定位(惯性导航、GPS/北斗导航、智能组合导航)、控制、操作系统。对著名车企无人车商用化前沿也进行了较为全面的介绍。最后对无人车系统技术在物流、出租车、安全、养老等领域的定制化开发应用用实例进行说明。希望为无人车技术的进一步发展带来启发,为促进无人系统技术的市场化和产业化发展做出贡献。

引言:

无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶技术是多个技术的集成,包括传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理等。2018年4月12日,工信部、公安部、交通运输部联合制定的《智能网联汽车道路测试管理规范(试行)》对外发布,对测试主体、测试驾驶人、测试车辆等提出要求,明确省、市级政府相关主管部门可自主选择测试路段、受理申请和发放测试号牌。这表明无人驾驶汽车在往商用化迈进的道路上又加快了步伐。

1.jpg

2.JPG

3.JPG

4.JPG

5.jpg

6.jpg


7.JPG

8.JPG

博客 飞奔的蜗牛

LV1
4 天前
45

无人驾驶汽车核心技术(报告)(四)

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航 ...查看全部

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航定位(惯性导航、GPS/北斗导航、智能组合导航)、控制、操作系统。对著名车企无人车商用化前沿也进行了较为全面的介绍。最后对无人车系统技术在物流、出租车、安全、养老等领域的定制化开发应用用实例进行说明。希望为无人车技术的进一步发展带来启发,为促进无人系统技术的市场化和产业化发展做出贡献。

引言:

无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶技术是多个技术的集成,包括传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理等。2018年4月12日,工信部、公安部、交通运输部联合制定的《智能网联汽车道路测试管理规范(试行)》对外发布,对测试主体、测试驾驶人、测试车辆等提出要求,明确省、市级政府相关主管部门可自主选择测试路段、受理申请和发放测试号牌。这表明无人驾驶汽车在往商用化迈进的道路上又加快了步伐。

1.jpg

2.JPG

3.JPG

4.JPG

5.jpg

6.jpg

7.JPG

博客 飞奔的蜗牛

LV1
4 天前
44

电瓶车搭载PM2.5传感器倡导绿色多元化出行

电瓶车,又可称为电动摩托车、电动自行车等,近些年来已经成为了市民出行的主要交通工具。其凭借着全国过亿的数量级,全面超越了私家车及自行车的拥有量(除去共享类交通工具)。因电瓶车本身具有的方便、快捷、省力等众多优点,对于短距离出行显然有着不小的优势。但随着人们对于呼吸健康的深入关注,问题就渐渐地浮现了。例如在雾霾天如果选择电瓶车或自行车出行无疑就成为了人肉吸霾器,用自己的呼吸健康来过滤路面上可能存在的PM2.5或其他空气污染。当然,没有人会愿意处于这种境地。而空气污染又是看不见、摸不着的。什么时候遭遇,我们并不会知道。

 

图片1.png


那么,有人会建议,出行一直带着戴口罩不就行了。其实这里存在着两点问题:

 

1)不方便。经常戴口罩出门的人都会感觉些许不方便。这是因为不仅要在出门的时候将口罩戴上,而且要关注口罩是否要进行定期更换。在炎热的夏天出门戴口罩更是另一种折磨。由于又热、又闷,久而久之人们就会忘记出门戴口罩这件事。

 

2)不健康。对于呼吸孱弱的人群来说,长时间戴口罩其实会是一种较大的负担,其会导致呼吸不畅或者引发呼吸道疾病的加重。而这种不分时段的长期佩戴,着实显得不科学,因为当没有空气污染的时候,呼吸新鲜空气才是更健康的选择。

 

根据这种情况,有人就有了在电瓶车上加载PM2.5传感器进行颗粒物的实时监测的想法,这种概念是一个很大胆的构想,虽然有点超前,但是也不是毫无道理。

 

1)与私家车对比。近些年中高档的私家车对车内的空气质量可谓相当关注。有些豪华款车型更是具备了空气质量在线监测及治理系统,车内的空气质量优劣已经成为了定义一辆好车的关键性因素之一。当然,作为电瓶车和私家车从造假上是无法相比的,但是对于维护使用者健康的期望应该是同等的。

 

2)与自行车对比。与自行车对比电瓶车在实现该种构想上有着绝对的优势。电瓶车的蓄电池可以为PM2.5传感器供应足够的电量,使其正常工作。这就为电瓶车上嵌入PM2.5传感器提供了可能性。

3)成本因素。目前市场上PM2.5传感器价格并不很高,这就为大量应用提供了前提。在定价4千~5千元的豪华款车型上,如果能含有雾霾提醒功能,无疑对电瓶车品质会是一种提升。

 

应用的益处PM2.5传感器在电瓶车上得到大量的应用,那么我们或将得到以下益处:

 

1)数值提醒:当电瓶车启动之后,PM2.5传感器就会开始工作。其会将所处路段的PM2.5状况都显示出来。骑车者可以根据PM2.5的具体状况来选择是否要佩戴防护口罩。当PM2.5指数良好时,就无需佩戴了。

 

2)规划路线:对于使用电瓶车的上班族来说,规划一条没有PM2.5的上下班路线成为可能。可主动远离PM2.5较高的路段,例如交通主干道、建设工地等。这样就可以相对安心的上下班了。

 

3)突发应急:对于大规模雾霾天气,PM2.5传感器给出的爆表或浓度过高等提示无疑更加直接。这使得骑车者需要考虑是否还继续要在雾霾如此严重的情况下进行出行,是否可以采取进入室内暂避等措施。要知道在伸手不见五指的重度雾霾天气,不仅是呼吸健康,交通安全更需要值得注意。

 

PM2.5传感器在电瓶车上的应用目前仅在构想阶段,但随着人们对于呼吸健康的越加关注,该种方式或将成为可能。之前就有专家建议,将空气质量传感器布局与每辆出租车上,那么通过在线监测平台就可以精准地掌握城市内完整的空气质量动态状况。而这类构想的产生,无疑都是在传感器技术不断更迭的基础上的。由于传感器技术的不断发展及成本的不断降低,更多的构想应用或将最终成为可能,造福人们的身体健康。

 

那么可能很多人在问,适合在电瓶车上装载的PM2.5传感器器该如何选择呢?


 a3.png


为此工采网小编推荐性价比高的figaro自主研发的激光颗粒物传感器 PM2.5传感器TF-LP01,这款粉尘传感器利用散射原理对空气中粉尘颗粒进行检测的小型模组,可同时测量环境中PM1.0、PM2.5、PM10的浓度值,具备体积小、检测精度高、重复性好、一致性好、实时响应可连续采集、抗干扰能力强、采用超静音风扇,传感器出厂100%检测和标定等优点。

 

日本figaro 激光颗粒物传感器 PM2.5传感器TF-LP01参数:

20190819102652.png

博客 isweek工采网

LV1
4 天前
51

汽车制造商“着急了”:2020年ADAS标配“下沉”爆发「GGAI视角」

尽管ADAS的很多标准还没有落地,但汽车制造商已经等不及了。近日,大众汽车宣布在2020年大多数车型的小改款升级中,将增加更多的标配主动安全功能,包括前辅助(带有自动紧急刹车的前向碰撞警告),侧辅助(盲点监测),后向交通警报、自适应巡航控制 ...查看全部

尽管ADAS的很多标准还没有落地,但汽车制造商已经等不及了。

近日,大众汽车宣布在2020年大多数车型的小改款升级中,将增加更多的标配主动安全功能,包括前辅助(带有自动紧急刹车的前向碰撞警告),侧辅助(盲点监测),后向交通警报、自适应巡航控制等功能。

除了增加功能带动车型的销售,大众汽车希望通过减少选配“缩减”车型的数量。目前,还不清楚国内后续推出的新车型是否也包含在内。

以目前大众在华销售排名靠前的几款车型为例,排名第一的朗逸,仅有顶配车型标配碰撞报警/主动刹车,次之的宝来,也仅仅是顶配车型标配碰撞报警/主动刹车、前倒车雷达。

目前上述两款车的在售车型数量达到了近40款。而这两款车去年在华销量总和接近75万辆。

《高工智能汽车》统计了目前大众集团在华销售车型数据,截止目前在售车型40个,共计397款配置。其中,前后盲区(超声波雷达)搭载率为50.88%,主动刹车搭载率仅为27.46%,360全景更是低至3.78%。

如果明年上述改款车型按照全球化配置推进,意味着ADAS渗透率在经济型乘用车市场将呈现爆发增长态势。

同样的趋势,也在另一家经济型乘用车大厂丰田得到印证。2018年,卡罗拉以全年118万辆的销量继续蝉联“全球最畅销汽车”。

今年全新一代卡罗拉即将上市,三款先期发布的车型全系标配toyota safety sense(TSS1.0)智行安全系统,包括车道保持、车道偏离预警、预碰撞安全系统、动态雷达巡航控制系统等。

而在上一代卡罗拉上,仅有顶配车型(双擎)搭载了前后倒车雷达,其余安全辅助功能基本看不到。

丰田品牌旗下车型也在去年开始升级全新的第二代Toyota Safety Sense 2.0(TSS 2.0),并首次搭载于2019款花冠掀背车。

此外,丰田正在改进和完善这些技术,TSS 2.0是其ADAS安全感知套件的第二代改进版,并将陆续以标配方式搭载于美版2019款RAV4、2020款花冠轿车和汉兰达。

此外,去年单车销量排在第二位的日产轩逸(全年销售48.12万辆),在刚刚上市的全新一代轩逸中,新增了顶配和次顶配车型标配了自动紧急刹车功能(最新的日产智行技术,包括车道偏离预警、主动刹车、并线辅助),而上一代车型全系都没有。

这些变化的背后,除了新车型增加市场竞争力的需求,更重要的还有政策的推动,这使得各大汽车制造商在主力销量车型上“狠下功夫”。

在C-NCAP2018版里,就已经增加了行人保护试验和车辆自动紧急制动系统(AEB)试验,评分及星级划分体系也做了较大调整,但主动安全权重只有15%。

不过从今年开始,主动安全五星得分要求从26%提高到38%,到明年这个数字将增加到55%。这也就意味着如果汽车不搭载AEB将无法拿到5星。

而工信部也在近日发布了三项ADAS推荐性国家标准,除了术语定义外,新增了BSD盲区监测以及LKA车道保持辅助性能要求及测试方案。

按照年初发布的《车联网(智能网联汽车)产业发展行动计划》,到2020年新车驾驶辅助系统(L2)搭载率达到30%以上,按照截止7月31日在售车型L2搭载率5.69%计算,明年市场新车型将迎来ADAS搭载的爆发年。

1.jpg

博客 飞奔的蜗牛

LV1
2019-08-16 10:10
90

气体流量传感器在汽车电子上的应用

现代汽车电子已经从之前电子元器件到车内电子系统 ...查看全部

现代汽车电子已经从之前电子元器件到车内电子系统的应用进入了一个新的、有本质性改变和提高的新阶段。其中最有代表性的核心器件之一就是传感器。关于传感器在汽车领域的市场前景工采网小编曾在上一篇《2019汽车节能减排新趋势 车用气体传感器市场需求可期》文章提及,感兴趣的有车一族可以进入官网资讯查看。下面工釆网继续给小伙伴介绍一款用于汽车电子的气体流量流量传感器。

 

大家都知道,传感器通常由敏感元件、转换元件和转换电路组成,其中敏感元件是指传感器中能直接感受或响应被测量的部分,转换元件是将上述非电量转换成电参量,转换电路的作用是将转换元件输出的电信号经过处理转换成便于处理、显示、记录和控制的部分。传感器作为汽车电子控制系统的信息来源,是车辆电子控制系统的基础关键部件。

 

汽车各个系统控制过程依靠传感器,进行信息的反馈,实现自动控制工作是汽车的神经元。汽车传统传感器依照功能可以分为压力传感器、位置传感器、温度传感器、加速度传感器、角速度传感器、流量传感器、气体浓度传感器和液位传感器等 8 类。如下图:


 6.png

 

可见汽车传感器主要应用于动力总成系统,车身控制系统以及底盘系统中。汽车传感器在这些系统中担负着信息的采集和传输功用,它采集的信息由电控单元进行处理后,形成向执行器发出的指令,完成电子控制。接下我们具体了解一下空气流量传感器在汽车电子中的作用。

 

空气流量传感器:空气流量传感器是将吸入的空气转换成电信号送至电控单元(ECU),作为决定喷油的基本信号之一。

 

为使发动机处于最佳工作状态,就需要从吸入汽缸的空气流量、进气压力的测定开始,再根据水温、空气温度等工作环境参数计算出基本喷油量,同时还要通过节气门位置传感器检测节气门的开度,确定发动机的工况,进而控制,调整最佳喷油量,最后还需要通过曲轴的角速度传感器监测曲轴转角和发动机转速,最终计算出并发出最佳点火时机的指令。这个发动机燃油喷射系统和点火综合控制系统还可以与废气排放的监控系统和起动系统等组合,构筑成可使汽车发动机功率和扭矩最大化,而同时燃油消耗和废气排放最低化的智能系统。

 

因此空气流量传感器它的作用是检测发动机进气量的大小,并将进气量信息转换成电信号输出,并传送到ECU。我们知道汽车的行驶是需要点火装置点火得到向前的冲量,因此,充气量的大小是ECU计算汽车在点火的时候点火装置需要喷油时间和喷油量和点火时间的依据。它的作用是可以让我们更好的让汽车进行加减速行驶。

 

为了更好的形成符合要求的混合气,使空燃比达到最佳值,因此我们就必须对发动机进气空气流量进行精确控制。工采网技术人员建议采用气体质量流量传感器 - FS4000系列来完成此项操作。

 

气体质量流量传感器 - FS4000系列是采用领先的微机电系统流量传感器技术和智能电子控制技术,专为普通气体流量监测开发的产品。该传感器能直接测量气体质量流量,低压损。适用于净化空气或氮气流量监控,还可用于环境采样器(如色谱分析仪器等)。另外两款系列FS4003气体质量流量传感器,管道内径为3mm,成本低测量范围最大到5SLPM;适用于粒子计数器和各类分析仪器。FS4008气体质量流量传感器,管道内径为8mm,测量范围最大到50SLPM;可用于麻醉设备、洁净气体检测,如:空气采样机,气体分析仪等。

 

气体质量流量传感器FS4000系列(FS4003FS4008)产品主要特性

1)专为管径3mm8mm的气管中的低压气体流量测量而设计

2)支持多种连接方式,易于安装与使用

3)传感芯片采用热质量流量计量,无需温度压力补偿,保证了传感器的高精度计量

4)在单个芯片上实现了多传感器集成,使其量程比达到了100:1甚至更高

5)输出方式灵活,既可通过通讯接口主动上传数据或由上位机查询输出数据,也可通过模拟接口输出线性的模拟电压

6)零点稳定度高

7)全量程高稳定性、高精确度和优良的重复性

8)低功耗、低压损

9)响应速度快

 

气体质量流量传感器FS4000系列(FS4003FS4008)产品技术参数


 图片2.png


博客 isweek工采网

LV1
2019-08-16 10:10
85

无人驾驶汽车核心技术(报告)(二)

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航 ...查看全部

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航定位(惯性导航、GPS/北斗导航、智能组合导航)、控制、操作系统。对著名车企无人车商用化前沿也进行了较为全面的介绍。最后对无人车系统技术在物流、出租车、安全、养老等领域的定制化开发应用用实例进行说明。希望为无人车技术的进一步发展带来启发,为促进无人系统技术的市场化和产业化发展做出贡献。

引言:

无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶技术是多个技术的集成,包括传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理等。2018年4月12日,工信部、公安部、交通运输部联合制定的《智能网联汽车道路测试管理规范(试行)》对外发布,对测试主体、测试驾驶人、测试车辆等提出要求,明确省、市级政府相关主管部门可自主选择测试路段、受理申请和发放测试号牌。这表明无人驾驶汽车在往商用化迈进的道路上又加快了步伐。

1.jpg

2.JPG

3.JPG

4.JPG

5.jpg

6.jpg

博客 gaohong

LV1
2019-08-16 10:10
82

无人驾驶汽车核心技术(报告)(三)

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航 ...查看全部

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航定位(惯性导航、GPS/北斗导航、智能组合导航)、控制、操作系统。对著名车企无人车商用化前沿也进行了较为全面的介绍。最后对无人车系统技术在物流、出租车、安全、养老等领域的定制化开发应用用实例进行说明。希望为无人车技术的进一步发展带来启发,为促进无人系统技术的市场化和产业化发展做出贡献。

引言:

无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶技术是多个技术的集成,包括传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理等。2018年4月12日,工信部、公安部、交通运输部联合制定的《智能网联汽车道路测试管理规范(试行)》对外发布,对测试主体、测试驾驶人、测试车辆等提出要求,明确省、市级政府相关主管部门可自主选择测试路段、受理申请和发放测试号牌。这表明无人驾驶汽车在往商用化迈进的道路上又加快了步伐。

1.jpg

2.JPG

3.JPG

4.JPG

5.jpg

6.jpg

7.JPG

8.JPG

博客 gaohong

LV1
2019-08-16 10:10
82

商用车自动驾驶落地“进行时”,入围候选企业名单公示「GGAI评选」

由于驾驶技术对货运行业 ...查看全部

1.jpg

由于驾驶技术对货运行业成本、事故率的降低效应,众多行业人士非常看好货运行业商业化自动驾驶驾驶技术,它将拥有一个可预见的盈利模式。

这样的技术并不见得在全国任何道路都可以实现,目前自动驾驶还有很多的技术存在挑战,但诸如高速公路场景,主要是从封闭的高速公路中,起始到结束端的路况相对简单、标准化,容易实现且能带来实际的经济效益(目前绝大部分的货运都是在长途高速上完成)。

L4的自动驾驶技术实现,需要克服非常多的技术难题,从感知、决策、控制、执行都有非常多的挑战,技术之外还有成本的约束。

从技术实现到真正具备量产、商业化的能力,是真正考验自动驾驶公司竞争力的地方。目前大部分自动驾驶公司都完成了90%左右的技术实现工作,但剩下的10%将会是最难的。

此外,围绕矿区、港口等限定场景的无人驾驶技术落地也正在成为现实,除了自动驾驶初创公司、商用车主机厂的力推,来自终端运营方和客户的需求也正在促使这样的量产接近落地。

同时,各地也在积极推动相关应用示范落地,比如上海去年宣布相关方面正推动自动驾驶技术在本市港口等特定场景实现应用,推动卡车、环卫车等车辆率先探索应用自动驾驶技术

而在相关的零部件方面,按照此前公布的时间计划表,采埃孚将在接下来三年内推出一些即将投产的自动驾驶核心零部件。比如,到2022年,商用车将可使用全电动转向系统。超级计算机ProAI 2.0将于2021年首次用于商用汽车。

在自动驾驶技术方面,采埃孚也认为,卡车比乘用车更适合,因为自动驾驶技术在限定范围和可预测的领域(如港口、物流仓库)最有效。

而在OEM及终端客户最关心的成本方面,当总拥有成本下降时,卡车运输公司将为车队配备相应的辅助驾驶及自动驾驶技术。

目前,一级供应商提供的软硬件方案在前期会更贵,但很快就能通过节省燃料、提高安全性和优化路线收回成本。

2019年9月20-21日,第二届高工智能网联商用车大会将在武汉举办,同期将举办年度智能网联商用车供应链金球奖评选颁奖典礼。

《高工智能汽车》将陆续公布本次评选的入围候选奖项及企业名单公示,也欢迎更多企业自荐报名参选。

第二轮公示入围候选名单(查看第一轮公示名单):

3、商用车自动驾驶方案商(物流类)

图森未来、智加科技、主线科技、畅行智能、飞步科技、希迪智驾、嬴彻科技、牧月科技

4、商用车自动驾驶方案商(专用类)

西井科技、踏歌智行、仙途智能、智行者、高仙机器人、中联重科

5、无人小车线控底盘供应商

小狮科技、格陆博、易咖智车、中云智车

6、商用车OEM智能驾驶研发团队

郑州宇通、东风商用车、一汽解放、金龙客车、陕汽集团、中国重汽、江淮股份、江铃控股、吉利商用车、福田汽车

7、商用车智能驾驶核心零部件供应商(外资)

威伯科、大陆集团、采埃孚、克诺尔

8、智能物流终端应用厂商(电商、城配)

京东物流、苏宁物流、德邦快递、满帮集团、菜鸟网络、驹马物流、G7汇通天下、美团

上述奖项评选线上投票将于8月12日正式开始,其他奖项入围候选名单将陆续发布。欢迎优秀企业自荐报名,请联系:15818636852。


博客 飞奔的蜗牛

LV1
2019-08-14 11:03
102

汽车制造商“着急了”:2020年ADAS标配“下沉”爆发「GGAI视角」

尽管ADAS的很多标准还没有落地,但汽车制造商已经等不及了。近日,大众汽车宣布在2020年大多数车型的小改款升级中,将增加更多的标配主动安全功能,包括前辅助(带有自动紧急刹车的前向碰撞警告),侧辅助(盲点监测),后向交通警报、自适应巡航控制 ...查看全部

尽管ADAS的很多标准还没有落地,但汽车制造商已经等不及了。

近日,大众汽车宣布在2020年大多数车型的小改款升级中,将增加更多的标配主动安全功能,包括前辅助(带有自动紧急刹车的前向碰撞警告),侧辅助(盲点监测),后向交通警报、自适应巡航控制等功能。

除了增加功能带动车型的销售,大众汽车希望通过减少选配“缩减”车型的数量。目前,还不清楚国内后续推出的新车型是否也包含在内。

以目前大众在华销售排名靠前的几款车型为例,排名第一的朗逸,仅有顶配车型标配碰撞报警/主动刹车,次之的宝来,也仅仅是顶配车型标配碰撞报警/主动刹车、前倒车雷达。

目前上述两款车的在售车型数量达到了近40款。而这两款车去年在华销量总和接近75万辆。

《高工智能汽车》统计了目前大众集团在华销售车型数据,截止目前在售车型40个,共计397款配置。其中,前后盲区(超声波雷达)搭载率为50.88%,主动刹车搭载率仅为27.46%,360全景更是低至3.78%。

如果明年上述改款车型按照全球化配置推进,意味着ADAS渗透率在经济型乘用车市场将呈现爆发增长态势。

同样的趋势,也在另一家经济型乘用车大厂丰田得到印证。2018年,卡罗拉以全年118万辆的销量继续蝉联“全球最畅销汽车”。

今年全新一代卡罗拉即将上市,三款先期发布的车型全系标配toyota safety sense(TSS1.0)智行安全系统,包括车道保持、车道偏离预警、预碰撞安全系统、动态雷达巡航控制系统等。

而在上一代卡罗拉上,仅有顶配车型(双擎)搭载了前后倒车雷达,其余安全辅助功能基本看不到。

丰田品牌旗下车型也在去年开始升级全新的第二代Toyota Safety Sense 2.0(TSS 2.0),并首次搭载于2019款花冠掀背车。

此外,丰田正在改进和完善这些技术,TSS 2.0是其ADAS安全感知套件的第二代改进版,并将陆续以标配方式搭载于美版2019款RAV4、2020款花冠轿车和汉兰达。

此外,去年单车销量排在第二位的日产轩逸(全年销售48.12万辆),在刚刚上市的全新一代轩逸中,新增了顶配和次顶配车型标配了自动紧急刹车功能(最新的日产智行技术,包括车道偏离预警、主动刹车、并线辅助),而上一代车型全系都没有。

这些变化的背后,除了新车型增加市场竞争力的需求,更重要的还有政策的推动,这使得各大汽车制造商在主力销量车型上“狠下功夫”。

在C-NCAP2018版里,就已经增加了行人保护试验和车辆自动紧急制动系统(AEB)试验,评分及星级划分体系也做了较大调整,但主动安全权重只有15%。

不过从今年开始,主动安全五星得分要求从26%提高到38%,到明年这个数字将增加到55%。这也就意味着如果汽车不搭载AEB将无法拿到5星。

而工信部也在近日发布了三项ADAS推荐性国家标准,除了术语定义外,新增了BSD盲区监测以及LKA车道保持辅助性能要求及测试方案。

按照年初发布的《车联网(智能网联汽车)产业发展行动计划》,到2020年新车驾驶辅助系统(L2)搭载率达到30%以上,按照截止7月31日在售车型L2搭载率5.69%计算,明年市场新车型将迎来ADAS搭载的爆发年。

1.jpg

博客 飞奔的蜗牛

LV1
2019-08-14 11:03
110

自动驾驶多传感器感知的探索

1.jpg

Pony.ai 在多传感器感知上积累了很多的经验,尤其是今年年初在卡车上开始了新的尝试。我们有不同的传感器配置,以及不同的场景,对多传感器融合的一些新的挑战,有了更深刻的认识,今天把这些经验,总结一下,分享给大家,与大家一起讨论。

2.JPG

本次分享分为三部分:

•为什么需要多传感器融合?

•传感器融合的一些先决条件

•如何做传感器融合?

为什么需要多传感器融合?

首先,单一传感器在自动驾驶中,都有各自的挑战,所以先了解下常用的传感器的挑战是什么:

1. Camera data

3.JPG

照相机数据遇到的挑战:

① 没有深度信息。

② 视场角有限,以卡车的传感器配置来说,需要比较多的摄像头,这里用到了6个摄像头覆盖了270°的视场角。

③ 摄像头受外界条件的影响也比较大,(上图右下方)这是当车行驶到桥下时,由于背光,且光线变化比较大,导致无法识别正前方的交通灯。

2. Lidar data

4.JPG

激光雷达数据的一个比较大的挑战是感知范围比较近,如右图所示,感知范围平均在 150m 左右,这取决于环境和障碍物的不同。

5.jpg

激光雷达在角分辨度上远远不如照相机,如上图,有三条小狗在过马路,在照相机上可以清楚的看到,但是在激光雷达上,采集到的点是比较少的,这样的场景在每天复杂道路路测的时候会经常遇到。

6.jpg

激光雷达对环境的敏感度也是比较大的,上图为 Pony 路测的时候经常遇到的虚拟噪点的 Case,在车经过建筑工地的时候,在图像上可以看到并没有任何的障碍物,但是在雷达上前面有很多的噪点,右边是雨天中的测试,车辆行驶中溅起来的水花,在激光雷达上都是有噪点的,如何去除这样的噪点,是我们经常面临的挑战。

3. Radar data

8.JPG

毫米波雷达,本身的一个挑战是没有高度信息,毫米波雷达能告诉你这个物体在哪个位置,但是不知道多高,这个 case 就是前面有一个比较高的指路牌,毫米波雷达知道这儿有个障碍物,但是不知道是悬空的。

4. Why sensor fusion

9.JPG

当看过了这些单一传感器在自动驾驶中面临的挑战,自然会想到,做多传感器融合,进行传感器之间的取长补短,来帮助整个感知系统效果的提升。这里的例子是,如何利用多传感器来提升感知的探测距离,当障碍物距离 150m 左右时,激光雷达的反射点已经比较少了,但是这时毫米波雷达和照相机还是比较稳定的。

10.jpg

当障碍物驶出 200m 的范围,基本上没有任何的激光雷达反射点了,但是 200m 取决于自动驾驶车辆本身的车速是多少,200m 的感知距离还是必要的,这时只能通过毫米波雷达和摄像头,来提升对障碍物的感知距离,从图中可以看到障碍物还是可以稳定识别出来的。

传感器融合的先决条件

1. 运动补偿 & 时间同步

① Ego motion

为什么做运动补偿?在自动驾驶传感器感知过程中,传感器采集数据,一般都不是瞬时发生的,以激光雷达为例,采集一圈数据需要 0.1s,在这 0.1s 内,本身车会发生一定的位移,障碍物也会发生一定的位移,如果我们不考虑这样的位移的话,我们检测出来的位置就会不准确。

位移有俩种,第一种就是车自身的位移 Ego motion。右边画了一个示意图,虚线部分可以认为是世界坐标系,红色的点代表一个静态的障碍物,它在坐标系中有一个稳定的坐标(5,5),蓝色部分代表车自己的坐标系是局部坐标系,(4,0)为这个坐标系的原点,在 t+1 时刻,这个坐标系移动到了(6,0)的位置,车沿着 X 方向向前移动了2,在 t 时刻在车自身的坐标系下,障碍物的坐标是(1,5),在 t+1 是时刻,则是(-1,5)。如果不做车自身运动的补偿,静止的物体在2帧之间,测量的局部坐标是不一样的,就会产生错误的速度,因此,要去补偿车本身的位移,做自身的 Motion compensation 运动补偿。这个问题比较简单,因为车是有比较准确的定位信息的,它会提供这俩个时刻,车本身的姿态差距,我们可以利用姿态差,比较容易的补偿车移动了多少,那我们就可以知道这个障碍物其实是没有移动的。

② Motion from others

第二种要考虑的是运动物体在传感器采集的时间段内,运动物体发生的位移,相对于自身运动补偿,这是一个更难的 case,首先快速移动的物体,在激光点云里很可能会被扫到俩次,大家可以看下红圈内,尾部会有拖影。所以我们如何想办法消除对方车的 Motion,也是要考虑的。解决的方式有很多,现在激光雷达本身从硬件上也会有些配置,来缓解这样的现象,简单解释下,当你用多个激光雷达在自动驾驶车辆时,可以让激光雷达按照同样的方式一起转,在某一个特定的时段,特定的方向,应该扫到同样的东西,这样来减少快速移动的物体产生拖影这样的问题。

③ 时间同步

在很多自动驾驶车辆传感器中,大部分支持 GPS 时间戳的时间同步方法。这个方法比较简单,如果传感器硬件支持这些时间同步的方法,拿到传感器数据的时候,数据包中就会有全局的时间戳,这样的时间戳以 GPS 为基准,非常方便。但是,时间戳查询数据会有一个比较明显的问题,举个例子,图中有三个数据,三个传感器和时间轴,不同传感器是以不同频率来采集数据的,以传感器2为例,在 T1 时刻,传感器2有一个数据,在这个时刻,想知道对应的传感器1和传感器3的数据是多少,肯定需要去查找,查找的方式是找对应的传感器数据和传感器2时间差最近的数据包,然后拿过来用,这就取决于查的时候,数据包的时间和 T1 时刻传感器2数据包的时间到底差多少,如果差距比较大,本身障碍物都是在移动的,这样误差会比较大。

然后就有了第二种时间同步的方法,来缓解刚刚说的这种现象。就是主动数据同步的方法,比如以激光雷达作为触发其它传感器的源头,当激光雷达转到某个角度时,触发那个角度的摄像头,这样就可以大大减少时间差的问题,如果把这套时间方案做到硬件中,做到比较低的误差,那么对齐的效果比较好。如上图所示,这时激光雷达的数据就很好的和摄像头的数据结合在了一起。

刚才说到如果一个自动驾驶车辆用了多个激光雷达,激光雷达之间如何同步,减少扫到同样车在不同时间这样的问题,velodyne 是我们常用的一个品牌,支持一种 Phase Lock 功能,能够保证在某一时刻,所有的激光雷达的角度,都可以根据 Phase Lock 的配置,在固定的角度附近。这样如果用俩个前向的激光雷达都设置一个角度,在同一时刻,扫到的东西应该是类似的,这样一个快速行驶的车,被扫到2次的概率就会减少,当然这个办法也不能完全解决问题,比如有个人和我们的激光雷达以同样的频率一起转,那么在激光雷达扫描的点云中,人一直会出现,所以还要通过软件的方法,设置的一些规则或者模型来想办法剔除。

2. 传感器标定

接下来是另外一个比较大的话题:Sensor Calibration 传感器标定。这里主要是指传感器外参的标定。

传感器外参其实就是刚体旋转,因为物体上的俩个点,在经过旋转和平移之后,两个点之间的 3D 位置是不会变的,所以叫刚体旋转,在自动驾驶和机器人上,刚体旋转还是比较常见的。传感器外参的标定就是要找到这样的一个刚体旋转,可以把一个传感器的数据和另一个对齐。相当于把一个传感器测量的数据从其本身的坐标系,通过刚体旋转,转到另一个传感器坐标系,这样就可以进行数据融合了。上图中,左边为图像,中间为雷达,如果有一个比较好的外参工具,可以把 3D 的点投射到 2D 图像上,所有的障碍物的点都可以对应上,相当于把 2D 上的像素都加上了深度的估计。这样在图像质量并不是很高的情况下,可以通过这样的方式把信息补回来。

传感器的标定一般有俩种思路,第一种是有激光雷达的传感器标定,第二种是无激光雷达的传感器标定,之所以这么分,是因为激光雷达采集的数据是完整的 3D 信息,空间中的 ( x,y,z ) 都是准确的,并不会有信息的丢失,而照相机得到的数据,可以认为是极坐标系下的坐标,没有深度和角度,而毫米波雷达是没有高度的。所以,如果有这样的传感器能够提供完全的 ( x,y,z ) 坐标,以此为参照物,其他传感器和激光雷达做绑定的话,会更容易和更准确。Pony 是有激光雷达的,所以今天主要讲有激光雷达的传感器标定方法。

① Multi-Lidar Calibration

首先讲下多激光雷达是如何标定的,上图可以看到正好用到的是两个前向激光雷达,这两个激光雷达在前向180°是有比较大的覆盖区域,如果对激光雷达之间的旋转和平移没有比较好的估计,当把俩张激光雷达的点云放在一起进行感知处理的时候,在红框位置会发现存在比较大的分隔(黄线和蓝线分别代表俩个前向激光雷达),这种情况肯定是不想遇到的,所以需要把多个激光雷达做比较准确的标定。

标定的方法是已知的,非常好解决的问题,因为激光雷达本身是有完全的3D信息,解决这样俩个数据集匹配的问题,就是 ICP(Iterative Closest Point)迭代式最近点方法。这个方法有很多的变种,感兴趣的同学可以百度或者 Google 搜索下。

② Camera Lidar Calibration

另外一个就是照相机和激光雷达之间的标定。照相机本身是没有距离信息的,那么如何去做标定?同样激光雷达是有 3D 信息的,可以通过标定的方式,把激光雷达投到图像的坐标系中,建立图像的像素点,和激光雷达投影后的点之间的匹配,然后通过某种优化方程,来解决这样一个匹配问题。举一个简单的例子,比如现在要选取一系列激光雷达检测出来的候选点,如何选这些点呢?这些点一定是在图像上比较容易能够识别出来的边界点。选取方法也比较简单,因为激光雷达有距离信息,只需要找相邻俩个激光点之间的距离差,就可以判断这样一个点是不是边界点,我们可以轻易的选出这样的候选点,通过这样的投影方式,红框是我们要求的标定参数,K 矩阵为相机本身的内参,通过这个数学关系,我们可以把刚才 3D 中检测的候选点,投到 2D 上,上图中的 X 就是投射后的位置。我们可以根据 3D 投影点和 2D 检测的边界,进行匹配,然后根据他们之间的距离匹配程度,建立这样一个优化方程,然后解这样一个优化问题,来估计出 Calibration 的参数。

大家如果感兴趣可以参考这篇 paper:Automatic Online Calibration of Cameras and Lasers,详细的讲述了其中的数值原理,可以看到绿色的是 3D 点投射到图像上,是一些边界点候选的区域,如果有一个比较好的标定结果,这些边界点会比较好的和图像匹配起来。

3. 传感器视场角

接下来看下传感器不同视场角带来的融合问题。

这里有一个简单的示意图,假设在这个位置上有两个激光雷达,它们有各自不同的视场角,但是前方有个障碍物 A 刚好在传感器2的视场角内把障碍物 B 完全遮挡了,障碍物 B 只出现在一个传感器检测的视场角内部,这带来的问题是:我们到底该不该相信这里存在一个障碍物?这是比较常见的问题,需要我们经过不断的路测,来完善。

如何做传感器融合?

1. Camera Lidar Fusion

首先讲下照相机和激光雷达融合,方法1之前大概讲过,就是说激光雷达有 ( x,y,z ) 比较明确的 3D 观测,通过标定参数,通过照相机本身的内参,就可以把 3D 点投到图像上,图像上的某些像素就会打上深度信息,然后可以做基于图像的分割或者 Deep Learning Model。需要注意的是,多传感器的时候,视场角可能会不一样,可能会造成噪点或者漏点,这里比较推荐的方法是把照相机和雷达安装在一起,越近越好。

另一个比较直观的方法,是否能将 2D 检测出来的障碍物直接投影到 3D,然后生成这样的 3D 障碍物,这种方法,在做很多的假设条件下(比如障碍物的大小,地面是否平整),也是可以做的,如上图,相机的内参,车的位置高度,都是已知的,这时在 2D 上识别出的每个帧的障碍物,都可以还原成 3D 在照相机坐标系下的一条射线,然后找这条射线在 3D 坐标系下和平面的交点,就可以估计出 2D 障碍物在 3D 上的距离。

上图为 Pony 在建筑工地旁采集的数据,可看到这些路障都是直接生成到 3D 的(图中有个漏点,也是我们还需要努力提高的)。

2. Radar Lidar Fusion

至于毫米波雷达和激光雷达的融合方式就更简单了。因为在笛卡尔坐标系下,它们都有完整的 ( x,y ) 方向的信息,那么在普适的笛卡尔坐标系下,做针对于距离的融合,而且毫米波雷达还会测速,对障碍物速度也是有一定观测的,然后激光雷达通过位置的追踪,也会得到障碍物速度的估计,这些速度的信息也可以用来做融合,帮助筛选错误的匹配候选集。

这是 Pony 激光雷达和毫米波雷达融合的效果,红圈里的障碍物是 radar 补充的。

当然,不同传感器之间融合的特例还是很多的,比如激光雷达和毫米波雷达融合的时候,可以看到,这个场景是前方有比较高的路牌时,毫米波雷达会在这个位置产生障碍物,恰好激光雷达也有噪音,因为恰好前方有车,这时在牌子底下也会产生噪点,所以激光雷达和毫米波雷达都在这个地方检测出来本不应该出现的障碍物,这时两个传感器都告诉你前方有个障碍物,只有摄像头说前方只有一个障碍物,这时该怎么办?(如果想了解 Pony 具体如何解决的,欢迎大家加入 Pony,我会告诉你答案o(∩_∩)o)

总结

总结来说,每个传感器都有自己的一些问题,传感器融合就是说我们要把这些传感器结合起来做取长补短,提升整个感知系统的精度和召回度,今天就分享到这里,谢谢大家。

嘉宾介绍

刘博聪,Pony.ai Tech lead,公司创始成员。CMU 电子与计算机工程硕士,作为 Pony.ai 创始成员之一,参与了多个无人车模块的设计开发工作,目前主要负责感知系统技术研发。曾就职于百度美国研究院,负责自动驾驶研发;曾就职于 Qualcomm 圣迭戈总部,参与 QNX 车载芯片的嵌入式开发项目。


博客 飞奔的蜗牛

LV1
2019-08-14 11:03
99

深度学习在3-D环境重建中的应用

最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉(MVS,multiple view ...查看全部


最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉(MVS,multiple
view stereo),就是多帧的立体匹配,这样采用CNN模型来解决也合理。传统MVS的方法可以分成两种:区域增长(region
growing)和深度融合(depth-fusion)。当年CMU在美国超级碗(Superbowl)比赛展示的三维重建和视角转化,轰动一时,就是基于此路径,但最终没有被产品化(技术已经转让了)。


后者在机器人领域成为同步定位和制图(SLAM)技术,有滤波法和关键帧法两种,后者精度高,在稀疏特征点的基础上可以采用集束调整(BA,Bundle

Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D数据),LOAM/Velodyne

SLAM(激光雷达数据)等。运动恢复结构(SFM)是基于背景不动的前提,计算机视觉的同行喜欢SFM这个术语,而机器人的同行称之为SLAM。SLAM比较看重工程化的解决方案,SFM理论上贡献大。


另外,视觉里程计(VO)是SLAM的一部分,其实只是估计自身运动和姿态变化。VO是David Nister创立的概念,之前以两帧图像计算Essential Matrix的“5点算法”而为人所知。


因为CNN已经在特征匹配、运动估计和立体匹配得到应用,这样在SLAM/SFM/VO/MVS的应用探索也就成了必然。



• DeepVO


如图所示,经典VO流水线通常包括摄像机标定、特征检测、特征匹配(或跟踪)、异常值拒绝(例如RANSAC)、运动估计、尺度估计和局部优化(集束调整,BA)。


1.jpg


 


DeepVO基于深度递归卷积神经网络(RCNN)提出了一种端到端单目视觉里程计(VO)框架。由于以端到端的方式进行训练和部署,因此它直接从一系列原始RGB图像(视频)中推断出姿态,而不采用传统VO流水线中的任何模块。基于RCNN,它不仅通过CNN自动学习VO问题的有效特征表示,而且用深度递归神经网络隐式地建模串联动力学和关系。


如图所示是这个端到端VO系统的架构图:采用视频片段或单目图像序列作为输入;在每个时间步,作为RGB图像帧预处理,减去训练集的平均RGB值,可以将图像尺寸调整为64的倍数;将两个连续图像堆叠在一起以形成深RCNN的张量,学习如何提取运动信息和估计姿势。具体地,图像张量被馈送到CNN以产生单目VO的有效特征,然后通过RNN进行串行学习。
每个图像对在网络的每个时间步产生姿势估计。VO系统随时间推移而发展,并在图像获取时估计新的姿势。


2.JPG


 


CNN具有9个卷积层,每层之后是除Conv6之外的ReLU激活,总共17层。
网络中感受野的大小逐渐从7×7减少到5×5,然后逐渐减少到3×3,以捕捉小的有趣特征。
引入零填充以适应感受野的配置或在卷积之后保持张量的空间维度。其中通道的数量,即用于特征检测的滤波器的数量,会增加以学习各种特征。


通过堆叠两个LSTM层来构造深度RNN,其中LSTM的隐藏状态是另一个的输入。在DeepVO网络中,每个LSTM层具有1000个隐藏状态。深度RNN基于从CNN生成的视觉特征在每个时间步输出姿势估计。随着相机移动并获取图像,这个进程随时间而继续。


• UnDeepVO


UnDeepVO能够通过使用深度神经网络估计单目相机的6-DoF姿势及其视野的深度。有两个显着特征:一个是无监督深度学习方案,另一个是绝对的深度恢复。训练UnDeepVO时,通过使用立体图像对恢复尺度来,但测试时,使用连续的单眼图像。UnDeepVO还是一个单目系统。网络训练的损失函数基于时空密集信息,如图所示。


3.JPG


 


下图所示时UnDeepVO的架构图。姿势估计器是基于VGG的CNN架构,需要两个连续的单目图像作为输入,并预测它们之间的6-自由度(DoF)变换矩阵。
由于旋转(由欧拉角表示)具有高度非线性,与平移相比通常难以训练。
对于有监督的训练,一种流行的解决方案是将旋转估计损失给予更大的权重,如同归一化。为了更好地无监督学习训练旋转预测,在最后一个卷积层之后用两组独立的全连接层将平移和旋转分离。这样为获得更好的性能,引入一个权重标准化的旋转预测和平移预测。深度估计器主要基于编码器-解码器架构以生成致密深度图。
与其他方法不同的是, UnDeepVO直接预测深度图,这是因为以这种方式训练时整个系统更容易收敛。


4.JPG


 


如图所示,用立体图像序列的时空几何一致性来定义损失函数。空间几何一致性表示左右图像对中的对应点之间的外极线约束,而时间几何一致性表示两个连续单目图像中的对应点之间的几何投影约束。这些约束构造最后的损失函数并使其最小化,而UnDeepVO学习端对端无监督方式估计尺度化的6-DoF姿势和深度图。简单提一下,空间损失函数包括光度一致性损失(Photometric
Consistency Loss)、视差一致性损失(Disparity Consistency Loss)和姿态一致性损失(Pose
Consistency Loss);时间损失函数包括光度一致性损失和3-D几何校准损失(3D Geometric Registration
Loss)。


2.JPG



• VINet


如图是比较传统VIO(visual-inertial
odometry)和基于深度学习的VINet方法。VINet时一种使用视觉和惯性传感器进行运动估计的流形(on-manifold)序列到序列的学习方法。其优点在于:消除相机和IMU之间繁琐的手动同步,无需手动校准;模型自然地结合特定领域信息,显著地减轻漂移。


1.jpg


 


VINet的架构图见下图所示。该模型包括CNN-RNN网络,为VIO任务量身定制。整个网络是可微分的,可以进行端到端训练实现运动估计。网络的输入是单目RGB图像和IMU数据,即一个6维向量,包含陀螺仪测量的加速度和角速度的x,y,z分量。
网络输出是7维向量 - 3维平移和4维四元数(quaternion)- 姿势变化。
从本质上讲,它学习将图像和IMU数据的输入序列转换为姿势的映射。


2.JPG


 


CNN-RNN网络执行从输入数据到李代数se(3)的映射。指数图将它们转换为特殊的欧几里德群SE(3),然后可以在SE(3)中组成各个运动以形成轨迹。这样,网络需要近似的功能仍然随着时间的推移保持受限,因为相机帧到帧的运动是由平台在轨迹过程中复杂动力学定义的。借助RNN模型,网络可以学习平台的复杂运动动力学,并考虑到那些难以手工建模的序列依赖性。下图是其中SE(3)
级联层(composition layer)的示意图:无参数层,主要连接SE(3)群上帧之间的变换。


3.JPG


 


在LSTM模型中,隐藏状态被转移到下一个时间步,但输出本身不会反馈到输入。 在里程计情况下,先前状态的可用性特别重要,因为输出基本上是每步增量位移的累积。 因此,直接连接SE(3)级联层产生的姿态输出,作为下个时间步核心LSTM的输入。



• SfM-Net


SfM-Net是一种用于视频运动估计几何觉察的神经网络,根据场景、目标深度、相机运动、3D目标旋转和平移等来分解帧像素运动。给定一图像帧序列,SfM-Net预测深度、分割、相机和刚体运动,并转换为密集的帧到帧运动场(光流),可以及时地对帧进行差分变形以匹配像素和反向传播。该模型可以通过不同程度的监督进行训练:1)通过重投影光度误差(完全无监督)自我监督训练,2)自身运动(摄像机运动)监督训练,或3)由深度图(例如,RGBD传感器)监督训练。


下图是SfM-Net的流程图。给定一对图像帧作为输入,模型将帧到帧像素运动分解为3D场景深度、3D摄像机旋转和平移、一组运动掩码和相应的3D刚性旋转和平移运动。
然后,将得到的3D场景流反投影到2D光流中并相应地变形完成从这帧到下一帧的匹配像素。 其中前向一致性检查会约束估计的深度值。


4.JPG


 


如下图是SfM-Net的架构图:对于每对连续帧It,It+1,一个conv / deconv子网络能预测深度dt,而另一个conv /
deconv子网络预测一组K个分割掩码mt;运动掩码编码器的最粗特征图通过全连接层进一步解码,输出摄像机和K个分割的3D旋转和平移;使用估计的或已知的相机内参数将预测的深度转换为每帧点云;然后,根据预测的3D场景流(scene

flow)对其进行变换,由3D摄像机运动和独立的3D掩码运动组成;将变换后的3D深度再投射回2D的下一图像帧,从而提供相应的2D光流场;可差分后向变形映射将图像帧It+1到It,并且梯度可基于像素误差来计算;对逆图像帧对It+1,It重复该过程来强加“前向-后向约束”,并且通过估计的场景运动约束深度dt和dt+1保持一致性。



如图是一些SfM-Net结果例子。在KITTI 2015,基础事实的分割和光流与SfM-Net预测的运动掩码和光流相比。模型以完全无监督的方式进行训练。



• CNN-SLAM


借助于CNN的深度图预测方法,CNN-SLAM可以用于精确和密集的单目图像重建。CNN预测的致密深度图和单目SLAM直接获得的深度结果融合在一起。在单目SLAM接近失败的图像位置例如低纹理区域,其融合方案对深度预测赋予特权,反之亦然。深度预测可以估计重建的绝对尺度,克服单目SLAM的一个主要局限。最后,从单帧获得的语义标签和致密SLAM融合,可得到语义连贯的单视图场景重建结果。


如图是CNN-SLAM的架构图。CNN-SLAM采用基于关键帧的SLAM范例,特别是直接半致密(direct
semi-dense)法作为基准。
这种方法将不同视觉帧收集作为关键帧,其姿态经过基于姿态图(pose-graph)的优化方法全局修正。同时,通过帧与其最近的关键帧之间的变换估计,实现每个输入帧的姿态估计。


下面是一些结果:办公室场景(左)和NYU Depth V2数据集的两个厨房场景(中,右),第一行是重建,第二行是语义标签。






• PoseNet


PoseNet是一个实时单目6
DOF重定位系统。它训练CNN模型以端映端方式从RGB图像回归6-DOF相机姿态,无需额外的工程或图形优化。该算法可以在室内和室外实时运行,每帧5ms。通过一个有效的23层深度卷积网络,PoseNet实现图像平面的回归,对于那些照明差、运动模糊并具有不同内参数的摄像头(其中SIFT校准失败)场景算法鲁棒。产生的姿势特征可推广到其他场景,仅用几十个训练样例就可以回归姿态参数。


PoseNet使用GoogLeNet作为姿态回归网络的基础;用仿射回归器替换所有3个softmax分类器;移除softmax层,并修改每个最终全联接层输出表示3-D位置(3)和朝向四元数(4)的7维姿态向量;在特征大小为2048的最终回归器之前插入另一个全联接层;在测试时,将四元数朝向矢量单位归一化。


如图是PoseNet的结果展示。绿色是训练示例,蓝色是测试示例和红色显示姿势预测。





 


需要补充一下,姿势回归采用以下目标损失函数的随机梯度下降来训练:





 


其中x是位置向量,q是四元数向量,β是选择的比例因子,以保持位置和朝向误差的预期值近似相等。


• VidLoc


VidLoc是一种用于视频片段6-DoF定位的递归卷积模型。即使仅考虑短序列(20帧),它也可以平滑姿态的估计并且可以大大减少定位误差。


如图是VidLoc的架构模型。CNN部分的目标是从输入图像中提取相关的特征,这些特征可用于预测图像的全局姿态。CNN由堆叠的卷积和池化层构成,对输入图像操作。这里主要处理时间顺序的多个图像,采用VidLoc
CNN的GoogleNet架构,其实只使用GoogleNet的卷积层和池化层,并删除所有全连接层。


当输入连续时间的图像流时,利用时间规律性可以获得大量的姿态信息。
例如,相邻图像通常包含相同目标的视图,这可以提高特定位置的置信度,并且帧之间的运动也存在严格约束。为捕获这些动态相关性,在网络中使用LSTM模型。LSTM扩展了标准RNN,能够学习长期时间依赖性,是通过遗忘门、输入和输出复位门以及存储器单元来实现的。进出存储器单元的信息流由遗忘门和输入门调节,这允许网络在训练期间克服梯度消失问题,能够学习长期的相关性。LSTM输入是CNN输出,由一系列特征向量xt组成。LSTM将输入序列映射到输出序列,输出序列参数化为7维向量的全局姿态组成yt,包括平移向量和朝向四元数。为充分利用时间连续性,这里LSTM模型采用双向结构,如图所示。


为了模拟姿态估计的不确定性,采用混合密度网络(mixture density networks)方法。 这种方法用混合模型取代了高斯模型,可以对多模态后验输出分布建模。


• NetVLAD


大规模基于视觉的位置识别问题要求快速准确地识别给定查询照片的位置。NetVLAD是一种CNN架构中的一层,帮助整个架构直接以端到端的方式用于位置识别。其主要组成部分是一个通用“局部聚合描述子向量”(VLAD,Vector
of Locally Aggregated
Descriptors)层,受到图像检索中特征描述子池化法VLAD的启发。该层可以很容易地插入任何CNN架构中,并且可以通过反向传播(BP)进行训练。根据一个定义的弱监督排名损失(ranking
loss)可以训练从谷歌街景时间机(Google Street View Time
Machine)下载的相同位置的图像,以端到端的方式学习该架构参数。


如图是带NetVLAD层的CNN结构。该层用标准CNN层(卷积,softmax,L2归一化)和一个易于实现的聚合层NetVLAD来实现“VLAD核”聚合,可在有向无环图(DCG)中连接。


给定N个D-维局部图像特征描述符{xi}作为输入,将K个聚类中心(“视觉词”){ck}作为VLAD参数,输出VLAD图像表示V是K×D维矩阵。该矩阵可转换为矢量,归一化后可作为图像表示。 V的(j,k)元素计算如下:


其中xi(j)和ck(j)分别是第i个特征描述符和第k个聚类中心的第j维。ak(xi)将描述符xi的成员资格记录为第k个视觉单词,即如果集群ck是最接近解释xi的集群则为1,否则为0。


VLAD的不连续性源来自描述符xi到聚类中心ck的硬分布ak(xi)。 为了使之可微分,将其替换为描述子的多个聚类软分配,即





将上式的平方项展开,很容易看出exp()项在分子和分母之间消掉,导致如下软分配


其中向量wk和标量bk


这样最终的“VLAD核”聚合公式变成


其中{wk},{bk}和{ck}是每个群集k的可训练参数集。


在VLAD编码,来自不同图像但划归同一聚类的两个特征描述子对两个图像之间相似性测度的贡献是残差向量之间的标量积,其中残差向量是描述符与聚类锚点(anchor

point)之间的差。锚点ck可以被解释为特定聚类k的新坐标系原点。在标准VLAD中,锚点被选为聚类中心(×),以便数据库中的残差均匀分布。然而如图所示,在监督学习设置中,来自不匹配图像的两个描述子可以学习更好的锚点,使新残差向量之间的标量积很小。



• Learned Stereo Machine


伯克利分校提出的一个用于多视角立体视觉的深度学习系统,即学习立体视觉机(LSM)。与最近其他一些基于学习的3D重建方法相比,沿着观察光线做特征投影和反投影,它利用了问题的基础3D几何关系。通过可微分地定义这些操作,能够端到端地学习用于量度3D重建任务的系统。这种端到端学习能够在符合几何约束的同时共同推理形状的先验知识,能够比传统方法需要更少的图像(甚至单个图像)进行重建以及完成看不见的表面。


如图是LSM概述:一个或多个视图和摄像头姿态作为输入;通过特征编码器处理图像,然后使用可微分的反投影操作将其投影到3D世界坐标系中。


如图给出1D图和2D网格之间的投影和反投影示意图。 (a)投影操作沿光线以等间隔z值采样值到1D图像中。 在z平面的采样特征堆叠成通道形成投影的特征图。 (b)反投影操作从特征图(1-D)中获取特征,并沿光线放置在相应与之相交的网格块。



然后,以递归方式匹配这些网格G以产生融合网格Gp,这里采用的是门控递归单元(GRU)模型。接着,通过3D CNN将其转换为Go。最后,LSM可以产生两种输出 - 从Go解码的体素占有网格(体素 LSM)或在投影操作之后解码的每视角的深度图(深度LSM)。


下图给出V-LSM的一些结果,

如图给出D-LSM的一些例子。
• DeepMVS


DeepMVS是一种用于多视角立体视觉(MVS)重建的深度卷积神经网络(ConvNet)。
将任意数量各种姿态的图像作为输入,首先产生一组平面扫描体积(plane-sweep
volumes),并使用DeepMVS网络来预测高质量的视差图。
其关键特点是(1)在照片级真实感的合成数据集上进行预训练;(2)在一组无序图像上聚合信息的有效方法;(3)在预训练的VGG-19网络集成多层特征激活函数。
使用ETH3D基准验证了DeepMVS的功效。


算法流程分四步。 首先,预处理输入图像序列,然后生成平面扫描容积(plane-sweep volumes)。 接着,网络估计平面扫描容积的视差图,最后细化结果。如图所示。





 


下面两个图分别显示带超参数的DeepMVS体系结构。整个网络分三部分:1)补丁匹配(patch
matching)网络,2)容积内特征聚合(intra volume feature
aggregation)网络,3)容积之间特征聚合(inter volume feature aggregation)网络。
除了最后一层,网络中所有卷积层都跟着一个可缩放指数线性单元(Scaled Exponential Linear Unit ,SELU)层。

为了进一步改进性能,将全连通条件随机场(DenseCRF)应用到视差预测结果。


• MVSNet


给定参考图像I1和一组其相邻图像{Ii} Ni =
2,MVSNet提出了一种端到端深度神经网络来推断参考深度图D。在其网络中,首先通过2D网络从输入图像中提取深度图像特征{ Fi} Ni =
1。然后,通过可微分的单应性(Homography)变换将2D图像特征变形到参考相机坐标系,这样在3D空间中构建特征容积{Vi} Ni =
1。为了处理任意N视角图像输入,基于方差的成本测度将N个特征容积映射到一个成本容积C。与其他立体视觉和MVS算法类似,MVSNet使用多尺度3D
CNN正则化成本容积,并通过软argmin
操作回归参考深度图D。在MVSNet末端应用一个细化网络进一步增强预测深度图的性能。由于在特征提取期间缩小了深度图像特征{Fi} Ni =
1,因此输出深度图大小是每个维度中原始图像大小的1/4。


MVSNet在DTU数据集以及Tanks and
Temples数据集的中间集展示了最先进的性能,其中包含具有“从外看里”的摄像头轨迹和小深度范围的场景。但是,用16 GB内存 Tesla
P100 GPU卡,MVSNet只能处理H×W×D = 1600×1184×256的最大重建尺度,并且会在较大的场景中失败,即Tanks and
Temples的高级集合。


如图是MVSNet网络设计图。输入图像通过2D特征提取网络和可微分单应性变形生成成本容积。从正则化的概率容积回归最终的深度图输出,并且用参考图像细化。





 


下图是推断的深度图、概率分布和概率图。 (a)DTU数据集的一个参考图像; (b)推断的深度图; (c)内点像素(顶部)和出格点像素(底部)的概率分布,其中x轴是深度假设索引,y轴是概率,红色线是软argmin结果; (d)概率图。


• Recurrent MVSNet


MVS方法的一个主要限制是可扩展性:耗费内存的成本容积(cost
volume)正则化使得学习的MVS难以应用于高分辨率场景。Recurrent
MVSNet是一种基于递归神经网络的可扩展多视角立体视觉框架。递归多视角立体视觉网络(R-MVSNet)不是一次性正则化整个3-D成本容积,而是通过门控递归单元(GRU)网络串行地沿深度值方向正则化2-D成本图。这大大减少了内存消耗,并使高分辨率重建成为可能。


下图比较了不同正则化方案的策略。一次性全局正则化成本容积C的替代方案是串行地沿深度方向处理成本容积。最简单的顺序方法是赢家通吃(WTA)的平面扫描(plane

sweeping)立体视觉法,它粗略地用较好的值替换逐像素深度值,因此受到噪声的影响(如图(a))。为此,成本聚合法过滤不同深度的匹配成本容积C(d)(如图(b)),以便收集每个成本估算的空间上下文信息。遵循串行处理的思想,这里采用一种基于卷积GRU的更强大的递归正则化方案。
该方法能够在深度方向上收集空间和单向上下文信息(如图(c)),与全空间3D CNN(如图(d))相比,这实现了差不多的正则化结果,但是
运行时内存更加有效。

下图是R-MVSNet的框图介绍。从输入图像中提取深度图像特征,然后将其变形到参考相机坐标系的前向平行平面。在不同深度处计算成本图并由卷积GRU串行地正则化处理。网络被训练为具有交叉熵(cross-entropy)损失的分类问题。

1.jpg

如图是R-MVSNet的重建流水线直观图:(a)DTU图像;(b)来自网络的初始深度图;(c)最终深度图估计;(d)基础事实深度图;(e)输出点云;(f)深度图滤波的概率估计图;(g)初始深度图的梯度图;(h)细化后的梯度图。



2.JPG

博客 gaohong

LV1
2019-08-13 09:32
102

无人驾驶汽车核心技术(报告)(一)

本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、 《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感 ...查看全部


本文结合《国家车联网产业标准体系建设指南(智能网联汽车)》、

《2018年智能网联汽车标准化工作要点》、《智能网联汽车道路测试管理规范(试行)》等最新国家政策,系统性讲述无人驾驶汽车包含的核心技术模块:感知(视觉及其深度学习技术、激光雷达探测技术)、导航定位(惯性导航、GPS/北斗导航、智能组合导航)、控制、操作系统。对著名车企无人车商用化前沿也进行了较为全面的介绍。最后对无人车系统技术在物流、出租车、安全、养老等领域的定制化开发应用用实例进行说明。希望为无人车技术的进一步发展带来启发,为促进无人系统技术的市场化和产业化发展做出贡献。


引言:


无人驾驶汽车是一种智能汽车,也可以称之为轮式移动机器人,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶。无人驾驶技术是多个技术的集成,包括传感器、定位与深度学习、高精地图、路径规划、障碍物检测与规避、机械控制、系统集成与优化、能耗与散热管理等。2018年4月12日,工信部、公安部、交通运输部联合制定的《智能网联汽车道路测试管理规范(试行)》对外发布,对测试主体、测试驾驶人、测试车辆等提出要求,明确省、市级政府相关主管部门可自主选择测试路段、受理申请和发放测试号牌。这表明无人驾驶汽车在往商用化迈进的道路上又加快了步伐。

1.jpg

2.JPG

3.JPG

4.JPG

5.jpg

6.jpg

博客 gaohong

LV1
2019-08-13 09:32
107

自动驾驶技术之基于深度学习的多传感器标定

标定是确定不同坐标系的相互转换关系,是传感器数据融合的前提,特别是激光雷达和图像数据。这里以深度学习的方法训练CNN模型去回归坐标系转换的参数。主要是两个CNN模型:RegNet和CalibNet。RegNet应该是第一个深度 ...查看全部

标定是确定不同坐标系的相互转换关系,是传感器数据融合的前提,特别是激光雷达和图像数据。这里以深度学习的方法训练CNN模型去回归坐标系转换的参数。

主要是两个CNN模型:RegNet和CalibNet。

RegNet应该是第一个深度卷积神经网络(CNN)推断多传感器的6自由度(DOF)外参数标定,即激光雷达(LiDAR)和单目摄像头。RegNet将标定的三个步骤(特征提取、特征匹配和全局回归)映射到单个实时CNN模型中。在训练期间,随机对系统进行重新调整,以便训练RegNet推断出激光雷达投影到摄像头的深度测量与RGB图像之间的对应关系,并最终回归标定外参数。此外,通过迭代执行多个CNN,在不同程度失标定(decalibration)数据上进行训练。如图是一个例子。

1.jpg

 

失标定


2.JPG

 

标定基础事实(GT)


3.JPG

 

RegNet标定结果

首先,传感器坐标系中给出的点x变换为世界坐标系中的点y,定义为一个仿射变换矩阵H,即y = Hx。估计变换矩阵H的任务称为外标定。应用深度学习,需要重新定义外标定的问题,在给定初始标定Hinit和基础事实标定Hgt的情况下,确定失标定矩阵φdecalib,其定义如下


4.JPG

 

然后可以随机改变Hinit以获得大量的训练数据。为了能够建立标定过程可观测的对应关系,用Hinit和摄像头内参数矩阵P将激光雷达点投影在摄像头图像平面上,即


5.jpg

 

在每个像素(u,v),如果没有投射的激光雷达点,则存储投影点的逆深度值(摄像头坐标)zc或者为零。 由于相比图像像素的数量大多数常见的激光雷达传感器仅提供少量测量数据,因此深度图像非常稀疏。为了对付这种稀疏性,在输入深度图使用最大值池化(Max Pooling)对投影的激光雷达深度点上采样。

下面图展示的是Regnet的结构框图,其实现深度和RGB图像之间的标定。 使用初始标定Hinit将深度点投影在RGB图像上。在CNN网络的第一和第二部分,使用NiN(Network in Network)块来提取丰富的特征以进行匹配,其中索引显示NiN块的第一卷积层的核大小k。 特征通道的数量显示在每个模块的右上角。 CNN网络最后一部分通过使用两个全连接层收集全局信息来对失标定进行回归。(注:NiN块由一个k×k卷积,然后是几个1×1卷积组成。)在训练期间,失标定矩阵会被随机排列,形成深度点的不同投影数据。

6.jpg

 

如下图所示,深度点的投影随给定的初始标定值而强烈地变化。当初始校准从标定的基础事实(GT)旋转偏离20°平移偏离1.5米的时候,可能导致激光雷达点云的投影的大多数点在图像区域之外,难以与RGB图像建立对应关系。


7.JPG

即使在这些情况下,训练的CNN网络仍然能够改进标定。使用新的估计标定参数可以再次投影深度点,从而产生更多供相关计算的深度点。 然后,该步骤多次迭代即可。

初始化

结果

CalibNet是一个自监督的深度网络,能够实时自动估计激光雷达和2D摄像头之间的6-自由度刚体转换关系。在训练时,不进行直接监督(例如不直接回归标定参数);相反,可以训练网络去预测标定参数,以最大化输入图像和点云的几何和光度一致性。

下图是CalibNet的流程图:(a)来自标定摄像头的RGB图像;(b)原始激光雷达点云作为输入,并输出最佳对齐两个输入的6-自由度刚体变换T;(c)显示错误标定设置的彩色点云输出;(d)显示使用CalibNet网络标定后的输出。

9.JPG

 

该网络将RGB图像、相应的误标定(mis-calibration)的激光雷达点云和相机标定矩阵K作为输入。作为预处理步骤,首先将点云转换为稀疏深度图,将激光雷达点云投影到图像平面即可。由于初始误标定的不准确,将误标定点投影到图像平面会导致稀疏深度图与图像(严重)不一致,如上图(c)所示。 将RGB输入图像和稀疏深度图标准化为±1的范围,然后用5 x 5最大池化窗将稀疏深度图最大池化为半致密深度图。

虽然网络的输出可直接预测平移,但需要将so(3) 中的输出旋转矢量转换为其对应的旋转矩阵。一个元素ω ∈ so(3) 可以通过使用指数图(exponential map)转换为SO(3)。

一旦将网络预测的标定参数转换为T∈SE(3)中的刚体变换,就会使用3-D空间变换器层(Spatial Transformer Layer),通过预测变换T对输入深度图进行变换。这里扩展了原始的3D空间变换器层以处理稀疏或半致密的输入深度图,如上图(d)。

下图是CalibNet的网络结构图。网络主要由”RGB”和”深度”2个不对称分支组成,每个分支执行一系列,因此”深度”流的滤波器在每个阶段都会减少。然后两个分支的输出沿着信道这个维度连接并通过一系列附加全卷积和批规则化(Batch Norm)层,用于全局特征聚合。将旋转和平移的输出流分离,以捕获旋转和平移之间可能存在的模态差异。网络的输出是1×6矢量ξ=(v, ω)∈ se(3), 其中v是平移速度矢量,ω是旋转速度矢量。

自动驾驶技术之基于深度学习的多传感器标定

 

下面是损失函数的定义:

1. 光度损失:在通过预测的T变换深度图之后,检查预测的深度图和正确的深度图之间的密集像素误差,误差定义为,

自动驾驶技术之基于深度学习的多传感器标定

 

2. 点云距离损失:3D空间变换器层允许在反投影(back projection)后的点云转换。 在这个阶段,尝试度量尺度最小化未校准的变换点和目标点云之间的3D-3D点距离。距离测量有

a) Chamfer 距离

自动驾驶技术之基于深度学习的多传感器标定

 

b) 推土机距离(Earth Mover’s Distance):

自动驾驶技术之基于深度学习的多传感器标定

 

c) 质心ICP距离

自动驾驶技术之基于深度学习的多传感器标定

 

最后,整个损失函数定义为:

自动驾驶技术之基于深度学习的多传感器标定

 

下图是CalibNet标定的一些结果。第一行显示输入的RGB图像,第二行显示投影到图像上的相应的误标定的激光雷达点云。 第三行显示使用网络预测变换投影的激光雷达点云,最后一行显示相应的基础事实结果。 第二行中的红色框表示未对齐,而在第三行中,红色框表示标定后的正确对齐。

自动驾驶技术之基于深度学习的多传感器标定

本文作者:黄浴(自动驾驶科学家/工程师)


博客 飞奔的蜗牛

LV1
2019-08-12 09:20
106

基于深度学习的人脸检测和识别方法介绍

人脸识别分人脸验证(face verification)和人脸确认(face identification);前者是指两个人是不是同一个人,即1-to-1 mapping,而后者是确定一个人是一群人中的某个,即1-to-many mapping。 ...查看全部

人脸识别分人脸验证(face verification)和人脸确认(face identification);前者是指两个人是不是同一个人,即1-to-1 mapping,而后者是确定一个人是一群人中的某个,即1-to-many mapping。

人脸作为一种特殊的目标,如同人体(行人检测)一样,前面讨论的目标检测/识别算法可以直接采用,但也会有其特殊的设计考虑,比如其刚体(rigid body)特征和特有的人脸模版(由眼睛、鼻子和嘴巴等显著部分构成)。一个完整的人脸识别系统包括人脸的检测、校准和分类三部分,下面分别讨论深度学习的应用方法。


如图所示,(a)使用面部检测来定位面部;(b)与归一化规范坐标对齐;(c)实施FR。 在FR模块中,面部反欺骗(anti-spoofing)可判断面部是否有效或有欺骗性; 在训练和测试之前面部处理降低识别难度; 在训练时,使用不同的网络结构和损失函数来提取深层特征; 当提取测试数据的深层特征时,面部匹配进行特征分类。

1.jpg

 

• 检测

人脸检测大致分为两种方案:一是刚性模板(rigid templates)法,主要通过基于增强的方法(boosting based methods)或深度学习神经网络,二是通过部件描述面部的可变形模型(deformable models)。

这里以RetinaFace为例介绍一下基于深度学习的算法。

RetinaFace是一个单步人脸检测器,利用联合监督和自我监督的多任务学习,在各种尺度人脸图像上执行逐像素的人脸定位。当在WIDER FACE数据集上手动标注五个面部关键点(眼角,嘴角和鼻子顶部)之后,借助这个额外的监督信号,比较难的人面检测例子性能上显著改进。添加一个自监督网格解码器分支(mesh decoder branch),包括网格卷积和上采样,并与监督分支并行地预测逐像素的三维形状面部信息。

下图是该方法的直观图,每个正样本锚框定输出(1)面部得分,(2)面部框,(3)五个面部关键点,(4)投影在图像平面上的密集面部3D模型顶点。


2.JPG

 

如图是单步密集人脸定位方法。 RetinaFace设计的思想来自于具有独立上下文模块的特征金字塔。在上下文模块之后,计算每个锚框的多任务损失函数。


3.JPG

 

网格解码器是基于快速局部谱滤波(spectral filter)的图卷积(graph convolution)方法。如图所示,(a)2D卷积是欧几里德网格感受域(receptive field)内的邻域核加权和。(b)图卷积也采用邻域核加权和的形式,但以连接两个顶点的最小边数来计算邻域距离。具有内核gθ的图卷积可以表示为截断K阶的递归Chebyshev多项式,即


 

4.JPG
5.jpg

 

在预测形状和纹理参数之后,采用一种有效的可微分3D网格渲染器,基于相机参数(即相机位置、相机姿势和焦距)和照明参数(即位置 点光源,颜色值和环境照明的颜色)将图像网格投影2D图像平面上。

一旦得到渲染的2D面部图像,采用以下函数比较渲染和原始2D面部的像素差异作为损失:


6.jpg

 

• 校准

校准(alignment)需要人脸关键点(facial landmarks)的检测。

面部关键点检测算法分为三大类:整体(holistic)方法,约束局部模型(CLM)方法和基于回归的方法。整体方法明确地建立模型以代表全局面部外观和形状信息。CLM明确利用全局形状模型,但构建局部外观模型(local appearance models)。基于回归的方法隐含地捕获面部形状和外观信息。下面讨论基于深度学习的人脸关键点检测算法。

在早期的工作中,深度玻尔兹曼机器模型(DBM)作为概率深度模型,捕获面部形状变化。 最近,CNN模型成为典型关键点检测的主导模型,其中大多数遵循全球(global)直接回归框架或级联(cascaded)回归框架。这些方法可以广泛地分为纯学习(pure learning)方法和混合(hybrid)法。纯学习方法直接预测面部关键点位置,而混合法结合深度学习方法和计算机视觉投影模型进行预测。

以下以ODN为例介绍深度学习的关键点检测具体方法。

遮挡自适应深度网络(ODN,Occlusion-Adaptive Deep Networks),旨在解决面部关键点检测的遮挡问题。在该模型中,高层特征在每个位置的遮挡概率由一个可以自动学习面部外观和面部形状之间关系的蒸馏模块(distillation module)推断。遮挡概率当作高层特征的自适应权重,减少遮挡的影响并获得清晰的特征表示。

由于缺少语义特征,干净的特征表示不能代表整体(holistic)面部。要获得详尽而完整的特征表示,必须利用低阶(low-rank)学习模块来恢复丢失的特征。面部几何特征有助于低阶模块重新覆盖丢失的特征,ODN提出了一种几何觉察模块来挖掘不同面部组件之间的几何关系。

如图所示,ODN框架主要由三个紧密结合的模块组成:几何觉察模块,蒸馏模块和低阶学习模块。首先,先前残差学习块的特征图Z输入到几何觉察模块和蒸馏模块中,分别捕获几何信息并获得干净的特征表示。然后,组合这两个模块的输出作为低阶学习模块的输入,对面部的特征相关性建模来恢复缺失的特征。

7.JPG

 

下图是几何觉察模块的结构图,比较局部感受野和几何觉察模块如何捕捉面部几何关系。 ⊗表示矩阵外积(outer product)。

8.JPG

 

从ODN框架图可见,低阶学习模块主要是学习共享结构矩阵,该矩阵对特征间/属性相关性明确编码,以便恢复缺失的特征并去除冗余特征。

• 识别

自2014年以来,深度学习重塑了人脸识别(FR)的研究领域,最早的突破从Deepface方法开始。从那时起,深度FR技术利用分层架构将像素拼接成具有不变性的面部表示,极大地改善了性能并促进实际产品成功。

在深度学习的人脸识别系统中,损失函数分为几种:基于欧几里德距离、基于角/余弦余量和softmax等。基于深度学习的面部图像处理方法(例如姿势变化)分为两类:““一对多增强(one-to- many augmentation)”型和“多对一归一化(many-to-one normalization)”型。

训练深度学习模型进行人脸识别有两个主要研究方向:1)有些人训练了一个多类别分类器,在训练集中分离不同个体,例如使用softmax分类器,2)直接学习嵌入关系,例如三体损失(Triplet Loss)。

对于softmax的损失:线性变换矩阵大小随着个体数而线性增加,学习的特征对于闭集分类问题是可分离的,但对于开集人脸识别问题则不具有足够判别能力。而对于三体的损失:面部三体的数量存在组合爆炸,特别是对于大规模数据集,导致迭代步数显着增加;另外,半难度样本的挖掘是有效模型训练中一个相当难的问题。

这里以ArcFace为例介绍具体的深度学习人脸识别算法。

如图是ArcFace如何识别人脸的框架。DCNN特征与最后一个全连接层之间的点积等于特征和权重归一化后的余弦距离。利用反余弦函数计算当前特征与目标权重之间的角度。然后,在目标角度添加一个附加角度边缘(additive angular margin),再通过余弦函数再次得到目标逻辑模型。这样通过固定的特征规范重新尺度化所有逻辑模型,那么以后的步骤与softmax损失完全相同。

如图是ArcFace各种损失函数的对比。基于中心和特征归一化,所有个体都分布在超球面上。为了增强类内紧凑性和类间差异,考虑四种测地距离(Geodesic Distance,GDis)约束。(a)边缘化损失(Margin Loss):在样本和中心之间插入测地距离边界。 (b)类内损失:减少样本与相应中心之间的测地距离。 (c)类间损失:增加不同中心之间的测地距离。 (d)三体(Triplet)损失:在三体样本之间插入测地距离边界。 这里是一个ArcFace提出的附加角度边缘化损失(Additive Angular Margin Loss),它与(a)中的测地距离(Arc)边界罚分完全对应,以增强人脸识别模型的判别力。本文作者:黄浴(自动驾驶科学家/工程师)


博客 飞奔的蜗牛

LV1
2019-08-12 09:20
106

ADAS/AD-域控制器的当前与未来

功能域的由来及域控制器域和电子电气架构是德尔福发明的。根据欧洲ITEAEAST-EEA项目的术语,域被定义为“一个包含知识、影响范围和活动的球体,其中有一个或多个系统待处理(例如待建立)。”这个术语可以被用来作为一种手段,把机械系统与电子系 ...查看全部

功能域的由来及域控制器

域和电子电气架构是德尔福发明的。根据欧洲ITEAEAST-EEA项目的术语,域被定义为“一个包含知识、影响范围和活动的球体,其中有一个或多个系统待处理(例如待建立)。”这个术语可以被用来作为一种手段,把机械系统与电子系统组合起来。域在工程师实践过程中的具象化体现在整车不同CAN网络的划分上。功能域与CAN网络是不同概念,但是范围上大致是对齐的。

汽车上安装的ECU较多,但是一个CAN通信网络的带宽有限,因此汽车网络架构工程师在ECU在进行组网时,需要考虑ECU功能的相关性。比如,将动力相关的ECU组成一个网络(动力CAN),因为动力相关ECU搭载的功能,对实时性要求比较高,因此用高速CAN网络;将座椅、车窗、车门等车身机构的相关ECU组网,形成舒适(车身)CAN(也就有了车身域),车身域的ECU对实时性要求不高,所以一般用低速CAN网络搭建。同理,底盘域就是跟汽车行驶相关的一些ECUs,例如ABS(防抱死)、ESC(电子稳定控制)、EPS(电动助力转向),组成了底盘CAN…跨域的通信,就通过网关转发。

域控制器

当汽车智能化成为趋势,消费者越来越认同这种趋势并愿意为这个趋势买单时,“正义”(生产力)就产生了。企业只要愿意往这个方向投入,就会收获更多利润和市场份额。

因此,对于更多更复杂的功能的“正义需求”(发展趋势)就产生了,例如自动驾驶功能、智能座舱功能、车联网功能等。为了迎合这种趋势,对能够“承载”这些复杂功能算力的计算单元就产生了。域控制器就出现了。个人认为,域控制器出现的最初逻辑并不是为了减少车辆ECU数量而存在的,而是为了整合数据、增强计算能力而生。但是一旦实施了这一步,人们马上就会在这个方向上“得寸进尺”,减少ECU数量、分布式向集中式演化也就顺其自然了。

域控制器仍旧是在基于按“域”划分的传统电子电气架构基础上的小迭代。相应的,OEM的组织架构设置上,仍旧是按照发动机(新能源OEM的“三电”部门)、底盘部、电子电器部、智能网联部等“域”的概念划分的。如果想按照中心&区控制(图1)等新型车辆EEA的方式去开发车辆,甚至按照软件的开发思路来开发(从按“域”分割开发任务转向按“层”分割开发任务,应用层、感知层、决策层、网络层、驱动层、硬件层、整车层等),恐怕开发任务丢到OEM组织里,工作也不好分配。

v2-f8ec5dafb1c66bf03b0cdd5fd2fb72d9_hd.jpg

图1 丰田的按中心和区划分的EEA

域控制器之后

域控制器之后,就是EEA(以及EEA的实体-线束)的变革了。相关论述也比较多了,这里就不论述了。很期待Model Y的电子电气架构以及号称100米长度不到的线束。既省了线束,减了整车重量和成本;集中化的E/E也省了ECU,又省了成本;关键是,线束简化了,就减少了人工犄角旮旯的布线,提高了效率,马一龙的强迫症也减轻了(心心念的自动化产线又可以正常运行了),他梦想的智能汽车终于又从笨重的线束时代向半导体时代进了一步。

如果一个设备(机械液压设备)想软件化(软件定义汽车),一般要怎么搞呢?

首先要把机械&液压&结构平台做好(整车);然后把半导体器件和电源&通信线束装上去(各种控制器和控制网络,软件角度的“硬件”,主要还是指“silicon”-半导体元器件,其实跟一大坨的钢铁机械部件来比,其实不算“硬”...),这个机械设备就有了“空的大脑”和神经系统了;然后再把操作系统、驱动安装进去,最后应用软件刷进去。以上“基础设施”搭建完毕,就可以软件化了。比如做系统设计时,比较少的关心各个功能的通信了,因为很多功能都整合在一个计算平台上了(比如行车电脑),通信也从控制器之间的通信转化为行车电脑中的板级通信和软件模块之间的参数赋值传值了。总线(比如CAN总线)需求最终应该会下降。画系统框图时,把机械液压件和半导体器件在系统框图里打包划到边缘角落,注上“硬件平台&外设”,然后从软件视角把软件分层细化,沾满屏幕,进行开发…软件定义汽车就实现了。哦不,还差一步,这些“硬件平台&外设”必须标准化,只有标准化了的硬件才能脱离封闭的“孤岛”(放弃抵抗),拥抱了“全球化”(为软件定义汽车扫清硬件“割据”的障碍),才有利于跨国公司(软件们)的资本(软件控制)在“全球范围内”(整个机械平台)展开。随着上述进程的推进,OEM的开发部门的组织架构也必须要跟着变化了。举个例子,在“域”的概念下,曾经汽车工程开发这块“蛋糕”是按照块来切的,切成5-6块,动力块、底盘块(如图2)…随着电子电气架构的集中化,以及ECU数量的简化,汽车开发就可以照搬软件开发思路,按层切了(图3)。听闻阿里与上汽的合作,深入到一定程度后,上汽就面临改革组织架构(成立合资公司,组织架构按软件公司来搭)。经济基础变了(客观应用的技术发生变化),上层建筑(生产关系组织方式)也得跟着变啊!

目前“软件定义汽车”有难度,也就是因为以上的各种产品基础设施(车辆)和组织基础设施(开发部门架构)都需要改造,需要一个过程。最近大众在这方面动作就很多,一边喊“软件定义汽车”的口号,一边在组织架构上成立软件开发部门,大力招聘软件人员,并裁员其他类型开发人员;同时整合座舱域(见MEB平台首款ID3车型,如图4搭载大众自己操作系统的ICAS3信息娱乐系统),开发VW.OS操作系统,这是要聚合硬件、进行软硬件分离的节奏啊!操作系统这种东西,就是隔开硬件和软件用的吧?软硬件分离了,不就可以任性“软件定义汽车”了吗?感觉大众以IVI等座舱域开刀,就是为了植入自己的操作系统,随着座舱域整合成功,慢慢力所能及地“吃掉”车里面其他“域”的一些小功能,比如ADAS/AD中基于摄像头视觉的LCA换道辅助和BSD盲区检测这种。个人判断,最终整车要形成一个大的中央控制器(行车电脑)的话,趋势是往座舱域里并。或者像特斯拉那种,分几个独立的板子,有管信息娱乐域的板子,有管ADAS/AD的板子,甚至VCU的板子也可以放进来,搞一个大机箱封装(类似Model3的CCM中央计算模块)。(来源:自动驾驶之家)


博客 gaohong

LV1
2019-08-09 09:45
136

智能网联汽车产业将加速落地 ——《数字交通发展规划纲要》解读

近日,交通运输部印发《数字交通发展规划纲要》(以下简称《纲要》),旨在贯彻落实党中央、国务院关于促进数字经济发展的决策部署,促进先进信息技术与交通运输深度融合,从而构建数字化的采集体系、网络化的传输体系和智能化的应用体系,加快交通运输信息化向数字化、网络 ...查看全部

近日,交通运输部印发《数字交通发展规划纲要》(以下简称《纲要》),旨在贯彻落实党中央、国务院关于促进数字经济发展的决策部署,促进先进信息技术与交通运输深度融合,从而构建数字化的采集体系、网络化的传输体系和智能化的应用体系,加快交通运输信息化向数字化、网络化、智能化发展,为交通强国建设提供支撑。赛迪顾问认为,《纲要》的出台,是国家推动数字经济在交通领域落地发展的重要体现,同时也为我国智能网联汽车产业的带来重要发展契机。

我国智能网联汽车产业尚处发展初期

智能网联汽车是指车联网和智能化车的有机结合,通过先进的车载传感器、控制器、执行器等装置,融合现代通信与网络技术,实现安全、舒适、节能、高效行驶,并最终可替代人来操作的新一代汽车。我国智能网联汽车产业还处于发展初期,主要体现在高级辅助驾驶系统(ADAS)和车联网技术在汽车端的普及。目前,由于传感器、处理器等自动驾驶必需的核心硬件对外依存度较大,国内的智能网联汽车仅在部分场景具备实现自动驾驶功能的可能性,在全路段工况下自动驾驶的技术还未实现从无到有的突破。随着车载传感器、控制器、执行器等装置的升级以及网络通信技术的进步,预计到2025年我国有望实现L3级自动驾驶功能的大规模普及。但智能网联汽车产业结构复杂,涉及汽车、电子信息、通信、互联网等多个行业,行业发展存在基础设建设不足、商业模式不明晰、标准尚未统一等问题,需要国家统筹各行业资源,制定政策标准,稳步推进产业平稳健康发展。

《纲要》推动智能网联汽车产业快速发展

推动智能基础设施建设,完善智能网联汽车产业发展环境。《纲要》提出要加快第五代移动通信(5G)在交通体系中的应用,推动交通感知网络的建设,推动自动驾驶与车路协同技术研发,开展专用测试场地建设。一方面,5G和交通感知网络的建设为车联网功能的升级提供了基础,基于5G通信的低延时、高失效性,可实现车与车、车与路、车与人、车与网络的实时信息交互,使车实时了解交通信息和危险状况。另一方面,《纲要》的颁布将加快各地自动驾驶测试基地、自动驾驶测试区以及示范区的建设,为智能网联汽车相关企业的研发测试提供基础设施支持。

构建智能化的应用体系,探索智能网联汽车产业发展模式。随着车辆的网联化和智能化,巨大的汽车后市场运营服务市场将快速崛起。《纲要》中提出促进交通、旅游等信息充分开放共享,融合发展,推动出行服务、智慧物流、智能管理等新的物业模式。有助于智能网联汽车业务模式的探索和落地,为产业落地发展提供探索机会,新的业务模式所带来的创新和收入将反哺智能网联汽车产业发展,加速新技术的落地发展。

完善数字交通标准体系,推动智能网联汽车产业化进程。《纲要》提出,要加快自动驾驶国家及行业标准体系建设,完善生产制造、测试评价、网络安全、数据共享、运行使用等标准。标准制定对于行业规范意义重大,尤其对于智能网联汽车产业涉及的多种交叉领域,统一的标准有助于实现各行业、各企业间同步规划、同步研发、同步建设。目前,对于智能网联汽车产业还未出台相关标准和法规,《纲要》的印发将促进相关标准的落实,特别是车基和路基端口的统一,推动智能网联汽车的开发和产业化进程。

智能网联汽车产业发展建议

政府方面,应统筹相关资源,以政策为抓手推动产业发展。一方面,要尽快落实《纲要》要求,加快相关标准的制定以及自动驾驶测试区的建设,推动智能网联汽车产业快速发展。另一方面,政府要对智能网联汽车产业的发展起到导向作用,通过补贴等政策制定引导智能网联汽车产业向正确的方向发展。

企业方面,应重视研发能力,以核心技术为突破,推动产业落地。短期来看,传感器等硬件生产和ADAS系统是智能网联汽车产业的热点。长期来看,多维传感器融合、自动驾驶系统控制等软件算法及处理器集成将是产业的核心与关键。对于科创类企业,应重视研发能力,瞄准核心技术作为突破点,针对产业短板进行孵化。对于大型车企,应加强与互联网类企业的合作,弥补自身在系统软件算法方面开发能力的不足,结合人工智能、云计算等先进技术,推动自动驾驶技术的升级。(作者邵元骏,系赛迪顾问汽车产业研究中心高级分析师 )


博客 gaohong

LV1
2019-08-09 09:45
137

最全、最新的汽车传感器产业链总结(一)

导读:今天,为大家分享国元证券的报告《车载 MEMS 及智能传感器研究》,报告内容详解了传统传感器、MEMS和四种智能传感器的技术特点、行业现状和市场规模,一起来看看吧。 ...查看全部

导读:今天,为大家分享国元证券的报告《车载 MEMS 及智能传感器研究》,报告内容详解了传统传感器、MEMS和四种智能传感器的技术特点、行业现状和市场规模,一起来看看吧。

1.jpg

汽车传感器

先进驾驶辅助系统(Advanced Driver Assistant System),简称ADAS,是利用安装于车上的各式各样的传感器, 在第一时间收集车内外的环境数据, 进行静、动态物体的辨识、侦测与追踪等技术上的处理, 从而能够让驾驶者在最快的时间察觉可能发生的危险, 以引起注意和提高安全性的主动安全技术。

汽车传感器装备的目的不同,可以分为提升单车信息化水平的传统微机电传感器(MEMS)和为无人驾驶提供支持的智能传感器两大类。MEMS 在汽车各系统控制过程中进行信息的反馈,实现自动控制,是汽车的“神经元”。而智能传感器则直接向外界收集信息,是无人驾驶车辆的“眼睛”。

01、汽车智能化的根基——传感器

传感器是汽车电子控制系统的信息来源,是车辆电子控制系统的基础关键部件。传感器通常由敏感元件、转换元件和转换电路组成,其中敏感元件是指传感器中能直接感受或响应被测量的部分,转换元件是将上述非电量转换成电参量,转换电路的作用是将转换元件输出的电信号经过处理转换成便于处理、显示、记录和控制的部分。从目前汽车传感器装备的目的不同,可以分为提升单车信息化水平的传统微机电传感器和为无人驾驶提供支持的智能传感器两大类。

2.JPG

▲汽车传感器的构成

传统传感器 :各个系统控制过程依靠传感器,进行信息的反馈,实现自动控制工作,是汽车的“神经元”。汽车传统传感器依照功能可以分为压力传感器、位置传感器、温度传感器、加速度传感器、角速度传感器、流量传感器、气体浓度传感器和液位传感器等 8 类。汽车传感器主要应用于动力总成系统,车身控制系统以及底盘系统中。汽车传感器在这些系统中担负着信息的采集和传输功用,它采集的信息由电控单元进行处理后,形成向执行器发出的指令,完成电子控制。

3.JPG

▲传统传感器分类

智能传感器 :智能传感器是无人驾驶车辆的“眼睛”。随着汽车无人驾驶技术的突破,汽车电子开始注重传感器的智能化发展;汽车正在向一台安全联网的自动驾驶机器人快速演进,进行环境感知、规划决策,最终实现安全抵达目的地。目前应用于环境感知的主流传感器产品主要包括激光雷达、毫米波雷达、超声波雷达和摄像头等四类。

4.JPG

▲智能传感器分类

博客 gaohong

LV1
2019-08-09 09:45
141

自动驾驶技术之强化学习(RL)简介

强化学习(Reinforcement Learning),实际上是讨论一个自主的代理(agent)在环境中如何感知和最优地行动(act),最终实现给定的目标(goal)【1】。下图给出一个代理和环境交互的示意图。其中状态S,行动A,奖励(reward)R ...查看全部

强化学习(Reinforcement Learning),实际上是讨论一个自主的代理(agent)在环境中如何感知和最优地行动(act),最终实现给定的目标(goal)【1】。下图给出一个代理和环境交互的示意图。其中状态S,行动A,奖励(reward)R,代理的目标是学习从状态S到行动A的控制策略,最大化累积的奖励(cumulative reward),其中每次奖励还会随着时间衰减,衰减因子取【0,1)之间的数。

• 问题建立

RL代理随时间推移与环境交互。在每个时间步t,代理接收状态空间S的状态st,并且跟从策略π(at | st)从行动空间A中选择行动at,该策略是代理的行为,即从状态st到行动at的映射。 代理接收标量奖励rt,并根据环境动态或模型转换到下一个状态st+1,其中奖励函数以及状态转移概率分别是R(s,a)和P(st+1 | st,at)。在一个情节(episodic)问题,这个过程一直持续到代理达到终端状态然后重新启动。回报是衰减的累积奖励(accumulated reward),衰减因子γ∈【0,1),则

代理的目标是最大化每个状态这种长期回报的期望。问题在离散状态和行动空间中建立起来。 但扩展到连续空间并不困难。在部分可观察的环境中,代理不能完全观察系统状态,但还是有观察的结果。

当RL问题满足Markov属性时,即,未来仅取决于当前状态和行动,而不取决于过去,它被表述为由5元组定义的马尔可夫决策过程(MDP)(S,A,P,R,γ)。当系统模型可用时,动态规划(DP)方法被采用,那么策略评估(policy evaluation)计算策略的价值/行动(action)价值函数,而价值迭代和策略迭代找到最优策略。没有模型可用时,采用RL方法。有模型可用时,RL方法也可以工作。另外,RL环境可以是多臂强盗(multi-armed bandit),MDP,POMDP,游戏等。

注:多臂强盗问题是指一个固定的有限资源集在竞争(备选)选项之间分配,要求最大化它们的预期收益,其中每个选择的属性在分配时仅部分已知,并且随时间的推移或通分配资源后能更好地被理解。

• 价值函数

价值函数是对预期的、累积的、打折的和未来的奖励预测,衡量每个状态或状态-行动对的好坏程度。状态价值,

是来自状态s的后续策略π的预期回报。 行动价值

1.jpg

是在状态s中选择行动a然后遵循策略π的预期回报。价值函数vπ(s)分解为Bellman方程:

一个最优状态价值

是状态s的任何策略可实现的最大状态价值,它分解为Bellman方程:

行动价值函数qπ(s,a)分解为Bellman方程

2.JPG

一个最优行动价值函数

是对状态 s 和行动a的任何策略可实现的最大行动价值,它分解为Bellman方程:

这里最优策略记作π∗。

• 探索与开发

RL代理需要在探索不确定策略和开发当前最佳策略之间进行权衡,这是RL的一个基本困境。 这里我们介绍一种简单的方法,ε-贪婪(greedy),其中 ε ∈(0,1),通常是接近0的小数。在ε-贪婪中,代理选择贪婪行动a =argmaxa∈AQ(s,a) 对于当前状态s,概率为1-ε,并且选择概率为ε的随机行动。 也就是说,代理以概率1 - ε开发当前价值函数估计,并以概率ε进行探索。

• 动态规划

动态编程(DP)是解决最优子结构和重叠子问题的一般方法。MDP满足这些属性,其中Bellman方程给出递归的分解,并且价值函数存储和重用子解决方案。DP充分了解MDP的传递和奖励模型。预测问题是评估给定策略的价值函数,并且控制问题是找到最优价值函数和/或最优策略。

迭代策略评估是评估给定策略π的方法。它迭代地应用Bellman期望备份,

因此,每次迭代k + 1,对所有状态s∈S,从其后继状态vk(s')的价值函数更新vk + 1(s)。价值函数将收敛于vπ,即策略π的价值函数。

策略迭代(PI)在策略评估和策略改进之间交替,以生成一系列改进策略。在策略评估中,估计当前策略的价值函数以获得vπ。在策略改进,当前价值函数用于生成更好的策略,例如,相对于价值函数vπ选择贪婪的行动。包括迭代策略评估和贪婪策略改进的策略迭代过程将收敛到最优策略和价值函数。

可以修改策略迭代步骤,在收敛之前停止它。广义策略迭代(GPI)由任何策略评估方法和任何策略改进方法组成。

价值迭代(VI)可找到最优策略。它迭代地应用Bellman最优性备份,

每次迭代k + 1,对所有状态s∈S,它从vk(s')更新vk + 1(s)。这样的同步备份将收敛到最优策略的价值函数。 可能有异步DP,并且是近似DP。

• 蒙特卡洛

蒙特卡罗方法从完整的经验情节(episodes)中学习而不是假设传递或奖励模型的知识,使用样本方法进行估计。蒙特卡罗方法仅适用于情节任务。

使用蒙特卡罗方法进行策略评估时,使用经验平均收益而不是预期收益进行评估。根据大数定律(law of large numbers),估计的价值函数收敛于策略的价值函数。

有策略的蒙特卡罗控制遵照广义的策略迭代方案。而政策评估,使用蒙特卡罗策略评估来确定行动价值。为了改善策略,使用ε-贪婪的策略改进。

在非策略学习中,跟随行为策略评估目标政策。借着非策略性,可以从人或者其他代理的观察中学习,重用旧策略的经验,在听从探索性策略的同时学习最优策略,基于一个策略的经验学习多个策略。

对非策略蒙特卡罗方法可以用重要采样(importance sampling),在整个情节中乘以重要采样的校正权重,用行为策略产生的经验评估目标政策。

• 时间差异(TD)学习

时间差异(TD)学习是RL的核心。TD学习通常是指价值函数评估的学习方法。Q-学习也被认为是时间差异学习。TD学习直接以无模型、在线和全增量的方式自举(Bootstrapping),从TD误差的经验中学习价值函数V(s)。 TD学习是一个预测问题。更新规则是V(s)←V(s)+ α[r + γV(s')- V(s)],其中α是学习率,r + γV(s')- V(s)被称为TD误差。

Q-学习(Q-learning)是一种无策略(off-policy)寻找最优策略的控制方法。Q-学习要学习行动价值函数,用更新规则Q(s,a)←Q(s,a)+α[r +γmaxa'Q(s',a')- Q(s,a)]。Q-学习通过最大运算符(max operator)相对于行动价值贪婪改进了策略。

TD学习和Q学习在某些条件下趋同。从最优的行动价值(action value)函数,可以得出最优的策略。

TD 学习伪代码实现:

Q-学习伪代码实现:

• 多步(multi-step)自举

上述阐述的算法称为TD(0)和Q(0),即一步返回进行学习。可以在前视图采用多步返回的学习就变成它们的改进型。在n-步更新,V(st)更新为n-步返回,定义为,

后视图的合格性踪迹(eligibility trace)提供一个在线的增量实现,则产生TD(λ)和Q(λ)算法,其中λ∈[0,1]。 TD(1)与蒙特卡罗方法相同。合格性踪迹是一种短期记忆,通常在情节(episode)中持续,通过影响权重向量协助学习过程。权重向量是一个长期记忆,在整个系统时间持续,决定估计的价值。合格性踪迹有助于解决长期延迟的奖励和非马尔可夫任务。

为预测算法,TD(λ)用合格性踪迹和衰减参数λ统一了一步TD预测TD(0)和蒙特卡罗方法TD(1)。同理,也可以统一多步TD控制算法。

• 基于模型的RL

Dyna-Q整合学习、行动和规划,不仅从实际经验中学习,还可以通过学习模型的模拟轨迹进行规划。下图是Dyna-Q 的伪代码实现。

• 函数近似

讨论上面的表格案例,其中价值函数或策略以表格形式存储。当状态和/或行动空间很大或连续时,函数逼近是一种泛化的方法。函数逼近的目的是从函数的例子推广,构造整个函数的近似;强化学习中的函数逼近通常将每个备份视为训练示例,并遇到非平稳性、自举和延迟的目标等新问题。线性函数逼近是一种流行的选择,部分原因在于其理想的理论属性。

TD(0)函数近似的伪代码实现:

• 策略优化

与基于价值的方法(如TD学习和Q-学习)相比,基于策略的方法直接优化策略π(a | s;θ)(具有函数逼近),并通过梯度下降更新参数θ。 与基于价值的方法相比,基于策略的方法通常具有更好的收敛性,在高维或连续行动空间有效,并且可以学习随机策略。然而,基于策略的方法通常会收敛到局部最优,无法评估,并且出现高方差。随机策略很重要,因为一些问题只有随机最优策略。

REINFORCE 伪代码实现:

Actor-Critic伪代码实现:

• 参考文献

Y Li,“Deep Reinforcement Learning”, arXiv 1810.06339, 2018

• 附注

当深度神经网络用来表示状态或观测向量时,我们获得深度强化学习(Deep RL)方法,和/或近似任何强化学习的任何组成部分:价值函数vˆ(s;θ)或q ˆ(s,a;θ),策略π(a | s;θ)和模型(状态转换函数和奖励函数)。这里,参数θ是深度神经网络中的权重。当使用“浅度”模型,如线性函数和决策树等,作为函数逼近器时,我们得到“浅度”RL,参数θ是这些模型中的权重参数。注意,浅度模型(例如决策树)可以是非线性的。深度RL和“浅度”RL之间的明显差异是函数逼近器。这类似于深度学习和“浅度”机器学习之间的区别。通常利用随机梯度下降来更新深RL中的权重参数。当无策略性、函数逼近、特别是非线性函数逼近和自举被组合在一起时,可能发生不稳定性和发散。最近的深度Q-网络工作稳定了学习并取得了出色的成果。(来源:自动驾驶之家 本文作者:黄浴(自动驾驶科学家/工程师))


博客 gaohong

LV1
2019-08-09 09:45
129

基于深度学习的视频帧内插技术

前面介绍了利用空间几何关系的视图扩展(IBR),现在讨论如何利用时域运动关系的视图扩展,俗称为视频内插或者视频帧率转换(frame rate up conversion,FRUC)。这个问题的本 ...查看全部

前面介绍了利用空间几何关系的视图扩展(IBR),现在讨论如何利用时域运动关系的视图扩展,俗称为视频内插或者视频帧率转换(frame rate up conversion,FRUC)。这个问题的本质是运动估计和补偿/预测的应用,因为深度学习可以用于运动估计,故也可以看到其在FRUC中的继续。

• Adaptive Convolution

视频帧插值通常涉及两个步骤:运动估计和像素合成。该方法将这两个步骤组合到一个过程中,即将内插帧的像素合成视为两个输入帧的局部卷积。卷积核捕获输入帧之间的局部运动和像素合成的系数。它采用深度全卷积神经网络(FCN)来估计每个像素的空间自适应卷积核。其训练可以是在广泛可用的视频数据端到端进行,不需要任何难以获得的基础事实(GT)数据,如光流。

关于像素插值通过卷积实现的原理见下图。 对于每个输出像素(x,y),估计卷积核K并与两个输入帧以(x,y)为中心的两个补丁P1和P2卷积产生插值图像I ˆ(x,y)。

1.jpg

下图进一步介绍卷积做像素内插的原理。给定两个视频帧I1和I2,那么任务就是在时域两个输入帧的中间插入新帧Iˆ。传统的插值方法分两步估计插值帧中像素Iˆ(x,y)的颜色:光流估计和像素插值,如图(a)所示。当光流由于遮挡、运动模糊和纹理缺乏而不可靠时,这种两步法可能性能会受到影响。另外,对坐标进行舍入(rounding)得到I1(x1,y1)和I2(x2,y2)的颜色,很容易产生混叠(aliasing),而使用固定内核进行重采样也不能很好地保留尖锐的边缘信息。

而解决方法就是将运动估计和像素合成集成到一个步骤,并将像素插值定义为输入图像I1和I2的局部卷积。如图(b)所示,通过在相应输入图像中以(x,y)为中心的补丁P1(x,y)和P2(x,x)和适当的核K卷积获得插值目标图像的像素(x,y)值。卷积核K捕获像素合成的运动和重采样系数。

像素插值的卷积实现有一些优点:1)将运动估计和像素合成组合到一步提供了比两步程序更稳健的解决方案;2)卷积内核提供了解决诸如遮挡等困难情况的灵活性,一种数据驱动的方法直接估计卷积核并为遮挡区域产生视觉上合理的插值结果;3)这种卷积公式可以无缝集成其他重采样技术,如边缘觉察(edge-aware)滤波法,以提供清晰的插值结果。

• Super SloMo

这是一种用于可变长度多帧视频插值的端到端卷积神经网络(CNN)方法,其中联合建模运动估计和遮挡分析过程。首先使用U-Net架构计算图像之间的双向光流(bi-directional optical flow)。然后,在每个时间步线性地组合这些光流以近似中间(intermediate)双向光流。然而,这些近似光流仅在局部平滑区域中很好地工作并且在运动边界周围产生伪影(artifacts)。为此,采用另一个U-Net来改进近似光流并预测软可见性图(soft visibility maps)。最后,两个输入图像被变形并线性方式融合形成每个中间帧。在融合之前应用这种可见性图于变形图像,好处是排除了被遮挡像素对插入中间帧的贡献以避免伪像(artifacts)出现。训练网络的数据是1,132个240-fps视频剪辑,包含300K帧。

整个网络结构归纳一下,如下图所示。对于光流计算和光流插值CNN,采用U-Net架构。 U-Net是一个全卷积网络,由编码器和解码器组成,在相同的空间分辨率下,编码器和解码器之间有跳连接(skip connection)。在这两个网络,编码器有6层,包括两个卷积层和一个Leaky ReLU(α= 0.1)层。 除最后一层之外,每层次末尾,用步幅为2的平均池化层(averaging pooling)来减小空间维度。 解码器部分有5层,在每层开始,双线性上采样层用于增加空间维度2倍,然后是两个卷积层和一个Leaky ReLU层。

• MEMC-Net

现有的基于学习的方法通常估计光流运动或运动补偿内核,从而限制了计算效率和插值精度的性能。MEMC-Net是一种用于视频帧插值的运动估计和补偿(MEMC)驱动的神经网络。其中设计一种自适应变形层(adaptive warping layer),以集成光流和内插核技术来合成目标图像帧。该层完全可微分,因此可以光流和内核估计网络可以联合优化。受益于运动估计和补偿方法的优点,该网络不使用人为设计(hand-crafted)的特征。下图是MEMC网络的比较。传统的MEMC方法包括运动估计、运动补偿和后处理,如图(a)所示。另一方面,有两种基于神经网络的视频帧插值的代表性方法。一种简单的方法是顺序组合上述三个模块,如图(b)所示。然而,由于不完美的光流估计,变形的帧(Iˆ t-1和Iˆ t + 1)通常质量较低。因此,横向核(lateral kernel)估计、核卷积和后处理不能基于变形帧得到好结果。相比之下,第三种算法同时估计相对于原始参考帧的光流和补偿内核,要求在变形层内执行基于流和补偿内核的帧内插,如图(c)所示。

2.JPG

整个视频帧插值算法执行的任务如下:给定两个输入帧,首先分别通过运动估计和核估计网络估计光流和空域变化的插值核;然后,基于自适应变形层内的光流和内核来变形输入帧;接下来,通过将变形的输入帧与学习的遮挡掩码混合来生成中间帧;然后,将中间帧以及估计的内核、光流和掩码馈送到后处理网络以生成最终输出帧。该网络模型称为MEMC-Net,架构示意图见下图。

另外还有一个增强模型,在后处理网络中使用上下文信息获得更好的性能。把预训练的分类网络提取的上下文信息和残差块作为卷积层的替代方案有助于提高性能。增强型模型命名为MEMC-Net *。如下图显示了MEMC-Net和MEMC-Net *网络模型。其中虚线框是上下文提取模块(context extraction module )。其中光流估计用FlowNetS,核和掩码估计基于UNet,上下文提取模块基于ResNet18,而后处理基于多个卷积层的网络。

• IM-Net

IM-Net是一种运动插值神经网络。它使用经济的结构化架构和端到端的训练模式,以及定义的修正多尺度损失函数。 特别是,IM-Net将插值运动估计表示为分类而不是回归问题。

IM-Net是一个全卷积神经网络,用于估计插值运动矢量场(interpolated motion vector field,IMVF)和遮挡图。它不是逐像素而是逐图像块的版本。由于运动的分段平滑性,这对于高分辨率是合理的。然后,将估计的IMVF和遮挡图与输入帧一起传递给合成内插中间帧的经典视频帧内插(VFI)方法。

在VFI域中广泛使用的架构选择是编码器-解码器模块。如图所示,IM-Net网络架构由三种类型的模块组成:特征提取、编码器-解码器和估计。编码器-解码器子网络接收从连续输入帧对中提取的特征。它们的输出合并为高维表示,并传递给估计子网络。为了实现多尺度处理,构造输入帧的三级金字塔图像表示。六个输入帧中的每一个(每个金字塔层是一对)由特征提取模块处理,每个输入产生25个特征通道。由于所有输入都经过相同的层,并且这些层共享其参数,称为Siamese。

3.JPG

从每个金字塔层提取的特征作为输入传递给其编码器-解码器模块。用一个稍微不同的架构来设计每个编码器-解码器模块,以便所有解码器输出的大小为W/8 × H/8 × 50,其中图像帧大小是W x H。接下来,使用局部(逐像素)自适应(学习过)权重来合并三个解码器输出。为此,解码器输出被传递到级联的卷积层,接着是SoftMax层。然后,将合并输出为三个解码器输出通道的加权平均值。

最后,合并的输出被发送到三个并行的Estimation估计路径,每个路径由卷积层组成,并以SoftMax层结束:前两个路径每个产生25个归一化权重(分辨率W/8 × H/8)。这些权重分别与IMVF的水平和垂直分量估计相关联;第三条路径生成两个归一化权重(分辨率还是W/8 × H/8),与遮挡图的估计相关联。

• Depth-Aware Video Frame Interpolation

这是一种通过挖掘深度信息来明确检测遮挡的视频帧插值方法。具体而言,它设计了一种深度觉察的光流投影层来合成中间光流,其优先采样那些更近的物体。此外,系统学习一种分层特征(hierarchical feature),能以从相邻像素中收集上下文信息。然后,该模型基于光流和内插内核变形输入帧、深度图和上下文特征得以合成输出帧。如图是该方法的一些视频内插帧的例子,可以看到估计的光流、深度图、内插帧和基础事实(GT)帧。

4.JPG

给定两个输入帧I0(x)和I1(x),其中x∈[1,H]×[1,W]是图像2D空间坐标,H和W是图像的大小,而任务是在时间t∈[0,1]处合成一个中间帧。深度觉察的帧内插方法需要光流来变形输入帧以合成中间帧。首先,估计双向光流,分别用F0→1和F1→0表示。为合成中间帧,有两种常见的策略:1)第一种策略可以应用前向变形,基于F0→1变形I0并且基于F1→0变形I1,然而前向变形可能导致变形图像出现“洞”;2)第二种策略是先近似中间流,即Ft→0和Ft→1,然后应用后向变形对输入帧采样,而为了近似中间流量,可以从F0→1和F1→0 中的相同网格坐标借用光流矢量,或者聚合通过同一位置的光流向量。该框架也采用了光流投影层(flow projection layer)设计来聚合光流向量,同时考虑深度顺序来检测遮挡。

获得中间光流后,在自适应变形层(adaptive warping layer)内基于光流和插值内核对输入帧、上下文特征和深度图变形。最后,采用帧合成网络(frame synthesis network)来生成内插帧。

下图是深度觉察光流投影方法示意图。光流投影层通过 “反转” 在时间t通过位置x的光流向量来近似给定位置x的中间光流。 如果流F0→1(y)在时间t通过x,则可以将Ft→0(x)近似成-tF0→1(y)。类似地,我们将Ft→1(x)近似为–(1-t)F1→0(y)。以前的光流投影方法获得的平均光流向量可能不指向正确的目标或像素。相反,根据深度值重写光流能够生成指向更近像素的光流向量。这样,投影的光流向量

其中设D0是图像I0的深度图,而权重计算如下

对于没有光流通过的位置,其形成的“洞”可以通过邻域的光流平均填补,计算为

所提出的深度觉察光流投影层完全可微分,这样在训练期间可以联合优化光流和深度估计网络。 而整个帧内插模型的框架如图,模型包括以下子模块:光流估计、深度估计、上下文提取、核估计和帧合成网络。深度觉察光流投影层获得中间流,然后变形输入帧、深度图和上下文特征。最后,通过残差学习帧合成网络生成输出帧。光流估计采用PWC-Net,深度估计采用沙漏模型,上下文特征提取采用预训练的ResNet,核估计和自适应变形层基于U-Net,最后帧合成网络基于三个残差块,以增强合成帧的细节。

下图是上下文提取网络架构。

5.jpg

下图是深度觉察光流投影层的效果展示例子:DA-Scra模型无法学习任何有意义的深度信息;DA-Pret模型从预训练模型初始化深度估计网络,并为帧插值生成清晰的运动边界;DA-Opti模型进一步优化了深度图并生成更清晰的边缘和形状。

下图是提取上下文特征的效果例子。与其他两个,即预训练卷积特征(PCF)和学习的卷积模型(LCF)相比,使用学习的分层特征(LHF)和深度图(D)进行帧合成,产生更清晰和更清晰的内容。(来源:自动驾驶之家  本文作者:黄浴(自动驾驶科学家/工程师))


博客 gaohong

LV1
2019-08-09 09:45
153

上海特斯拉超级工厂(tesla Gigafactory)将于2019年底前正式完工

上海特斯拉超级工厂( ...查看全部

上海特斯拉超级工厂(tesla Gigafactory上海仅用了7个月,框架架构基本完工,预计在2019年底前正式完工。

df83a68eeac6f030ede99ae768b6cff.jpg

博客 tututu

LV5
2019-08-07 11:12
164