ADAS的感知方案组合,正在呈现分化的局面,是不是传感器种类越多越好?背后是技术的沉淀积累以及成本等多因素的考量。
作为全球最主要的两家以视觉ADAS路线起家以及作为重点发展方向的公司,特斯拉和Mobileye在很多方面有着相似之处。
事实上,就在昨天特斯拉官网发布将在Model 3和Model Y两款车型上率先“撤掉”毫米波雷达之前,Mobileye已经在纯视觉L2/L2 ADAS方案落地上先行一步,并给出了两套不同层级的方案。
去年9月底,吉利集团正式宣布将在旗下全新极氪品牌纯电高端车型L2 级智能驾驶方案上使用全功能360度摄像头解决方案,这个系统叫做Mobileye SuperVision™,基于两颗EyeQ5® SoC ,搭载七个远距离和4个近距离的摄像头(360度全景)。
这是一套可以支持面向高速公路自动驾驶以及放开双手的城区自动驾驶的方案,搭载了Mobileye的基于责任敏感安全(RSS)的控制策略;同时,另一套面向低成本、满足基本新车评级要求的方案也同步落地。
也是在去年9月份,搭载Mobileye EyeQ4芯片的单摄像头的L2级驾驶辅助方案在长城旗下的哈弗大狗和全新第三代H6上量产搭载上市,原因之一是除了能实现与传统单目 毫米波雷达组合方案的功能,整体方案成本更低。
不过,相比于特斯拉的激进,Mobileye的新策略选择了冗余。“冗余少,意味着低成本的技术实现,但风险更大。”Shashua表示,比如数量更多(11个,多特斯拉3个),分辨率更高(800万像素,而特斯拉只有120万像素)的摄像头。
一、纯视觉,不是谁都能玩就传统意义而言,单目摄像头并不具备测距能力,其后处理得到的目标距离精度也相当有限;同时也缺乏立体空间的建模能力,检测到的图像只能停留在二维空间;此外也需要庞大的数据样本作为学习模板。
要克服这些问题,Mobileye的纯视觉方案,和特斯拉有很多相似之处,比如,基于众包数据。
Mobileye的REM™的通用性是保证安全和功能迭代的关键要素之一。REM从已经上路的大量车辆中众包采集数据,并快速建立一个全面的、定期更新的数据库;同时借助于庞大客户群体的优势,实现数据的广泛覆盖。
此外,和特斯拉一样,Mobileye表示,该技术可以从2D摄像头图像中创建3D模型,帮助系统更好地感知环境。不过,和特斯拉相比,Mobileye的算法策略不太一样。
在Mobileye的这套系统上,一共运行了四种不同的算法,一是识别车轮和推断车辆位置的算法;而是用于识别车门的算法,类似于开门预警的功能,不过主要是识别周边车辆。
第三种算法是通过比较摄像头拍摄的图像不同帧来推断图像中每个像素的距离,从而生成三维点云(点云上使用类似激光雷达的处理算法),以及识别场景中的物体。第四种算法则是识别可行驶道路区域。
而在地图数据方面,该公司预计,到2020年底,其欧洲客户车队的车辆数量将超过100万辆,2021年美国将达到100万辆。上述数据将最终共享给合作伙伴的汽车,用于实时检测自动定位。
当这些元素都具备之后,Mobileye就可以解决传统2D摄像头无法解决的物体深度信息的获取难题。按照此前公开的信息,Mobileye采取了四步融合策略。
其一,是基于点云,在物体检测中给出了一个物体位置的3D估计。这是通过从场景的多个视图进行三角测量来实现的。接着,基于视觉道路模型,使用经典的计算机视觉估计地平面和提取深度的车辆是否在一个地平面上。
然后,通过一种基于神经网络的方法,从图像中的物体外观推断深度信息。这种神经网络是来自日常基于激光雷达、雷达或测距相机等传感器进行训练。最后,依靠高清地图(REM)生产的道路模型从车辆在地面上的距离提取深度。
当然,很多对特斯拉提出质疑的是,此前已经发生的几起撞上横穿马路的白色半挂卡车的事故,包括撞上停在路边的车辆。推测原因是,3D环境建模面出现了问题。
由于在大多数情况下,传统毫米波雷达没有垂直(俯仰角的识别能力)分辨率,所以无法区分这类物体和高速公路上的广告牌、天桥等等常见物体的区别。最终,归结起来就是计算机视觉能在多大程度上估计物体在3D模型中的位置和尺寸。
而在目前,基于视觉方案实现深度估计的方法,无外乎以下几种,包括基于立体的深度估计、基于运动的结构深度估计、单目深度估计和无监督深度估计。
对于特斯拉来说,让摄像头成为一种测距传感器,取代雷达的使用,是其主要的目的。而业内认为,即便解决了大部分问题,摄像头最大的弱点之一似乎仍然是估算不常见道路障碍物的深度信息。
在这一点上,Mobileye的策略是双系统协作,比如其正在自主研发的4D成像雷达和FMCW激光雷达。该公司希望使用两种感知系统来开发一个高度可信的环境模型,从而保证L4级自动驾驶的安全运行。
该两种感知系统包括端到端独立的自动驾驶系统,一个仅由摄像头组成,另一个由雷达和激光雷达组成,同时两套系统完全独立,不存在相互融合机制。Mobileye认为,通过从两个系统中获得接近人类水平的能力,加在一起将成倍增加感知的性能。
而在纯视觉方案上,多个计算机视觉感知引擎同时运行,并在后期阶段被融合在一起,从而对道路识别模型进行鲁棒建模。比如,基于三维神经网络的目标检测引擎、基于神经网络的场景分割引擎、经典的计算机视觉引擎等等。
当然,要实现这些,两家公司同样都是基于自研芯片、软硬件强耦合的开发模式。包括在吉利的项目上,Mobileye也是首次负责完整的解决方案堆栈,包括硬件和软件、驱动策略和控制。
这意味着,要实现纯视觉感知方案(Mobileye称之为VIDAR方案,中文可以叫虚拟激光雷达),门槛不低。
而在国内,智驾科技MAXIEYE已经规模化量产的IFVS-500就是采用类似的“虚拟激光雷达”技术,能实现基于精准测距的三维构建,即精准的距离探测与场景三维建构。突破了传统视觉方案的局限。
该技术对机动车的有效检测范围达200米,对行人和骑行者的有效识别距离可达100米,同时能实现各种情况下的车道线、障碍物、Freespace、红绿灯、交通标识等检测功能,提供精准的立体姿态跟踪信息。在50米范围内,可实现和激光雷达数据对标,达到3%以内的测距误差精度。
此外,智驾科技MAXIEYE提出了基于图像直接端到端的深度学习坡度估计方法,可以帮助车辆识别前方道路的直接曲率和坡度,为检测目标提供更多补偿信息。
二、硬件、算力驱动方案多元化100/120度水平宽视角、800万像素前视摄像头是推动这一波视觉技术路线性能升级的关键,当然还有足够的算力平台支撑。
首先是,采埃孚推出的基于EyeQ4的新款S-Cam4.8车用摄像头,水平视场角为100度,单摄像头方案已经在长城旗下多款车型量产搭载,这是未来几年15万级别车型普及入门级L2级ADAS的主流方案。
此外,麦格纳也宣布,将推出基于Mobileye EyeQ5的前向视觉ADAS一体机方案(软硬件打包),这套方案将在欧洲一家汽车制造商巨头的多款车型搭载。
作为业内首款量产基于EyeQ5的前视摄像头 软件单一系统之一,目的是帮助主机厂继续降低成本、简化装配线的安装,以及符合更多平台车型的快速适配。
EyeQ®5支持超高分辨率下的120度水平视场,更宽的视野和更高的分辨率增强了ADAS系统的性能,确保了对更大范围、更高速度的目标的检测和响应。
同时,这套纯视觉方案,有机会成为L3级自动驾驶方案的冗余备份。
比如,宝马的L3策略,就是典型的双系统模式,其中较低层次的系统成为较高层次系统的后备。你也有一个经典和人工智能方法的组合。后退机制则基于经典的确定性算法。
而今年开始,800万像素已经成为高端智能化车型的标配,这意味着各方面的性能都需要得到提升。一个800万像素的16位前视摄像头,以每秒60帧的速度运行,数据速率能达到1GB/s。
800万像素的摄像头,每秒钟需要处理的数据量要比原来的100万/200万像素高几个等级,算力也要相应的翻番,同时对于不同场景,不同的卷积神经网络,耗费的算力也不同。
以大陆集团此前发布的第五代车规级摄像头MFC500系列为例,800万像素的分辨率和高达125度广角视场。性能指标为交通标志识别距离可达100米,自行车、行人可达140m、摩托车160米、轿车250米,同时可以兼顾远近距离下的清晰识别度。
此外,该款摄像头不仅可以在光线更暗的情况下使用,同时还可以应付更复杂的交通路况,以及,更精确的识别行人姿态,预测其未来的行动轨迹。
同时,800万像素广角摄像头的推出,意味着在一部分追求性价比的方案中,可以减掉目前额外增加的一颗前视广角摄像头,从而降低系统的成本。
而对于入门级L2或者满足新车评级需要,硬件还可以做一部分成本控制,比如搭载地平线征程2芯片的福瑞泰克新一代ADAS前视解决方案,满足大多数功能都可以用单摄像头(1V)替代原有摄像头加雷达(1V1R)的搭配。
在视觉感知算法与摄像头规格上,视场角升级至100度,感光芯片提高到300w像素,超过1080p高清,可实现前向探测功能包括ACC、AEB、LDW、FCW、LKA、ELKA、PA、TSR、IHBC等主动安全功能。
同时,福瑞泰克的新一代ADAS前视解决方案大量采用CNN等深度学习算法,在对行人、二轮车、道路结构信息、交通标识以及交通灯识别上大幅度提升识别能力和识别精度。
此外,基于地平线最新一代征程3汽车智能芯片作为主要的视觉感知输入,福瑞泰克正在同步研发更高级别量产级智能驾驶解决方案,能够支持前向8MP摄像头,侧视摄像头2MP,提供强大的前向感知性能和侧视感知。
显然,对于特斯拉“抛弃”毫米波雷达,短时间还无法评判是否能够满足所谓的FSD(全自动驾驶)功能落地,毕竟还需要很长时间的数据积累和训练迭代。
但视觉方案的优势,仍然具备足够的提升空间。当然,对于不同的车型价格定位,后续方案会出现很多变种,比如增加激光雷达来提供安全冗余。
,