本期概述
哈喽大家周末快乐!近期李小毛在后台收到一个特别有趣的提问:
有没有啥有趣的研究方向推荐呢?
俺说有啊我们分享过好多研究领域相关的...
他说先别急,合格的当代核动力驴还是有要求的
首先研究方向一定要新,太老的不好发论文;其次一定不要太热门,不然同主题投稿太多,千军万马过独木桥;还有千万不能太偏,不然以后不好找工作...还有还有,最好能是那种行业急需的研究,这才能对以后有帮助。当然这一切的一切,最重要的当然还是如开头所说:他一定要有趣
俺看着很像许愿池里的王八吗...许这么大的愿...
欸,不过这话又说回来
李小毛还真去找了,嘿嘿,还真给我找着了一些。通过和业内的朋友们交流,确认是当前自动驾驶行业特别需要的研究!刚好借此机会,出一个特别的系列:研究方向分享~欢迎点赞收藏转发在看四连,我们继续往下看!
一个思维误区
端到端自动驾驶的优势
简化系统架构
端到端自动驾驶省略了传统自动驾驶系统中的多个独立模块,直接利用深度学习模型完成数据处理和决策输出。这种一体化方法减少了模块间信息传递和转换带来的误差累积,系统更为简洁。高度的数据驱动
端到端方法依赖大量真实世界的数据进行训练,模型通过学习大量驾驶场景,自主提取特征并优化决策路径。这使得端到端方法在特定条件下能够适应复杂且动态的驾驶环境。全局最优解
在理论上,端到端学习能够从输入到输出进行全局优化,避免了模块化系统中各个子模块独立优化导致的局部最优问题。这使得系统有望在特定任务上取得更好的性能。无需人工设计规则
端到端模型自动从数据中学习驾驶行为,减少了对人工定义规则和手动工程设计的依赖,适应性更强。例如,复杂的环境感知和交通场景预测可由神经网络自动完成。
端到端自动驾驶的局限性
黑箱问题
端到端系统往往被视为“黑箱”,缺乏解释性和透明性。模型如何作出决策难以解释,这在安全要求极高的自动驾驶领域带来挑战。例如,系统出现错误时,难以追溯问题源头,影响debug效率。数据依赖性强
端到端方法的性能高度依赖训练数据的质量与多样性。在实际场景中,边缘案例(如极端天气、少见路况)难以覆盖,导致模型泛化能力受限,可能出现无法预测的错误。缺乏模块化优势
模块化系统的优势在于不同任务可以分别优化和升级,例如感知、规划和控制模块可以独立训练和调试。而端到端系统一旦训练完成,单个环节出错需要重新调整整个模型,灵活性较低。
自动驾驶系统对地图的依赖经历过从“高精地图”到“轻图”甚至“无图”的阶段,我们会顺理成章的认为,地图对于自动驾驶就是不重要。大部分的科研工作人员更愿意把精力投入到感知系统对场景的理解和对复杂工况的判断能力上,并且忽略地图。将地图纳入自动驾驶模型成为了一个研究的真空地带。
但是目前来看,这种判断似乎过早,在工程实现上就遇到了很多问题,就比如:
停车场这种路况如何进行规划呢??有尝试通过识别停车场出口箭头,来判断停车场的出口位置,目前来看这种解决方案进展缓慢。。
另外,地图作为一个信息源,也能够提供决策先验,提高模型的安全冗余。至少站在目前的角度,将地图纳入自动驾驶中,是行之有效的。可以作为选择研究方向的一个参考!
这方面的研究确实不是很多,李小毛在此整理2024年的相关文章,希望能够对你提供一些帮助!为你打开一些新的思路!
使用导航地图增强车道感知和拓扑理解(2024 ICRA)
https://arxiv.org/pdf/2311.04079
该研究首次系统性地探讨了低精地图(SD Maps)在车道拓扑理解中的应用,并展示了其作为先验信息的重要性,提供了一种成本低、易获取的替代方案。
提出SMERF框架:是一种新颖的Transformer编码器,能够:
将SD地图转换为折线序列表示; 通过跨注意力机制与车载摄像头的感知特征融合,提升车道检测与拓扑预测性能。 与现有Transformer模型的无缝集成:SMERF框架具有高度的通用性,可以直接与任何Transformer-based车道拓扑模型结合,无需额外的调参。
性能显著提升:通过实验证明,SMERF在现有最先进车道拓扑模型的基础上带来了高达**60%**的性能提升,特别是在远距离车道和交叉路口等复杂场景下表现尤为优异。
研究创新点:
提出了RoadPainter框架 RoadPainter首次结合点云回归和实例掩码优化的方法,实现了车道中心线的精确检测和拓扑推理。这种方法兼顾了回归方法的高效性和掩码方法的几何精度。
创新的中心线实例掩码生成与优化模块:中心点回归:通过Transformer解码器回归初始中心线点;掩码生成与优化:基于回归点生成中心线掩码,并通过掩码进一步优化中心点的几何精度,确保车道检测结果的细致性和准确性。此模块摒弃了后处理过程,实现了端到端的优化。
融合标准定义地图(SD Map):RoadPainter可选地引入SD地图,通过与感知特征的融合,进一步优化BEV(鸟瞰视角)特征表示,提升车道检测与拓扑推理的准确性,尤其在交叉路口和复杂车道场景中表现突出。
端到端架构设计:设计了一个Transformer解码器,引入混合注意力机制和真实-虚拟分离策略,有效处理多视角输入的车道中心点回归与拓扑关系推理。
https://arxiv.org/abs/2409.00620
本文提出了HRMapNet框架,通过维护一个历史栅格化地图,来提升在线矢量化地图感知的性能。
研究创新点:
提出HRMapNet框架:利用历史栅格化地图辅助在线地图感知,降低了感知成本,同时提升感知效果。
设计了两个模块: 特征聚合模块:增强BEV特征。 查询初始化模块:提供历史先验信息,加速地图元素检索。 与两种现有方法(MapTRv2和StreamMapNet)结合,在nuScenes和Argoverse 2数据集上实现显著性能提升。
高效存储:历史栅格化地图相比BEV特征占用更少的内存(120MB vs 11GB)。
https://arxiv.org/abs/2410.07733
MGMapNet旨在实现端到端矢量化高清地图 (HD Map) 构建。与现有方法不同,MGMapNet通过引入多粒度表示,将粗粒度实例级查询和细粒度点级查询相结合,以更好地捕获地图元素的几何和类别信息。
研究创新点:
多粒度表示学习:提出了一种将粗粒度实例级查询和细粒度点级查询结合的表示学习方法,能够同时捕获地图元素的全局和局部信息。
多粒度聚合与交互机制:多粒度聚合器:在多尺度BEV特征中生成两类查询,确保整体感知性能。点实例交互模块:通过点到点和点到实例注意力机制,解决现有方法中点级查询与实例级查询缺乏信息交换的问题。
端到端高清地图构建:在不依赖复杂后处理的情况下,MGMapNet实现了端到端的矢量化高清地图预测,简化了流程并提升了效率。
往期回顾
深度聚焦|最强落地端到端自动驾驶算法!Tesla FSD v12公开模型分享!
温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!