7个冠军!

企业   2024-08-13 19:03   北京  


小米又又又又迎来好消息!


近日,小米相机团队在国际顶级学术会议上斩获多项冠亚军🏆奖项!



在计算机视觉领域最具影响力的顶级学术会议CVPR2024上,小米相机团队在MIPI、NTIRE和PBDL三大赛事,共9个赛道的比赛,凭借卓越的技术实力,击败国内外众多强劲对手,一举拿下7项冠军,2项亚军,取得了令人瞩目的成绩,充分展现了团队在移动影像领域的技术基础与硬核实力。


先为不太关注计算机视觉领域的朋友科普一下,CVPR(计算机视觉与模式识别大会),由 IEEE 计算机学会主办,每年一次,汇集了全球顶尖的学者、工程师和企业家,共同探讨计算机视觉与模式识别领域的前沿问题。是在计算机视觉领域全球最具影响力、内容最全面的顶级学术会议。


说得具象一点,与我们耳熟能详的Nature 、Science的学术影响力可等量齐观。


今年已经是小米相机团队第三年参加CVPR相关赛事的角逐,每年都取得了优异成绩。小编这就来为大家尝试解读一下,看看我米的技术有多牛!




01

MIPI:“手机摄影的顶级盛会”


MIPI(移动智能摄影与成像),由CVPR组委会承办,旨在推动新颖图像传感器与成像算法的集成与发展。随着移动平台上对计算摄影和成像需求的增加,开发与集成先进图像传感器和新型算法变得日益重要。


在本次MIPI赛事中,小米相机团队在多个赛道上表现卓越。在RAW域图像去噪赛道,团队更是凭借出色的技术实力获得冠军,并发表了一篇相关论文。此外,在Hybridevs相机去马赛克赛道和夜景耀斑去除赛道也是表现优异,团队共取得了两项冠军,一项亚军的佳绩。



RAW域图像去噪


相机在拍摄过程中,受传感器材料属性、工作环境、电子元器件和电路结构等的影响,在直接获得的图像数据里既包含被摄物体信息的有用信号,也包含无用的噪声信号,并且在数据量化和转化时,也会产生噪声。


肉眼看,噪声大的照片像是一张干净图像被撒上了彩色的沙子,有时候甚至看不到具体的东西,而去噪就是在保留有用信号的同时把无用的噪声信号去掉,可以理解为把已经和图像融合的“彩砂”一点点的挑走,去除图像污染,恢复和重建图像数据的过程。


RAW域图像去噪是一个极其依赖于相机传感器特性的任务,在小样本RAW域图像去噪赛道中,未知的相机类型、极少量的真实训练数据极大地增加了该任务的挑战性。


小米相机团队在RAW域图像去噪赛道,通过建立具有丰富噪声形态和不同噪声强度的合成噪声训练集,提高网络对真实噪声的泛化性,抛弃繁琐的噪声标定过程,打破图像去噪能力与特定相机参数的强绑定关系。凭借出色的技术实力获得了冠军,并在CVPR2024 Workshop上发表一篇论文。

*论文链接:
https://openaccess.thecvf.com/content/CVPR2024W/MIPI/html/Li_From_Synthetic_to_Real_A_Calibration-free_Pipeline_for_Few-shot_Raw_CVPRW_2024_paper.html


HybridEVS相机去马赛克


大家别误会,这个马赛克可不是我们平常说“打码”的那个马赛克。


为了有效的进行彩色成像,现在的相机senor获得的图像是bayer模式的Raw图像,这种图像每一个像素点只有一种色彩信息(R、G、B中的一种);我们的“去马赛克算法”就是通过算法把缺少的另外两个色彩还原出来,bayer Raw图像就会被还原成色彩丰富的RGB图像。


而在那些图像内容复杂多变的区域中,想要准确的恢复难度大,容易产生伪色、边缘锯齿等异常。


HybridEVS相机是一种新型的图像传感器,它结合了传统基于帧的传感器和基于事件的传感器的特点。小米相机团队在此领域已深耕多年,并积累了大量相关研究成果。在HybridEVS相机去马赛克赛道的激烈争斗中,团队设计的基于SwinIR的改进算法,采用了由粗到细的二阶段多分支结构,有效弥补了HybridEVS相机相比传统传感器具有更多坏点的固有缺陷。在众多提交的方案中,该算法不仅提供了高质量的图像输出,而且在时间效率上也表现优异,最终荣获了亚军。



夜景耀斑去除


在逆光或者夜晚强光源的环境下,强光源的光线进入镜头后,在镜头内部经过多次反射和散射,很容易在成像中形成光斑、光晕、柱状射线等现象,这就是我们所说的夜景耀斑。


夜景耀斑去除赛道上,小米相机团队更是凭借着创新的渐进感知扩散模型(PPDN),实现了主观效果一致性的突破。为了能够去除真实场景中各种各样的耀斑形态,团队还构建了高质量的训练数据集,通过随机亮度调整和光雾建模等技术手段,精准模拟真实环境下耀斑复杂的亮度分布,有效提升了算法的鲁棒性和泛化性。团队已经蝉联该赛道两届冠军。




02

NTIRE:“图像恢复与增强”


NTIRE(New Trends in Image Restoration and Enhancement),是CVPR组委会承办的关于图像恢复与增强的顶级研讨会。小米相机团队已三次参与该赛事,并在今年参与的5个赛道中揽获4项冠军、1项亚军。



夜景摄影渲染


夜景拍摄中,除了清晰的成像,还有一个重要的点是整个氛围的渲染。


传统ISP在处理夜景图像时由于其能力的局限往往不能将这一氛围准确体现出来。


小米相机团队在夜景摄影渲染赛道中表现出色,已连续三年获得冠军。此次参赛,团队采用化繁为简、分而治之的思想,结合传统图像处理算法和深度学习算法(包括raw域的去噪和白平衡、RGB域的转换、影调增强和天空矫正等六个阶段),突破了传统硬件ISP的限制。在兼顾效果的前提下,团队以2倍的性能优势获得该赛道第一名。这也证明了小米相机团队在夜景处理上的技术领先性。


该技术同时作为夜枭算法的优化、升级版本,更是从小米11 Ultra到最新发布的小米14 Ultra都得到了应用,为用户带来了更具临场感和氛围感的夜景拍摄体验。

经过简单ISP处理后的图像

算法处理后的图像

真实世界图像修复


科幻电影里常常出现一个场景,主角们只需一键,电脑就能把一张模糊不清的照片还原成清晰的照片。


略懂一些摄影知识才知道,这无异于“无中生有”的魔法。


随着技术的不断发展,我们基于海量的数据对,使用大模型技术,可以学习出从低质量图像到高质量图像的映射能力,把一张较低质量的照片,通过算法修复还原成较高质量的照片,其中既要保证恢复出的图像细节丰富,也要保证恢复出的细节真实自然,可谓困难重重。


小米相机团队在真实世界图像修复赛道中,凭借着新颖的数据构造方案和多种训练技巧,成功攻克了模型生成性和保真性的平衡问题,从200支参赛队伍中脱颖而出,以领先第二名近10分的优势夺得本赛道的冠军。


长焦摄像头拍摄效果

算法处理后效果

综合效果小米排名第一

单目、双目深度估计


在单目和双目深度估计的赛道上,小米相机团队双双夺冠


所谓深度估计,就是用算法估算出图像上每一个点的深度信息,知晓图像上每一个点距离相机的物理距离。


相机拍照的有些功能非常依赖深度的估计,比如常见的人像模式,就需要通过利用估算出来的深度信息,把不同深度上的物体进行不同程度的虚化,来实现专业相机的效果。如果这项技术欠缺,就容易出现丧失细节、缺乏纵深的全局虚化等问题。


面对高分辨率深度计算以及非朗伯表面深度估计的特殊挑战,小米相机团队巧妙地迁移了自研算法在真实世界中对镜面和玻璃材质的先验知识,并在深度大模型的训练过程中引入了多尺度特征信息。这种策略极大地提升了学生模型的训练效率,使其能够更高效地捕捉到丰富和细致的高分辨率特征,且确保了学生模型能够精确继承大模型在应对特殊场景时所拥有的鲁棒性和深度知识。最终,训练得到的学生模型展现出异常优异的推理性能,其效果远超基准大模型。


高分辨率镜面和透明表面图像深度估计挑战赛-单目赛道


在单目深度估计赛道,小米相机团队创新性地引入过往在人像渲染领域的语义分割和图像Inpaint模型结果,通过知识蒸馏,让单目深度估计大模型具有了感知镜面和透明表面深度的能力。保障了高分辨率条件下我们的模型依然有鲁棒效果优势,最终在挑战赛中获得了冠军。

和透明表面深度的能力。保障了高分辨率条件下我们的模型依然有鲁棒效果优势,最终在挑战赛中获得了冠军。

真实场景图片

基准大模型结果

小米的模型结果


高分辨率镜面和透明表面图像深度估计挑战赛-双目赛道


在双目深度估计赛道中,小米相机团队使用了SOTA的IGEV-Stereo作为基础模型,为更准确地估计镜面和透明玻璃等物体的深度,首先训练了多尺度的教师模型来保障极限场景下的推理效果,然后利用多尺度教师模型为无标签数据生成伪标签,并进一步引入多尺度特征的知识蒸馏框架,进行高效知识蒸馏,得到推理性能和效果均优的学生模型,最终在测试集上获得了冠军。



双目图像超分辨率


在双目图像超分辨率赛道中,小米相机团队基于Transformer架构,精心设计了交叉注意力与高效的自注意力机制,使得模型在有限的参数量和计算量条件下,能够实现效果的最大化,再结合多种训练策略,完成了双目图像超分辨率任务的突破。最终取得第二名的好成绩,并在CVPR2024 Workshop 上发表一篇论文。

*论文链接:
https://openaccess.thecvf.com/content/CVPR2024W/NTIRE/html/Yang_Hybrid_Cross-View_Attention_Network_for_Lightweight_Stereo_Image_Super-Resolution_CVPRW_2024_paper.html



03

PBDL:基于物理的视觉与深度学习


PBDL(Physics Based Vision meets Deep Learning)作为基于物理的视觉以及深度学习两个领域的研讨会,旨在促进两个领域的交叉融合,探索如何将深度学习的强大能力应用于解决传统基于物理的视觉问题,以及如何利用物理原理来改进深度学习模型的性能。


小米相机团队在“低光照RAW域图像增强”赛道上脱颖而出,以超出第二名4.16分的优势,荣获冠军。



成像简单来说,是通过三个因素的控制实现的:ISO、光圈、快门速度。


在低光照下,往往需要通过提升ISO、延长快门时间、加大光圈的方式来增大进光量。但提升ISO会导致噪声增大,图像信噪比降低,给去噪带来很大的压力;延长快门时间会导致成像时间太长,图像会变模糊,所以还需要算法进行辅助,帮助相机更好的成像。


针对低光照环境下拍摄图像普遍存在的细节模糊、色彩偏差及严重噪声等问题,小米相机团队受Transformer与U-Net网络架构的启发,创新性地构建了一个轻量级U-Net结构算法,实现了低光照下传统相机硬件固定限制的突破。




04

小米相机团队,载誉归来


小米相机团队已连续三年参加了CVPR相关赛事的角逐,均取得了优异成绩。今年更是在MIPI、NTIRE、PBDL三大赛事中,以7冠2亚的成绩满载而归。而这正是团队在各自领域内专精克难,以为用户带去自然、真实移动影像体验的共同目标的最佳体现。


三年来,小米相机团队不仅在冠军数量上逐年递增,更将在学术竞赛中探索、验证的创新方案与产业项目相结合,逐步落实到具体的业务中,不断积累、提升、沉淀专业技术。在此次大赛中获奖的RAW域图像去噪、夜景渲染、夜景去耀斑、大模型真实图像修复、深度估计等算法已经应用于最新发布的小米14 Ultra等系列手机中。这些算法在夜景、人像、HDR、SR等多个维度进一步提升了小米相机的画质表现。


除此之外,小米相机团队还投入了视觉大模型技术领域的研究,并在“真实世界图像修复”赛道中夺得冠军,充分展现了其在大模型领域的技术实力。在业务上,更是利用超大参数量的新一代网络架构,实现对细节恢复任务的充分理解及知识迁移,对远摄场景获得自适应超清优化效果,行业首发了端侧拍照大模型UltraZoom功能。而小米与徕卡合作共同打造的“小米徕卡风格影调”,更是进一步提升了手机摄影的画质和风格,为用户提供了更多个性化的拍摄选择,让专业摄影更简单,影像更真实。


本次 CVPR2024,小米相机团队在各个赛道的突出表现,是对小米相机核心技术的再一次检验,也是小米相机团队拥抱新技术、掌控新技术的精彩展示,未来,小米相机团队将不断努力创新,打造更出色的小米相机影像系统,给用户带来更好的拍摄体验!




点在看

小米公司
小米集团官方公众号,分享好看好用好玩的一切,让全球每个人都能享受科技带来的美好生活
 最新文章