本文系微信公众号《大话成像》,知乎专栏《all in camera》原创文章,转载请注明出处。 大话成像读者QQ 交流群2 :833282006 大话成像技术论坛:ww.dahuachengxiang.com 微信群请先加 zxzombie
本站新教学视频《图像传感器技术与应用》上线淘宝教育
《成像系统图像质量调试》《成像算法基础(python版)》 《成像系统镜头光学》《新版图像质量测试测量与国际标准》《新版cmos sensor测试测量与国际标准》《新版数字成像系统42讲》课程大话成像淘宝官方网店有售:
https://shop322456667.taobao.com/
在过去几年里,AI-ISP领域的发展速度极快,它的应用正逐渐渗透到消费电子、智慧城市IoT、甚至汽车领域等多个方面。当前的AIISP技术主要建立在卷积神经网络(CNN)的架构之上,突破了传统成像算法未能触及的限制。自2016年发布的里程碑式论文《learning to see in the dark》以来,针对AIISP的研究和产品化进程就未曾间断。最初,一些产品和芯片公司试图直接应用《learning to see in the dark》中提出的方法来实现RAW到RGB的转换和夜景降噪。这些尝试的确实现了一定的拍照和抓拍功能。然而,由于当时的算力和技术限制,这些初步的功能相对单一,缺乏灵活性,因而主要限定于特定的使用场景。并且它们并不适合广泛的日常使用场景,其中的限制导致了在更通用的应用场景中的局限性。
近年来,随着神经处理单元(NPU)以及神经网络量化技术的进步,并结合对ISP pipeline的精细化分析和核心设计,我们已经能够精确选择重要模块进行AI化,极大地推动了AIISP的真实量产和向全场景应用迈进。AIISP的这种进展,特别是在低光成像(AINR)方面,已经实现了在信噪比(SNR)上6至12 dB的显著提升,这意味着它突破了不同像素尺寸传感器之间的限制,并大幅度降低了成本。当同等硬件条件下,AIISP与传统ISP的比较显示,AIISP不仅提高了画质性能,而且在成本效益上也表现出巨大的优势。这一突破性进展预示着AI在图像处理领域的应用前景更加广阔。
下面是AIISP 下 2um sensor 和传统 ISP 2.9um sensor 相同光圈镜头下比较
AIISP 下 2um sensor
传统 ISP 2.9um sensor
AIISP技术不仅在AINR领域取得了显著进步,还在视频超分辨率和高动态范围(HDR)成像方面实现了突破,使得在视频后处理上也有相应的性能提升。AIISP的应用已经超越了单一的图像增强,扩展到了整个视频编辑和后期处理的领域,涵盖了从美颜效果、深度感知计算到多光谱数据处理等多样化进步。
虽然当前代AI-ISP技术已经实现了显著的进步,不断推高了画质处理的边界,但用户对画质的渴望似乎总是无穷无尽的。特别是在经济因素的影响下,基于卷积网络的AI-ISP技术仍未能完全满足所有客户的多样化需求。特别是那些非技术领域的消费者,他们对AI技术抱有更高的期望,希望它能带来质的飞跃和更为显著的画质提升,这也反映了大众对于新技术盛大承诺的渴望和好奇心。
展望未来,AIISP技术发展面临着以下几个潜在的机遇:
用户对画质的不断追求,意味着对更高标准的AI-ISP解决方案有持续的需求。
随着相关技术领域的进步,比如AR,VR,显示技术,自动驾驶等,将会带来新的画质上限提升需求,促进AI-ISP技术的进一步革新。
AIISP所引领的技术难度降低和成本的下降,可能为更广泛的应用提供了可能性,从而开拓新的市场和应用场景。
画质的追求是一项复杂而主观的诉求,对于一些用户而言,能够轻易拍出具有电影级别效果的作品是一个梦想;对其他人来说,一个充满艺术气息的短视频或是一张充满赛博朋克风格的照片同样令人向往。这些需求反映了用户对于技术的不同预期和对于美学的独特见解。举个例子,尽管有时我们可能会对某些技术的文化接受度有所误解——例如,我们曾经以为国际社区中的用户并不喜欢美颜技术,但实际上他们可能只是偏好一种更为自然和细腻的美颜效果。所以不是西方人不喜欢美颜,只是之前的美颜技术并没有能打动客户。这一发现不仅揭示了AIISP技术的灵活性和适应性,也说明了AIISP在满足不同文化和市场需求时的独到之处。AIISP不单是一项技术,它还是创作者们在后期制作中的得力助手,提供了实现更加精细、更具个性化视觉表达的强大工具。随着AI技术的持续进步,我们期待AIISP在视频处理和图像增强领域将不断开拓新的可能性和应用前景,满足和超越全球用户的美学期待。
苹果公司的Vision Pro头显发布后,其清晰度极高的VR交互体验对视频质量提出了更高标准。
这款头显提供了一系列沉浸式环境,允许用户通过高质量的视频将自己置身于各种虚拟场景中。在没有计算机图形的辅助下,要实现如此精细的细节和高刷新率,对当前市面上的相机技术是极大的挑战。据推测,这些沉浸式内容的基础画面很可能使用了至少8K分辨率的摄像机拍摄,尽管苹果尚未对此信息进行确认。佳能图像传播业务运营部的总监兼执行官Shiomi Yasuhiko揭示:“为Vision Pro制作内容,你至少需要一个亿像素的传感器,并且帧率达到60帧/秒。”
此外,这样的14K分辨率并非之前手机相机1亿像素能简单对应的光学系统需求,它还远远超出了大家对于解析力的想象。目前能看得到满足这个需求的系统 类似Sphere公司的Big Sky相机是一个18K分辨率的巨型设备,操作需要12人配合。尽管理论上能满足要求,但由于成本和其它实际因素,它并未广泛投入商业生产。我搜了对应的图片没能理解为什么需要 12 个人。
与此同时,虽然市面上已出现了8K电视和互联网视频,但能够拍摄真正8K品质视频的设备目前并不广泛普及。尽管在近年来传感器和镜头技术有所进步,但仅凭光学和传感器的提升来追求完美的成像质量,成本和技术难度仍然是不可承受的。因此,在这样的情况下,AIISP的进步就变得至关重要,它能够以更合理的成本提升画质至极限,例如在这类高端VR和显示应用场景中,如果想普遍的采集视频使用超分辨率技术是不可或缺的
随着深度学习技术的飞速发展,特别是自注意力(self-attention)机制和Transformer架构的引入,图像处理领域已经见证了一次重大的技术飞跃。与传统的卷积神经网络(CNN)相比,基于注意力机制的神经网络能够更精准地处理图像中的复杂问题。
那么,为什么注意力机制至关重要呢?其关键在于能够解决深度学习中的一些核心挑战,如模型的理解和处理大规模和高复杂性数据的能力。注意力机制能够使网络更加专注于输入数据中的关键部分,从而提高了处理信息的效率和准确性。注意力机制的几种形式包括:
交叉注意力(cross-attention):允许模型将不同来源的数据相互关联,提高其分析和推理能力。
自注意力(self-attention):使模型能够在处理序列数据时自我调节焦点,捕捉数据内部的长距离依赖。
多头注意力(multi-head attention):进一步细分注意力,允许模型在多个子空间上并行学习,从而捕获数据的多维特征。
最新的SCUNET 就是这种进步的例证,它被人们誉为可以“Say Goodbye to Image Noise”。这句话凸显了SCUNET在降噪方面的显著表现,它通过利用复杂的注意力机制,可能比传统的CNN在去噪图像方面更为有效,提供了更清晰的视觉体验。随着这些先进的技术不断发展,我们可以期待未来图像处理将变得更加智能,更能满足用户对高质量图像的需求。
随着像stable diffusion这样的先进模型技术不断迭代和升级,我们步入了一个全新的神经网络技术时代。虽然stable diffusion模型因其卓越的图像生成能力而被广泛认知,但事实上,diffusion网络的初衷之一就是用于图像降噪。技术的进步已使其功能远不止于降噪,包括超分辨率重建和动态范围增强等领域都取得了显著进展。现在,我们能够实现如此自然的单边四倍超分辨率增强——这在过去的CNN框架中几乎是难以想象的。这不仅显示了神经网络在图像质量提升方面的巨大潜力,而且超出了分辨率简单提升的层面,实现了在保持细节和纹理自然性这一更高的标准上的重大飞跃。
这些模型在分析和重建图像时能够考虑更多的上下文信息,使得它们在图像恢复方面的性能,远远超过了传统方法,更加精准和细致。随着这些模型的不断发展和完善,我们期待它们在不久的将来能够提供更加丰富和高质量的图像和视频处理体验,突破技术的现有边界,并开辟全新的应用可能性。
动态范围和对比度调整,也要比传统方法更自然
随着大型模型如stable diffusion的不断进化,我们现在能够见证在多个前沿领域取得令人惊叹的进展。甚至那些曾被认为难以实现的技术突破,现在也正在逐步成为现实。这些进步开辟了新的可能性,例如利用stable diffusion技术从单张图片生成精细的3D模型,这是一个令人兴奋的新方向,展示了这些先进模型在视觉艺术和计算机视觉领域中的广阔应用潜力。随着这些技术的不断发展和完善,未来肯定会有更多令人吃惊的创新出现。
当前,尽管某些端侧芯片已具备运行transformer模型的能力,但我们尚处于一个转折点,端侧的算力和硬件设计还未能充分支持这些先进模型的实际运作。不过随着技术的发展,我们有理由相信端侧尤其是在推理(inference)方面的计算能力会持续增强。虽然都归类为AI,但大模型的出现预示着在图像质量上的巨大飞跃,所需要的算力可能会远超当前模型的能力。
至于计算能力的增长和消耗,有一句富有洞见的行业格言:“安迪给的,比尔都拿走(What Andy giveth, Bill taketh away)”。这句话映射了曾经的Intel CEO Andy Grove推出性能提升的新芯片,而微软的创始人Bill Gates会通过发布更新、更加资源密集的软件版本来充分利用这些新性能。如今,吞噬计算资源的可能不再是单纯的软件,而是AI特别是大模型——它们的复杂性和对计算资源的巨大需求是前所未有的。
根据MIT的研究,短期内,这些大模型对算力的饥渴似乎是无穷无尽的。我们可能正处于一个新的AI时代,其中模型的大小和复杂性不断增长,而这就需要持续的技术创新来确保硬件能够跟上软件的步伐,维持这一增长的可持续性。
我们可以期待,随着技术的不断进步,下一代AIISP很大概率将会采用类似于注意力机制这样的新兴技术,来进一步增强其处理能力。随着大模型如Transformer的性能提升,未来的图像处理可能会整合到一个更加强大的平台上,这样的硬件平台可能会统一图像处理、图形处理等功能,不再仅限于传统意义上的ISP。到那时,我们可能会将其称为AI vision engine,这样的引擎将会深刻改变我们处理和理解视觉信息的方式。