AI+人访谈录:半路入行找到“人生坐标”

科技   2024-08-06 20:45   上海  


沈为
上海交通大学人工智能研究院教授
博士生导师

曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学影像处理,关注弱监督/无监督下图像分割等视觉识别任务。发表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相关领域顶级期刊和会议50多篇,谷歌学术引用1万多次。担任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022领域主席,担任SCI一区期刊Pattern Recognition编委、上海市计算机学会计算机视觉专委副主任。代表性工作获得MICCAI 2023青年科学家奖。国家优青,入选上海领军人才(海外)。


这两年,直播间有个极具生命力的梗,叫做“你这背景太假了”。仅抖音平台的相关衍生话题,就超过30亿播放量。每当主播的背景效果过于震撼、艳丽,就会被网友要求“自证”,比如光脚蹚水、向身后扔矿泉水瓶等。

难分真假的吃瓜群众,之所以对自己的眼睛愈发不自信,深层原因在于计算机的“眼睛”越来越强大。随着图像分割算法不断优化,直播间、视频会议里的虚拟背景,已经可以和人物不露破绽的丝滑衔接,为工作、娱乐带去更多沉浸体验。

上海交通大学人工智能研究院教授沈为,就是该领域的耕耘者之一。

他曾在多项国家自然科学基金的项目研究中,建立起形状引导的图像分割计算机制和方法,为相关应用的发展提供了扎实的学术理论支撑。眼下,他正率领团队通过计算机视觉和深度学习,为医学影像行业赋能。

在沈为身上,你会看到一种有趣的“对立统一”:他清醒意识到现有AI基石——计算机“冯诺依曼体系”的局限性,认为“唯有底层技术革命,才能突破现有瓶颈”。同时又愿意脚踏实地,在现有框架下,朝计算机视觉领域的最高峰持续攀登。


半路入行找到“人生坐标”

三位恩师影响了我

专注、冷静、重理性思维,是学界人士的基本特质。但沈为与计算机视觉领域结缘,却源于一次原因不那么理性的“半路出家”。

沈为的本科专业是“信息与通信工程”,满怀期待的他却在入学后有所动摇。

“我的专业主要与信号、声波、频谱打交道,这些东西看不见摸不着。而我又是一个对画面感有期待和追求的人,小时候的很多兴趣和梦想都是源于一些有画面感的事物。”

为了做出改变,他以专业课中的“图像处理”为跳板,在读博期间转向计算机视觉领域。他的博士生副导师,华中科技大学教授白翔为他带去了很多积极影响。

巧合的是,白翔教授也是“半路出家”,并经历过一段非常艰难的转型过程。但这没有妨碍他成为人工智能行业、场景文字检测与识别技术的尖端人才。白翔教授相信“兴趣的力量”,并鼓励学生参加学术竞赛与实战项目,去接触应用场景中真实的数据、算法和系统,从而有效避免“闭门造车”,在研究具体问题时取得突破。

在白翔教授的推荐下,沈为前往微软亚洲研究院实习,并得到了微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授屠卓文的指点和帮助。屠卓文教授的很多工作内容,都处于学界最前沿。同时他又是一位自己上手写代码,亲力亲为的导师。在他的引领下,沈为在计算机视觉和深度学习领域不断扩展视野,积累了丰富的经验。

两位恩师的言传身教,让沈为有了一个坚实的事业起点。

2014年,已经回国任教的他开始推动“基于深度学习的边缘检测”项目,为了赶论文进度一度达到废寝忘食的程度。功夫不负有心人,一年后,相关研究成果获得全球计算机视觉顶级会议CVPR的发表,并得到学术圈广泛关注和引用。

正是这篇论文,在一定程度上推动了边缘检测的跃进发展,通过深度学习让物体与物体间的边界、杂乱背景的噪声影响得到更强区分性,解决了虚拟背景等应用不够精细、穿模的问题。

几年后,已经在业内有所建树的沈为决定前往美国约翰斯·霍普金斯大学计算机科学系进行交流学习。也是这期间,他生命中第三位意义非凡的恩师出现了——著名物理学家史霍金的得意门生,计算机视觉学科奠基人之一的艾伦·尤尔。

艾伦·尤尔教授致力于推动人工智能与医疗影像方面的应用场景相结合,以此来辅助医生提高工作效率。

他较早预见到贝叶斯定理在计算机视觉领域的应用优势,并在“基于CT影像的早期胰腺癌诊断”项目中取得多项突破。沈为就曾参与到该项目中,并提出多项CT影像中胰腺肿瘤分割技术。

在三位老师的影响下,沈为从一个“被画面感所吸引”的学者,成长为计算机视觉与深度学习领域的技术专家,一步步找到了自己的“人生坐标”。


做“留在实验室的人”

用AI为医疗行业开扇窗

万卡集群时代的开启,让AI领域得到了不可思议的加速度。自动驾驶、ChatGPT、人形机器人、Sora、百模大战...热点频出的当下,越来越多科学家与学术大牛选择下场创业,或是开辟一些离热点更近的研究方向。

但沈为还是选择留在“实验室”里,他始终认为,热点不是用来追逐的,而是应该把热点中的价值导入自己的研究方向。

这种鲜明的长期主义特质,似乎也是从三位恩师身上传承而来。加入上海交通大学人工智能研究院以来,沈为的主要研究方向还是集中在“老本行”——图像分割与医学影像分析。

图像分割是帮助计算机理解图像信息、提取图像数据的关键一环。小到虚拟背景,大到工业制造、自动驾驶、人形机器人,都需要不断提高分割精度,才有可能完成最终落地。

沈为现阶段的主要工作,就是通过医学图像分割模型服务于医院等场景。比如,让搭载了AI算法的CT能够自主识别肺结节、肺结核、胰腺肿瘤,尤其是低对比度的病灶。在他看来,随着这些技术与硬件相结合,可以为医生提供一层“科技漏斗”,帮助医生过滤掉繁琐的工作内容,让他们有更多精力专注于诊断和施策

在项目合作中沈为发现,医学图像的优质数据高度依赖医生的标注,但这势必会为他们的日常工作带去干扰。为此,他尝试通过技术创新,在弱监督环境下,实现与全监督环境相当的分割精度。同时在算法中导入医生的优秀经验,让AI能够物尽其用。他的部分研究成果已经在某医疗科技巨头的产品上成功落地,为医院带去了效率提升。

专注于本职工作的同时,沈为还积极与国家创新项目展开合作。目前,他参与了金山云和瑞金医院牵头的国家重点研发计划——虚拟手术。

“优秀主刀医生的短缺,已经成为全球范围的待解难题。相较于其它行业,医生的培养更加耗时。尤其是主刀医生,需要大量实践机会提升经验。但每个躺在手术台上的患者,都不希望自己成为‘小白鼠’。所以年轻医生只能通过假人、动物进行手术训练。”

虚拟手术项目的发起,就是希望构建一个还原度极高的仿真环境,通过医学影像的分割、手术场景的重建、三维器官的呈现,让医学院的学子们得到更多实操机会。

沈为能够参与到这一国家级项目中,与他的专注和长期主义息息相关。

2023年,沈为和团队的重磅研究成果“基于神经辐射场的内窥镜手术场景组织动态三维重建工作”,发表在医学影像处理顶级国际会议MICCAI上。并在2000多篇投稿论文的角逐中脱颖而出,斩获青年科学家奖,成为该奖项中的唯一华人团队。

相信他的学术成果,能够让虚拟手术项目加速落地,从而让年轻医生尽快成长起来,承接日益增加的手术量。在沈为看来,AI在医疗影像、虚拟手术上的应用,有望解决城乡医疗资源不均衡的瓶颈。


相信奇点将至
更信奉脚踏实地

未来学家雷蒙德·库兹韦尔曾在《奇点临近》一书中预测,未来某个时点,高度发达的机器智能将与人类文明相互融合,对现有文明、科技体系产生巨大变革,甚至帮助人类超越生物局限性,即所谓的“AI奇点论”。

在沈为看来,GPT、SORA的横空出世恰恰说明,未来会有更重磅的颠覆性科技突然涌现,且这个时点可能比多数人想象的还要近。但他更坚定认为,依托于冯·诺依曼底层原理的现有人工智能,无法通过扫描、存储、访问的模式产生媲美人类的机器智能,很多相关的阴谋论是杞人忧天。

“人类思维的运行机制,和现有人工智能模型有本质的区别。我们的大脑能用不到一个电灯泡的低能耗,完成人工智能需要上万瓦能耗的任务。”

从沈为的叙事中不难推导,很多将AI与人类智商类比的说法都极不严谨。但这并不影响AI在特定领域为人类服务,只是需要市场参与者更加务实去扬长避短。

以计算机视觉为例,沈为认为行业最大的痛点是“计算机视觉系统的精度无法确保100%,所以很多场景下只能发挥辅助作用。”包括当下大火的Sora,他看好其在广告营销、游戏动画、虚拟人制作等方向的发挥。但这类模型也会长期受到物理规律认知不足、AI幻觉的影响,无法在严肃场景胜任。

沈为坦言,计算机视觉领域很难诞生GPT这样的通用模型。

“语言是人类创造的高度精炼的表达,每个单位都独立存在,具有离散性,更易生成通用模型。但自然界的图像却是连续的,所以具有通用智能的计算机视觉系统,至今没有被研发出来。在解决具体问题时,我们要根据应用场景去一个个打造垂直模型,未来的趋势也必然会从纯视觉转向多模态。”

即使知道计算机视觉的“先天不足”,沈为还是选择脚踏实地,用长期主义的研究态度去解决实际问题。他谈到,做研究只有才华和资源远远不够,还需要“头铁”。

就像深度学习三巨头,1986年就有了研究雏形,但是受限于那个硬件不成熟的年代而沉寂许久,很多年后才等到GPU的爆发。可见,有巨大影响力的研究成果,都需要不计时间成本的强大意志力来支撑。”

虽然自己是个相信“坚持出奇迹”的学者,但他也鼓励国内有余力的团队、商业公司积极研究国外先进案例,至少能以跟随战略做到“不落后”。“GPT也好,Sora也罢,很难说未来会不会演变成卡脖子式的技术,所以应该对类似新物种保持敏感。”

这就是沈为,一个相信“奇点将至”,但更信奉脚踏实地的学者。

8月16-17日,沈为将在AiDD峰会北京站发表一次重要演讲,分享他在大模型参数高效微调 (PEFT)领域的最新观点和案例。在他看来,PEFT不仅可以在商业层面帮助企业降低成本、提高效率,还可以通过参数冻结解决灾难性遗忘问题,确保大模型能在执行新计划时保留原有知识。

相信沈为的思考,必将为大模型在应用场景落地,添上一把“干柴烈火”。



END




AI+研发数字峰会(AiDD)”旨在帮助更多企业借助AI技术,使计算机能够更深入地认知现实世界,推动研发全面进入数智化时代。AiDD北京站即将于8月16-17日盛大启幕!本届峰会共设十四大分论坛,一个大厂专场,围绕AIGC产品创新AI原生应用开发智能体与具身智能、AI驱动效能提升(含OA、PM)、LLM驱动需求工程、AI +微服务的实践与创新、超越代码生成、AIGCode质量提升、LLM驱动测试分析与设计、测试数据或测试代码生成、大模型训练与评测、LLM助力缺陷定位与修复、长文本 & 文档理解技术与实践、领域多模态大模型技术与实践”等技术热点,邀请近百家企业界和工业界大咖共赴盛会。

软件工程3.0时代
由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
 最新文章