上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

文摘 2024-08-06 18:44 北京

沈为
上海交通大学人工智能研究院教授
博士生导师

曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学影像处理，关注弱监督/无监督下图像分割等视觉识别任务。发表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相关领域顶级期刊和会议50多篇，谷歌学术引用1万多次。担任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022领域主席，担任SCI一区期刊Pattern Recognition编委、上海市计算机学会计算机视觉专委副主任。代表性工作获得MICCAI 2023青年科学家奖。国家优青，入选上海领军人才（海外）。

▼

这两年，直播间有个极具生命力的梗，叫做“你这背景太假了”。仅抖音平台的相关衍生话题，就超过30亿播放量。每当主播的背景效果过于震撼、艳丽，就会被网友要求“自证”，比如光脚淌水、向身后扔矿泉水瓶等。

难分真假的吃瓜群众，之所以对自己的眼睛愈发不自信，深层原因在于计算机的“眼睛”越来越强大。随着图像分割算法不断优化，直播间、视频会议里的虚拟背景，已经可以和人物不露破绽的丝滑衔接，为工作、娱乐带去更多沉浸体验。

上海交通大学人工智能研究院教授沈为，就是该领域的耕耘者之一。

他曾在多项国家自然科学基金的项目研究中，建立起形状引导的图像分割计算机制和方法，为相关应用的发展提供了扎实的学术理论支撑。眼下，他正率领团队通过计算机视觉和深度学习，为医学影像行业赋能。

在沈为身上，你会看到一种有趣的“对立统一”：他清醒意识到现有AI基石——计算机“冯诺依曼体系”的局限性，认为“唯有底层技术革命，才能突破现有瓶颈”。同时又愿意脚踏实地，在现有框架下，朝计算机视觉领域的最高峰持续攀登。

半路入行找到“人生坐标”

三位恩师影响了我

专注、冷静、重理性思维，是学界人士的基本特质。但沈为与计算机视觉领域结缘，却源于一次原因不那么理性的“半路出家”。

沈为的本科专业是“信息与通信工程”，满怀期待的他却在入学后有所动摇。

“我的专业主要与信号、声波、频谱打交道，这些东西看不见摸不着。而我又是一个对画面感有期待和追求的人，小时候的很多兴趣和梦想都是源于一些有画面感的事物。”

为了做出改变，他以专业课中的“图像处理”为跳板，在读博期间转向计算机视觉领域。他的博士生副导师，华中科技大学教授白翔为他带去了很多积极影响。

巧合的是，白翔教授也是“半路出家”，并经历过一段非常艰难的转型过程。但这没有妨碍他成为人工智能行业、场景文字检测与识别技术的尖端人才。白翔教授相信“兴趣的力量”，并鼓励学生参加学术竞赛与实战项目，去接触应用场景中真实的数据、算法和系统，从而有效避免“闭门造车”，在研究具体问题时取得突破。

在白翔教授的推荐下，沈为前往微软亚洲研究院实习，并得到了微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授屠卓文的指点和帮助。屠卓文教授的很多工作内容，都处于学界最前沿。同时他又是一位自己上手写代码，亲力亲为的导师。在他的引领下，沈为在计算机视觉和深度学习领域不断扩展视野，积累了丰富的经验。

两位恩师的言传身教，让沈为有了一个坚实的事业起点。

2014年，已经回国任教的他开始推动“基于深度学习的边缘检测”项目，为了赶论文进度一度达到废寝忘食的程度。功夫不负有心人，一年后，相关研究成果获得全球计算机视觉顶级会议CVPR的发表，并得到学术圈广泛关注和引用。

正是这篇论文，在一定程度上推动了边缘检测的跃进发展，通过深度学习让物体与物体间的边界、杂乱背景的噪声影响得到更强区分性，解决了虚拟背景等应用不够精细、穿模的问题。

几年后，已经在业内有所建树的沈为决定前往美国约翰斯·霍普金斯大学计算机科学系进行交流学习。也是这期间，他生命中第三位意义非凡的恩师出现了——著名物理学家史霍金的得意门生，计算机视觉学科奠基人之一的艾伦·尤尔。

艾伦·尤尔教授致力于推动人工智能与医疗影像方面的应用场景相结合，以此来辅助医生提高工作效率。

他较早预见到贝叶斯定理在计算机视觉领域的应用优势，并在“基于CT影像的早期胰腺癌诊断”项目中取得多项突破。沈为就曾参与到该项目中，并提出多项CT影像中胰腺肿瘤分割技术。

在三位老师的影响下，沈为从一个“被画面感所吸引”的学者，成长为计算机视觉与深度学习领域的技术专家，一步步找到了自己的“人生坐标”。

做“留在实验室的人”

用AI为医疗行业开扇窗

万卡集群时代的开启，让AI领域得到了不可思议的加速度。自动驾驶、ChatGPT、人形机器人、Sora、百模大战...热点频出的当下，越来越多科学家与学术大牛选择下场创业，或是开辟一些离热点更近的研究方向。

但沈为还是选择留在“实验室”里，他始终认为，热点不是用来追逐的，而是应该把热点中的价值导入自己的研究方向。

这种鲜明的长期主义特质，似乎也是从三位恩师身上传承而来。加入上海交通大学人工智能研究院以来，沈为的主要研究方向还是集中在“老本行”——图像分割与医学影像分析。

图像分割是帮助计算机理解图像信息、提取图像数据的关键一环。小到虚拟背景，大到工业制造、自动驾驶、人形机器人，都需要不断提高分割精度，才有可能完成最终落地。

沈为现阶段的主要工作，就是通过医学图像分割模型服务于医院等场景。比如，让搭载了AI算法的CT能够自主识别肺结节、肺结核、胰腺肿瘤，尤其是低对比度的病灶。在他看来，随着这些技术与硬件相结合，可以为医生提供一层“科技漏斗”，帮助医生过滤掉繁琐的工作内容，让他们有更多精力专注于诊断和施策。

在项目合作中沈为发现，医学图像的优质数据高度依赖医生的标注，但这势必会为他们的日常工作带去干扰。为此，他尝试通过技术创新，在弱监督环境下，实现与全监督环境相当的分割精度。同时在算法中导入医生的优秀经验，让AI能够物尽其用。他的部分研究成果已经在某医疗科技巨头的产品上成功落地，为医院带去了效率提升。

专注于本职工作的同时，沈为还积极与国家创新项目展开合作。目前，他参与了金山云和瑞金医院牵头的国家重点研发计划——虚拟手术。

“优秀主刀医生的短缺，已经成为全球范围的待解难题。相较于其它行业，医生的培养更加耗时。尤其是主刀医生，需要大量实践机会提升经验。但每个躺在手术台上的患者，都不希望自己成为‘小白鼠’。所以年轻医生只能通过假人、动物进行手术训练。”

虚拟手术项目的发起，就是希望构建一个还原度极高的仿真环境，通过医学影像的分割、手术场景的重建、三维器官的呈现，让医学院的学子们得到更多实操机会。

沈为能够参与到这一国家级项目中，与他的专注和长期主义息息相关。

2023年，沈为和团队的重磅研究成果“基于神经辐射场的内窥镜手术场景组织动态三维重建工作”，发表在医学影像处理顶级国际会议MICCAI上。并在2000多篇投稿论文的角逐中脱颖而出，斩获青年科学家奖，成为该奖项中的唯一华人团队。

相信他的学术成果，能够让虚拟手术项目加速落地，从而让年轻医生尽快成长起来，承接日益增加的手术量。在沈为看来，AI在医疗影像、虚拟手术上的应用，有望解决城乡医疗资源不均衡的瓶颈。

相信奇点将至

更信奉脚踏实地

未来学家雷蒙德·库兹韦尔曾在《奇点临近》一书中预测，未来某个时点，高度发达的机器智能将与人类文明相互融合，对现有文明、科技体系产生巨大变革，甚至帮助人类超越生物局限性，即所谓的“AI奇点论”。

在沈为看来，GPT、SORA的横空出世恰恰说明，未来会有更重磅的颠覆性科技突然涌现，且这个时点可能比多数人想象的还要近。但他更坚定认为，依托于冯·诺依曼底层原理的现有人工智能，无法通过扫描、存储、访问的模式产生媲美人类的机器智能，很多相关的阴谋论是杞人忧天。

“人类思维的运行机制，和现有人工智能模型有本质区别。我们的大脑能用不到一个电灯泡的低能耗，完成人工智能需要上万瓦能耗的任务。”

从沈为的叙事中不难推导，很多将AI与人类智商类比的说法都极不严谨。但这并不影响AI在特定领域为人类服务，只是需要市场参与者更加务实去扬长避短。

以计算机视觉为例，沈为认为行业最大的痛点是“计算机视觉系统的精度无法确保100%，所以很多场景下只能发挥辅助作用。”包括当下大火的Sora，他看好其在广告营销、游戏动画、虚拟人制作等方向的发挥。但这类模型也会长期受到物理规律认知不足、AI幻觉的影响，无法在严肃场景胜任。

沈为坦言，计算机视觉领域很难诞生GPT这样的通用模型。

“语言是人类创造的高度精炼的表达，每个单位都独立存在，具有离散性，更易生成通用模型。但自然界的图像却是连续的，所以具有通用智能的计算机视觉系统，至今没有被研发出来。在解决具体问题时，我们要根据应用场景去一个个打造垂直模型，未来的趋势也必然会从纯视觉转向多模态。”

即使知道计算机视觉的“先天不足”，沈为还是选择脚踏实地，用长期主义的研究态度去解决实际问题。他谈到，做研究只有才华和资源远远不够，还需要“头铁”。

“就像深度学习三巨头，1986年就有了研究雏形，但是受限于那个硬件不成熟的年代而沉寂许久，很多年后才等到GPU的爆发。可见，有巨大影响力的研究成果，都需要不计时间成本的强大意志力来支撑。”

虽然自己是个相信“坚持出奇迹”的学者，但他也鼓励国内有余力的团队、商业公司积极研究国外先进案例，至少能以跟随战略做到“不落后”。“GPT也好，Sora也罢，很难说未来会不会演变成卡脖子式的技术，所以应该对类似新物种保持敏感。”

这就是沈为，一个相信“奇点将至”，但更信奉脚踏实地的学者。

8月16-17日，沈为将在AiDD峰会北京站发表一次重要演讲，分享他在大模型参数高效微调 (PEFT)领域的最新观点和案例。在他看来，PEFT不仅可以在商业层面帮助企业降低成本、提高效率，还可以通过参数冻结解决灾难性遗忘问题，确保大模型能在执行新计划时保留原有知识。

相信沈为的思考，必将为大模型在应用场景落地，添上一把“干柴烈火”。

END

“AI+研发数字峰会（AiDD）”旨在帮助更多企业借助AI技术，使计算机能够更深入地认知现实世界，推动研发全面进入数智化时代。AiDD北京站即将于8月16-17日盛大启幕！本届峰会共设十四大分论坛，一个大厂专场，围绕“AIGC产品创新、AI原生应用开发、智能体与具身智能、AI驱动效能提升（含OA、PM）、LLM驱动需求工程、AI +微服务的实践与创新、超越代码生成、AIGCode质量提升、LLM驱动测试分析与设计、测试数据或测试代码生成、大模型训练与评测、LLM助力缺陷定位与修复、长文本 & 文档理解技术与实践、领域多模态大模型技术与实践”等技术热点，邀请近百家企业界和工业界大咖共赴盛会。

点击下方“阅读原文”或扫描下方海报二维码了解更多峰会信息。

往期回顾

01.‘AI+人’访谈录 | 以热爱之心，演绎热辣滚烫的职场人生

02.‘AI+人’访谈录 | 曲径通幽老刘与AI的不解之缘

03.‘AI+人 ’访谈录 | 四十岁技术人的高光与低

04.‘AI+人 ’访谈录 | 技术人从后台走向前台的心路旅程

05.‘AI+人 ’访谈录 | 四秩编程路，爱折腾的匠人梦

06.‘AI+人’访谈录 |对话数据科学家巴川：创新勿忘初心，未来属于有温度的AI

点这里↓↓↓记得关注标星哦~

http://mp.weixin.qq.com/s?__biz=MzA5NzE4NDkxMg==&mid=2652106616&idx=1&sn=c90576fa8e94cfba548dbf8af7fb8b77

中智凯灵

中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

最新文章

2024AI+研发数字（AiDD）峰会深圳站圆满收官！

参会指南来啦！AiDD峰会深圳站倒计时3天，期待您的到来！

深入浅出 OpenAI Swarm 源码二：多 Agent 框架调度流程

深入浅出 OpenAI Swarm 源码一：多 Agent 调度框架概念抽象

“AI+工程”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+领域”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

高通骁龙峰会AI又是主角，或将开启终端侧生成式AI新时代

“AI+测试”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+开发”线揭晓| AI+研发数字峰会（AiDD）深圳站携60+前沿实践案例重磅来袭！

从木匠到AI教父：Geoffrey Hinton的传奇之路

恭喜KeyLink嘉宾智库成员陶建辉、朱思语获得2024年“CCF杰出工程师奖”

突发！OpenAI CTO离职，同日奥特曼被曝将获得股权

为什么AI不会夺去软件工程师的工作？

华为云联合中国信通院发布国内首部《智能化软件开发落地实践指南》，引领AI驱动开发新时代

用AI五分钟就能生成一档播客？感觉降维打击了

OpenAI o1 强化学习背后的自博弈（Self-play）方法介绍

OpenAI o1模型凌晨震撼发布，AI界迎来革命性变革

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

大模型如何改变软件开发的游戏规则？

AI重塑软件行业，个人和组织如何实现弯道超车？| AiDD

开发者噩梦！69% 的程序员每周浪费 8+ 小时，技术债是最大“时间黑洞”

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

何小鹏的Model 2，爆单了

“蓝色巨人”在中国的下线，是否标志着科技鸿沟转折点的到来？

李沐：创业一年，人间三年！

AiDD峰会北京站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

2024AI+研发数字（AiDD）峰会北京站圆满收官！

参会指南来啦！AiDD峰会北京站倒计时3天，期待您的到来！

首位获得IEEE TCSE新星奖的中国学者黎立，将受邀出席AiDD峰会发表主旨演讲

上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

GPT-4o的语音模式终于来了！电影《Her》变成现实...

2024“人工智能+”行动第2弹——AiDD峰会北京站即将发射！

AiDD对话马永亮：大模型应用规模化落地的核心是降低定制和优化的门槛

谈一谈LLM在推荐域的一些理解

对话数据科学家巴川：创新勿忘初心，未来属于有温度的AI

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

大语言模型在金融领域的应用:进展、前景与挑战

麦肯锡报告：2030年，哪些行业会衰落？AI首先会取代哪些工作？

AI驱动研发变革，促进企业降本增效！AI+研发数字峰会北京站议题火热征集中

K+峰会上海站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

来自大厂优秀课代表的学习笔记-AiDD峰会上海站

2024K+全球软件研发行业创新峰会上海站圆满收官！

来啦来啦~K+峰会上海站即将发车，请再次确认您手中的“车票”

‘AI+人’访谈录 | 四秩编程路，爱折腾的匠人梦

大模型编码目前最有效的模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉