“天才新星”系列人物专访 丨 李明博士:从国防科技到人工智能的卓越旅程

文摘   2024-08-20 09:30   广东  


GUANGMING LABORATORY

2024年7月,来自新加坡国立大学的李明博士以“天才新星”头衔全职加入光明实验室,开启他全新的学术之旅。

李明博士近照





人物小传

今年刚刚毕业于新加坡国立大学的李明博士,凭借其卓越的学术成就,已成为计算机视觉领域优秀的青年学者。他的研究领域广泛而深入,聚焦于计算机视觉的前沿领域,特别是人工智能内容生成(AIGC,文生图/视频/3D)、多模态大语言模型和细粒度图像视频理解等。


此前,李明博士已在西安电子科技大学与北京大学(推免)分别完成了本科与硕士阶段的学业,并展现出非凡的学术潜力。2021年,李明被新加坡国立大学录取,在颜水成教授的悉心指导下开展研究工作,并受校长奖学金资助。攻读博士学位期间,他积累了丰富的实践经验,先后在新加坡的 Sea AI Lab 、中国的上海 AI Lab 完成了高质量的实习项目。


迄今,李明已在国际计算机视觉领域的顶级期刊与会议(包括IJCV、ICCV、TMM、TCSVT、ACMMM、ICIP等)上发表10余篇学术论文,研究成果获得了广泛的认可与赞誉。最近,李明在IJCV上发表的“Instant3D: Instant Text-to-3D Generation”开创了一种快速文生3D方法,该成果一经发布,便迅速在知名开源平台Hugging Face上引起广泛关注,吸引了包括米哈游、高榕资本等众多工业界巨头的合作意向。


此外,李明还受邀担任 IEEE TPAMI 、IJCV 、NeurIPS 、ICCV 、CVPR 、ECCV、AAAI和TIP 等多个期刊与会议的审稿人,充分证明了他在学术界的影响力。


从国防科技到AI视觉的学术征途

跨越国界的科技追梦人


高考报志愿的时候,我就对国防科技非常感兴趣,毅然决然地选择了信息对抗技术作为我的第一志愿。

2011年,刚刚结束高考的李明,怀揣着对国防科技的浓厚兴趣,毅然决然地选择了西安电子科技大学信息对抗技术专业作为第一志愿。


“我非常幸运本科就读于西安电子科技大学。她是一所以电子信息和计算机科学见长的理工科院校,有着‘厚德、求真、砺学、笃行’的校训,践行着求真、务实、修德的学习理念,大家都非常专注在自身本领的修炼上。”李明说。


在这样的学习氛围中,李明在电子设计制作领域投入了大量热情,大二上学期就自己动手DIY了智能循迹小车,并在大三的时候获得全国大学生数学竞赛陕西赛区一等奖。随后在大四上学期,成绩优异的李明就被保送到北京大学信息科学技术学院攻读硕士学位。

北京大学的校园氛围是开放的、包容的,学校的学科门类更加多样化,不同专业的学生聚集在这里碰撞出不同的火花,使得这里的学生有着广阔的学术视野。

在北大,李明儿时对于航空航天的热情被唤醒,很快,他投入到卫星通信与导航的研究中去。


提及北大,李明说道:“这里的校园氛围是开放的、包容的,学校的学科门类更加多样化,不同专业的学生聚集在这里碰撞出不同的火花,使得这里的学生有着广阔的学术视野。”


硕士快毕业的时候,李明却产生了一些“焦虑”:我意识我国在航空航天领域取得的成就已经是举世瞩目,但是在以人工智能为核心的第四次工业革命时代,我国的相关研究跟美国相比还是有着不小的差距。”


思及此,李明开始自学AI和计算机视觉相关的基础知识,并决定前往美国求学。

在美国北卡罗来纳大学教堂山分校 (UNC-Chapel Hill) 医学图像分析实验室 (IDEA Lab),我接受了最前沿、最专业的学术研究培训,开阔了国际视野。

在美国,李明遇到了医疗智能领域国际大牛沈定刚教授。他是美国北卡罗来纳大学教堂山分校 (UNC-Chapel Hill) 放射学系、医学影像中心、计算机系、生物医学工程系终身教授,冠名杰出教授,同时也是世界上最早开展医学影像人工智能研究的科学家之一,并最先将深度学习应用于脑发育、脑疾病的分析。在他领导的医学图像分析实验室 (IDEA Lab),李明接受了最前沿、最专业的学术研究培训,开阔了国际视野。

赴美读博时期的李明


略有遗憾的是,一年后,沈教授被引进回国担任上海科技大学生物医学工程学院创始院长和联影智能CEO,因此,李明不得不离开北卡,先后辗转波士顿的伍斯特理工学院、新加坡国立大学开启新的博士求学经历。

新加坡国立大学的学生来自世界上的许多国家,通过与来自不同文化背景的同学交流,我了解到许多课堂上没有的知识,见识了多种多样的风土人情和思考问题的方式。

在新加坡国立大学攻读计算机和人工智能博士学位期间,李明通过与来自不同文化背景的同学交流,了解到了许多课堂上没有的知识,见识了多种多样的风土人情和思考问题的方式。


在这里,李明主要与颜水成教授合作。提及颜教授,李明满怀敬意地表示:“他对前沿研究的热情,对学术研究的一丝不苟深深的感染和激励了我。” 


颜水成教授是计算机视觉和机器学习领域专家,新加坡工程院院士、ACM/IEEE/IAPR Fellow和ACM杰出科学家, 现任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长。其卓越成就与非凡贡献,无疑为李明的学术道路树立了光辉的榜样。

新加坡读博时期的李明

“一路的求学经历夯实了我的基础理论知识,锤炼了我面对各种困难的毅力,也培养了我广阔的研究视野,这些都教会我在将来的学术研究中,从实际问题出发确定长远的研究目标,带领团队一步一个脚印做出对社会有益、改善人们生活的研究工作。” ——李明


毫秒级文生3D

创新技术引领AI内容生成


Q

您在人工智能内容生成(文生图/文生3D)领域的研究工作,有哪些创新点或突破?能否分享一个具体的研究案例,让我们更直观地了解这一领域的应用前景?

A

我在之前的研究Instant3D: Instant Text-to-3D Generation中提出了一种全新的文生3D范式。我们的方案基于前馈网络直接从文本描述推理出3D表达,可以实现毫秒级的物体生成,并且无需3D数据作为训练资源。


谈及自己的研究领域,李明表示:“文生3D的研究顾名思义,就是根据文本描述生成一个对应的3D物体。这个领域的大部分工作都是基于per-prompt 优化的方式对单个文本描述反复迭代,生成要求的3D物体。”


然而,这种方式有两个明显的缺陷。一是耗时非常长,单个3D物体的生成时间一般在一个小时以上,有的方法甚至需要花费十几个小时;二是无法利用文本描述之间共享的3D概念,很多物体在不同的文本描述反复出现,但它们都是独立学习的,浪费了很多的计算资源。


为了解决这个问题,李明在研究 Instant3D: Instant Text-to-3D Generation 中提出了一种全新的文生3D范式。


我们的方案基于前馈网络直接从文本描述推理出3D表达,可以实现毫秒级的物体生成,并且无需3D数据作为训练资源。”李明说。“为此,我们设计了三种机制将文本信息嵌入前馈网络,并且提出了新的激活函数加速训练进程,最后还提出了新的自适应算法解决3D生成过程中常见的多头问题。近期我们的论文已经成功被计算机视觉顶级期刊IJCV接收,相关代码也已经开源。”


这项研究在很多现实生活场景中,展现出了广泛的应用潜力,涵盖了增强现实(AR)/虚拟现实(VR)技术、游戏开发、电影制作乃至城市规划设计等多个前沿领域。因此,李明的论文一经发布,便迅速吸引了海量关注,多家投资机构抛出橄榄枝,表达了强烈的合作意愿。

李明博士研究演示:

Instant3D: Instant Text-to-3D Generation 


大模型新探索

可控文生3D与未来AI的无限想象


Q

大模型是当前AI领域的热门话题。您在相关领域的研究方面有哪些心得或进展?

A

前一段时间我们做的可控文生3D大模型就是一个典型的例子,我们通过引入点云作为控制条件,以扩散模型为基础,可以直接生成一个文本描述所对应的3D物体的多视角图片,之后通过以高斯散射为基础的三维重建,可以快速的、可控的生成用户所需求的3D物体。


“大家知道自从ChatGPT引爆大模型时代以来,越来越多的学术研究和工业应用开始将注意力转移到大模型的开发上来。不过大部分的研究都集中在大语言模型方面。” 李明介绍。


在这方面,李明也做了一些工作,不过本着敢于啃硬骨头的精神,他们的研究集中在一些尚未被解决的科学问题上。


“比如前一段时间我们做的可控文生3D大模型就是一个典型的例子。我们通过引入点云作为控制条件,以扩散模型为基础,可以直接生成一个文本描述所对应的3D物体的多视角图片,之后通过以高斯散射为基础的三维重建,可以快速的、可控的生成用户所需求的3D物体。我们的模型还支持用户交互,即用户可以通过点云精确调整3D物体的形状,使得生成的最终结果与用户需求吻合。”


目前,这项研究正处于论文撰写的关键阶段,不久之后,它将正式亮相于开源平台,并邀请学者评测试用,共同推动其进一步发展。与此同时,李明并未止步于此,而是持续深耕,致力于探索那些尚未被充分发掘的大模型领域,特别是重建大模型等前沿课题,力求在科研道路上不断突破,开创新局。


光明实验室

探索科技前沿,共创实用未来


Q

为什么选择光明实验室这个新型科研机构?

A

我本人对于开展高质量、有影响力和有实用价值的研究非常感兴趣,像我之前的多项研究如Instant3D多次受到投资界和工业界的关注并发来合作邀请,光明实验室在这方面是一个非常好的平台。


选择光明实验室,对李明而言是一个“深思熟虑”的决定。他认为,作为一个新型科研机构,光明实验室在短时间内展现出了其独特的优势与前景。


李明眼中的光明实验室,以探索科技前沿为己任,拥有世界一流的科研设施和跨学科的合作氛围,为创新研究提供了坚实的保障。此外,实验室开放包容、灵活应变的,广泛吸引、汇聚了全球顶尖的科研才俊。李明认为,这种多元而富有活力的科研生态,如同肥沃的土壤,不断滋养着创新思维的萌芽,促进学术交流与合作。


“更重要的是,光明实验室不仅关注基础研究的突破,还重视科技成果的转化与应用,致力于解决社会和产业中的实际问题。”李明说。“在这样的环境中,我能够自由地探索和创新,推动高质量的研究项目。我对实验室未来的发展充满期待,希望在这里与同行们一起探索未知,开创更多具有实用价值的科技成果。实验室的前瞻性发展战略也让我相信,我们的研究将不仅局限于学术层面,还将在社会和经济领域产生深远的影响,助力国家科技自立自强。”


在光明实验室,我计划继续深入研究AI生成内容、计算机视觉和多模态技术等领域。我希望通过这些研究,能够进一步推动相关技术的发展,将其应用到更广泛的场景中,如智能制造、虚拟现实、具身智能等领域,从而为产业界提供更具价值的技术解决方案。


此外,我还计划探索多模态大模型的创新应用,结合实验室丰富的资源和产业合作机会,将这些研究成果推向市场,促进科技成果的转化与落地。通过这些项目,我不仅希望推动个人科研能力的提升,还期待为实验室打造更多标志性成果,增强实验室在国际科研领域的影响力。


——李明

在光明实验室的支持下,相信李明博士及众多科研工作者,都能够实现从基础理论到实际应用的全链条创新,进一步推动实验室在全球科研界的地位,同时为社会的科技进步贡献力量。


JOIN US

前,李明博士已正式成为光明实验室研究员,并开设“智绘空间”项目团队。智绘空间是一支致力于利用人工智能技术描绘未来的创新团队。团队汇聚了一群在计算机视觉、深度学习和多模态技术领域具有丰富经验的研究人员与工程师,专注于图像、视频和三维物体的生成。


“通过结合最前沿的技术,我们不仅能逼真再现现实世界,还能创造出前所未见的未来场景。”

——智绘空间项目团队


后续更多招聘需求,请前往实验室官网https://www.gml.ac.cn,进入"招聘招生"模块查看。


END


素 材 丨 李   明

供 图 丨 李   明

采 访 丨 李沛昱

编 辑 丨 李沛昱

审 核 丨 郭   锴

 Guangming Laboratory

 实验室简介 

人工智能与数字经济广东省实验室(深圳)(以下简称光明实验室)为省政府批准筹建的第三批广东省实验室之一,经市政府批准已设立为事业单位。实验室面向人工智能与数字经济的重大战略需求,由广东省政府统筹规划及顶层设计,深圳市政府主导建设、运营与管理,深圳大学作为牵头建设单位。实验室致力于打造人工智能与数字经济全链条创新平台、数字经济区域开放产学研合作平台、创新人才聚集和培养的基地以及核心技术成果转化和孵化平台。在此建设目标下,实验室遵循“创新、责任、进取、合作”的核心价值观,主要围绕区块链与金融科技、智能传感与精准医疗、机器学习与智能系统、泛在感知与智慧城市四个方向展开研究。


人工智能与数字经济广东省实验室(深圳)

官方网站|http://www.gml.ac.cn

招聘联系|hr_office@gml.ac.cn


光明实验室
光明实验室官方公众号。光明实验室全称为人工智能与数字经济广东省实验室(深圳),依托深圳大学运行。定位于粤港澳大湾区国际科技创新中心核心平台、人工智能与数字经济开放合作先行地、人工智能与数字经济创新研究基地和产业集聚高地。
 最新文章