点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
概述
2024年诺贝尔物理学奖首次颁给了人工智能领域的研究者,引发了全球范围内的巨大关注和热议。这一决定不仅彰显了AI在科学研究和技术创新中的关键地位,还进一步激发了各界对其未来发展的极大兴趣,进一步突显了人工智能在推动科技进步和社会变革中的重要作用。
在大模型时代,从智能代理到具身智能,我们看到这些技术不仅在科研领域掀起了波澜,也在实际应用中带来了新的可能性。2024年9月,在AI TIME举办的ECCV预讲会上,来自清华大学博士诸子钰,清华大学博士生刘芳甫,《深度学习详解》作者王琦,北京航空航天大学博士生李睿楷,深入探讨了这些方向是如何相互交织来推动计算机视觉的发展,并剖析了在这一过程中需要面临的挑战与机遇。
点击 阅读原文 观看Debate精彩回放!
AITIME
01
如何看待Agent、具身智能等方向?
刘芳甫:
我主要专注于3D生成和重建,对Agent和具身领域的探索较少。不过,我一直看好具身智能这一方向,因为它涉及的方面非常广泛。可以从大型语言模型的角度、计算机视觉的角度、强化学习的角度,甚至传统机械控制的角度来研究巨神智能。因此,我认为具身智能将继续保持热度,大家可能会运用各个领域成熟的技术来优化它。
李睿楷:
虽然对大模型的研究接触不多,但具身智能是一个值得关注的发展方向。具身智能涉及的领域非常广泛,有许多待挖掘的潜力。因此,我认为这是一个需要我们投入精力的方向。
诸子钰:
我主要从事3D研究,对具身智能的未来发展很看好。近期出现了许多相关的技术,这些系统展示了复杂操作的能力。如果未来5到10年,这些系统能成熟并结合3D感知模型,我认为这是一个激动人心的方向。
具身智能的研究方向非常多样,包括强化学习、视觉动作方法和语言模型等,提供了广泛的探索空间。虽然目前可能不适合直接进入工业应用,但从长远来看,具身智能是一个值得关注的领域。
王琦:
最近,在NeurIPS和ICLR等会议上,基于大模型的智能体控制也成为了热点。例如,Voyager(Voyager: An Open-Ended Embodied Agent with Large Language Models) 使用LLM来控制《我的世界》中的智能体进行采矿等操作。此外,还有如CAMEL(CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society)这种多个基于LLM的智能体进行沟通协作的研究。
AITIME
02
具身智能的各种尝试,目前做到了什么程度?
诸子钰:
关于智能体的能力,主要可以从视觉和行动两个方面来分析。在视觉能力方面,当前智能体在整体三维感知方面存在挑战。虽然有强大的2D视觉语言模型(如GPT-4和One Vision),但这些模型对三维环境的感知仍有限。未来的发展方向应集中在提升3D感知能力,可能通过开发新的3D模型或结合现有3D工具来实现。在行动能力方面,控制策略尚在探索中。现有方法包括使用固定相机姿态的VLA项目,通过大量视频学习动作,或使用传统机械控制方法。当前这些方法多处于演示阶段,离实际应用还有距离。随着数据和模型的进步,智能体在理解复杂指令方面已有所进展,但仍未达到成熟阶段。
王琦:
当前大模型的应用主要包括三种类型:一是大语言模型(LLMs),用于文本生成和对话系统,也可用于任务规划;二是基础视觉模型,例如SAM,用于图像分割和其他视觉任务;三是视觉语言模型(VLMs),可以用于自动驾驶和机器人控制。
刘芳甫:
实现具身智能的关键在于解决3D数据与语言、图像、视频数据的不平衡。目前,点云数据并非唯一解决方案,我们需要探索将这些不同数据类型整合为统一表示的方法。此外,由于开源3D数据有限,如何使不同数据类型相互学习以弥补数据不足,是需要进一步探索的问题。
李睿楷:
提升agent的理解和交互能力还是要依赖数据驱动。目前主要关注如何获取更多、更适合的数据,让agent能够更好地学习这些能力。
AITIME
03
我们离通用人工智能(AGI)还有多远?
刘芳甫:
通用人工智能(AGI)距离我们还远。虽然它的目标是解决医学和工业上的复杂问题,但这可能引发伦理问题。从技术角度看,像OpenAI和马斯克这样的投资者正推动这项技术的发展,未来十年可能会看到一些初步成果。
李睿楷:
通用性到底是指在多任务上帮助解决问题,还是超越人类并具备全面通用能力,这很难定义。目前,我们的人工智能仍主要依赖数据驱动的学习方式,这种方式难以使AI超越其接触到的知识。因此,除非有重大突破,否则实现AGI仍然是一个遥远的目标。
诸子钰:
“通用”人工智能的定义比较模糊。如果仅指语言模型的智能,未来5到10年内可能会取得较大进展,因为大模型通过大量数据提取人类知识。但如果包括行为和其他能力,仍需时间。这不仅需要强大的语言模型,还需要软硬件协同的突破,目前技术和数据还无法完全支持。这是一个远期目标,但值得期待。
王琦:
人工智能目前有两类发展:一类是对话型AI,其适用于简单对话,但在复杂问题上的能力还有待探索;另一类是具备实体的机器人,能够与物理环境交互,这也是目前的一个热点。大模型通过大量数据训练能处理一些较为简单的任务,但要真正超越人类,仍需在学习能力和复杂问题处理上取得突破。
AITIME
04
彩蛋环节
科研大佬们的第一篇paper背后都有什么样的故事呢?
刘芳甫:
最初,我从事因果学习,专注于因果发现(Causal Discovery)。后来,我转向计算机视觉,特别是NERF相关的研究。开始时,我对计算机视觉了解较少,因此花了大量时间阅读文献,大约50篇,前期调研花了一个月。之后,我进入了编码阶段,早期的NERF代码与当前主流的三维生成框架有所不同,因此较易理解。写作过程中,老师提供了大量指导,帮助我理顺逻辑和打磨文本。科研不仅需要从读文献、形成想法、编码、写作到开源和推广的全套流程,还需要团队合作。通过这一路的实践,我认识到单靠个人很难完成所有工作,合作非常重要。
李睿楷:
在最初的NERF研究中,我遇到了许多挑战。在开始编码之前,我详细了解了相关的NERF代码。这些代码与常见的代码库差异较大,因此在理解和实现过程中遇到了一些困难。然而,通过不断的尝试和调整,我逐步掌握了编程要点。写作阶段同样重要,老师在这方面给予了很多指导,帮助我提高了论文的逻辑性和表达能力。在完成科研工作后,还需要进行开源、项目推广和发布,整个过程是非常复杂的。
通过这次经历,我认识到完整的科研过程不仅包括文献阅读、编码和写作,还包括项目的开源和宣传。在这个过程中,我深刻体会到一个人完成所有这些工作是非常困难的,合作和团队支持在科研中显得尤为重要。虽然第一次的研究未能达到预期效果,但这段经历让我对科研有了更深刻的理解,并为未来的工作奠定了坚实的基础。
诸子钰:
谈到我的第一篇论文经历,我发现最大的挑战在于没有充分考虑到创意的独特性。我的点子较为常见,容易被其他团队提出并发表,因此最终未能成功发表。
我的第一篇重要论文聚焦于3D识别与语言结合,这是我现在的研究方向。在这个领域,大多数模型设计复杂,专注于解决特定任务。而2D领域的简单模型,如BAT和Oscar,展示了通过简洁设计也能取得良好效果。因此,我们受到了启发,尝试在3D领域设计一个简洁的模型。
在此过程中,我的导师给予了我极大的帮助。从想法生成、模型设计到代码实现和论文写作,导师的指导至关重要。他们帮助我打磨论文逻辑、改进表达,并解决了诸如代码兼容性和效果评估等问题。第一篇论文的撰写中,拥有一个经验丰富的导师以及团队合作的支持是非常重要的。
王琦:
首先,关于科研工作,拥有一个导师的指导是非常重要的。导师可以帮助你避免许多盲目和重复的错误,使你在研究过程中少走许多弯路。这样,你能更顺利地完成任务,提升研究质量。
另外,科研过程中最好能尽快走完整个流程。比如,从构思idea、进行实验,到撰写论文、进行审稿等,每一步都要实践。这不仅能让你逐步掌握科研的各个环节,还能帮助你了解如何处理审稿和改进论文。通过不断迭代,你会逐渐提高自己的科研能力。
四位嘉宾所讨论的内容不仅展示了大模型时代计算机视觉的前景,也提醒我们在探索新技术时保持批判性思维。未来的研究将如何塑造我们的世界,取决于我们如何运用这些强大的工具。希望大家能继续关注这些领域的最新进展,携手共同推动计算机视觉的未来发展!
本篇文章由陈研整理
往期精彩文章推荐
ECCV'24 | 1步文生图大模型还能“更小更快”,MixDQ量化方法无损“瘦身”扩散模型3倍,提速1.5倍!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
提出观点,表达想法,欢迎
点击 阅读原文 观看Debate精彩回放!