诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

文摘 2024-10-10 18:05 意大利

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

概述

2024年诺贝尔物理学奖首次颁给了人工智能领域的研究者，引发了全球范围内的巨大关注和热议。这一决定不仅彰显了AI在科学研究和技术创新中的关键地位，还进一步激发了各界对其未来发展的极大兴趣，进一步突显了人工智能在推动科技进步和社会变革中的重要作用。

在大模型时代，从智能代理到具身智能，我们看到这些技术不仅在科研领域掀起了波澜，也在实际应用中带来了新的可能性。2024年9月，在AI TIME举办的ECCV预讲会上，来自清华大学博士诸子钰，清华大学博士生刘芳甫，《深度学习详解》作者王琦，北京航空航天大学博士生李睿楷，深入探讨了这些方向是如何相互交织来推动计算机视觉的发展，并剖析了在这一过程中需要面临的挑战与机遇。

点击 阅读原文 观看Debate精彩回放！

前沿话题探讨

多模态学习在具身智能中的应用与挑战：如何利用多种模态的数据提高Agent的理解和交互能力？

AITIME

如何看待Agent、具身智能等方向？

刘芳甫：

我主要专注于3D生成和重建，对Agent和具身领域的探索较少。不过，我一直看好具身智能这一方向，因为它涉及的方面非常广泛。可以从大型语言模型的角度、计算机视觉的角度、强化学习的角度，甚至传统机械控制的角度来研究巨神智能。因此，我认为具身智能将继续保持热度，大家可能会运用各个领域成熟的技术来优化它。

李睿楷：

虽然对大模型的研究接触不多，但具身智能是一个值得关注的发展方向。具身智能涉及的领域非常广泛，有许多待挖掘的潜力。因此，我认为这是一个需要我们投入精力的方向。

诸子钰：

我主要从事3D研究，对具身智能的未来发展很看好。近期出现了许多相关的技术，这些系统展示了复杂操作的能力。如果未来5到10年，这些系统能成熟并结合3D感知模型，我认为这是一个激动人心的方向。

具身智能的研究方向非常多样，包括强化学习、视觉动作方法和语言模型等，提供了广泛的探索空间。虽然目前可能不适合直接进入工业应用，但从长远来看，具身智能是一个值得关注的领域。

王琦：

最近，在NeurIPS和ICLR等会议上，基于大模型的智能体控制也成为了热点。例如，Voyager（Voyager: An Open-Ended Embodied Agent with Large Language Models）使用LLM来控制《我的世界》中的智能体进行采矿等操作。此外，还有如CAMEL（CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society）这种多个基于LLM的智能体进行沟通协作的研究。

AITIME

具身智能的各种尝试，目前做到了什么程度？

诸子钰：

关于智能体的能力，主要可以从视觉和行动两个方面来分析。在视觉能力方面，当前智能体在整体三维感知方面存在挑战。虽然有强大的2D视觉语言模型（如GPT-4和One Vision），但这些模型对三维环境的感知仍有限。未来的发展方向应集中在提升3D感知能力，可能通过开发新的3D模型或结合现有3D工具来实现。在行动能力方面，控制策略尚在探索中。现有方法包括使用固定相机姿态的VLA项目，通过大量视频学习动作，或使用传统机械控制方法。当前这些方法多处于演示阶段，离实际应用还有距离。随着数据和模型的进步，智能体在理解复杂指令方面已有所进展，但仍未达到成熟阶段。

王琦：

当前大模型的应用主要包括三种类型：一是大语言模型（LLMs），用于文本生成和对话系统，也可用于任务规划；二是基础视觉模型，例如SAM，用于图像分割和其他视觉任务；三是视觉语言模型（VLMs），可以用于自动驾驶和机器人控制。

刘芳甫：

实现具身智能的关键在于解决3D数据与语言、图像、视频数据的不平衡。目前，点云数据并非唯一解决方案，我们需要探索将这些不同数据类型整合为统一表示的方法。此外，由于开源3D数据有限，如何使不同数据类型相互学习以弥补数据不足，是需要进一步探索的问题。

李睿楷：

提升agent的理解和交互能力还是要依赖数据驱动。目前主要关注如何获取更多、更适合的数据，让agent能够更好地学习这些能力。

AITIME

我们离通用人工智能（AGI）还有多远？

刘芳甫：

通用人工智能（AGI）距离我们还远。虽然它的目标是解决医学和工业上的复杂问题，但这可能引发伦理问题。从技术角度看，像OpenAI和马斯克这样的投资者正推动这项技术的发展，未来十年可能会看到一些初步成果。

李睿楷：

通用性到底是指在多任务上帮助解决问题，还是超越人类并具备全面通用能力，这很难定义。目前，我们的人工智能仍主要依赖数据驱动的学习方式，这种方式难以使AI超越其接触到的知识。因此，除非有重大突破，否则实现AGI仍然是一个遥远的目标。

诸子钰：

“通用”人工智能的定义比较模糊。如果仅指语言模型的智能，未来5到10年内可能会取得较大进展，因为大模型通过大量数据提取人类知识。但如果包括行为和其他能力，仍需时间。这不仅需要强大的语言模型，还需要软硬件协同的突破，目前技术和数据还无法完全支持。这是一个远期目标，但值得期待。

王琦：

人工智能目前有两类发展：一类是对话型AI，其适用于简单对话，但在复杂问题上的能力还有待探索；另一类是具备实体的机器人，能够与物理环境交互，这也是目前的一个热点。大模型通过大量数据训练能处理一些较为简单的任务，但要真正超越人类，仍需在学习能力和复杂问题处理上取得突破。

AITIME

彩蛋环节

科研大佬们的第一篇paper背后都有什么样的故事呢？

刘芳甫：

最初，我从事因果学习，专注于因果发现（Causal Discovery）。后来，我转向计算机视觉，特别是NERF相关的研究。开始时，我对计算机视觉了解较少，因此花了大量时间阅读文献，大约50篇，前期调研花了一个月。之后，我进入了编码阶段，早期的NERF代码与当前主流的三维生成框架有所不同，因此较易理解。写作过程中，老师提供了大量指导，帮助我理顺逻辑和打磨文本。科研不仅需要从读文献、形成想法、编码、写作到开源和推广的全套流程，还需要团队合作。通过这一路的实践，我认识到单靠个人很难完成所有工作，合作非常重要。

李睿楷：

在最初的NERF研究中，我遇到了许多挑战。在开始编码之前，我详细了解了相关的NERF代码。这些代码与常见的代码库差异较大，因此在理解和实现过程中遇到了一些困难。然而，通过不断的尝试和调整，我逐步掌握了编程要点。写作阶段同样重要，老师在这方面给予了很多指导，帮助我提高了论文的逻辑性和表达能力。在完成科研工作后，还需要进行开源、项目推广和发布，整个过程是非常复杂的。

通过这次经历，我认识到完整的科研过程不仅包括文献阅读、编码和写作，还包括项目的开源和宣传。在这个过程中，我深刻体会到一个人完成所有这些工作是非常困难的，合作和团队支持在科研中显得尤为重要。虽然第一次的研究未能达到预期效果，但这段经历让我对科研有了更深刻的理解，并为未来的工作奠定了坚实的基础。

诸子钰：

谈到我的第一篇论文经历，我发现最大的挑战在于没有充分考虑到创意的独特性。我的点子较为常见，容易被其他团队提出并发表，因此最终未能成功发表。

我的第一篇重要论文聚焦于3D识别与语言结合，这是我现在的研究方向。在这个领域，大多数模型设计复杂，专注于解决特定任务。而2D领域的简单模型，如BAT和Oscar，展示了通过简洁设计也能取得良好效果。因此，我们受到了启发，尝试在3D领域设计一个简洁的模型。

在此过程中，我的导师给予了我极大的帮助。从想法生成、模型设计到代码实现和论文写作，导师的指导至关重要。他们帮助我打磨论文逻辑、改进表达，并解决了诸如代码兼容性和效果评估等问题。第一篇论文的撰写中，拥有一个经验丰富的导师以及团队合作的支持是非常重要的。

王琦：

首先，关于科研工作，拥有一个导师的指导是非常重要的。导师可以帮助你避免许多盲目和重复的错误，使你在研究过程中少走许多弯路。这样，你能更顺利地完成任务，提升研究质量。

另外，科研过程中最好能尽快走完整个流程。比如，从构思idea、进行实验，到撰写论文、进行审稿等，每一步都要实践。这不仅能让你逐步掌握科研的各个环节，还能帮助你了解如何处理审稿和改进论文。通过不断迭代，你会逐渐提高自己的科研能力。

四位嘉宾所讨论的内容不仅展示了大模型时代计算机视觉的前景，也提醒我们在探索新技术时保持批判性思维。未来的研究将如何塑造我们的世界，取决于我们如何运用这些强大的工具。希望大家能继续关注这些领域的最新进展，携手共同推动计算机视觉的未来发展！

本篇文章由陈研整理

往期精彩文章推荐

ECCV'24 | 1步文生图大模型还能“更小更快”，MixDQ量化方法无损“瘦身”扩散模型3倍，提速1.5倍！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看Debate精彩回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247528213&idx=1&sn=9f1ec7807876f04e7d50ac987a4f7818

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉