WEEKLY REPORT
10/27
2024
AIGC本周资讯
互联网行业一周新闻速览
01
WEEKLY NEWS
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了
Meta和巴黎理工学院的研究人员共同探讨了一个困扰数学界长达132年的问题:李雅普诺夫函数。简单来说,李雅普诺夫函数用于判断一个动力系统相对于其平衡点或轨道,随着时间无限延长后是否能保持全局稳定。论文已经入选了NeurIPS 2024。
论文标题:
Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers
论文地址:
https://arxiv.org/pdf/2410.08304
这类问题中,最出名的可能就是三体问题了:两个物体在没有其他引力的影响下相互绕行,如果再添加一个物体,在大多数情况下,这三个物体的运动都会变得混乱起来。
在最新的这项研究中,研究者提出了一种从随机采样的李雅普诺夫函数生成训练数据的新技术。在这些数据集上训练的序列到序列Transformer在held-out测试集上达到了近乎完美的准确率(99%),在分布外测试集上达到了非常高的性能(73%)。
这项研究表明,通过使用少量(300 个)可以用现有算法方法解决的简单样本来丰富训练集,可以获得更高的准确率(84%)。AI模型在各种基准测试中的表现已经远超最先进的技术和人类的表现。
研究者表示,生成模型可用于解决数学研究层面的问题,为数学家提供可能解决方案的猜测。黑箱模型提出的解决方案是明确的,其数学正确性可以得到验证。或许,这项研究是解决数学开放问题的人工智能驱动蓝图。
原文链接:
https://www.jiqizhixin.com/articles/2024-10-20-3
02
WEEKLY NEWS
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
一个多所机构的研究团队探索了视频生成模型能自然获得的两种反馈类型,即来自视觉 - 语言模型(VLM)的 AI 反馈和将生成的视频转换成运动控制时得到的真实世界执行反馈。
为了利用这些反馈来实现视频生成模型的自我提升,该团队提出了 VideoAgent,即视频智能体。该研究有三位共一作者:Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他参与者包括滑铁卢大学 Sebastian Fischmeister 教授、斯坦福大学基础模型研究中心(CRFM)主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang(杨梦娇)。
论文标题:VideoAgent: Self-Improving Video Generation
论文地址:https://arxiv.org/pdf/2410.10076
代码地址:https://github.com/Video-as-Agent/VideoAgent
原文链接:
https://www.jiqizhixin.com/articles/2024-10-20-2
03
WEEKLY NEWS
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
DeepMind 的研究者训练了一个参数量为 2.7 亿的 Transformer 模型,这个模型无需依赖复杂的搜索算法或启发式算法就能达到「特级大师( Grandmaster-Level )」的国际象棋水平,优于 AlphaZero 的策略和价值网络(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。
这一结果非常有趣,也很容易激发想象力,因为到目前为止,能达到这个级别的计算机国际象棋系统 —— 无论是否基于机器学习 —— 都使用了搜索组件。而 DeepMind 模型不依赖搜索似乎就能达到如此强大的下棋水平。
很多人将其解读为:这表明 Transformer 不是简单的「随机鹦鹉」,而是具有一定的推理和规划能力。就连该论文的作者也在「结论」部分写道:「我们的工作为快速增长的文献增添了新的内容,这些文献表明,复杂而精密的算法可以被蒸馏为前馈 transformer,这意味着一种范式的转变,即从将大型 transformer 视为单纯的统计模式识别器,转变为将其视为通用算法近似的强大技术。」
博客链接:
https://arjunpanickssery.substack.com/p/skepticism-about-deepminds-grandmaster
原文链接:
https://www.jiqizhixin.com/articles/2024-10-22-5
04
WEEKLY NEWS
骁龙8至尊版登场:CPU牙膏挤爆,AI生成速度创纪录,奥特曼也来助阵
在 2024 骁龙峰会上,高通宣布推出「骁龙 8 至尊版」移动平台,这是迄今为止高通最强大且全球速度最快的移动端系统级芯片。该平台首次采用了一系列领先技术,包括第二代定制的高通 Oryon CPU、高通 Adreno GPU 和增强的高通 Hexagon NPU,将带来颠覆性的性能提升。
原文链接:
https://www.jiqizhixin.com/articles/2024-10-22-4
05
WEEKLY NEWS
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了
研究者们探索了其他的自动评估方案,通过选择一个(或几个)“最强” 模型(通常是 GPT-4)作为评委来评估所有其他模型。然而,评委模型可能存在偏见,例如更倾向于选择与其自身风格相似的输出。基于这种评估进行模型优化可能会导致所有模型过度拟合 GPT-4 的偏见。
为了结合这两种方案的优势,通过利用 “群体智能”(Chatbot Arena 依赖于人群智慧)来实现更稳健且更少偏见的评估,同时使该过程自动化且可扩展到多维度能力比较,Maitrix.org 发布了 Decentralized Arena。
原文地址: https://de-arena.maitrix.org
Leaderboards: https://huggingface.co/spaces/LLM360/de-arena
原文链接:
https://www.jiqizhixin.com/articles/2024-10-22-2
06
WEEKLY NEWS
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
Janus 的核心思想是对理解和生成任务的视觉编码进行解耦,在提升了模型的灵活性的同时,有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。实验表明,Janus 超越了此前的统一模型的效果,并取得了和纯理解 / 纯生成模型比肩或更好的性能。我们通过详细严格的对比实验证实了解耦的好处,并分析了理解生成统一训练相较于分开训练带来的影响。
论文:
https://arxiv.org/pdf/2410.13848
项目主页:
https://github.com/deepseek-ai/Janus
模型下载:
https://huggingface.co/deepseek-ai/Janus-1.3B
在线 Demo:
https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
原文链接:
https://www.jiqizhixin.com/articles/2024-10-22-3
07
WEEKLY NEWS
2¹³⁶²⁷⁹⁸⁴¹−1,GPU发现人类已知最大的素数,比第二大多1600万位数字
新的人类已知最大素数,被GPU发现!
这个数就是2¹³⁶²⁷⁹⁸⁴¹ −1,如果展开会有41024320位十进制数字。
一位英伟达前员工通过开源项目GIMPS(梅森素数大搜索,Great Internet Mersenne Prime Search)报告了这一结果。
且是通过英伟达A100初步发现,然后经由H100验证。
2¹³⁶²⁷⁹⁸⁴¹ −1比之前创纪录的素数大1600多万位,是有史以来发现的第52个已知的梅森素数,也是GIMPS项目发现的第18个梅森素数。
连马斯克刷到新闻都跑来围观。
原文链接:
https://www.qbitai.com/2024/10/209636.html
08
WEEKLY NEWS
微软一口气发10个商业智能体!内测提高9.4%销售收入,六成500强企业在用Copilot
微软CEO、董事长纳德拉亲自宣布AI新进展:
一口气推出10个新的商业智能体(Agent)。
10个Agent组团出道,包揽销售、服务、财务、供应链团队的活,带来业务价值,例如:
销售资格Agent:自动筛选和分析潜在客户,为销售人员锁定最具价值的商机,并提供个性化的客户沟通建议。
供应商通讯Agent:实时监控供应商表现并智能处理延迟问题,预防供应链中断,让采购团队从日常监控中解放出来。
客户意图与客户知识管理Agent:结合客户意图分析和知识库管理,在高压的服务环境中协助客服人员快速响应,同时自动积累和推广解决方案。
原文链接:
https://www.qbitai.com/2024/10/209381.html
09
WEEKLY NEWS
一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI
Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。
其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。Claude 3.5 Haiku 的性能则与之前最大模型 Claude 3 Opus 的性能相当,同时在成本和速度上与上一代 Haiku 相近。
最值得关注的是,Claude 3.5 Sonnet 版本号虽未提升,但却迎来了史诗级大更新:能像人一样使用计算机了!最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。
原文链接:
https://www.jiqizhixin.com/articles/2024-10-23
下期精彩继续