生成式AI
一、 AI Agent又一重要玩家!谷歌重磅发力AI Agent ,商用大爆发!
1. 谷歌云推出AI Agent商用生态,提供从开发到部署的一站式服务;
2. 新发布的AI Agent市场为企业用户提供个性化选择,简化部署流程,并支持免费试用;
3. 谷歌通过激励计划和合作伙伴支持,推动AI Agent应用,已有多个知名企业在客户支持、销售优化等领域成功部署。
https://mp.weixin.qq.com/s/m1hxt3qbxopelCCoVxgkqg
二、 Cursor 0.43 终于迎来一波更新!带Agent的Cursor太疯狂了
1. Cursor 0.43引入了Composer Agent,具有完整项目理解和编辑能力,能够自动解析和优化项目文件;
2. Bug Finder功能帮助开发者检测潜在问题,尤其在代码分支合并前进行检测,目前处于Beta阶段;
3. 其他改进包括语义搜索、文件推荐和image drop,提升了代码管理和搜索效率。
https://mp.weixin.qq.com/s/tAKtn9QzRWXcJKqohGaRzw
三、 Runway还是太全面了!新推出视频扩展功能Expand Video
1. Runway推出“Expand Video”功能,允许用户通过文本提示扩展视频画面,灵活调整比例;
2. 用户可创建动态效果,如“快速变焦”和“拉远镜头”,提升视频的电影感和动感;
3. 此功能增强了视频创作的灵活性和专业性,进一步拓展了视频生成技术的创意表现。
https://mp.weixin.qq.com/s/MPEQ-UrwlzKSuhpoNz759Q
四、 可口可乐pick可灵、Leonardo、Runway,用AI拍了新广告片
1. 可口可乐在圣诞广告中使用国产AI模型“可灵”,生成自然景观和动物元素;
2. 制作过程中,AI工具(如可灵、Leonardo、Runway)加速了创作,广告制作成本大幅降低,速度提高五倍;
3. 广告发布后,遭遇观众批评,主要集中在AI生成的人物形象和情感表达上,导致“恐怖谷效应”和创意质量下降的担忧。
https://mp.weixin.qq.com/s/wSwRtV3JWmWFBvXMp8EcfQ
五、 Meta多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
1. Meta发布的Multi-IF基准覆盖8种语言、4501个三轮对话任务,评估多轮对话和多语言指令遵循能力;
2. 实验显示,所有LLM在多轮对话中的表现逐轮衰减,非拉丁文字语言(如中文、俄语)准确率显著低于英语;
3. 数据集构建包括自动翻译与人工校对,强调多语言适配,并揭示了增大模型规模和自我修正能力对提升指令遵循的影响。
https://mp.weixin.qq.com/s/0hB0Kn8mfUoFgndcCBGBwg
六、 1X公布了世界模型挑战赛的二阶段:Sampling,英伟达加持
1. 1X公司发布世界模型挑战赛,第二阶段关注通过前一帧预测下一帧,奖金10000美元;
2. 英伟达推出Cosmos视频分词器,提升视频数据的压缩率和重建质量,支持多种视觉模型;
3. Cosmos分词器采用3D因果卷积结构和小波变换,提高重建速度和学习效率,显著降低运行成本。
https://mp.weixin.qq.com/s/zVekQiEuPJzcLl7HXisjfg
前沿科技
七、 AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊
1. 谷歌团队开发的SpeakFaster利用大语言模型(LLM)加速眼动打字,减少了ALS患者输入按键次数57%,提升输入速度29-60%;
2. SpeakFaster界面结合首字母缩写和对话上下文,通过微调LLM提高短语扩展准确率,支持KeywordAE和FillMask两种修正路径;
3. 模拟与用户研究表明,SpeakFaster显著节省按键动作、提高打字速度,并具较低学习曲线,尤其对ALS患者有效。
https://mp.weixin.qq.com/s/38o4AvVpsJ8G_rsFHXuJIA
八、 将活体神经元植入大脑,和马斯克闹掰后开辟脑机接口新路线
1. Max Hodak的公司开发了生物混合脑机接口,利用体外培养的神经元与电子设备连接,避免传统电极对大脑的损伤;
2. 这种接口通过光遗传学技术结合microLED灯泡刺激和记录神经活动,显著提高信息传递效率;
3. 小鼠实验表明,植入的神经元与宿主脑整合良好,并能通过光刺激完成任务,但仍面临免疫排斥和神经元生存环境问题。
https://mp.weixin.qq.com/s/IDdYzkm1r8CcisW4lj-2Bw
报告观点
九、 对话以太坊Vitalik:世界不该落入AI只手遮天的权力王国
1. AI和加密技术(Crypto)代表两种对立的技术哲学,AI倾向于中心化、强大的权力结构,而加密技术强调去中心化、平等与信任;
2. 人工智能的进步可能导致隐私问题,中心化AI将掌握用户思想和数据,增加安全隐患;
3. 布特林认为,区块链和去中心化的AI可以共同促进自由、隐私和公平,而AI的中心化趋势可能带来巨大风险。
https://mp.weixin.qq.com/s/zHsNRYXrSEWoQHg-2Iqf2g
十、 李飞飞:理解世界运作方式是AI下一步,转向大世界模型
1. 计算机视觉是人工智能的关键,AI需要具备空间智能来理解和互动三维世界;
2. 过去15年,卷积神经网络和大数据推动了视觉识别的飞跃,ImageNet项目是关键突破;
3. 下一步AI应从大语言模型转向大型世界模型,集成视觉、空间数据和机器人控制,拓展3D空间互动应用。
https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg
👇订阅下方合集,获取每日推送