腾讯研究院AI速递 20241126

学术   2024-11-26 00:01   广东  

生成式AI

一、  AI Agent又一重要玩家!谷歌重磅发力AI Agent ,商用大爆发!

1. 谷歌云推出AI Agent商用生态,提供从开发到部署的一站式服务;

2. 新发布的AI Agent市场为企业用户提供个性化选择,简化部署流程,并支持免费试用;

3. 谷歌通过激励计划和合作伙伴支持,推动AI Agent应用,已有多个知名企业在客户支持、销售优化等领域成功部署。

https://mp.weixin.qq.com/s/m1hxt3qbxopelCCoVxgkqg

二、  Cursor 0.43 终于迎来一波更新!带Agent的Cursor太疯狂了

1. Cursor 0.43引入了Composer Agent,具有完整项目理解和编辑能力,能够自动解析和优化项目文件;

2. Bug Finder功能帮助开发者检测潜在问题,尤其在代码分支合并前进行检测,目前处于Beta阶段;

3. 其他改进包括语义搜索、文件推荐和image drop,提升了代码管理和搜索效率。

https://mp.weixin.qq.com/s/tAKtn9QzRWXcJKqohGaRzw

三、  Runway还是太全面了!新推出视频扩展功能Expand Video

1. Runway推出“Expand Video”功能,允许用户通过文本提示扩展视频画面,灵活调整比例;

2. 用户可创建动态效果,如“快速变焦”和“拉远镜头”,提升视频的电影感和动感;

3. 此功能增强了视频创作的灵活性和专业性,进一步拓展了视频生成技术的创意表现。

https://mp.weixin.qq.com/s/MPEQ-UrwlzKSuhpoNz759Q

四、  可口可乐pick可灵、Leonardo、Runway,用AI拍了新广告片

1. 可口可乐在圣诞广告中使用国产AI模型“可灵”,生成自然景观和动物元素;

2. 制作过程中,AI工具(如可灵、Leonardo、Runway)加速了创作,广告制作成本大幅降低,速度提高五倍;

3. 广告发布后,遭遇观众批评,主要集中在AI生成的人物形象和情感表达上,导致“恐怖谷效应”和创意质量下降的担忧。

https://mp.weixin.qq.com/s/wSwRtV3JWmWFBvXMp8EcfQ

五、  Meta多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务

1. Meta发布的Multi-IF基准覆盖8种语言、4501个三轮对话任务,评估多轮对话和多语言指令遵循能力;

2. 实验显示,所有LLM在多轮对话中的表现逐轮衰减,非拉丁文字语言(如中文、俄语)准确率显著低于英语;

3. 数据集构建包括自动翻译与人工校对,强调多语言适配,并揭示了增大模型规模和自我修正能力对提升指令遵循的影响。

https://mp.weixin.qq.com/s/0hB0Kn8mfUoFgndcCBGBwg

六、  1X公布了世界模型挑战赛的二阶段:Sampling,英伟达加持

1. 1X公司发布世界模型挑战赛,第二阶段关注通过前一帧预测下一帧,奖金10000美元;

2. 英伟达推出Cosmos视频分词器,提升视频数据的压缩率和重建质量,支持多种视觉模型;

3. Cosmos分词器采用3D因果卷积结构和小波变换,提高重建速度和学习效率,显著降低运行成本。

https://mp.weixin.qq.com/s/zVekQiEuPJzcLl7HXisjfg

前沿科技

七、  AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊

1. 谷歌团队开发的SpeakFaster利用大语言模型(LLM)加速眼动打字,减少了ALS患者输入按键次数57%,提升输入速度29-60%;

2. SpeakFaster界面结合首字母缩写和对话上下文,通过微调LLM提高短语扩展准确率,支持KeywordAE和FillMask两种修正路径;

3. 模拟与用户研究表明,SpeakFaster显著节省按键动作、提高打字速度,并具较低学习曲线,尤其对ALS患者有效。

https://mp.weixin.qq.com/s/38o4AvVpsJ8G_rsFHXuJIA

八、  将活体神经元植入大脑,和马斯克闹掰后开辟脑机接口新路线

1. Max Hodak的公司开发了生物混合脑机接口,利用体外培养的神经元与电子设备连接,避免传统电极对大脑的损伤;

2. 这种接口通过光遗传学技术结合microLED灯泡刺激和记录神经活动,显著提高信息传递效率;

3. 小鼠实验表明,植入的神经元与宿主脑整合良好,并能通过光刺激完成任务,但仍面临免疫排斥和神经元生存环境问题。

https://mp.weixin.qq.com/s/IDdYzkm1r8CcisW4lj-2Bw

报告观点

九、  对话以太坊Vitalik:世界不该落入AI只手遮天的权力王国

1. AI和加密技术(Crypto)代表两种对立的技术哲学,AI倾向于中心化、强大的权力结构,而加密技术强调去中心化、平等与信任;

2. 人工智能的进步可能导致隐私问题,中心化AI将掌握用户思想和数据,增加安全隐患;

3. 布特林认为,区块链和去中心化的AI可以共同促进自由、隐私和公平,而AI的中心化趋势可能带来巨大风险。

https://mp.weixin.qq.com/s/zHsNRYXrSEWoQHg-2Iqf2g

十、  李飞飞:理解世界运作方式是AI下一步,转向大世界模型

1. 计算机视觉是人工智能的关键,AI需要具备空间智能来理解和互动三维世界;

2. 过去15年,卷积神经网络和大数据推动了视觉识别的飞跃,ImageNet项目是关键突破;

3. 下一步AI应从大语言模型转向大型世界模型,集成视觉、空间数据和机器人控制,拓展3D空间互动应用。

https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章