腾讯研究院AI速递 20241107

学术   2024-11-07 00:01   广东  

生成式AI

一、  GPT-4o加钱居然能变快?新功能7秒完成原先23秒的任务

1; OpenAI推出“预测输出”功能,GPT-4o的响应速度提高5倍,减少任务完成时间;

2; “预测输出”通过跳过已知内容加速任务执行,适用于更新、重写和迭代现有内容;

3; 该功能仅支持GPT-4o和GPT-4o mini模型,并以API形式提供,但使用时会增加成本。

https://mp.weixin.qq.com/s/VMVCFjhvi-RKdzA75RHk5w

二、  英伟达发布视觉开发工具 AI Blueprint,能用AI总结各类场景

1; NVIDIA发布视觉AI Blueprint,助力各行业开发视频、图像分析AI Agent;

2; 该产品支持自然语言提示定制AI Agent,无需编程,降低部署门槛;

3; 可应用于智能城市、仓库监控、交通管理等场景,提高效率与安全性。

https://mp.weixin.qq.com/s/djxegyPly1USmjGtp4WQQw

三、  CMU、Meta发布VQAScore优化文生图,Imagen3已采用

1; VQAScore是CMU和Meta联合推出的新评估指标,用于自动评估文本生成图像的质量,超越传统CLIPScore等方法;

2; GenAI-Bench是一个包含复杂提示词的基准集,助力提升文生图模型的性能并提供更细致的技能分析;

3; VQAScore和GenAI-Bench已被Imagen3等多个项目采用,用于优化生成式AI模型,提升图像与文本的匹配度。

https://mp.weixin.qq.com/s/rESmdlauhxVtlraxg8T4FA

四、  港科大、中科大等联手推出GameGen-X国产实时AI游戏

1. GameGen-X是由港科大、中科大等机构合作研发的AI模型,实现了开放世界游戏的实时生成与交互控制;

2. 该模型通过扩散Transformer,能够生成高质量角色、动态环境和复杂事件,并支持用户输入的多模态控制;

3. GameGen-X为游戏内容设计和开发带来了革命性变化,展示了生成模型在自动化游戏创作中的巨大潜力。

https://mp.weixin.qq.com/s/b1H_8JXBpsiXb-3BmrhrFA

五、  Fish Agentv0.1-3b:集成 ASR 和 TTS 的端到端语音模型

1. Fish Agent是一个集成ASR和TTS功能的端到端语音处理模型,支持多语言语音到语音转换;

2. 该模型无需传统编解码器,能够直接进行语音输入到语音输出的转换,适用于多种音频处理场景;

3. Fish Agent经过多语言音频数据训练,能够精准捕捉并生成环境音频信息,提供自然的语音交互体验。

https://mp.weixin.qq.com/s/pRK7E4UyAOV1uxKaDsHtNA

六、  亚马逊发布X-Ray Recaps C端应用:AI追剧把握精彩瞬间

1. 亚马逊Prime Video推出了基于生成式AI的X-Ray Recaps功能,能生成剧集、季度或场景的简洁总结;

2. 用户可以精准回顾错过的剧情,而无需回退播放或担心剧透;

3. X-Ray Recaps结合亚马逊Bedrock云服务,支持按需总结复杂故事情节,目前在Fire TV用户中测试,年底将扩展支持。

https://mp.weixin.qq.com/s/n8dsIBdHNRfP7ARD3uTCWA

前沿科技

七、  普林斯顿提出蛋白水印方法,助力AI蛋白生成的版权保护

1. 普林斯顿大学团队提出FoldMark水印方法,通过两阶段训练嵌入水印,保护蛋白质生成模型的版权;

2. FoldMark能有效嵌入水印,且在不破坏蛋白质结构质量的前提下实现高准确率的水印恢复;

3. 该方法可用于版权保护和用户身份识别,并能抵抗后处理和自适应攻击,但仍需优化应对复杂结构变化的能力。

https://mp.weixin.qq.com/s/AYoJ4C5RbpiWQotDebGHGw

八、  小鹏 AI 机器人Iron 发布,何小鹏说没有500亿造不好AI机器人

1. 小鹏 AI 机器人Iron采用仿人设计,身高178cm、62个主动自由度,搭载图灵AI芯片;

2. 机器人配备鹰眼视觉系统和强化学习算法,具备类似驾驶的行走能力;

3. 何小鹏强调AI机器人比AI汽车更难,500亿投入是实现这一目标的最低标准。

https://mp.weixin.qq.com/s/UAAhXufcRLRzIjvPdldLeQ

报告观点

九、  别让大模型CoT「想」太多,OpenAI o1准确率竟下降36.3%

1. 研究发现思维链(CoT)在某些任务中会导致大模型性能下降,特别是在隐性统计学习和面部识别任务中;

2. 在隐性统计学习任务中,OpenAI o1模型准确率下降36.3%;

3. 研究启示CoT并非总能提升性能,未来优化LLM的提示策略需关注此类负面影响。

https://mp.weixin.qq.com/s/TPW7zDrVwO6ClHxKbnOjgA

十、  AI可赋能编程,但基础编程知识及编程思维仍值得学习与培养

1. 生成式AI加速软件开发,提高开发效率,并帮助更多人进入软件工程领域;

2. 基础编程知识仍然至关重要,开发者需理解核心概念如缓存和并行化,以做出有效决策;

3. 计算机科学教育需要平衡传统编程基础与生成式AI工具的使用,确保学生具备良好的判断力和问题解决能力。

https://mp.weixin.qq.com/s/NBYXNYfZ7OgqozF5SfAphg

👇订阅下方合集,获取每日推送

腾讯研究院
腾讯公司设立的社会科学研究机构,依托腾讯公司多元的产品、丰富的案例和海量的数据,围绕产业发展的焦点问题,通过开放合作的研究平台,汇集各界智慧,共同推动互联网产业健康、有序的发展,致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a
 最新文章