生成式AI
一、 GPT-4o加钱居然能变快?新功能7秒完成原先23秒的任务
1; OpenAI推出“预测输出”功能,GPT-4o的响应速度提高5倍,减少任务完成时间;
2; “预测输出”通过跳过已知内容加速任务执行,适用于更新、重写和迭代现有内容;
3; 该功能仅支持GPT-4o和GPT-4o mini模型,并以API形式提供,但使用时会增加成本。
https://mp.weixin.qq.com/s/VMVCFjhvi-RKdzA75RHk5w
二、 英伟达发布视觉开发工具 AI Blueprint,能用AI总结各类场景
1; NVIDIA发布视觉AI Blueprint,助力各行业开发视频、图像分析AI Agent;
2; 该产品支持自然语言提示定制AI Agent,无需编程,降低部署门槛;
3; 可应用于智能城市、仓库监控、交通管理等场景,提高效率与安全性。
https://mp.weixin.qq.com/s/djxegyPly1USmjGtp4WQQw
三、 CMU、Meta发布VQAScore优化文生图,Imagen3已采用
1; VQAScore是CMU和Meta联合推出的新评估指标,用于自动评估文本生成图像的质量,超越传统CLIPScore等方法;
2; GenAI-Bench是一个包含复杂提示词的基准集,助力提升文生图模型的性能并提供更细致的技能分析;
3; VQAScore和GenAI-Bench已被Imagen3等多个项目采用,用于优化生成式AI模型,提升图像与文本的匹配度。
https://mp.weixin.qq.com/s/rESmdlauhxVtlraxg8T4FA
四、 港科大、中科大等联手推出GameGen-X国产实时AI游戏
1. GameGen-X是由港科大、中科大等机构合作研发的AI模型,实现了开放世界游戏的实时生成与交互控制;
2. 该模型通过扩散Transformer,能够生成高质量角色、动态环境和复杂事件,并支持用户输入的多模态控制;
3. GameGen-X为游戏内容设计和开发带来了革命性变化,展示了生成模型在自动化游戏创作中的巨大潜力。
https://mp.weixin.qq.com/s/b1H_8JXBpsiXb-3BmrhrFA
五、 Fish Agentv0.1-3b:集成 ASR 和 TTS 的端到端语音模型
1. Fish Agent是一个集成ASR和TTS功能的端到端语音处理模型,支持多语言语音到语音转换;
2. 该模型无需传统编解码器,能够直接进行语音输入到语音输出的转换,适用于多种音频处理场景;
3. Fish Agent经过多语言音频数据训练,能够精准捕捉并生成环境音频信息,提供自然的语音交互体验。
https://mp.weixin.qq.com/s/pRK7E4UyAOV1uxKaDsHtNA
六、 亚马逊发布X-Ray Recaps C端应用:AI追剧把握精彩瞬间
1. 亚马逊Prime Video推出了基于生成式AI的X-Ray Recaps功能,能生成剧集、季度或场景的简洁总结;
2. 用户可以精准回顾错过的剧情,而无需回退播放或担心剧透;
3. X-Ray Recaps结合亚马逊Bedrock云服务,支持按需总结复杂故事情节,目前在Fire TV用户中测试,年底将扩展支持。
https://mp.weixin.qq.com/s/n8dsIBdHNRfP7ARD3uTCWA
前沿科技
七、 普林斯顿提出蛋白水印方法,助力AI蛋白生成的版权保护
1. 普林斯顿大学团队提出FoldMark水印方法,通过两阶段训练嵌入水印,保护蛋白质生成模型的版权;
2. FoldMark能有效嵌入水印,且在不破坏蛋白质结构质量的前提下实现高准确率的水印恢复;
3. 该方法可用于版权保护和用户身份识别,并能抵抗后处理和自适应攻击,但仍需优化应对复杂结构变化的能力。
https://mp.weixin.qq.com/s/AYoJ4C5RbpiWQotDebGHGw
八、 小鹏 AI 机器人Iron 发布,何小鹏说没有500亿造不好AI机器人
1. 小鹏 AI 机器人Iron采用仿人设计,身高178cm、62个主动自由度,搭载图灵AI芯片;
2. 机器人配备鹰眼视觉系统和强化学习算法,具备类似驾驶的行走能力;
3. 何小鹏强调AI机器人比AI汽车更难,500亿投入是实现这一目标的最低标准。
https://mp.weixin.qq.com/s/UAAhXufcRLRzIjvPdldLeQ
报告观点
九、 别让大模型CoT「想」太多,OpenAI o1准确率竟下降36.3%
1. 研究发现思维链(CoT)在某些任务中会导致大模型性能下降,特别是在隐性统计学习和面部识别任务中;
2. 在隐性统计学习任务中,OpenAI o1模型准确率下降36.3%;
3. 研究启示CoT并非总能提升性能,未来优化LLM的提示策略需关注此类负面影响。
https://mp.weixin.qq.com/s/TPW7zDrVwO6ClHxKbnOjgA
十、 AI可赋能编程,但基础编程知识及编程思维仍值得学习与培养
1. 生成式AI加速软件开发,提高开发效率,并帮助更多人进入软件工程领域;
2. 基础编程知识仍然至关重要,开发者需理解核心概念如缓存和并行化,以做出有效决策;
3. 计算机科学教育需要平衡传统编程基础与生成式AI工具的使用,确保学生具备良好的判断力和问题解决能力。
https://mp.weixin.qq.com/s/NBYXNYfZ7OgqozF5SfAphg
👇订阅下方合集,获取每日推送