生成式AI
一、 微软研究院开源了目前最强小参数模型phi-4,支持商用许可
1. 微软开源14B参数的Phi-4模型,性能超GPT-4o,AMC测试达91.8分,支持MIT商用许可;
2. 采用高质量合成数据训练,包含50多类数据集,生成4000亿tokens;
3. 应用监督微调(SFT)和直接偏好优化(DPO)技术,MMLU得分84.8,9项基准测试优于同类模型。
https://mp.weixin.qq.com/s/Rk-XBLd3PosXCJhH_mth1w
二、 一秒单图生成3D,实时编辑,Stability AI推出3D生成新方法
1. SPAR3D实现0.7秒内从单图生成3D模型,支持实时编辑点云,提供完整360度视图;
2. 采用两阶段设计:轻量级点扩散模型生成点云,再基于点云和输入图像创建详细网格;
3. 能分别处理可见和不可见部分重建,在GSO和Omniobject3D数据集测试中优于现有方法。
https://mp.weixin.qq.com/s/hs5otWcFn86oLhJHulhkAw
三、 手与物的关系,Meta发布第一人称视角HOT3D 高质量数据集
1. Meta推出HOT3D数据集, 包含833分钟第一人称视角手物交互视频, 超370万张多视角图像;
2. 使用Project Aria和Quest 3设备采集, 提供RGB/单色图像流、3D点云和眼动追踪等多模态数据;
3. 数据集支持3D手姿态跟踪、物体姿态估计等任务, 多视角方法显著优于单视角。
https://mp.weixin.qq.com/s/isV_y_XbfBavzPt7FGwKqw
四、 智元机器人推出全球首个4D世界模型EnerVerse,为具身定制
1. 智元机器人提出EnerVerse架构,通过自回归扩散模型生成4D空间并指导机器人完成任务;
2. 引入稀疏记忆机制和自由锚定视角,解决长程生成与多视角问题;
3. 模型在LIBERO基准测试中实现SOTA,长程任务规划与动作生成表现优异。
https://mp.weixin.qq.com/s/B6MfkL_SxZ5BrR--PYqYiQ
五、 通义万相视频生成模型 2.1 版升级,复杂运动与物理规律提升
1. 通义万相2.1刷新VBench榜单,新增中英文字幕生成、电影级运镜、复杂运动等功能;
2. 采用Flow Matching和创新VAE架构,实现高效视频编解码和百万超长序列训练;
3. 引入自动化数据构建和评估管线,涵盖美学评分等20多个维度指标。
https://mp.weixin.qq.com/s/YFnftO_sKQ_d6AM5J-W8YQ
六、 程序员出身的 AI 短片导演,用三个月拿下国际电影节的金奖
1. 程序员Jim用AI工具制作10分钟动画短片《鬼饮食》,获国际电影节金奖;
2. 通过精简角色设计、避开AI弱项、运用特写镜头等手法规避技术限制;
3. 坚持个人化创作和叙事表达,制作耗时3个月,工时超200小时。
https://mp.weixin.qq.com/s/YVuyRxi6ROftdCezSnX_KQ
七、 全球首个AI 爆炸案!ChatGPT教特种兵造炸弹,袭击特朗普酒店
1. 37岁前特种兵在特朗普酒店引爆装有烟花和铅弹的Cybertruck, 造成7人受伤;
2. 嫌犯通过ChatGPT获取制造炸弹相关信息, 成为首起利用ChatGPT的恐袭案件;
3. 研究人员曾开发SciGuard智能体, 结合科学数据库与监管数据, 希望控制AI在危险领域的滥用风险。
https://mp.weixin.qq.com/s/-vPV-xwt43gXJTLUw51bYg
前沿科技
八、 索尼的VR大空间项目,全新LBE技术、结合大IP沉浸式体验
1. 索尼推出《最后生还者》主题的大空间LBE体验,采用Crystal LED显示屏和多感官技术;
2. 无需VR头显,通过环绕屏幕、触觉反馈和氛围营造实现完全沉浸;
3. 索尼将在芝加哥开设奇幻世界娱乐中心,引入多个热门IP打造线下沉浸式体验。
https://mp.weixin.qq.com/s/TMYskPCDIz17Z3cJroTxfg
报告观点
九、 胡润研究院发布《2024胡润中国人工智能企业50强》(特定领域)
1. 按市值与估值排名,寒武纪、科大讯飞和商汤科技分列AI企业50强前三,估值分别为2380亿、1160亿和500亿;
2. 北京20家、上海9家、深圳8家、广州4家企业入选,一线城市AI企业占比超八成;
3. 榜单仅纳入专注AI算力和算法企业,不含具身智能(如优必选等)和AI非核心业务企业(如BAT等)。
https://mp.weixin.qq.com/s/T3U9RsjBSLrNEepLAfEfEw
AI50节选
👇订阅下方合集,获取每日推送