分析师:刘雯蜀
执业证书号:s1230523020002
研究助理 :陶韫琦
执业证书号:s1230524090010
来源:浙商证券计算机研究团队
具体参见2024年12月7日报告《“满血”o1大模型重磅亮相,引领新一轮多模态AI迭代浪潮——人工智能行业点评报告》,如需报告全文或数据底稿,请联系团队成员或对口销售。
北京时间12月6日凌晨,OpenAI开启为期12天直播活动并在首日上线完整版的o1大模型,并发布ChatGPT Pro服务(订阅价格为每月200美元),模型能力再次实现大幅提升。近期亚马逊、谷歌Deepmind以及国内腾讯、万兴科技等厂商均在多模态AI及应用领域持续迭代,商业化进程有望加速。
1、OpenAI上线完整版o1模型和进阶模式以及ChatGPT Pro订阅服务
北京时间12月6日凌晨,OpenAI在其举办的“12天12场直播”活动首秀中发布完整版o1大模型。o1模型回答用户提问时可形成类似人类思维方式的内部思维链条,从而明显提高回答专业问题的准确性,o1模型回答困难现实问题时出现重大错误的概率可减少34%。相比o1-preview,完整版o1模型响应更快且更准确,同时增加了多模态输入的能力。
OpenAI推出ChatGPT Pro,定价为每月200美元。ChatGPT Pro用户可以无限量地使用o1模型(Plus用户限制为每周50条信息),以及无限量使用o1 mini模型和高级语音模式。o1 pro会使用更多的计算资源进入深入思考,并为“最难的问题提供最好的答案”。OpenAI未来计划为模型添加更多更强大、计算密集型的功能。
2、亚马逊、谷歌DeepMind相继发布多模态大模型,应用场景持续延伸
在12月4日的re:Invent大会上,亚马逊AWS发布了新款AI多模态系列大模型Amazon Nova。Nova一共包含6个模型,其中Micro和Lite模型能够理解文本、图像和视频输入,适合快速和低成本的交互场景。Pro模型结合多模态能力和高准确性及响应速度,适合视频摘要、软件开发辅助等高级应用。最高端的Premier模型预计将于2025年初发布,旨在处理复杂推理任务。而Canvas、Reel用于创意任务。Canvas模型能够从文本或图像提示生成专业级图像,Reel模型则能够用自然语言控制风格和摄像机运动,制作短视频。
近日,谷歌DeepMind推出第二代大规模基础世界模型Genie 2,相比于上一代模型,Genie 2在通用性上实现重大突破——能生成丰富多样的3D世界,可以模拟虚拟世界,包括采取任何行动(如跳跃、游泳等)的后果。基于大规模视频数据集进行训练后,Genie2展现出了各种规模的涌现能力,例如物体交互、复杂的角色动画、物理效果、建模、预测其他智能体行为的能力等等。基于Genie 2模型,研究人员可以快速尝试新环境并训练和测试具身AI智能体。
3、近期国内厂商在大模型及产品层面均有升级迭代,关注多模态AI商业化加速
近日,万兴科技旗下视频创意软件Filmora V14版本新增上线超十项AI功能,包括音频成片、图生视频、智能切片、AI翻译唇形驱动、AI文生音效等一系列AI能力,适用于视频博客、教育工作者、营销团队等群体视频创作增效提质。在大模型侧,近日腾讯开源了130亿参数的类Sora文生视频模型HunyuanVideo,具备物理模拟、一镜到底、文本语义还原度高、动作一致性强、色彩分明、对比度高等技术特性,可生成带有音乐的视频。国内厂商多模态模型及产品应用呈现加速迭代趋势。
建议关注标的
AI Agent应用:科大讯飞、彩讯股份、焦点科技、鼎捷数智、泛微网络、拓尔思、迈富时;
AI垂类应用:金山办公、三六零、万兴科技、昆仑万维、虹软科技、润达医疗、美图公司、商汤-W;风险提示
法律声明及风险提示