让“默片Sora”进入“有声电影时代”,二级市场热度颇高的智谱再出新动作。11月8日,智谱宣布,基于CogVideoX模型的最新技术进展和最新推出的音效模型CogSound,视频生成产品“清影”迎来全面提升,主要变化包括视频时长延长、画面提升、自带音效以及更好模拟人体动作和物理世界。
根据智谱提供的Demo,新清影在5个方面实现了提升。在模型能力上,新清影在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。通过更强的人物面部表演细节、动作连贯性和物理特性模拟,新清影提高了视频的自然度和逼真度。
图为智谱提供,由新清影生成的视频截图
在画面上,新清影支持生成10s、4K、60帧超高清视频,视觉体验更佳,动态画面更加流畅。此外,新清影支持任意比例的图像生成视频,并且具备多通道生成能力,同一指令或图片可以一次性生成4个视频。
图为智谱提供,由新清影生成的视频截图
值得一提的是,新清影可以生成与画面匹配的音效,音效功能将在本月上线公测。智谱团队认为,真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人脑认知能力的形成。因此,智谱打造了音效模型CogSound和音乐模型CogMusic。
在智谱展示的Demo中,针对巨轮撞向冰山、水下探险、动物进食等场景,CogSound能生成对应的复杂音效。CogSound基于GLM-4V的视频理解能力,能够准确识别并理解视频背后的语义和情感,在此基础上生成与之相匹配的音频内容,如爆炸、水流、乐器、动物叫声、交通工具声等。
“我们的理想状态是,只需一个好的创意,剩下的事AI都能辅助搞定,轻松将一个idea、一张图,变成一段自带bgm的影片。”智谱称。
在业内看来,音效模型的出现,能够实现视频与声音的同步创作。该模型在电影行业也具有广泛的应用前景,比如可以生成电影中的大规模战斗场景和灾难场景的声音,大大缩短了制作周期,降低了制作成本。
从长远来看,从脚本、视频画面到声音和音效,理想情况下传统视频制作步骤均可由大模型完成,从而实现全流程自动化。
智谱是最早布局多模态大模型技术的公司,从2021年开始,其在多模态文生图、文生视频领域先后研发了CogView(NeurIPS’21)、CogView2(NeurIPS’22)、CogVideo(ICLR’23)、RelayDiffusion(ICLR’24)等。
目前,智谱已经构建了独家、完善、原创的多模态模型矩阵。这包括语言模型、图像生成和理解模型、视频生成和理解模型和10月底刚刚发布的端到端情感语音模型GLM-4-Voice。随着音效模型CogSound的加入,多模态大模型家族在声音模态方面实现了人声、音效的多链路布局,健全了智谱基于图像、视频和声音的多模态模型矩阵。
二级市场方面,智谱概念因自主智能体AutoGLM成为近期市场热点,多家上市公司披露了与之的合作进展。11月7日,首都在线表示,公司和智谱是生态合作伙伴,双方明确将在智能算力集群、大模型商业化、一体机研发、国产GPU适配及地方智算中心建设等多个关键领域展开深度合作。公司已经获得了智谱“多元算力的适配权益”,后续公司将积极推动国产芯片和智谱大模型的适配,助力国产信创替代进程。此外公司将通过和智谱共同搭建生态的方式,促进智谱大模型在各行各业的应用落地。
11月4日,金现代表示,公司与智谱的合作主要体现在推进AI大模型落地应用方面。公司通过使用智谱ChatGLM4大模型以及依托自主研发的NLP、OCR、知识图谱等技术成果,积极推进AI技术在电力业务场景中的应用。
11月4日,彩讯股份表示,智谱是公司的战略合作伙伴,双方在大模型的行业落地以及AI应用层面均有合作。彩讯RichAICloud算力平台使智谱GLM-4等开源大模型推理速度提升,大幅降低了模型的部署成本,加速了产品的落地。
作者:孙小程