国庆假期期间,海外厂商包括Meta、OpenAI、微软等纷纷推出新的AI模型或者新应用功能,其中包括对视频生成影响深远的SOTA基底模型,ChatGPT的Canvas功能和微软的新版Copilot等。
一、Meta发布Movie Gen视频生成基底模型
Movie Gen是Meta发布的30B大小的DiT视频生成模型,可生成16秒x16帧的视频,支持文字生成视频、文字编辑视频、生成音效和配乐,在于之前的闭源模型对比中也有一定的优势(模型的胜率-模型的败率)。视频生成模型对于Meta的App生态的意义重大,扎克伯格在9月Connect大会也宣布了其社交媒体平台上会有生成式AI内容出现在常规消息流中,领先的视频生成模型也会促进短视频AI编辑、AI合成视频内容的发展。
更重要的是,在论文中,Meta的论文相比OpenAI Sora的Technical Report相比公布了更详细的视频生成模型训练和推理需求和难点。
Movie Gen的训练使用了高达6144个H100 GPU,每个GPU有80GB的HBM3内存。这些GPU通过Meta的Grand Teton AI服务器平台进行连接,服务器内部通过NVSwitch进行统一连接,服务器之间通过400Gbps RoCE RDMA网络连接。
Movie Gen需要处理非常长的上下文序列,特别是在视频生成任务中,最长的序列长度达到73K tokens。视频数据本质上比图像数据要复杂得多,因此在长序列上训练变得更加困难。
线性-二次推理调度器:在推理阶段,Movie Gen采用了一个线性-二次推理调度器,通过将前25步线性处理和接下来的25步二次处理相结合,显著减少了生成所需的推理步数。例如,通过50步推理能够模拟原本需要250步的生成结果。这一策略减少了推理时间,同时保持了较高的生成质量。
Movie Gen的预训练数据集包含了上亿张图像和上千万条视频。这些数据需要经过严格的筛选和过滤过程,以确保用于训练的数据具有较高的视觉质量和多样性。
二、OpenAI发布ChatGPT Canvas Beta功能
ChatGPT的Canvas功能类似于Claude的Artifacts功能,提供了丰富的文章和代码的编辑功能,但是没有提供代码执行预览功能也没有无边界画板功能,是文章创作和复杂代码项目的工作台雏形。
在代码编辑上提供了代码审查、转换成另一种语言、修复错误、添加日志、添加注释,还可以选定部分代码进行编辑和提问。相比于之前的对话式编辑,在易用性和可控性上有较大的提升。
在文章编辑上,ChatGPT Canvas提供了建议编辑、调整长度、调整写作水平(从幼儿园到博士水平)、最终润色和添加emoji功能,同样也可以针对部分选定内容进行重新编辑或者调整格式。
总体来看,ChatGPT Canvas主要的进步点是在前端界面和易用性,使得GPT可以更方便的应用于复杂的文章写作和代码项目,但是取名Canvas却没有代码预览功能和无边界的画板,属于名不副实。
三、OpenAI开发者大会
1. 推出4o高级语音模型的API,但是价格巨贵,输入价格:100刀/百万token,输出价格:200刀/ 百万token
2. 开源whisper v3 turbo,损失较少的识别率,速度大幅提升,10秒音频仅需要几百毫秒即可识别完成。
四、微软发布新版Copilot
微软于十月二日发布了一系列新模型和新功能,主要集中在其个人人工智能助手Copilot及必应搜索引擎上。
1. 必应生成式搜索功能正式上线:必应引入AI生成摘要功能,类似于谷歌的AI Overviews,提供查询问题的总结和相关链接。
2. Copilot Vision功能:Copilot Vision可以分析用户在PC上浏览的网站内容,回答相关问题,如提供网页上图片的食谱。数据在对话后即时删除,不会存储或用于训练模型,目前仅能分析特定网站,不处理付费墙或“敏感”内容。
3. Copilot Daily新闻功能:为用户提供天气和时事的简洁语音摘要,微软与多家出版商合作,并为内容付费。
4. Think Deeper复杂问题推理:Copilot可以利用推理模型解决更复杂的问题,给出分步骤回答。该功能由OpenAI最新的o1模型定制版支持。
5. Copilot Voice语音功能:Copilot Voice识别用户的语气,并做出相应回应,类似于ChatGPT的高级语音模式,允许用户随时插话。