国庆期间海外厂商加速推出AI新模型和应用

文摘 2024-10-07 22:54 四川

国庆假期期间，海外厂商包括Meta、OpenAI、微软等纷纷推出新的AI模型或者新应用功能，其中包括对视频生成影响深远的SOTA基底模型，ChatGPT的Canvas功能和微软的新版Copilot等。

一、Meta发布Movie Gen视频生成基底模型

Movie Gen是Meta发布的30B大小的DiT视频生成模型，可生成16秒x16帧的视频，支持文字生成视频、文字编辑视频、生成音效和配乐，在于之前的闭源模型对比中也有一定的优势（模型的胜率-模型的败率）。视频生成模型对于Meta的App生态的意义重大，扎克伯格在9月Connect大会也宣布了其社交媒体平台上会有生成式AI内容出现在常规消息流中，领先的视频生成模型也会促进短视频AI编辑、AI合成视频内容的发展。

更重要的是，在论文中，Meta的论文相比OpenAI Sora的Technical Report相比公布了更详细的视频生成模型训练和推理需求和难点。

Movie Gen的训练使用了高达6144个H100 GPU，每个GPU有80GB的HBM3内存。这些GPU通过Meta的Grand Teton AI服务器平台进行连接，服务器内部通过NVSwitch进行统一连接，服务器之间通过400Gbps RoCE RDMA网络连接。
Movie Gen需要处理非常长的上下文序列，特别是在视频生成任务中，最长的序列长度达到73K tokens。视频数据本质上比图像数据要复杂得多，因此在长序列上训练变得更加困难。
线性-二次推理调度器：在推理阶段，Movie Gen采用了一个线性-二次推理调度器，通过将前25步线性处理和接下来的25步二次处理相结合，显著减少了生成所需的推理步数。例如，通过50步推理能够模拟原本需要250步的生成结果。这一策略减少了推理时间，同时保持了较高的生成质量。
Movie Gen的预训练数据集包含了上亿张图像和上千万条视频。这些数据需要经过严格的筛选和过滤过程，以确保用于训练的数据具有较高的视觉质量和多样性。

二、OpenAI发布ChatGPT Canvas Beta功能

ChatGPT的Canvas功能类似于Claude的Artifacts功能，提供了丰富的文章和代码的编辑功能，但是没有提供代码执行预览功能也没有无边界画板功能，是文章创作和复杂代码项目的工作台雏形。

在代码编辑上提供了代码审查、转换成另一种语言、修复错误、添加日志、添加注释，还可以选定部分代码进行编辑和提问。相比于之前的对话式编辑，在易用性和可控性上有较大的提升。

在文章编辑上，ChatGPT Canvas提供了建议编辑、调整长度、调整写作水平（从幼儿园到博士水平）、最终润色和添加emoji功能，同样也可以针对部分选定内容进行重新编辑或者调整格式。

总体来看，ChatGPT Canvas主要的进步点是在前端界面和易用性，使得GPT可以更方便的应用于复杂的文章写作和代码项目，但是取名Canvas却没有代码预览功能和无边界的画板，属于名不副实。

三、OpenAI开发者大会

1. 推出4o高级语音模型的API，但是价格巨贵，输入价格：100刀/百万token，输出价格：200刀/ 百万token

2. 开源whisper v3 turbo，损失较少的识别率，速度大幅提升，10秒音频仅需要几百毫秒即可识别完成。

四、微软发布新版Copilot

微软于十月二日发布了一系列新模型和新功能，主要集中在其个人人工智能助手Copilot及必应搜索引擎上。

1. 必应生成式搜索功能正式上线：必应引入AI生成摘要功能，类似于谷歌的AI Overviews，提供查询问题的总结和相关链接。

2. Copilot Vision功能：Copilot Vision可以分析用户在PC上浏览的网站内容，回答相关问题，如提供网页上图片的食谱。数据在对话后即时删除，不会存储或用于训练模型，目前仅能分析特定网站，不处理付费墙或“敏感”内容。

3. Copilot Daily新闻功能：为用户提供天气和时事的简洁语音摘要，微软与多家出版商合作，并为内容付费。

4. Think Deeper复杂问题推理：Copilot可以利用推理模型解决更复杂的问题，给出分步骤回答。该功能由OpenAI最新的o1模型定制版支持。

5. Copilot Voice语音功能：Copilot Voice识别用户的语气，并做出相应回应，类似于ChatGPT的高级语音模式，允许用户随时插话。

http://mp.weixin.qq.com/s?__biz=MjM5Njc2NjY2NA==&mid=2649819234&idx=1&sn=6fbf841f92b2a9f588c4b14df047ad98

NB Lab无边界实验室

无边界的全景数据研究

AI周观察： AI搜索显著提升应用活跃度，AI端侧设备渗透率继续上升【国金数字未来实验室】

美国大选对油价影响有限，维持基本面看跌观点【国金数字未来实验室】

AI周观察：云厂商CYQ3资本开支环比降速，AI搜索竞争加剧【国金数字未来实验室】

AI周观察：AI应用与端侧设备热度持续，英伟达新品延迟问题已解决【国金数字未来实验室】

以色列保守的回击或将导致油价下跌【国金数字未来实验室】

国庆期间海外厂商加速推出AI新模型和应用

降息周期的投资思考-大宗周报20240923

原油点评：布油跌破70美元关键关口在情理之中【国金数字未来实验室】

供应利好未能支持油价继续反弹【国金数字未来实验室】

大宗周报：市场再次交易“软着陆”

油价中的风险溢价或将进一步减少【国金数字未来实验室】

当前油价上涨更似反弹【国金数字未来实验室】

OpenAI抽象的“草莓”谜语人营销在预告什么？

从近期AI应用看AI手机走势

大宗周报：宏观情绪回落、商品震荡偏弱

Blackwell延后有何影响？

Meta Connect 2024 XR/AI界“春晚”前瞻预测

原油“乱纪元”的投资策略——如何交易经济现实【国金数字未来实验室】

这才是AI设备的正确形态

是时候关注原油需求端积累的风险了【国金数字未来实验室】

旺季来临，沙特原油供应却意外大幅下降【国金数字未来实验室】

世界人工大会首日，AI模型应用百花齐放，服务器与集群互联秀肌肉，算力芯片公司韬光养晦【数字未来实验室】

Runway Gen-3付费开放，上手实测效果如何

国内出行向好支撑油价上行【国金数字未来实验室】

投资者恐慌情绪蔓延、市场或将反弹？

在天然气淡季，更乐观看待天然气需求【国金数字未来实验室】

Runway发布王炸Gen-3，Pika何时行动

可灵大模型到底灵不灵

OPEC+的产量策略分析：供应偏紧或将持续【国金数字未来实验室】

油价若要继续上行，还需更多需求利好支撑【国金数字未来实验室】

卡车物流网络与水泥行业景气度预测模型初探【国金数字未来Lab】

【国金消费*数据】八月社零：增速持续放缓，线上增速驱动分化

【国金消费*数据】互联网月报：游戏行业政策影响几何？

顶流代言效果几何？！【国金数据科学】

6月社零：预计618拉动社零短期走强【国金数据科学】

5月社零：黄金珠宝高景气，化妆品长期增长【国金数据科学】

卫星视角：集运拐点或已临近！【国金数据科学】

卫星视角：苏伊士堵船450+艘了！【国金数据科学】

苏伊士运河突发事故影响集运及原油市场！

周度高频经济Nowcasting【国金数据科学】

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉