AI周报:快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

科技   2024-12-15 19:59   广东  

SmartFlowAI


点击上方蓝字关注我们

全文约 1000 字,预计阅读时间 3 分钟

新闻资讯

  1. SynCamMaster-快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster是由浙江大学、快手科技、清华大学和香港中文大学研究人员联合开发的全球首个能结合6自由度(6 DoF)相机姿势、从任意视点生成开放世界视频的多视角视频生成模型。它增强了预训练的文本到视频模型,以确保不同视点的内容一致性,并支持多摄像机视频生成。通过插件式模块和多视图同步模块,SynCamMaster实现了视点间的动态同步,保持了4D一致性。此外,它还能扩展到新视角视频的合成,实现输入视频的新视角重新渲染。

https://jianhongbai.github.io/SynCamMaster/


  1. Phi-4-微软推出的14B参数小语言模型,擅长数学等领域的复杂推理

Phi-4是微软最新推出的一款14B参数的小型语言模型,它在数学推理和传统语言处理方面表现出色。Phi-4的训练重点在于数据质量,大量使用合成数据来提升模型在STEM问答和数学竞赛问题上的表现。此外,Phi-4引入了一种新的训练范式——midtraining,以增强长文本处理能力,窗口长度可达到16K。在编程任务上,Phi-4同样表现出色,在HumanEval基准测试中以82.6%的准确率领先其他开源模型,如70B的Llama 3.3和72B的Qwen2.5。目前,Phi-4已在Azure AI Foundry上可用,并计划在下周在Hugging Face上提供。


  1. OpenAI发布GPT-4o,打造类“她”的多模态AI体验

OpenAI近日推出GPT-4o,一个大幅升级的多模态人工智能模型。GPT-4o支持文本、图像和音频输入,并能通过自然语音回应,为用户带来类电影《她》的沉浸式交互体验。新版本不仅显著提升了对图像的理解能力,例如能即时翻译菜单、分析图片内容,还支持更自然的实时语音对话,展现出情感智能和幽默感。此外,GPT-4o在响应速度、语言覆盖范围及数据分析能力方面也全面优化,支持超过50种语言。该功能现已向ChatGPT Plus用户开放,并将逐步推广至免费用户。OpenAI此举旨在让先进的AI技术惠及更广泛的用户群体。


  1. ChatGPT“Projects”上线,AI也能组队开黑做项目

OpenAI近期发布了ChatGPT的新功能“Projects”,专注于帮助用户更好地管理与AI相关的任务和资源。此功能允许用户将对话、文件和指令组织在一个地方,从而保持项目的上下文一致性。它类似于文件夹系统,特别适合需要长期合作或多步骤操作的任务,例如软件开发、研究、写作或数据分析。这一工具的推出旨在提升ChatGPT的效率和实用性,尤其对于需要高度组织的团队合作项目。


小工具

  1. 电商营销神器上线!Pic Copilot AI抠图助力效率翻倍

Pic Copilot推出全新AI抠图工具,专为电商卖家设计,支持批量操作,一键抠出产品主体,快速去除杂乱背景。基于领先的算法和大数据训练,该工具精准高效,适配多种图片处理需求。卖家可轻松生成聚焦产品的高质量图片,用于广告制作、商品展示等,显著提升营销效果和运营效率。这款工具旨在降低图片编辑门槛,帮助商家专注于核心业务发展,抢占电商竞争优势。

https://www.piccopilot.com/create



往期 · 推荐

OpenAI版“Her”正式上线,GPT能实时视频通话+屏幕共享了!德扑AI之父:比 o1“更受宠”的模式降临

OpenAI高调“暗示”AGI产品发布?苹果三系统正式集成ChatGPT:iPhone16一键启动多模态

🚀OpenAI 圣诞礼物第四弹:Canvas全量开放,上新两大功能💥

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成(五):问题回复

🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!

一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~
 最新文章