扫描上方二维码即可报名
过去半年来,AI多模态生成领域迎来了多项突破,视频领域是重中之重。年初OpenAI的Sora模型以其视频生成能力引领了新趋势已无需再提,在Sora发布之后,我们看到诸如DreamMachine、Vidu、Runway Gen3等创业公司的产品火速跟上,也看到可灵、即梦等大厂产品基于各自强大的视频储备毫不示弱。多模态理解能力也在进一步提升,Hume AI可以从话音中听出情绪的波动;而上半年爆火的产品“胃之书”,以其精准、方便快捷的食物卡路里查询刷屏,其背后正是阶跃星辰的图片理解能力,而后者亦将此能力用在了自家主打产品 “跃问”上,形成“测CP指数”、“拍照测MBTI”、“拍照猜小狗情绪”等裂变感满满的功能点。
视频生成的算法也在不断升级。几个月前,A16Z投资了一个名为“Viggle”的AI动画生成器。这个工具能够让用户通过上传图片或视频,再结合自然语言提示,快速生成动画内容。Viggle的技术特别之处在于它使用了一种名为JST-1的3D动画模型,这个模型具备对物理世界结构和属性的理解能力,能够分析用户的动作指令,并生成符合物理规律的动画效果。国内,鹿影科技(Avolution.ai)用基于自研的LCM的视觉模型打造AI视频生成创作平台,构建新一代AI内容生态平台。
算法新升级,品质再飞跃,AI技术在3D建模领域迎来新突破。最近,GitHub已揽星1.9k的MeshAnything项目推出V2版本,采用最新Adjacent Mesh Tokenization(AMT)算法,将最大可生成面数从800升至1600,在性能和效率上得到大幅提升,实现了高质量的人造Mesh生成;《黑神话:悟空》以其精美的游戏画面和直击人心的视觉效果造就现象级出圈,而Meshy公司新发布的Meshy-4模型,可以一分钟生成黑悟空游戏中的人物,要知道黑悟空游戏中,一些场景建筑的原型需要到实地去考察和研究,形成自己的数字资产,再经过长达数月加工和美化,最后才能呈现出如此精美的画面。这些突破将显著影响从游戏开发到建筑可视化等行业。快速迭代设计的能力可以加快项目进度并降低成本,从而使小型工作室和独立创作者更容易获得高质量的3D资产。
在游戏开发、图像生成等其他领域,AI多模态生成也同样展现出其强大的创新能力。近日谷歌推出惊人的首个AI游戏引擎,能以每秒20帧的速度实时生成逼真的DOOM游戏画面,这预示着未来游戏开发可能不再需要传统编程,其影响或将扩展到虚拟现实、自动驾驶等领域。从这些最新的AI模型中,我们可以观察到AI多模态生成的最新趋势:
AI多模态生成将更加精准可控。在算法和工程方法的优化下,AI生成能够更加一致、可控,确保更符合用户的期望。
AI多模态生成的应用场景将更加广泛。涵盖教育、医疗、娱乐、智能家居、自动驾驶、社交互动、办公与生产力提升以及智能制造等多个领域。随着技术的不断进步和应用场景的不断拓展,AI多模态生成技术将在未来发挥更加重要的作用。
AI多模态理解有了可裂变的产品demo和PMF。
9月7日,本周六上午10:00,热爱创新的嘉程资本开启嘉程创业流水席第231席!我们邀请了鹿影科技创始人&CEO黄昭阳、某大模型公司产品经理叶丰仪、MeshAnything作者陈奕文一起深度探讨AI多模态生成的最新趋势!欢迎AI生成上下游的从业者、创业者、投资人和行业专家一起参加!
再次邀请上车!
主题:探讨AI多模态生成的最新趋势
时间:2024年9月7日10:00-12:00
形式:腾讯会议
名额:为保证活动私密性和讨论质量,限100位!
本场活动免费参加!
往期嘉程创业流水席线上活动现场
往期回顾
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017