今天上午有新 Newin 应邀参加了字节火山引擎最新发布会,发布会最大亮点便是开场,火山引擎总裁谭待对视觉理解大模型的沉浸式演示,这段演示的素材已经发布在视频号:谭待表示,视觉是人类理解这个世界最重要的手段,对大模型来讲也是如此,只有做好视觉理解,才能让模型有能力处理好真实世界的信息,辅助人类完成复杂的工作。目前,豆包视觉理解模型已经在图片问答、医疗健康、教育科研、电商购物以及生活助手等多个场景进行应用,也支持搭配企业的自有知识库。从这段演示的素材可以看到,豆包视觉理解模型的内容识别能力非常强,不仅能够识别出图片中的物体类别和形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。例如,豆包视觉理解模型根据动物的影子推理出这是一只猫,以及根据云朵中光的照射识别出丁达尔效应以及解释背后的原理。同样还有识别出图片中的港珠澳大桥以及其他诸如工业类的产品,精准识别现实中的对象并迅速给到相关的信息和科普。谭待在现场也进一步展示了豆包视觉理解模型的理解和推理能力。他举了四个例子:1)解微积分题目;2)论文图表分析;3)2024年高考物理题目;4)火山引擎内部真实代码:豆包这套视觉模型同样具备丰富细腻的视觉描述与创作能力。现场也列举了几个场景:1)一家公司设计了一款文创产品,通过模型根据产品的造型或者寓意撰写一段暖心祝福语言;2)豆包模型根据孩子的手绘涂鸦来撰写一段奇幻故事;3)模型根据图片中圈选的物体,识别并讲述其背后文化故事;4)根据露营拍摄的黄昏美景,模型创作一首古朴韵味的诗。根据谭待现场介绍,火山引擎在过去两个月里已经邀请了数百家企业来对豆包视觉理解模型进行测试,并挖掘出不少有价值的场景,现场列举了教育、旅游以及电商营销三个主要方向:豆包不仅可以让传统的拍照搜题更加智能,还可以进一步对孩子的作业进行批改,或者帮助孩子优化作文等等;让家长辅导作业不再那么痛苦;逛公园时,把孩子喜欢的玩具拍张照,让豆包编一个精彩好玩的小故事。在旅游场景,你可以把照片分享给大模型,比如美丽的海滩,让豆包帮你推荐类似的旅游目的地。在异国他乡旅游,可以用豆包帮你看看外文菜单,这也是我最喜欢的功能;参观的知名建筑,不仅可以让豆包告诉背景知识,还能准确识别建筑上的拉丁文告诉你含义。电商营销也一个非常实用的场景,利用豆包视觉理解模型的强大能力,商家可以通过模型能力构建多模态 AI 搜索与推荐方案,帮助用户方便的拍照找同款。此外,还可以基于已购买的商品,推荐适合的搭配,让顾客的购物体验升级。商家想快速上架商品,发布营销活动文案,通过豆包视觉理解模型,效率都会大大提升。以上三个场景只是视觉理解模型在现实应用的冰山一角,毕竟现实生活中的大部分场景离不开我们通过视觉进行操作与交互。谭待提到,今年是中国大模型应用落地元年,一个非常重要的因素是 5 月份豆包大模型的推出,直接把行业价格往下打了 99%。今天发布的豆包视觉理解模型,不出意外再次把 AI 视觉理解模型的成本带到了厘时代,比行业价格低了 85%!1 块钱能处理多少张照片?豆包可以处理 284 张 720 P 的图片,企业对于视觉理解模型的尝试可以说成本非常低了。此前,豆包视觉理解模型已经接入豆包 App 和 PC 端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。会上,豆包 3D 生成模型也首次亮相。该模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
豆包大模型多款产品也迎来重要更新:豆包通用模型 pro 已全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型 2.1 版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦 AI 和豆包 App。
剪映业务负责人,即梦 Dreamina 张楠表示,生成式 AI 技术可以把每个人脑子里的奇思妙想快速视觉化,“像做梦一样”。即梦希望成为“想象力世界”的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。
数据显示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍,这也意味着大模型应用正在向各行各业加速渗透。
此外,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。
与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐 —— 最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。
谭待认为,豆包大模型市场份额的爆发,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让 AI 成为每一家企业都能用得起、用得好的普惠科技。
云原生是过去十年最重要的计算范式,大模型时代则推动着云计算的变革。火山引擎认为,下一个十年,计算范式应该从云原生进入到 AI 云原生的新时代。
谭待表示:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。”
✦ 精选内容 ✦
美国国家经济研究局:AI 普及是 PC/互联网同期 2 倍!将深刻改变劳动市场和生产力
a16z 合伙人预计,继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据