看到消息说,苹果正在和腾讯和字节跳动洽谈,将两家公司的人工智能模型整合到在中国市场销售的 iPhone 中。当然这个谈判还在早期阶段,不排除还会有变数。
有的网友难免会问,苹果选来选去的,是要比较哪家最强么,还是有什么标准?
要我说,苹果未必会看中一个大模型参数更多或是评分指标有多高,而是要看交付的总体质量,尤其是交付体验和最终用户体验。而这两点,腾讯和字节确实都更适合苹果一些。当然最后花落谁家,现在无法确定。
国内的大模型追赶的速度比我之前预期还要快一些,之前有些能力还不具备,但现在,几乎都已经开始对齐。
在刚结束的 2024 冬季火山引擎 FORCE 原动力大会上,字节跳动宣布了一系列让人目不暇接的产品发布和能力升级:豆包视觉理解模型发布、豆包 3D 生成模型首次亮相。豆包通用模型、音乐模型、文生图模型等在内的豆包大模型多款产品能力进行了更新。
两天的会议看下来,重头戏是豆包视觉理解模型。
宣传视频我看了几遍,豆包视觉理解模型已经具备强大的内容识别与理解能力,覆盖图像、动作、文字、逻辑推理等多个维度,并支持细节描述、指令遵循和多文体创作等功能。国产大模型的一旦补上某项能力,后续的迭代改进速度就会更快,用不了多久,追平业界最好能力并非不可能。有的人说,我们追赶的这段时间里,人家不也发展么?并不一定,领跑者有时候会走弯路。
视觉理解能力在前些天已经下发到个人用户,豆包 App 和 PC 端产品都可以用了。普通用户随时可在豆包应用中体验这些能力。第三方最新数据显示,11 月的 AI 产品全球月活跃排行榜上,豆包的 MAU 已经接近 6000 万,仅次于 ChatGPT。字节团队做用户增长,还是有绝活儿,不服还真不行。
对个人用户来说,别整天担心被 AI 取代,你先把工具用好,让工具帮你更好的处理工作,解决生活中遇到的问题,先从中获益再说。
企业用户能以极具性价比的价格使用视觉理解模型:处理千个 token 的费用仅为 0.003 元,比行业平均价格低 85%,价格上极具优势,足以满足绝大多数企业的预算需求。
这次发布会把很大篇幅放在 MaaS、扣子这些平台的工作上,讲怎么更容易的把模型用起来。对于企业用户而言,这意味着更好的使用体验,而开发者也能够借助平台优化工作流程。值得一提的是,优秀的使用体验是平台型产品的重要竞争力,但却常常被忽视。
至于企业是否能够真正用好大模型?我的观点是,对于绝大多数行业企业而言,关键在于如何将大模型能力应用到实际业务中。重要的是先尝试使用,通过优化或解决具体业务场景中的问题,逐步实现模型的适配与迭代。如果自己做不来,就找团队协助自己完成这一步。在此过程中,企业不仅能享受到模型能力升级的红利,为客户创造价值,也能提升自身的竞争力,推动行业发展。
视觉理解模型在教育、电商、旅游、门店管理、金融、医疗等多个领域都很有想象力,比如医疗领域,对于手写病历的识别和理解在过去是个难题,现在不一定是了,这就是个合适的场景。前 AI 时代的应用场景和边界,尤其值得我们公司这样规模的团队积极探索,给出更好的解决方案。
在生物进化中,眼睛的形成是物种多样化与生态系统发展的关键推动因素,为生命的繁荣与物种爆发奠定了基础。字节这么重视视频理解模型的发布,一步到位给出大家都能用得起的价格,应该是非常看好多模态交互,想吸引更多开发者把应用做起来。
多模态交互已成为大模型发展的必然,每家大模型参与者都得跨过这一步,也都能跨过去。有理由期待,在这个过程中还会有更多令人惊叹的创新应用出现。
机会对所有人,所有企业,都还存在。