豆包大模型解读及产业展望

财富   2024-12-21 15:29   广东  
股票投资
及时获取一线资讯至关重要
加入星球,您能够第一时间获取
最新市场动态政策解读、机构调研纪要
助您做出更明智的投资决策
星球已收录10W+机构投研资料

要点
1、豆包模型发展概况
字节领先地位及豆包APP表现:字节在大模型能力和AI应用进展方面国内领先,豆包APP日活接近1000万,显著领先。近期火山引擎大会对豆包大模型全面升级,推出视觉理解模型,定价低至每千图肯3米,还升级了豆包pro和垂类模型等。
2024年豆包模型发展动态:2024年前三季度豆包在模型层面更新不多,6月率先发起模型调度API降价,中间两季度专注于在C端形成APP产品矩阵,目前是国内C端用户量较多的产品。第四季度海外及国内同行纷纷发布视频相关模型,豆包也发布了视频模型等,要在模型能力和应用层面抢占高位,追求全技术栈站位,自研模型用于夯实能力和商业化。
2、豆包模型矩阵及应用场景
模型矩阵的形成与意义:豆包推出视频理解、生成及3D生成等模型,虽部分模型业界早有,但豆包形成了视觉大模型、语言模型、语音模型的核心矩阵,视觉模型又分理解和生成,这弥补了业界对豆包产品矩阵和技术端的认知,使模型更饱满,覆盖全系列数据。
视觉理解模型的多场景应用:视觉理解模型应用场景广泛,在教育领域可优化学生做题解答体验;能为硬件提供视频流和图像分析支持,如与AR眼镜融合;在视频通话中,前摄像头可实现数字人与用户的情感对话,后摄像头能解析场景画面;在旅游出行场景可辅助生成攻略;在电商场景能进行商品推荐;在医学领域可解读病症和体检报告;在金融行业能提炼报告信息;还能在自身生态中辅助生成图片、视频等,为虚拟主播赋能。
3、视觉理解模型的行业影响及竞争格局
视觉理解模型的竞争优势与行业影响:豆包视觉理解模型依托自有数据集训练,理解力强,能解析图像中物体的空间关系,将深刻影响多个领域。在传统OCR领域,新视觉理解技术将赋能或替换旧技术;在安防领域,能总结视频内容;在AI伴侣类玩具中,可捕捉画面辅助互动。随着能力增强和端侧模型变小,将广泛应用于安防、玩具、教育、广告等领域。
国内大厂后续发展及竞争格局:国内视觉理解或视频模型领域玩家不多,头部大厂有阿里、百度、腾讯等,AI独角兽有kimi、质谱等。阿里在视频理解模型方面较强,各玩家在比拼视频生成时长和推理能力,未来技术将朝多模态融合发展。依托字节的数据优势,其仍将保持领先性,未来会形成多元化格局。
4、阿里视觉模型在电商场景的布局
阿里视觉模型在电商的应用场景:在电商场景中,阿里的视觉理解和生成模型应用广泛。如淘宝天猫的图搜索功能,用户拍照即可搜索推荐商品并一键购买;在电商客服中,可提取客户问题信息;在AIGC方面,能辅助商家生成宣传素材;在电商的钤站推和个性化推荐中也会用到相关技术,以赋能商家降本提效。
阿里与豆包相关能力对比:目前阿里相关产品上线早,能力表现强于豆包,但预计一两个季度后双方能力将拉齐。
5、AI导购助手的现状、痛点及发展趋势
AI导购助手的实用性及工作原理:AI导购助手最早由阿里在去年第四季度推出,用于解决用户有购买需求但不知买什么的模糊需求。它通过分析用户购物车信息,结合多维度因素给出购买推荐,且能根据用户在生态中的行为进行动态画像,使推荐更精准,目前各电商平台都在朝此方向发展。
AI导购助手的痛点及发展趋势:AI导购助手的难点在于生成客户认可的推荐理由,需结合客户背景和动态画像推荐真正会购买的产品,且存在内容缺失问题,核心是捕捉用户购买诉求并匹配产品信息。目前其在提升GMV方面作用有限,未来可能会与更多产品融合。该赛道目前相对闭环,电商多自行开发,未来中小电商可能引入第三方系统。
Q&A
Q:视觉理解模型推出可能会对哪些应用行业带来比较大的影响?
A:像这一类的视觉理解模型,在半年前或者两三个季度之前,业界就已有类似的,只是能力强弱不同,如阿里有千万VL模型、字节的字谱、百度、kimi等都有类似模型,但数据量与豆包不是一个体量。豆包的视觉理解模型依托自有数据集训练,有很强的画画力,能解析图像画面中不同人和物体以及物体间的空间关系。其对行业的影响主要体现在:传统OCR领域,新的视觉理解技术会对其进行赋能或替换,能深度捕捉画面信息的深度关系;安防领域,新技术可将画面中一段时间发生的事情进行总结提炼;AI伴侣、小朋友玩的手势玩具等方面也会用到该技术。总之,随着视觉理解模型能力增强且端侧模型变小,会深刻影响安防、玩具、教育、广告、助忙等领域。
Q:国内其他大厂后续在模型和应用侧有哪些后续动作?
A:国内视觉理解或视觉视频模型领域本身玩家不多,头部大厂有阿里、百度、腾讯,AI独角兽有kimi、字谱、海可林等少数玩家。能沿着该赛道继续推出视觉理解模型的基本是阿里,其在视频理解模型方面在豆包推出前是国内较强的,字谱在模型发布过程中会继续发布相关产品。
Q:豆包是否计划发布更长视频性的模型,若有计划,何时发布?
A:豆包计划在明年第一季度发布更长视频性的模型。
Q:未来视觉理解模型的发展方向是什么?
A:未来视觉理解模型的发展方向是多模态融合,到明年第二季度甚至第三季度后,会将文本、音频理解的模型融合成一个完整的模态,到明年年终可能会出现多模态模拟,现在的模型可能会成为过渡状态,再往后少数玩家会继续推进相关研发,其他玩家可能会依托lama开放的开源模型进一步释放新版本。
Q:明年大概会有多少个视觉理解模型出现?
A:大概到明年会有十来个视觉理解模型出现,包括头部玩家以及依托开源模型的玩家发布的模型。
Q:未来视觉理解模型领域会形成怎样的格局?
A:未来会形成多元化的格局,字节因在数据层面的用户量较多,会保持比较先进的领先性,其拥有大量数据和用户来反哺模型训练。
Q:阿里在视觉模型的电商场景中有哪些布局?
A:在电商场景中,视觉理解和视觉生成模型有广泛使用,主要包括:一是图搜索功能,用户拍照后,系统通过视觉理解模型提取图片信息进行搜索并推荐产品,可一键购买;二是在电商服务层,AI会提取客户拍摄产品问题的信息供小二判断;三是在淘系中,可利用视觉理解和视觉生成模型辅助生成宣传素材,包括短视频,帮助商家降本提效;四是在钤站推和搜索个性化推荐等方面也会用到相关技术。
Q:阿里在视觉模型电商场景中的相关产品是否已经上线?
A:这些产品其实已经上线了。
Q:阿里在视觉模型电商场景中的能力水平与其他方相比如何?
A:目前阿里因投入使用比较早,能力表现强于其他方,但再过一两个季度,双方能力可能会比较拉齐。
Q:阿里在视觉模型电商场景中的能力与ChatGPT的视频通话能力是否类似?
A:视频通话背后也是视觉理解模型在工作,它会提取画面帧进行分析,openAI已经有相关技术,国产的质谱、阿里在两三个月前已在豆保险中开展相关工作,且视频通话功能会渗透到C端产品中。
Q:AI导购助手的实用性、存在的痛点以及后续的优化方向是怎样的?
A:导购助手最早出现在去年第四季度,阿里推出的淘宝问问是其中代表,主要解决用户有购买需求但不知道买什么的模糊需求。其背后的智能体通过分析购物车信息,结合多维度因素给出购买推荐,且推荐内容是生成的,背后技术用到AI上下文关联。现在的技术可通过用户在生态中的数据进行动态画像,使推荐更精准。其难点在于申请客户认可的推荐理由,要结合客户背景和动态画像推出客户真会买的产品;同时存在内容缺失问题,核心是捕捉用户当下购买诉求并匹配产品信息生成推荐理由。目前导购在电商中刚兴起,还未充分发挥提升GMV的价值,未来可能会与很多产品融合。
Q:在AI导购助手这个赛道中,有可能受益的第三方玩家有哪些?
A:这个赛道目前是相对闭环的场景,电商暂时未开放给第三方服务商,主要是电商自己在做。往后看,一些中小电商可能会引入第三方系统,第三方依托数据和AI做更精准推荐,但大厂可能会自己把控,中小电商存在机会。

加微信领取星球优惠

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章