对话产业专家：豆包模型发展概况

百科 2024-12-22 19:46 浙江

独角兽智库产业研究第一智库

独角兽投研情报群招募
独角兽智库发展至今，历时9年，积累了大量资源，也和顶尖投研资源形成了利益共同体，并经过今年近一年的产品测试，小范围会员服务近两年。
十一月精准把握住了固态电池、AI+等板块机会，个股桂发祥、华胜天成、供销大集等
现开放体验名额，加微信：itouzi8888，文末有二维码

1、豆包模型发展概况

字节领先地位及豆包APP表现：字节在大模型能力和AI应用进展方面国内领先，豆包APP日活接近1000万，显著领先。近期火山引擎大会对豆包大模型全面升级，推出视觉理解模型，定价低至每千图肯3米，还升级了豆包pro和垂类模型等。

2024年豆包模型发展动态：2024年前三季度豆包在模型层面更新不多，6月率先发起模型调度API降价，中间两季度专注于在C端形成APP产品矩阵，目前是国内C端用户量较多的产品。第四季度海外及国内同行纷纷发布视频相关模型，豆包也发布了视频模型等，要在模型能力和应用层面抢占高位，追求全技术栈站位，自研模型用于夯实能力和商业化。

2、豆包模型矩阵及应用场景

模型矩阵的形成与意义：豆包推出视频理解、生成及3D生成等模型，虽部分模型业界早有，但豆包形成了视觉大模型、语言模型、语音模型的核心矩阵，视觉模型又分理解和生成，这弥补了业界对豆包产品矩阵和技术端的认知，使模型更饱满，覆盖全系列数据。

视觉理解模型的多场景应用：视觉理解模型应用场景广泛，在教育领域可优化学生做题解答体验；能为硬件提供视频流和图像分析支持，如与AR眼镜融合；在视频通话中，前摄像头可实现数字人与用户的情感对话，后摄像头能解析场景画面；在旅游出行场景可辅助生成攻略；在电商场景能进行商品推荐；在医学领域可解读病症和体检报告；在金融行业能提炼报告信息；还能在自身生态中辅助生成图片、视频等，为虚拟主播赋能。

3、视觉理解模型的行业影响及竞争格局

视觉理解模型的竞争优势与行业影响：豆包视觉理解模型依托自有数据集训练，理解力强，能解析图像中物体的空间关系，将深刻影响多个领域。在传统OCR领域，新视觉理解技术将赋能或替换旧技术；在安防领域，能总结视频内容；在AI伴侣类玩具中，可捕捉画面辅助互动。随着能力增强和端侧模型变小，将广泛应用于安防、玩具、教育、广告等领域。

国内大厂后续发展及竞争格局：国内视觉理解或视频模型领域玩家不多，头部大厂有阿里、百度、腾讯等，AI独角兽有kimi、质谱等。阿里在视频理解模型方面较强，各玩家在比拼视频生成时长和推理能力，未来技术将朝多模态融合发展。依托字节的数据优势，其仍将保持领先性，未来会形成多元化格局。

4、阿里视觉模型在电商场景的布局

阿里视觉模型在电商的应用场景：在电商场景中，阿里的视觉理解和生成模型应用广泛。如淘宝天猫的图搜索功能，用户拍照即可搜索推荐商品并一键购买；在电商客服中，可提取客户问题信息；在AIGC方面，能辅助商家生成宣传素材；在电商的钤站推和个性化推荐中也会用到相关技术，以赋能商家降本提效。

阿里与豆包相关能力对比：目前阿里相关产品上线早，能力表现强于豆包，但预计一两个季度后双方能力将拉齐。

5、AI导购助手的现状、痛点及发展趋势

AI导购助手的实用性及工作原理：AI导购助手最早由阿里在去年第四季度推出，用于解决用户有购买需求但不知买什么的模糊需求。它通过分析用户购物车信息，结合多维度因素给出购买推荐，且能根据用户在生态中的行为进行动态画像，使推荐更精准，目前各电商平台都在朝此方向发展。

AI导购助手的痛点及发展趋势：AI导购助手的难点在于生成客户认可的推荐理由，需结合客户背景和动态画像推荐真正会购买的产品，且存在内容缺失问题，核心是捕捉用户购买诉求并匹配产品信息。目前其在提升GMV方面作用有限，未来可能会与更多产品融合。该赛道目前相对闭环，电商多自行开发，未来中小电商可能引入第三方系统。

Q&A

Q：视觉理解模型推出可能会对哪些应用行业带来比较大的影响？

A：像这一类的视觉理解模型，在半年前或者两三个季度之前，业界就已有类似的，只是能力强弱不同，如阿里有千万VL模型、字节的字谱、百度、kimi等都有类似模型，但数据量与豆包不是一个体量。豆包的视觉理解模型依托自有数据集训练，有很强的画画力，能解析图像画面中不同人和物体以及物体间的空间关系。其对行业的影响主要体现在：传统OCR领域，新的视觉理解技术会对其进行赋能或替换，能深度捕捉画面信息的深度关系；安防领域，新技术可将画面中一段时间发生的事情进行总结提炼；AI伴侣、小朋友玩的手势玩具等方面也会用到该技术。总之，随着视觉理解模型能力增强且端侧模型变小，会深刻影响安防、玩具、教育、广告、助忙等领域。

Q：国内其他大厂后续在模型和应用侧有哪些后续动作？

A：国内视觉理解或视觉视频模型领域本身玩家不多，头部大厂有阿里、百度、腾讯，AI独角兽有kimi、字谱、海可林等少数玩家。能沿着该赛道继续推出视觉理解模型的基本是阿里，其在视频理解模型方面在豆包推出前是国内较强的，字谱在模型发布过程中会继续发布相关产品。

Q：豆包是否计划发布更长视频性的模型，若有计划，何时发布？

A：豆包计划在明年第一季度发布更长视频性的模型。

Q：未来视觉理解模型的发展方向是什么？

A：未来视觉理解模型的发展方向是多模态融合，到明年第二季度甚至第三季度后，会将文本、音频理解的模型融合成一个完整的模态，到明年年终可能会出现多模态模拟，现在的模型可能会成为过渡状态，再往后少数玩家会继续推进相关研发，其他玩家可能会依托lama开放的开源模型进一步释放新版本。

Q：明年大概会有多少个视觉理解模型出现？

A：大概到明年会有十来个视觉理解模型出现，包括头部玩家以及依托开源模型的玩家发布的模型。

Q：未来视觉理解模型领域会形成怎样的格局？

A：未来会形成多元化的格局，字节因在数据层面的用户量较多，会保持比较先进的领先性，其拥有大量数据和用户来反哺模型训练。

Q：阿里在视觉模型的电商场景中有哪些布局？

A：在电商场景中，视觉理解和视觉生成模型有广泛使用，主要包括：一是图搜索功能，用户拍照后，系统通过视觉理解模型提取图片信息进行搜索并推荐产品，可一键购买；二是在电商服务层，AI会提取客户拍摄产品问题的信息供小二判断；三是在淘系中，可利用视觉理解和视觉生成模型辅助生成宣传素材，包括短视频，帮助商家降本提效；四是在钤站推和搜索个性化推荐等方面也会用到相关技术。

Q：阿里在视觉模型电商场景中的相关产品是否已经上线？

A：这些产品其实已经上线了。

Q：阿里在视觉模型电商场景中的能力水平与其他方相比如何？

A：目前阿里因投入使用比较早，能力表现强于其他方，但再过一两个季度，双方能力可能会比较拉齐。

Q：阿里在视觉模型电商场景中的能力与ChatGPT的视频通话能力是否类似？

A：视频通话背后也是视觉理解模型在工作，它会提取画面帧进行分析，openAI已经有相关技术，国产的质谱、阿里在两三个月前已在豆保险中开展相关工作，且视频通话功能会渗透到C端产品中。

Q：AI导购助手的实用性、存在的痛点以及后续的优化方向是怎样的？

A：导购助手最早出现在去年第四季度，阿里推出的淘宝问问是其中代表，主要解决用户有购买需求但不知道买什么的模糊需求。其背后的智能体通过分析购物车信息，结合多维度因素给出购买推荐，且推荐内容是生成的，背后技术用到AI上下文关联。现在的技术可通过用户在生态中的数据进行动态画像，使推荐更精准。其难点在于申请客户认可的推荐理由，要结合客户背景和动态画像推出客户真会买的产品；同时存在内容缺失问题，核心是捕捉用户当下购买诉求并匹配产品信息生成推荐理由。目前导购在电商中刚兴起，还未充分发挥提升GMV的价值，未来可能会与很多产品融合。

Q：在AI导购助手这个赛道中，有可能受益的第三方玩家有哪些？

A：这个赛道目前是相对闭环的场景，电商暂时未开放给第三方服务商，主要是电商自己在做。往后看，一些中小电商可能会引入第三方系统，第三方依托数据和AI做更精准推荐，但大厂可能会自己把控，中小电商存在机会。

现开放投研情报群体验名额，更多投研情报服务，请往下看

独角兽投研情报会员服务

服务概述

现在的A骨市场，风格切换极快，不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效，大多数时间亏损的情况，只有一点持续有价值，那就是快人一步的信息，这种信息不会是财联社的新闻，不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息，让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层：

1：公募核心圈，提前获取公募看好的大方向和主攻领域。

2：券商分析师圈，深入各大券商核心客户群，提前获取券商主推逻辑。

3：游资核心圈，在游资大佬的小圈子有一席之地，提前获取大资金动向。

4：产业链圈，各个新兴产业技术核心圈子，提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式：

微信群--只有微信群的消息才可以做到第一时间的信息传递。

现开放体验名额（非免费，白嫖勿扰）

加入体验方式（如果您关注短线交易）

请加微信：itouzi8888，备注：体验+姓名+公司+职位

如果您关注基本面，做波段或者价投

请加微信：itouzi5，备注：体验+姓名+公司+职位

群内其他历史记录如下，可自行验证其情报的价值，有投研情报群历史聊天记录的截图，在盘后都会截图并且发在当天文章内，请查看历史文章验证（11月份精选情报）

防止失联，关注备用号

独角兽智库

通过深入的产业链研究，为投资者赋能。

最新文章

钻石散热：高算力时代的终极方案

服务器液冷

数据中心细分行业，柴发供需紧张

知识付费产业链逻辑

十大投行展望2025：全球市场在不确定性中寻找方向

一文搞懂汽车电控IGBT模块

2025年医药投资策略

豆包的算力核心供应商

百镜齐放时刻！AI智能眼镜产业链梳理！（附股）

重视圣诞节HBM国产替代交易机会

字节跳动自营豆包硬件--Ola friendAI耳机

美国H5N1禽流感蔓延，抗病毒药物已断货，死亡率25~50%，孕妇及胎儿死亡率超90%

字节交流纪要

对话产业专家：豆包模型发展概况

AI眼镜产业链深度解析

全面迎接AI+大时代｜2025年度投资策略

微信小店“送礼物”功能深度解读

马斯克第一性原理的思考方式

邢自强：“924”新政只是序曲，而不是终章

半导体刻蚀设备行业报告：制程微缩叠加3D趋势，市场空间持续拓宽

AI端侧深度：硬件投资机会

对于字节产业链，我们低估了什么

从豆包视觉理解，看AI智能眼镜机会

海风重大进展

实探上海“吃谷”胜地，看行业景气度和产业链机会

AI气味新题材预期差

美联储降息25BP：美股为何暴跌？对A股及新兴市场意味着什么？

小米su7重点供应商梳理

字节辟谣资本开支更利好现有算力租赁公司

微信小店，微信红包2.0？

最全AI核心硬件标的

豆包AI端侧最大增量---视觉理解ISP芯片

智能眼镜行业调研纪要

2025年消费行业投资策略：消费的春天

半导体板块迎短暂春风？中美关系微妙变动下的市场走向与投资策略解析

农业新举措||2025农业“1号文件”政策来了!农业产业链梳理（惠存收藏随时查询）

利好突袭！深圳，重磅发布

豆包AI大模型家族

AI眼镜--AI端侧落地的重要入口

黄奇帆谈中美脱钩：经济规律与现实博弈！

刘煜辉：春在枝头已十分

刚刚，利好来袭！国资委重磅发布！重点名单一览

足球产业迎政策东风，市场规模或迈向2万亿大关

知名ASIC专家交流

从中央经济工作会议看券商板块的投资机会

食品年度策略：拐点已至，信心重拾

深谈2025年科技投资机会！董承非金梓才张忆东最新交流实录

脑机接口应用加速落地，未来市场空间有望突破千亿美元

刚刚！利好，突袭！

适时降准降息！刚刚，央行重磅发声！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉