首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

豆包大模型2024年的8个关键瞬间

科技 2024-12-30 18:06 重庆

2024即将过去。无论AI浪潮如何涌动

信仰者依然坚信着，以加速度向AGI的目标前行

自5月15日第一次亮相，我们见证了

豆包大模型破土而出、加速生长的230天

从孩童般学语，到懵懂看世界，到为创作者绘出

想象中的奇幻梦境，一切依然处于最早期

But，every step counts

同你分享这一年豆包大模型的8个关键瞬间

7月，豆包大模型能听懂

20种以上方言夹杂的对话，也能边听边思考
豆包大模型还学会在说话中表达情感
可以随时被打断，也能在交互中“插话”
还能保留吞音、口音等人类习惯

*使用豆包、剪映、Ola Friend等产品可体验

背后是全新的豆包语音识别模型Seed-ASR‍
和语音生成基座模型Seed-TTS

与传统语音小模型不同
豆包语音大模型引入更多样更广泛的数据
融合推理链，具备极强泛化性

*Overviews of Seed-ASR framework and Seed-TTS inference pipeline

9月，豆包大模型实现了

“一个AI也可以是一个乐队”
从词曲编辑、演奏生成到人声演唱

豆包大模型习得10多项音乐技能
可以为音乐创作提供意想不到的灵感

背后融入音乐生成模型框架Seed-Music

结合语言模型与扩散模型的优势
Seed-Music实现了音乐生成的通用框架
并实现极高的编辑可控性

*Overview of Seed-Music framework

同时，在9月，豆包大模型还学会了

遵从复杂的提示词
精准生成包含多个交互主体的高清视频
还可以灵活控制镜头视角
为创作者带来真实与梦幻交织的视觉体验

*使用即梦、豆包可辅助创作奇幻短片

背后是同时推出的两款豆包视频生成模型
PixelDance与Seaweed

全新设计的扩散模型训练方法带来镜头一致性能力
优化的Transformer结构大幅提升视频生成泛化性
视频-音效同步生成技术还可激发丰富的创作灵感

* Doubao team's research towards long narrative video generation with synchronized foley

无论中国风、电影质感还是超现实风
豆包大模型都能轻松驾驭
11月还学会了“一句话P图”和“一键海报生成”
根据任意指令进行图像编辑和精准文字生成

*使用即梦、豆包可体验

背后是不断迭代的豆包文生图模型
实现精准呈现复杂场景的图文匹配关系
并构建高质量文字渲染能力
通用图像编辑模型SeedEdit
实现自然语言驱动编辑任意图像

*Overview of SeedEdit framework and its optimization pipeline

12月上旬

豆包大模型模型代码能力大幅提升

是AI程序员，也是数据分析师

支持自由画布预览代码、人机协同编程
还可一键完成数据处理和可视化分析

*使用豆包MarsCode可体验，豆包即将可体验

背后是豆包代码大模型Doubao-coder
由海量现实编程数据及领域专家强化训练而成
深度支持超16种编程语言、11类真实应用场景
满足前后端开发、机器学习等全栈编程开发需求

同时，豆包大模型上下文窗口
提升至300万字的业界极限
一次可轻松阅读上百篇学术报告
每百万tokens处理延迟仅需15秒

*使用豆包可体验超长文本理解

背后是多种突破性的数据算法和模型加速优化
包括STRING等上下文关联数据算法
大幅提升LLM利用海量外部知识的能力
稀疏化及分布式方案将时延降到十秒级

*Detailed pseudocode of STRING incorporating FlashAttention

12月中旬

豆包大模型学会通过视觉感知世界
还能融合多感官进行深度思考和创作

拍下一道微积分数学题
不仅能准确理解，更能快速运算

*通过火山方舟可体验模型效果

背后是全新推出的豆包视觉理解模型
单一模型结构融合视觉语言理解与文本生成
拥有极强的内容识别能力
更具备出色的推理能力和细腻的表达能力

*Doubao-vision's performance on different benchmarks

同样是12月中旬

豆包通用模型Doubao-pro全面升级
能力全方位对齐GPT-4o

推理能力强化
还学会在回答过程中“反思”

*豆包通用模型pro各项能力全面升级

背后是海量数据优化与模型架构创新
包括提升模型稀疏度、引入强化学习等
Doubao-pro理解精度、生成质量大幅跃升
还是平衡性能与效率的“六边形战士”

*Doubao-pro's performance on different benchmarks

这一年
豆包大模型团队深入AI基础研究
57篇论文中选ICLR、CVPR、NeurIPS等顶会
包括下载量超百万的开源项目及GitHub万星爆款

豆包大模型团队还同近20所高校深入合作
与清华、北大分别成立联合实验室
豆包大模型基金支持了超过40位顶尖学者
参与攻坚关键AI技术

2024年，豆包大模型还支撑超过50个应用场景
其中豆包成为国内最受欢迎的AI产品
通过火山引擎，豆包大模型服务了30多个行业
日均tokens调用量超4万亿

较5月时发布增长33倍

230天，豆包大模型的历险才刚刚开始
通用智能的远岸，属于步履不停的行动者

为寻找最具潜力的研究人才
这一年，团队启动了“Top Seed人才计划”
在全球范围招募顶尖博士毕业生加入
共同挑战世界级AI课题

新的一年，豆包大模型团队

将继续探索基础模型课题

通过科技改变世界

长期欢迎有同样愿景的顶尖人才加入！

欢迎前往“豆包大模型团队”公众号评论区留言

聊聊今年你对豆包大模型印象最深刻的技术

以及明年你对豆包大模型的期待

我们将根据留言质量和点赞数选出2位朋友

寄送内置豆包大模型的智能体耳机Ola Friend

点击「阅读原文」访问官网，了解更多研究进展。

字节跳动技术团队

字节跳动的技术实践分享

最新文章

半空：LLM 辅助的 Go2Rust 项目迁移

ICLR 2025 Workshop 征稿：推动基础模型的开源、开放、可复现

性能媲美裸金属，边缘场景高性能虚拟机技术揭秘

豆包MarsCode + 开源 = ？AI 助力开源社区新人成长

豆包大模型2024年的8个关键瞬间

【限时15天】每日一题刷题打卡挑战火热进行中，赢字节AI岗实习面试机会，等你来战！

ByteHouse技术详解：基于OLAP构建高性能GIS地理空间能力

课程预告 | 全网超 55W 人关注的 DIY 飞书个性签名，教你用 AI 实现！

圣诞奇妙，稀土掘金｜2024人气创作者年度榜单火热开启！

ROG：高性能 Go 实现

刷题竞技，备战春招｜「豆包 MarsCode 算法竞技赛」第三期开赛！

NDSS 2025｜Prompt泄露风险：抖音集团安全研究团队揭露多租户KV缓存共享漏洞

NeurIPS 2024 | 从单图到3D：HumanSplat 基于Gaussian Splatting实现高保真人体3D生成

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

视频生成模型能否“理解”物理规律？豆包大模型团队公布系统性实验结论

字节最新单图视频驱动成果X-Portrait 2：一键生成相同表情神态，效果逼真

抖音集团也在用的数仓「降本」利器

BlockFramework —— 客户端模块化业务开发框架

超低延迟多路径传输：技术演进与大规模业务实践

最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉