彩云科技CEO袁⾏远，“ 中⼆”少年改变AI世界？

文摘 2024-11-19 14:08 湖北

这是苍何的第 232 篇原创！

大家好，我是苍何。

说实话，我⼀开始对「中二少年」这个词没啥特别的感觉。毕竟，谁年轻的时候没点热血，没点不切实际的幻想呢？

但是听完彩云科技 CEO 袁⾏远的故事，我忽然觉得，这个「中二少年」真的不⼀般。他不是那种喊两句口号就拉倒的⼈，而是那种能把热血烧成钢，以坚定的决心投身于 AI 科技大跃进时代中，勇往直前的人。

就在前⼏天，彩云科技正式发布了⾸个基于 DCFormer 架构的通⽤⼤模型云锦天章。在大模型满天飞，人工智能遍地跑的当下，云锦天章的出现，却做到了蝎子拉屎——独一份儿！

要知道，目前像 ChatGPT 、Gemini 这些⼤模型的底层技术⽀撑都是用的谷歌在 2017 年发布的 Transformer 架构。而云锦天章的底层架构，则是基于 Transformer 架构优化后的 DCFormer 架构，创造了行业先河。

袁行远创办的彩云科技，在公司里养了 5只小猫。办公场所里，猫爬架、猫玩偶四处散布，让这家人工智能公司看起来更像家大型“撸猫馆”。然而，正是这样一家看似不务正业的公司，却向国内外 AI 巨头们露出了锋利的牙齿。

他们像堂吉诃德一样，用疯狂的行动向世界证明：

权威顶尖一样可以挑战，这个世界不仅有 Transformer 还有 DCFormer！

少年理想与技术初心

袁⾏远并不是⼀个循规蹈矩的 Γ别人家的孩子」，相反，他满脑⼦都是天马行空的想法。

大学期间，为了满足自己定制化的音乐诉求，好家伙，直接就开发了⼀个基于人工智能的音乐推荐系统，旨在根据⽤户的喜好自动推荐音乐。（PS：作为他的校友，真骄傲）

⼭东科技⼤学数学与应⽤数学专业的袁⾏远，对计算机和⼈⼯智能却展现出浓厚兴趣，常常思考如何利用技术改变世界。并希望通过人工智能技术能为人们的生活带来积极改变。

当我们还沉浸在技术无用论的自我安慰中时，瞧瞧大佬，高度就是不一样。

「中二」少年，怀揣着技术改变世界的理想，开启了他的旅程。从山科大数学系毕业后，袁行远加入到了阿里，担任算法工程师，主要负责广告算法的优化工作。

2014 年，袁行远离开阿里，在 GapYear 的一年里，他选择下海创业。随后，在⼀个咖啡馆⾥，彩云天⽓诞⽣了凭借神经网络算法实现「未来2⼩时分钟级降⾬」的精准预测，彩云科技拥有了滴滴、⼩⽶、饿了么等 1000 家企业客户、10 万开发者，每⽇上百万⽤户，数亿次 API 调⽤的应⽤。

2017 年，彩云科技就已经开始做 NLP 和大模型方面的工作，成为国内最早做 LLM 的公司。2018年的时候，彩云科技训练出了一款知识问答机器人，在搜索数据集 MS MARCO 上获得了世界第一的成绩。

2021 年彩云科技推出了AI续写产品彩云小梦。上线一周，彩云小梦就获得接近 100 万用户。

彩云⼩梦爆火的一个例证，是 B 站上有 UP 主⽤彩云⼩梦跟 Γ卖茶⼥」骗⼦微信对线。

吸收了简中互联网 20 余年语料的彩云⼩梦，成功实现了 Γ魔法战胜魔法」，被⼩梦 Γ疯狂调戏」的卖茶⼥暴露原形落荒而逃。

甚⾄，有⽤户⼀度疯狂吐槽击败卖茶⼥的彩云⼩梦背后是真⼈操控。

在 ChatGPT 尚未爆火的 2021 年，彩云小梦就已经提前让一群人体验到了人工智能的魅力。在彩云小梦上，用户创造了 1500 万个⻆⾊，每天产⽣ 3000 万句对⽩，智能对话、小说续写的 AI 未来似乎已经缓缓展开。

理想与现实的平衡之路

彩云小梦的爆火让袁行远感觉触摸到了成功。然而，因为彩云小梦文字创作上具有极强的娱乐属性，在准确率并不优秀，但因为其娱乐性，用户反而觉得那些听上去有些天马行空的回答很“萌”，很有趣，这使得他们舍弃了本该 All in 的模型的知识性和扩大参数的方向。

但错过就是错过了。当 ChatGPT 横空出世，以近乎可以通过图灵测试的准确度震惊世人时，彩云科技才意识到自己错过了Scaling Law，错失了突破AI临界点的果实。

然而，在 ChatGPT 出来后，当⼤家都在疯狂套壳，基于开源模型去疯狂做微调训练，然后忽悠说自己开发了个⼤模型去融资的时候，袁行远却拍板，决心优化目前主流⼤模型架构 Transformer，来弥补此前的遗憾。

Transformer 架构作为神经⽹络学习中最重要的架构，成为后来席卷全球的⼀系列通⽤⼤模型如ChatGPT 、Gemini 的底层技术⽀撑。

好家伙，直接改底层架构，以提升模型本身的智能度，⽽且对于创业公司来说，真的需要巨⼤的勇⽓，其中耗费的研发成本不可想象。

但袁⾏远坚持下来了，彩云科技坚持下来了，并于11⽉13⽇发布基于 DCFormer 架构通⽤⼤模型云锦天章。

彩云科技团队构建DCFormer框架，提出可动态组合的多头注意力（DCMHA），替换Transformer核⼼组件多头注意⼒模块（MHA），解除了MHA注意⼒头的查找选择回路和变换回路的固定绑定，让它们可以根据输⼊动态组合，从根本上提升了模型的表达能能力，由此实现了对 Transformer架构1.7—2倍的性能提升。

其实在 ChatGPT 出来后，很多⼈质疑说为什么中国出不来 ChatGPT 呢？说是中国的程序员不⾏，但袁⾏远不这么认为，他觉得：

不是中国的程序员不行，而是需要给我们一些时间，迎难而上，最终我们会得到一个好结果的。

确实，像袁⾏远⼀样耐得住寂寞的⼈不多，很多⼈总想着快速发布个什么东⻄出来，然后快速占有市场，但袁⾏远却从 2019 年就开始做模型可解释性研究，花了整整5年的时间，且在 ChatGPT 出来后并没有急着发布，⽽是选择在两年后的今天发布，⾜以⻅得其耐⼼和专注程度。

当袁⾏远说起做这件事情的初⼼时，⼜再⼀次感动到了我，他说能把⽤户写的那些千奇百怪的世界⼀个⼀个变活，把⼀个个虚拟⻆⾊变活，让⼈类可以因为故事⽽创作，就是他做这件事最⼤的价值。

未来展望

袁⾏远认为，改善⼤模型底层架构，提升⼈⼯智能运⾏效率，是改变AI能源困局的更优路径。

往小了说，在⼤模型领域，利用效率更高的模型架构，小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往⼤了说，模型效率的提升，可以有效地降低⼈⼯智能升级迭代的成本，加速 AI 时代的到来。

袁⾏远说，公司接下来将继续加大对 DCFormer 的研究和投⼊。这⼀⽅⾯有打破“国外做技术层，国内做应⽤层”刻板印象的情怀所在，⼀⽅⾯也是为公司⾃有产品应对市场竞争，实现快速迭代升级和能⼒领先的现实需要。

苍何

独立开发者，专注于Java企业级开发，AI 工具提效。偶尔闪光、经常表达、总是真诚。

最新文章

一堆比B站还刺激的公众号！

待遇最好的证券公司名单（深圳篇）

外包公司名单一览表（武汉）

神仙公司名单（青岛）

果然，赚钱要从读书开始

计算机毁了我

太突然，美团宣布年终奖提前发放！

大厂春节假期出炉，网易全员放假12天

字节发全员邮件，年终奖大涨

建议所有人都去做视频号，赢麻了！！！

还得是极越，逼宫百度和吉利后体面落幕。。。

神仙公司名单（合肥）

35了，还能转行吗？

好工作已经不在市场流通了？

再见，腾讯宣布即将关停这些游戏！

字节跳动今年的薪资。。

什么时候你意识到技术工作没有前途？

一个悄然崛起的开源项目，已开源

网易副总裁少云确认离职，蛋仔派对何去何从？

拼多多开了68w年薪，我却犹豫了。。

不愧是大厂开发，这AI提示词绝了。。

神仙公司名单（上海）

秋招0个offer，决定去考编了。。。

听说互联网不卡35岁了？

字节决定起诉实习生赔偿800万。。。

建议所有程序员都去做小红书，赢麻了！！！

华为开奖，薪资有人欢喜有人愁

花30万买一份央国企工作，后悔不已。。。

离谱！裁员裁出新高度了。。

拼夕夕开奖，最高年包216w。。。