大家好,我是苍何。
说实话,我⼀开始对「中二少年」这个词没啥特别的感觉。毕竟,谁年轻的时候没点热血,没点不切实际的幻想呢?
但是听完彩云科技 CEO 袁⾏远的故事,我忽然觉得,这个「中二少年」真的不⼀般。他不是那种喊两句口号就拉倒的⼈,而是那种能把热血烧成钢,以坚定的决心投身于 AI 科技大跃进时代中,勇往直前的人。
就在前⼏天,彩云科技正式发布了⾸个基于 DCFormer 架构的通⽤⼤模型云锦天章。在大模型满天飞,人工智能遍地跑的当下,云锦天章的出现,却做到了蝎子拉屎——独一份儿!
要知道,目前像 ChatGPT 、Gemini 这些⼤模型的底层技术⽀撑都是用的谷歌在 2017 年发布的 Transformer 架构。而云锦天章的底层架构,则是基于 Transformer 架构优化后的 DCFormer 架构,创造了行业先河。
袁行远创办的彩云科技,在公司里养了 5只小猫。办公场所里,猫爬架、猫玩偶四处散布,让这家人工智能公司看起来更像家大型“撸猫馆”。然而,正是这样一家看似不务正业的公司,却向国内外 AI 巨头们露出了锋利的牙齿。
他们像堂吉诃德一样,用疯狂的行动向世界证明:
权威顶尖一样可以挑战,这个世界不仅有 Transformer 还有 DCFormer!
少年理想与技术初心
袁⾏远并不是⼀个循规蹈矩的 Γ别人家的孩子」,相反,他满脑⼦都是天马行空的想法。
大学期间,为了满足自己定制化的音乐诉求,好家伙,直接就开发了⼀个基于人工智能的音乐推荐系统,旨在根据⽤户的喜好自动推荐音乐。(PS:作为他的校友,真骄傲)
⼭东科技⼤学数学与应⽤数学专业的袁⾏远,对计算机和⼈⼯智能却展现出浓厚兴趣,常常思考如何利用技术改变世界。并希望通过人工智能技术能为人们的生活带来积极改变。
当我们还沉浸在技术无用论的自我安慰中时,瞧瞧大佬,高度就是不一样。
「中二」少年,怀揣着技术改变世界的理想,开启了他的旅程。从山科大数学系毕业后,袁行远加入到了阿里,担任算法工程师,主要负责广告算法的优化工作。
2014 年,袁行远离开阿里,在 GapYear 的一年里,他选择下海创业。随后,在⼀个咖啡馆⾥,彩云天⽓诞⽣了凭借神经网络算法实现「未来2⼩时分钟级降⾬」的精准预测,彩云科技拥有了滴滴、⼩⽶、饿了么等 1000 家企业客户、10 万开发者,每⽇上百万⽤户,数亿次 API 调⽤的应⽤。
2017 年,彩云科技就已经开始做 NLP 和大模型方面的工作,成为国内最早做 LLM 的公司。2018年的时候,彩云科技训练出了一款知识问答机器人,在搜索数据集 MS MARCO 上获得了世界第一的成绩。
2021 年彩云科技推出了AI续写产品彩云小梦。上线一周,彩云小梦就获得接近 100 万用户。
彩云⼩梦爆火的一个例证,是 B 站上有 UP 主⽤彩云⼩梦跟 Γ卖茶⼥」骗⼦微信对线。
吸收了简中互联网 20 余年语料的彩云⼩梦,成功实现了 Γ魔法战胜魔法」,被⼩梦 Γ疯狂调戏」的卖茶⼥暴露原形落荒而逃。
甚⾄ ,有⽤户⼀度疯狂吐槽击败卖茶⼥的彩云⼩梦背后是真⼈操控。
在 ChatGPT 尚未爆火的 2021 年,彩云小梦就已经提前让一群人体验到了人工智能的魅力。在彩云小梦上,用户创造了 1500 万个⻆⾊,每天产⽣ 3000 万句对⽩,智能对话、小说续写的 AI 未来似乎已经缓缓展开。
理想与现实的平衡之路
彩云小梦的爆火让袁行远感觉触摸到了成功。然而,因为彩云小梦文字创作上具有极强的娱乐属性,在准确率并不优秀,但因为其娱乐性,用户反而觉得那些听上去有些天马行空的回答很“萌”,很有趣,这使得他们舍弃了本该 All in 的模型的知识性和扩大参数的方向。
但错过就是错过了。当 ChatGPT 横空出世,以近乎可以通过图灵测试的准确度震惊世人时,彩云科技才意识到自己错过了Scaling Law,错失了突破AI临界点的果实。
然而,在 ChatGPT 出来后,当⼤家都在疯狂套壳,基于开源模型去疯狂做微调训练,然后忽悠说自己开发了个⼤模型去融资的时候,袁行远却拍板,决心优化目前主流⼤模型架构 Transformer,来弥补此前的遗憾。
Transformer 架构作为神经⽹络学习中最重要的架构,成为后来席卷全球的⼀系列通⽤⼤模型如ChatGPT 、Gemini 的底层技术⽀撑。
好家伙,直接改底层架构,以提升模型本身的智能度,⽽且对于创业公司来说,真的需要巨⼤的勇⽓,其中耗费的研发成本不可想象。
但袁⾏远坚持下来了,彩云科技坚持下来了,并于11⽉13⽇发布基于 DCFormer 架构通⽤⼤模型云锦天章。
彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核⼼组件多头注意⼒模块(MHA),解除了MHA注意⼒头的查找选择回路和变换回路的固定绑定,让它们可以根据输⼊动态组合,从根本上提升了模型的表达能能力,由此实现了对 Transformer架构1.7—2倍的性能提升。
其实在 ChatGPT 出来后,很多⼈质疑说为什么中国出不来 ChatGPT 呢?说是中国的程序员不⾏,但袁⾏远不这么认为,他觉得:
不是中国的程序员不行,而是需要给我们一些时间,迎难而上,最终我们会得到一个好结果的。
确实,像袁⾏远⼀样耐得住寂寞的⼈不多,很多⼈总想着快速发布个什么东⻄出来,然后快速占有市场,但袁⾏远却从 2019 年就开始做模型可解释性研究,花了整整5年的时间,且在 ChatGPT 出来后并没有急着发布,⽽是选择在两年后的今天发布,⾜以⻅得其耐⼼和专注程度。
当袁⾏远说起做这件事情的初⼼时,⼜再⼀次感动到了我,他说能把⽤户写的那些千奇百怪的世界⼀个⼀个变活,把⼀个个虚拟⻆⾊变活,让⼈类可以因为故事⽽创作,就是他做这件事最⼤的价值。
未来展望
袁⾏远认为,改善⼤模型底层架构,提升⼈⼯智能运⾏效率,是改变AI能源困局的更优路径。
往小了说,在⼤模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往⼤了说,模型效率的提升,可以有效地降低⼈⼯智能升级迭代的成本,加速 AI 时代的到来。
袁⾏远说,公司接下来将继续加大对 DCFormer 的研究和投⼊。这⼀⽅⾯有打破“国外做技术层,国内做应⽤层”刻板印象的情怀所在,⼀⽅⾯也是为公司⾃有产品应对市场竞争,实现快速迭代升级和能⼒领先的现实需要。