首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
不走Transformer寻常路,「元始智能RWKV」获数千万天使轮融资|36氪首发
创业
2025-01-08 16:00
北京
要做大模型领域的安卓和Linux。
文
|
邓咏仪
编辑
|
苏建勋
封面来源
|
Pexels
“智能涌现”获悉,大模型架构创新公司元始智能(RWKV)已于12月完成数千万人民币天使轮融资,投资方为天际资本。本轮融资后,公司估值较此前种子轮翻倍,而本轮融资将主要用于团队扩充、新架构迭代以及产品商业化落地。
OpenAI旗下的ChatGPT于2022年11月发布,并掀起全球生成式AI浪潮后,已经有两年多的时间。而支撑起ChatGPT的Transformer架构以及Scaling Law(缩放定律),正是这场革命的技术发展主线。
大语言模型(LLM)之所以能够涌现智能,简而言之,是因为让AI模型的参数规模从原来的亿级扩大到了如今的千亿、万亿,在学习了足够多的数据后,模型涌现出了智能。
但大模型也有自己的“阿喀琉斯之踵”——幻觉、准确率几乎是无法完全解决的问题。在刚刚过去的2024年,随着大模型迭代放缓,无论是学界还是工业界,都迎来了对Transformer架构,以及Scaling Law(缩放定律,指增加算力、数据规模,模型性能会相应提高,获得更多智能)的大讨论。
元始智能(RWKV)的成立,正是希望探寻一条能够超越Transformer架构的新路。“我们不仅是一家大模型公司,而且是一家有能力持续实现AI模型底层架构创新的‘黑科技’公司。”元始智能联合创始人罗璇表示。
RWKV的创始人彭博毕业于香港大学物理系,曾是量化交易专家。彭博从2020年开始,就选择独立开发RWKV这个创新架构和开源项目。2022年底,RWKV发布首个模型,到如今2023年6月正式成立商业公司,团队已从最初3人发展至近20人的规模。
与依赖巨额算力和数据的Transformer架构不同,RWKV选择了一条更加注重效率和灵活性的技术路线。
“简单而言,目前主流的Transformer架构,相当于每次对话中,模型每输出一个Token,都需要把前文从头全部‘读’一遍,并且需要始终记录前文每个token的状态(即KV Cache)。”元始智能联合创始人罗璇表示。这也注定了Transformer不是一个高效的信息处理架构,而且需要大量的算力。
但RWKV最大的技术突破在于,模型不需要始终记录每个Token的状态——也就是不需要每次对话都“从头读全文再给回复”,计算量大大减少。这相当于将Transformer的高效并行训练、与RNN的高效推理能力相结合。
RNN(循环神经网络)并不是一个新技术。虽然它的推理效率高于Transformer,但在RWKV之前,大家普遍认为RNN的能力弱于Transformer。但RWKV的出现,证明了改进后的RNN不但效率保持高于Transformer,且同样具有很强的语言建模能力。
不过,效率更高的代价是:作为状态空间大小固定的RNN,不可能将无限长度的前文全部压缩进状态空间。也就是说,RWKV会逐渐遗忘模型自动判断为“可以遗忘的细节”(对于模型自动判断为重要的细节,模型会持久记忆),相当于看了一遍前文就回答问题,不会再反复阅读前文。
彭博认为,这并不是RWKV架构的缺陷。正如,虽然人类大脑本身没有完美的记忆力,但人类通过少量复读和外部记忆,同样可以拥有完美的记忆力。RWKV可以通过引入RL(强化学习)的方法,来自动判断在必需的时候重新阅读前文,这比Transformer“强行把所有东西都记住”的效率要高得多。
同时,RWKV的特性也有利于在部分场景的应用和落地,比如写作、音乐生成等创意性场景,模型产出的结果会更创新,“AI味”更弱。
“在音乐生成等创意领域,RWKV的架构更接近人脑的记忆演绎机制,不是简单检索过去的信息,而是通过不断更新和重组来‘演绎’,从而产生新的内容。”罗璇解释。
目前,RWKV已经完成了从0.1B到14B的模型训练,且海外社区已发布了32B的预览模型。在过去两年中,RWKV也实现了重要的技术突破:架构从RWKV-4逐步迭代至RWKV-7。
最新发布的RWKV-7模型,在同等参数规模下,可以全面超越Transformer架构的性能。这种优势体现在多个维度:例如,在模型学习效率上,RWKV-7能比经过充分优化的Transformer架构更快地提升准确度。而使用相同参数和训练数据的情况下,在核心benchmark如英语和多语言测试中,RWKV-7也能表现更优。
来源:RWKV
RWKV-7的记忆力,比起之前的RWKV也显著更强。例如,0.1B的RWKV-7在4k上下文窗口下训练,就能自动解决16k的大海捞针问题。
“RWKV采用的类RNN架构更接近人脑和宇宙的运作方式,通过高效的信息压缩机制,使模型能够在有限资源下实现持续学习和进化。”罗璇表示。
持续学习,也是RWKV-7版本的一个重要技术突破。比起主流模型采用的“训练-推理分离”机制,RWKV能够让模型“边推理边学习”,更好地学习前文中的的规律。
RWKV高效推理的机制,相当适合用于小模型、端侧等场景中——大模型虽然性能强,但计算层面依然面临不少桎梏:无论是手机还是电脑,硬件层面如果没有足够强大的计算单元,也没有办法让模型在本地运转,而是要依赖云端的计算,这就降低了使用体验。
当前,元始智能的公司业务分为两大部分,一是将模型开源,这一部分将持续保持全开源和免费——在GitHub上,RWKV的核心开源项目RWKV-LM已收获了超过12900的star,并且逐步建立起开发者生态,当前已有包括腾讯、阿里、浙大、南方科技大学在内的多家高校和公司使用了RWKV;二是商业实体。在2024年,RWKV做了不少产品侧的尝试,同时覆盖To B和To C。
在软件侧,RWKV面向C端市场推出了AI音乐生成应用。而在To B领域,元始智能选择了具体智能和新能源两大领域,为企业提供模型授权,目前已达成的合作客户包括国家电网、有鹿机器人等企业。
在未来,元始智能计划在2025年推出70B及以上参数的RWKV-7和终端部署方案,并通过结合新型推理框架和新型芯片,探索更大规模的模型。罗璇表示,随着如今Scaling Laws转向,预计2025年上半年将迎来新架构的爆发期,届时元始智能也会加速商业化落地。
深度、敏锐、前瞻,
为1%的人捕捉商业先机
36氪旗下精选公众号
👇
真诚推荐你来关注👇
36氪Pro
36氪旗下官方账号。深度、前瞻,为1%的人捕捉商业先机。
最新文章
两家大厂投了一家3D生成大模型公司|WAVES
雷军先叫阵,特斯拉Model Y的守擂之年
推动新能源汽车电驱动装备升级,「巨力自动化」获数亿元战略轮融资|36氪首发
专注可重构数字电源芯片,「水芯电子」完成新一轮数千万股权融资 | 36氪首发
李泽湘带领的XbotPark创业公司,又有些做到全球第一 丨36氪直击CES
电影「误杀3」总票房突破6亿;布鲁可上市首日涨超80%;港股IPO开年暖意浓丨一周市场盘点
中国首款男性HPV疫苗获批,有电商售价3000,但有多少人愿意打?丨焦点分析
京东App大改版,透露出三个重要的业务信号丨36氪独家
营收、负债与存量竞争:关于古茗的三个问题
DeepSeek的用人观:学霸、年轻人、禁止赛马|焦点分析
智能仓储公司「智世机器人」完成数千万元A轮融资,2024年四向穿梭机器人订单增长近300%|36氪首发
「光本位」完成新一轮战略融资,加速光计算芯片商业化落地|36氪首发
数字孪生+智慧物联,大华股份「数智孪生」助力数字化场景落地
小红书地推,瞄准老年人
阅文旗下「AI男友平台」筑梦岛开启独立运营,目前融资金额超千万美元|36氪独家
「X-ORIGIN-AI」完成数千万元天使轮融资,打造具身智能陪伴机器人|36氪首发
众筹超百万的AI陪伴机器人,展台被外国人挤爆|硬氪直击CES
博通替代不了英伟达|氪金·硬科技
用AI大模型重塑服装设计制版,「深服科技」获数千万元Pre-A轮融资|36氪首发
不走Transformer寻常路,「元始智能RWKV」获数千万天使轮融资|36氪首发
拿下2025年第一笔募资,韩彦说要拒绝一切美国美元
年轻女性的「孤独经济学」,大厂创业者盯上陪伴机器人丨焦点分析
农业机器人企业「中科原动力」完成近亿元B1轮融资,加速走向全球市场丨36氪首发
南科大教授创业获千万级融资,研发再生钛合金粉末丨36氪首发
大润发到底还值多少钱?
川普交易2.0缘何遇冷?|智氪
万架AI无人机集群获马斯克点赞,「大漠大智控」完成数亿元融资|36氪首发
连续三年营收翻倍,VR头显企业「小派科技」完成亿元级C1+轮融资 | 36氪首发
创投铁幕终于落下
蜜雪冰城、沪上阿姨递交港股上市申请书;阿里出售高鑫零售全部股权;雷军立下2025年Flag|一周市场盘点
茶饮集体出海,可能是2024最大的误会
「最惨」富贵病,苦等十年终迎一款新药|知料
蚂蚁无偿开放43项专利,互联网创新反「内卷」
2025年第一个爆火赛道出现,单日卖掉5000万元丨产品观察
滑板底盘及整车企业「PIX Moving」完成B1轮融资,累计开发超20款车型丨36氪首发
「追光科技」获近亿元A轮融资,新产能投产在即丨36氪首发
人人皆处十字路口的2024,96位投资人的决定
转让高性能通用GPU芯片头部企业LP份额;求购小红书股份丨资情留言板第153期
无人搬运机器人公司「木蚁机器人」完成B3轮融资,将拓展欧美无人叉车市场丨36氪首发
「千顾科技」完成B轮4亿元融资,线控底盘定点超50款车型丨36氪首发
36氪编辑部年度私藏书单来了,31本书带你跨入2025年(文末抽图书盲盒)
拿森科技完成5亿元D轮融资,进一步夯实头部地位
AI基础设施公司「基流科技」连续完成Pre A+和A轮融资,累计融资总额超亿元 | 36氪首发
用大模型打造AI科技导师,「无界矩阵」完成超千万元天使轮融资 | 36氪首发
五位国家经理的出海奋斗史丨暗涌看世界
剪映产品负责人张逍然离职丨36氪独家
「纽邦生物」获数千万元B轮融资,加速创新型膳食营养补充剂原料开发丨36氪首发
「福鲨科技」完成天使轮融资,专注咖啡精密陶瓷研磨技术丨36氪首发
商场B1层的谷子店里,围满了盛装Cos的年轻人
增加3.4万亿!修订后2023年GDP出炉;涨0.35%,道指终结周线「三连跌」走势;宁德时代筹划港股上市|一周市场盘点
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉