价格杀疯了
财富
2025-01-26 17:28
北京
国产大模型DeepSeek疯狂刷屏,我也蹭热点闲扯几句。
一百年前有位俄罗斯大胸弟马尔可夫,他认为每件事发生的概率取决于前面的N件事。马尔可夫妥妥的技术分析流派,一整个淘股吧用户既视感。人工智能或者说机器领域有个长期存在的概念叫GP,generative pre-trained的缩写。早期的GP照搬马尔可夫的逻辑,一个字一个字按顺序理解人类自然语言,每个字的意思取决于前面N个字。我们每天使用的汉字输入法、微信语音输入,都是这样实现的,相当简单粗暴。缺点方面,人类一句话可能超级长,可能从句多层嵌套,可能结构倒装,处理起来效率略低,而且容易丢失隐藏在上下文中的语义。
2017年,谷歌八位研究人员放出一篇论文《Attention Is All You Need》,抛弃逐字处理的方法,同时处理多个字,通过每个字和其它字的关系来理解整句话。八位研究人员写信给公司高层说,Transformer属于颠覆性创新,建议谷歌用新方法替换已有的搜索引擎。
初创公司OpenAI看到谷歌的论文,被深深震撼,迅速把论文变成产品,产品名字GPT由GP加上T组成,T是Transformer的意思。2018年推出GPT-1,使用7000本小说做训练数据,参数1.17亿。2019年推出GPT-2,训练数据包括800万份文档和4500万个网页,参数15亿。2020年推出GPT-3,训练数据570G,参数1750亿。有OpenAI冲在前面开路,全球各大公司纷纷跟进,大家一起疯狂堆料堆算力,算力成为行业门槛。
最近,国产AI公司DeepSeek以价格屠夫的形象高调进场。通过性能优化,DeepSeek用十分之一算力达成同类产品差不多的性能。
科技行业有个共识,美国公司擅长从0到2和从95到100的过程,中国公司擅长从2到95。![]()
![](/static/gotop.png)