迎春茶话会

财富   2025-01-27 08:01   山东  

今天是龙年的最后一个工作日,大部分人都已经在路上甚至到家了,少部分人像星空君还坚守在工作岗位。

在路上也没心情看文章,在班上也没心情写文章。

就和大家唠唠嗑。

一、关于DeepSeek的八卦

1、蒸馏

最近的当红炸子鸡必须是DeepSeek,很多懂的不懂的朋友在星空君关于DeepSeek的文章下面激烈的讨论。

星空君手头的项目已经装入DeepSeek的开源模型了,准备节后开始训练。

讨论没有问题,问题是要有一定的门槛。

比如DeepSeek有r1-zero版本,有v3版本,有r1版本。其中,最受欢迎的r1使用了所谓蒸馏技术。

有些朋友就误以为DeepSeek蒸馏了OpenAI的数据。

事实上,r1-zero是自训练而来,v3和r1则蒸馏了DeepSeek自己的模型。

所以不存在蒸馏其他模型的情况。

2、苏妈的暴击

DeepSeek在国外也火的一塌糊涂,在huggingface下载已经超百万。整个IT圈都在热烈的讨论DeepSeek。

最近AMD宣布Mi300X 原生支持ds R1, 比英伟达节省30%的成本。

网友戏称,这比正月里理发的伤害还要大(网传苏妈辈分上是黄皮衣的外甥女)。

3、30美元复现

DeepSeek用了550万美元干了OpenAI上百亿美元的事,这不算完。

无论是斯坦福还是MIT,都在热情的讨论DeepSeek并投入狂热的使用中。

梁文峰发表了DeepSeek的论文后,来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。

他们表示,结果相当出色!

实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。

更令人兴奋的是,成本不到30美金!!!

AI迎来新时代。

对于DeepSeek有什么损失吗?

没有。

第一DeepSeek不差钱,第二DeepSeek开源的目的就不是为了在AI底座上赚钱。

那靠什么?

卷应用。

HuggingFace团队官宣复刻DeepSeek R1所有pipeline。

复刻完成后,所有的训练数据、训练脚本等等,将全部开源。这个项目叫做Open R1,当前还在进行中。

从DeepSeek开始,高不可攀的AI将拆掉所有护城河。

4、Meta工程师的帖子

这两天在疯传Meta工程师的帖子:

一切源于DeepSeek V3的出现,它在基准测试中已经让Llama 4相形见绌。更让人难堪的是,一家「仅用550万美元训练的中国公司」就做到了这一点。


工程师们正在争分夺秒地分析DeepSeek,试图复制其中的一切可能技术。这绝非夸张。


管理层正为如何证明GenAI研发部门的巨额投入而发愁。当部门里一个高管薪资就超过训练整个DeepSeek V3的成本,而且这样的高管还有数十位,他们该如何向高层交代?


DeepSeek R1的出现让情况更加严峻。具体细节属于机密,不便透露,不过很快就会公开了。


这本该是一个以工程为导向的精简部门,但因为太多人想分一杯羹,人为膨胀招聘规模,最终导致人人都付出了代价。

DeepSeek改变了游戏规则。

二、关于蛇年的第一天

有个小盆友和星空君闲聊,他的生日是腊月的,出生那年立春在腊月,有人说属相的第一天是立春,有人说属相的第一天是正月初一,导致搞不清楚自己到底属相是什么。

星空君也曾经认真研究过这个问题,从干支纪年法的角度进行了史料的查阅。

一度推导出立春是干支纪年法的第一天(事实上,算命先生都是这么认为的)。

然而突然有一天,星空君发现了最重要的一点:历法是官方修的。

这意味着,只有官方背书的历法,才是准确的。

官方怎么说的呢?

现在负责修历法的官方机构是中科院紫金山天文台,说的很清楚,大年初一是新年第一天。

大年初一在古代叫元旦,又叫元日,王安石有一首名篇:

元日

爆竹声中一岁除,

春风送暖入屠苏。

千门万户曈曈日,

总把新桃换旧符。

后来孙中山把元旦放到了公历第一天,袁世凯又把本来用在立春上的春节放到了大年初一。

还有一个冷知识,生肖纪年是有国标的... ...

2017年颁布的国家标准《农历的编算和颁行》(标准号:GB/T 33661-2017)也明确规定了生肖纪年的循环参考时间,对应干支纪年法。如公历1984年2月2日0时(大年初一)起到1985年2月19日24时截止的农历年为甲子年,对应生肖为鼠年。

祝大家旅途愉快!

诗与星空
以财报为核心的上市公司分析。出版清华大学出版社《上市公司财报分析实战》,中国铁道出版社《财技-一本书教你看懂上市公司财报》。
 最新文章