DeepSeek 的成功与跨学科人才培养的重要性

文摘   2025-01-27 00:02   马来西亚  
在人工智能技术飞速发展的当下,海外媒体还没从 DeepSeek 以极低的成本追赶 ChatGPT的震惊中反应过来,号称以 550%的优势超越 ChatGPT-4o 的 Kimi K1.5 也问世了。先是 DeepSeek,再是 Kimi,两家中国人工智能公司给全世界人工智能从业人员好好“上了一课”。


这些成就不仅展示了中国在人工智能领域的强大创新力,也为人工智能时代的教育带来了深刻的启示,尤其是培养跨学科人才的重要性。

一、DeepSeek 有多么成功?

美国著名商业媒体 Bloomberg 称:DeepSeek没有使用最高质量的半导体芯片,美国政府限制芯片出口到中国,目的是减缓中国在人工智能和相关军事技术方面的进步,然而,DeepSeek的出现表明,即使没有最新芯片,也能开发出高质量的人工智能系统,所以特朗普的贸易战很难打赢……
美国政策成功地阻碍了中国在人工智能系统中部署高质量芯片,带来了相应的国家安全利益,但也加速了不依赖最高质量芯片的有效人工智能系统的发展。

虽然ChatGPT 创始人山姆奥特曼讽刺 DeepSeek 抄袭:
复制你知道有效的东西(相对)容易。当你不知道它是否会奏效时,做一些新的、有风险的和困难的事情是非常困难的。
但是被网友嘲讽:

而且仔细阅读 DeepSeek 和 Kimi 的技术论文,我们不难看出两家都做出了自己的创新,走出了自己的路径。

二、DeepSeek 和 Kimi 的创新

在人工智能领域,DeepSeek 和 Kimi 作为新兴的中国人工智能公司,以其独特的创新思路和技术突破,正在改变着全球人工智能的发展格局。这两家公司不仅在技术上取得了显著的成就,还为未来人工智能的发展提供了新的方向和思路。
DeepSeek 的模型蒸馏技术通过将大型模型的知识和推理能力转移到更小的模型中,实现了在保持高性能的同时大幅降低计算资源需求DeepSeek 的模型蒸馏技术是一种机器学习方法,旨在将大型复杂模型(教师模型)的知识转移到较小、更简单的模型(学生模型)中。

大胆试错,小步迭代:DeepSeek-R1的论文强调了两个主要创新。首先,他们直接在基础模型上应用强化学习(RL),而没有依赖于监督微调(SFT)作为初步步骤。这类似于学生跳过课堂直接通过试错进行实践。这也是首次公开研究证明LLMs可以通过RL单独发展出强大的推理能力。其次,研究人员展示了大型模型的推理能力可以被蒸馏到小型模型中,没有强化学习训练的蒸馏模型比仅通过RL训练的小型模型表现更好,这意味着大模型蒸馏出来的小模型几乎可以直接拿来使用。
长文本无损上下文是 Kimi 的特长技术,Kimi 引入了先进的上下文管理机制,能够实时跟踪和管理长篇文本中的上下文信息Kimi k1.5 将强化学习的上下文窗口扩展到 128k,发现随着上下文长度增加,性能持续提升。这种长上下文扩展让模型能够更好地规划、反思和纠正推理过程,从而做出更合理的决策。


更大的演草纸意味着更多的机会:Kimi k1.5的技术报告强调了三个关键贡献。首先,研究人员将RL上下文窗口扩展到128k tokens,并观察到随着上下文长度的增加,性能持续改善。其次,他们结合各种技术增强RL策略优化,通过整合长上下文扩展和改进的策略优化,实现了强大的性能,而无需依赖更复杂的方法,如蒙特卡洛树搜索(MCTS)、价值函数或过程奖励模型(PRM)。第三,报告还介绍了有效的长到短方法,使用长-CoT技术训练短-CoT模型,显著降低了推理成本
三、跨学科人才的传奇
DeepSeek的前身可以追溯到量化投资基金幻方量化。幻方量化成立于2012年,专注于量化投资领域,擅长利用海量数据和机器学习技术捕捉资本市场的波动。公司在处理海量数据和高效运算方面具有显著优势,并在硬件方面进行了大规模投资,如打造“萤火一号”深度学习训练平台和“萤火二号”,为后来的AI研发提供了强大的算力支持
2020年,幻方量化内部孵化了一个小而精的AI部门,由梁文锋带领。梁文锋在量化金融与机器学习领域有多年的经验,是一个既懂金融又懂AI的全才。2023年7月17日,梁文锋正式创立了DeepSeek,标志着团队正式踏上了探索AI基础技术的新征程。
DeepSeek 团队汇聚了来自物理、计算机、电子等多个领域的优秀人才,具备开展跨学科研究的独特优势。这种跨学科的团队构成使得 DeepSeek 能够在技术研发中打破学科界限,积极开展跨学科合作项目,从而在量子计算与人工智能的结合、5G 通信与物联网的融合等多个前沿领域取得突破。



无独有偶,跨学科人才隔行取利的创业案例屡见不鲜,吉姆·西蒙斯,这位数学家兼投资者,通过大规模招募物理学家和数学家,将数学理论巧妙融入实际投资中,从一位杰出的数学家成功转变为投资界的“模型先生”。他所创立的文艺复兴科技公司和大奖章基金,以年均超过 60%的回报率创造了金融史上难以复制的神话。
四、对跨学科人才培养的启示
现代科学研究越来越强调不同学科之间的交叉融合,以解决复杂问题。在人工智能时代,许多问题的解决需要多学科知识的综合运用。培养跨学科人才能够更好地满足这种需求,为社会带来更多的价值和影响。
在跨学科人才培养过程中,“整合”观念应贯穿跨学科教育的始终。教育机构应以“整合”思想统领跨学科人才培养全过程,鼓励学生结合自身兴趣和职业发展需要,选择多学科的学习内容,培养广博与专业并重的复合型人才
不仅科学需要跨学科人才,当前我国的“新文科”建设也是在探索跨学科人才的培养路径。
新文科是指在传统文科基础上,结合现代社会需求和发展趋势,涵盖了更广泛的学科范围和知识体系,强调跨学科交叉与融合,注重实践与应用的一种新型文科。新文科建设涵盖了人文社会科学领域内多个学科的交叉、融合、渗透或拓展,也可以是人文社会科学与自然科学交叉融合形成的文理交叉、文医交叉、文工交叉等新兴领域。推动人文社会科学与新科技革命交叉融合,培养新时代的哲学社会科学家,是新文科建设的重点方向和主要目标
DeepSeek 的成功充分展示了跨学科人才在人工智能时代的重要性。跨学科思维不仅能够更好地适应复杂问题的解决需求,推动创新与突破,还能提升个人和团队的竞争力。这个时代,教育应树立“整合”教育理念,打破学科壁垒,构建跨学科课程体系,加强实践教学和团队合作精神的培养,培养更多具备跨学科知识和技能的人才,同时教师也要有跨学科意识。

教育学人AIED
课程与教学研究与分享,包括但不限于教育概念辨析,教育观念批判。
 最新文章