大模型的智力未来如何继续提升的一点想法

科技   2024-10-12 11:15   美国  

这篇文章算是个小备忘录,未来大模型想要继续增加智力的核心在于如何找到“算力”投入点

怎么理解下标红部分的意思。大家应该都知道,当前决定大模型效果的主要是数据量(质量),参数规模等。为什么是算力呢?

智力通常是难以衡量的,而算力则可以定量分析的。这也是为什么我们需要将算力和智力进行关联。我们先来看看,如何计算算力的投入。算力并不是自然而然存在的,是其他因数决定的,也就是前面的数据量,参数规模等。

通常消耗的算力(C)是由模型参数(P)、推理输出长度(L)以及其他因素(如数据量D 等)决定的情况。

我们先定义算力 

C 是参数P、推理长度L 和数据量D 的函数。例如,算力是这三个因素的乘积或某种加权组合,公式可以写为:

解释:

  • C 是算力,表示模型计算所需的资源。

  • P 代表模型参数的规模或复杂度。

  • L  代表推理的输出长度。

  • D 代表数据量。

  • γ 是一个常数,用于调节算力的基础水平。

  • α1,α2,α3 是不同因素对算力影响的权重,反映了每个因素的重要性。


2. 智能公式:

智能(I)可以是算力和其他不可见因素的模糊函数,表示通过算力提升可能带来的智能增长。由于智能难以定量分析,我们可以用一个非线性函数来表示智能随算力的提升关系(也可能是线性的,how knows):

解释:

  • I 是智能,表示模型表现出的智能水平。

  • C 是前面算力的结果。

  • δ 是一个调节智能增长的常数。

  • log(1+C) 表示智能随算力非线性增长,尤其在算力较小的时候,智能的增长速度较快,而当算力达到一定水平后,智能的提升趋缓(类似于边际效应递减)。


综合公式:

将算力和智能的公式结合起来,我们可以得到一个完整的描述模型:

但这其实不是我们想要的,我们更关心第一个公式:

如果想让 C 更加大,就需要

  1. 找到新的使用算力的因子,我们还可以怎么使用算力,除了 P,L,D ?

  2. 能否在 P,L,D 不变的情况,增大各自的a1, a2, a3 指数?比如更好的数据清洗,更好的模型结构,从而极大了算力的使用。

  3. 或者提高 γ , 如何提升γ?  算力精度的提升?我们知道在深度学习中对数字精度相对来说没有那么敏感,但是我们为了性能,往往妥协了精度。


最后,如何支撑 C 的扩大导致的能源消耗,则是另外一个问题。

但我相信:

  1. 随着时间发展,整个AI产业芯片一定是白菜价

  2. 如何支撑C 的扩大核心还是能源


祝威廉
架构/大数据/机器学习的心得和体会,也会因为爱情和生活写首诗
 最新文章