前言:自从chatGPT出现至今已经两年了,GPT和BERT都是基于 Attention is All you need (2017)这篇论文的工程化应用,是trainsformer模型的两个分支,从理论上并没有太多新突破。
直至今日好多人仍对大模型技术一知半解,甚至认为它会衍生出智能,这并非因为大型模型技术本身遥不可及,而是AI这个行业和其他行业一样,需要对技术进行包装以建立门槛获取溢价,用溢价转换成利润使研发工作得以闭环。
所以我们会看到这么一个奇怪的现象:一个本应可以简单描述的技术,被拔高到神迹的程度。
我是传统的钢铁工程师,各行各业都有新技术,我们评估新技术通常都会提三个问题:
1、新技术的本质是什么,能不能用浅显的语言解释清楚?
2、新技术和传统技术的差别在哪里?
3、应用效果如何,成本几何,有没有数据?
这三个问题,能回答的就是靠谱的,不能回答的就是不靠谱的。那么我们继续延续这条思路,看看大模型技术的本质,以及探讨下工业大模型的路在何方。
什么是大模型
聚类、分类和回归是人工智能的核心技术——对原始数据进行聚类,聚类的结果作为分类的依据,使用回归模型将输入与分类进行拟合。
大模型也是如此,与传统模型比,与BERT模型比,大模型的唯一特点是“大”。通过对海量的知识进行无监督训练,收敛其特征(归一化),使得大模型完成了对海量知识进行海量无监督聚类的工作,这就是我们常说的BASE模型。
机器自己做无监督聚类效率很高,但这仅是数学层面的计算结果,没有是非观,准确性也不高,也常会出现机器幻觉,需要针对性地收敛。
当然了,计算结果来源于训练语料,理论上优质的训练语料也可以达到目的,但是训练语料全部人工审核的成本太高了。相对来说对模型进行训练后矫正的成本比审核训练语料要小得多,特别是通过开放前端使用界面,让用户参与到审核过程更是可以进一步降低成本。这是一个人工参与分类过程,被称为监督微调,得到一个更精准可使用的模型。
如果微调的时候倾向对话形式,那就是chat模型,chatGPT就是微调过的chat模型。微调可以夹带私货,而且难以验证,所以国家对国外模型管控比较严格。
所以,大模型是什么?
把大模型技术抽象到极致,它本质上是一个预存了海量分类的向量相似度计算器。
通用大型模型的特点
大模型在分类上取得一些不错的成果,大致可以分为三个维度,引申出三个特点:
1、被归一化的知识:把某一知识点的不同表述归一聚合;特点是已经训练过的知识点可以得到准确的输出。
2、被聚类的范式:把某种表达方式归一聚合;特点是如果某一领域的知识训练过,但某些知识点没有训练到,可以输入正确知识用该领域的同类范式表达输出(这就是RAG,检索增强技术的理论基础,我们可以简单粗暴地把它看成一种向量填槽技术)。
3、极度拟合而成的Agent:把某种方法极度拟合成接近规则的形态。这个比较难,也是各大公司的杀手锏。说直白一些,难点在于如何调整数据和聚类模型,让类似数学计算这种规则化的方法在基于概率计算的大模型技术中得以实现。
工业大型模型的发展路径
新技术最能体现效益的地方在于为生产赋能,实现降本增效的目的,新技术必然是要走进工业体系的。最近工业大型模型(不同场合也被称为领域大模型、垂直大模型)讨论比较多,国家也比较重视。
但是深入了解大模型技术后,我反而对“工业大模型”这个提法持更为谨慎悲观的态度。我们到底是做工业大模型本体?还是做基于大模型的工业化应用?不同的理念有不同的发展路径:
a方案做工业大模型本体:针对特定垂直领域进行知识训练,形成该领域的聚类知识和范式(不讨论agent,它还不成熟)。
b方案做基于大模型的工业化应用:通过外挂知识库获取知识,利用通用大模型已训练过的工业领域范式来进行输出,同时叠加原有的行业小模型来进一步提高输入输出的准确性。
a方案做工业大模型本体,这条路立意高,能吹能搞钱,但是不太可能真的实现。不仅是因为训练的成本高,更关键在于单个行业往往难以提供大量独有且样本均衡的数据(生产数据是基于规则生成的,没有训练价值)进行训练聚类。
真训练的时候,你会发现没做几个迭代在某些样本上就已经过度拟合了,新增样本又需要行业专家投入(任何行业的专家成本都是很高的)。
b方案在当前工业领域更具可行性。成本非常低,解耦可控,而且充分地利用原有的规则化的知识和原有行业小模型,把大模型作为系统中的交互组件,这样不仅在可解释性和准确性方面更具优势,而且更贴合工业场景。
当然了,b方案的核心就不在大模型了,而在于本行业的专业性上,在如何高效利用有限的行业知识上(这些知识大多已规则化)。
虽然大型模型本身在工业中的应用可能不会带来颠覆性变革,但结合前后处理技术,它能提供高效的文本交互和摘要能力,为工业领域创造新价值。
最后记录一些本人的暴论
时间会证明观点的对错
1、工业领域大型模型的落地:
工业大模型要工业领域的专家主导,而不是寄希望于外部IT公司。这有点像以前的宝钢股份的产销系统(9672)改造,当时改造成功不是因为IT开发能力有多强,而是宝钢有全球最强的钢铁行业人才,同时IT开发人员也对钢铁行业有极为深刻的认识。对行业的理解使项目得以成功。
2、关于领域模型:
以前我也想做钢铁大模型,后来做着做着,发现某个行业内独有知识其实没有那么多(训练数据不够),其次领域内知识大多都是规则化的(样本单一),然后工业领域需要很强的可解释性(大模型的基本原理就冲突)。
所以像清华的GLM就挺好,在通用知识上一点点叠行业知识,逐渐完善基座模型,然后一些行业落地的应用,使用广义的rag技术(关键词、ES、知识图谱、向量检索,BERT,甚至对照表)结合企业知识库来实现。
3、大型模型的未来发展:
大模型发展下去可能会类似操作系统,就留下两三家大的,这些活下来的大模型公司会定期做全量训练,增加领域知识,提供具有一定专业性的通用大模型。
做应用时如果碰到新知识,就选用合适的方法来获取参考信息,用广义的rag技术解决。当然,这么一来,落地的核心是一个行业头部公司对行业的理解和知识的积累,大模型只是配角。或者说的更直白些,只有工业领域的龙头企业才能做大模型落地。
4、业务与IT融合的挑战:
新技术无非是对原有数据的新的利用方式,要用好数据必定要理解数据,新技术的发展也必然会让业务人员和IT人员进一步融合。
是业务走向IT,还是IT走向业务,融合后的人才如何评价,如何管理等等,这今后也是挺让管理层头痛的事情。
融合后的跨领域专家因为身具数能,在项目中可以更高效地完成工作,甚至一个人顶一个小团队,能力太强了企业也不容易管理,我认识的几位最后出路都是走向了自主创业。
5、经济环境对新技术的影响:
自从gpt之后,AI行业开始大量造词造概念,已经不会好好说话了。我不反感这种做法,毕竟能吹也是本事。
经济好的时候,如果公司靠谱,开会听听吹牛就当休息了,有时还能拓展思路。而且投资嘛,本质上投的是靠谱的人,选对人干好活,吹大点投资人也乐意。
但是现在经济不好,再吹概念就难了,
本文开头的三个问题有几个售前能回答上来呢?