思考|为什么大模型看起来很全能?
文摘
科技
2024-02-23 14:37
上海
大模型的能力越来越强,能写各种文案、也能编程、做数学题、能作图、会漫画、会用搜索引擎等等,那么大模型是如何具备这些能力,并且还在不断扩充?大家应该会有这样的疑问:大模型为什么这么全能?如果想让大模型具备一种新的能力,应该怎么做?
只靠一个大语言模型显然是无法取得这样的全能能力,其核心思路涉及到大模型的体系结构,应该是一个类似下图的插件式可扩展架构,每个插件对应一个功能,如做小学数学题、搜索引擎、编程等。可见,这些插件的复杂性有很大的差别。对于搜索引擎而言,只要一个HTTP请求响应进行类似的爬虫技术处理(进一步阅读:爬虫在大模型中的重要性);对于大模型写代码,则就需要一个代码大模型,通过学习如github上的海量代码,形成一种生成能力。人们所说的大模型实际上是包含各种插件大模型和大语言模型在内的整个结构,因为太庞大,所以是一个黑盒,谁也没有办法弄清楚。这样的整体架构当然能力很强,不断可扩展。但是这实际上是一个大模型体系,而非一个大模型。那么像文心一言、ChatGPT这种大模型,是指哪个?实际上就是图中的“大模型”,它并不包含各种插件的大模型。前者是大语言模型,后者就不一定是了,代码生成是使用了大模型。因此,公众的理解和技术的理解存在偏差,也导致了对大模型深不可测的印象。但如果这样分开来看,我们就不会认为大模型太复杂了。大模型根据用户输入的问题,利用本身的生成机制来产生答案,或者去调用不同的插件。大模型本身负责用户输入的理解、输出结果的自然语言表达组装。但再进一步思考会发现这种插件式结构有很多疑问,如(1)大模型如何根据用户的问题确定调用哪个插件、(2)插件应当满足什么条件才能作为大模型的插件、(2)第三方插件/模型如果恶作剧,试图输出不良内容,大模型应该怎么办?等等。有些问题最终归结为大模型的共性技术,如大模型的内容安全等;有些要通过安全管理等等,总之,大家学的东西都有用武之地。关于第一个问题,知乎上有个回答,但不够清晰。用户的问题如输入文本 x = “The weather in Shanghai is”,想要得到当前上海的天气,这应当要调用搜索引擎,而不是让大模型随机生成(早期的大模型确实是如此)。所以需要对每个插件进行描述,就如类似的提示信息,然后将用户文本部分分别调用插件,根据返回的结果组装成新的句子,如The weather in Shanghai is raining,再由大模型判断生成的句子的质量,从而觉得用哪个API以及用哪些历史词汇进行预测。
相关阅读可以查询公众号的历史文章: