思考|为什么大模型看起来很全能？

文摘科技 2024-02-23 14:37 上海

大模型的能力越来越强，能写各种文案、也能编程、做数学题、能作图、会漫画、会用搜索引擎等等，那么大模型是如何具备这些能力，并且还在不断扩充？大家应该会有这样的疑问：大模型为什么这么全能？如果想让大模型具备一种新的能力，应该怎么做？

只靠一个大语言模型显然是无法取得这样的全能能力，其核心思路涉及到大模型的体系结构，应该是一个类似下图的插件式可扩展架构，每个插件对应一个功能，如做小学数学题、搜索引擎、编程等。可见，这些插件的复杂性有很大的差别。对于搜索引擎而言，只要一个HTTP请求响应进行类似的爬虫技术处理（进一步阅读：爬虫在大模型中的重要性）；对于大模型写代码，则就需要一个代码大模型，通过学习如github上的海量代码，形成一种生成能力。

人们所说的大模型实际上是包含各种插件大模型和大语言模型在内的整个结构，因为太庞大，所以是一个黑盒，谁也没有办法弄清楚。这样的整体架构当然能力很强，不断可扩展。但是这实际上是一个大模型体系，而非一个大模型。

那么像文心一言、ChatGPT这种大模型，是指哪个？实际上就是图中的“大模型”，它并不包含各种插件的大模型。前者是大语言模型，后者就不一定是了，代码生成是使用了大模型。因此，公众的理解和技术的理解存在偏差，也导致了对大模型深不可测的印象。但如果这样分开来看，我们就不会认为大模型太复杂了。

大模型根据用户输入的问题，利用本身的生成机制来产生答案，或者去调用不同的插件。大模型本身负责用户输入的理解、输出结果的自然语言表达组装。但再进一步思考会发现这种插件式结构有很多疑问，如（1）大模型如何根据用户的问题确定调用哪个插件、（2）插件应当满足什么条件才能作为大模型的插件、（2）第三方插件/模型如果恶作剧，试图输出不良内容，大模型应该怎么办？等等。有些问题最终归结为大模型的共性技术，如大模型的内容安全等；有些要通过安全管理等等，总之，大家学的东西都有用武之地。

关于第一个问题，知乎上有个回答，但不够清晰。用户的问题如输入文本 x = “The weather in Shanghai is”，想要得到当前上海的天气，这应当要调用搜索引擎，而不是让大模型随机生成（早期的大模型确实是如此）。所以需要对每个插件进行描述，就如类似的提示信息，然后将用户文本部分分别调用插件，根据返回的结果组装成新的句子，如The weather in Shanghai is raining，再由大模型判断生成的句子的质量，从而觉得用哪个API以及用哪些历史词汇进行预测。

相关阅读可以查询公众号的历史文章：

互联网大数据处理技术与应用

互联网大数据与安全相关的各种技术，包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。

最新文章

如何高薪？基于应届生薪资数据采集与分析

我的美餐（诗三首）

计算机相关专业中那些形象有趣的词汇

2024《网络数据安全管理条例》来了，对爬虫设计运营有什么影响？

OpenAI o1来了，值得关注的三个显著变化！

人工智能安全课程讲什么？来看看新版PPT！

从大数据的角度看ChatGPT

为什么现在大多数的大模型都是decoder-only？

口令中竟包含哪些隐私信息，需要在破解中采取隐私保护技术？

程序员们，老板让你抓高德地图数据，你该怎么办？辞职吗？

人工智能安全课程讲什么？来看看新版PPT！

“脆皮大学生”的数据分析与启示