LLM 架构的新趋势

文摘   2024-06-06 08:35   美国  

自 2022 年 11 月 OpenAI/GPT 推出以来,发生了很多事情。每个月都会诞生竞争对手和新应用程序,其中一些筹集了相当多的资金。搜索再次变得热门,这次是由 RAG 和 LLM 而不是 PageRank 提供支持。谁将大规模实现盈利还有待观察。成本正在急剧下降,主角们正在努力以更快的训练速度和更容易的微调提供更好的质量。虽然小型或专业的 LLM 开始出现,但总体趋势是朝着更多的 GPU、更多的权重、更多的代币发展。有时基于可疑的输入,例如 Reddit,试图收集更多而不是更好的来源。但如今,并非所有 LLM 都使用变压器,节能实现越来越受欢迎,试图降低 GPU 使用率,从而降低成本。然而,除了一个之外,其他所有仍然依赖于黑盒神经网络。

伟大的评估指标仍然难以捉摸,而且可能永远如此:最终,LLM 就像聚类一样,是无监督学习的一部分。 两个查看非平凡数据集的用户永远不会就“真实”的底层集群结构达成一致。因为“真实”在这种情况下毫无意义。这同样适用于 LLM。但有一些例外:当用于预测分析,即监督学习时,可以从绝对意义上判断哪个 LLM 最好(在某种程度上;这也取决于数据集)。

从大型到简单 LLM,再回到大型 LLM
第一个 LLM 是非常大的单片系统。现在,您会看到许多简单的 LLM 来处理专业内容或应用程序,例如公司语料库。这样做的好处是训练速度更快、微调更容易、幻觉风险更低。但趋势可能会改变,回到大型 LLM。例如,我的 xLLM 架构由小型、专业的子 LLM 组成,每个子 LLM 都专注于一个顶级类别。如果将其中 2000 个捆绑在一起,则可以覆盖整个人类知识。整个系统(有时称为专家混合)由 LLM 路由器管理。

LLM 路由器
有时,人们会使用“多代理系统”这个词来代替,尽管其含义并不完全相同。LLM 路由器是子 LLM 之上的顶层,用于引导用户找到与其提示相关的正确子 LLM。它可以对用户明确(询问用户选择哪个子 LLM),也可以是透明的(自动执行),也可以是半透明的。例如,用户使用统计科学子 LLM 寻找“梯度下降”,可能会发现很少:相关信息在微积分子 LLM 中。LLM 路由器应该可以解决这个问题。


评估、更快的微调和自我调整
对 LLM 的一部分而不是整个系统进行微调可以极大地加快该过程。使用 xLLM,您可以在子 LLM 上本地微调超参数(快速),也可以一次在所有子 LLM 上微调超参数(慢速)。超参数可以是局部的,也可以是全局的。对于 xLLM,它们是直观的,因为系统基于可解释的 AI。在标准 LLM 中,LoRA(低秩自适应的缩写)实现了类似的目标。

自我调整的工作原理如下:收集用户选择的最喜欢的超参数,并根据这些选择构建默认超参数集。它还允许用户使用自定义超参数,两个用户对同一提示的答案不同。通过为答案中列出的每个项目(URL、相关概念、定义、参考、示例等)返回相关性分数,使此过程更加简单。

关于评估,我按如下方式进行。 重建语料库附带的分类法:为每个网页分配一个类别,并将其与语料库中嵌入的实际类别进行比较。我使用过 Wolfram、维基百科和企业语料库:它们都具有非常相似的结构,包括分类法和相关项目;可以在抓取时检索此结构。

最后,只要有可能,就使用评估指标作为底层梯度下降算法(通常是深度神经网络)中的损失函数。当前使用的损失函数无法很好地代表模型质量,那么为什么不改用评估指标呢?这很难做到,因为你需要一个可以在训练过程中通过原子变化(例如权重更新或神经元激活)进行数十亿次更新的损失函数。我的解决方法是从评估指标的粗略近似开始,并随着时间的推移对其进行改进,直到它收敛到所需的指标。结果是一个自适应损失函数。它还可以防止你陷入局部最小值。

搜索、聚类和预测
一开始,搜索的 LLM 不受欢迎。现在,这是大多数公司客户正在寻找的,而且由于它可以比 Google 搜索或公司网站上的所有搜索框做得更好,它开始受到很多关注。网站上的出色搜索会带来更多销售。除了搜索之外,还有许多其他应用程序:代码生成、聚类和仅基于文本的预测分析。

知识图谱和其他改进
关于长距离上下文和知识图谱的讨论很多,它们被构建为顶层,以向 LLM 添加更多上下文。在我的 xLLM 中,知识图谱实际上是底层,在浏览时从语料库中检索。如果没有找到或质量较差,我会从外部来源导入一个,称之为增强知识图谱。我还使用同义词、索引、词汇表和书籍从头开始构建了一些。它可能由分类法和相关概念组成。无论如何,它带来了第一个 LLM 实现中缺少的长距离上下文。

我还引入了由多个标记组成的较长标记,例如“data~science”。我称它们为多标记。Meta 也使用它们。最后,我使用上下文标记,表示为(比如说)“data^science”。这意味着两个词“data”和“science”出现在同一个段落中,但不相邻。需要特别注意避免标记数量激增。 除了语料库本身,我还利用用户提示作为增强数据来丰富输入数据。最频繁的嵌入存储在缓存中,以便在后端表中更快地检索。然后,可变长度的嵌入进一步提高了速度。虽然矢量和图形数据库是存储嵌入的流行方法,但在我的例子中,我使用嵌套哈希,即哈希(或键值数据库),其中值是哈希本身。处理稀疏性非常有效。

用于比较嵌入的余弦距离和点积受到越来越多的批评。还有其他指标,例如逐点互信息 (PMI)。

本地、安全、企业版本
越来越多的人对为企业客户提供本地、安全的实现感兴趣。毕竟,这就是钱所在。对于这些客户来说,幻觉是一种负担。低延迟、易于微调和可解释的参数是他们的其他重要标准。因此,他们对解决所有这些问题的开源 xLLM 感兴趣。

计算机视觉芯片设计
计算机视觉相关的咨讯,包括计算机视觉,3维重建,SLAM,计算机图形,计算摄像,深度学习芯片设计方案等!以技术发展方向为导向,创新论文技术为主,兼顾软硬件开发,同时希望引进最新的软硬开发流程管理!