LLM 架构的新趋势

文摘 2024-06-06 08:35 美国

自 2022 年 11 月 OpenAI/GPT 推出以来，发生了很多事情。每个月都会诞生竞争对手和新应用程序，其中一些筹集了相当多的资金。搜索再次变得热门，这次是由 RAG 和 LLM 而不是 PageRank 提供支持。谁将大规模实现盈利还有待观察。成本正在急剧下降，主角们正在努力以更快的训练速度和更容易的微调提供更好的质量。虽然小型或专业的 LLM 开始出现，但总体趋势是朝着更多的 GPU、更多的权重、更多的代币发展。有时基于可疑的输入，例如 Reddit，试图收集更多而不是更好的来源。但如今，并非所有 LLM 都使用变压器，节能实现越来越受欢迎，试图降低 GPU 使用率，从而降低成本。然而，除了一个之外，其他所有仍然依赖于黑盒神经网络。

伟大的评估指标仍然难以捉摸，而且可能永远如此：最终，LLM 就像聚类一样，是无监督学习的一部分。两个查看非平凡数据集的用户永远不会就“真实”的底层集群结构达成一致。因为“真实”在这种情况下毫无意义。这同样适用于 LLM。但有一些例外：当用于预测分析，即监督学习时，可以从绝对意义上判断哪个 LLM 最好（在某种程度上；这也取决于数据集）。

从大型到简单 LLM，再回到大型 LLM
第一个 LLM 是非常大的单片系统。现在，您会看到许多简单的 LLM 来处理专业内容或应用程序，例如公司语料库。这样做的好处是训练速度更快、微调更容易、幻觉风险更低。但趋势可能会改变，回到大型 LLM。例如，我的 xLLM 架构由小型、专业的子 LLM 组成，每个子 LLM 都专注于一个顶级类别。如果将其中 2000 个捆绑在一起，则可以覆盖整个人类知识。整个系统（有时称为专家混合）由 LLM 路由器管理。

LLM 路由器
有时，人们会使用“多代理系统”这个词来代替，尽管其含义并不完全相同。LLM 路由器是子 LLM 之上的顶层，用于引导用户找到与其提示相关的正确子 LLM。它可以对用户明确（询问用户选择哪个子 LLM），也可以是透明的（自动执行），也可以是半透明的。例如，用户使用统计科学子 LLM 寻找“梯度下降”，可能会发现很少：相关信息在微积分子 LLM 中。LLM 路由器应该可以解决这个问题。

评估、更快的微调和自我调整
对 LLM 的一部分而不是整个系统进行微调可以极大地加快该过程。使用 xLLM，您可以在子 LLM 上本地微调超参数（快速），也可以一次在所有子 LLM 上微调超参数（慢速）。超参数可以是局部的，也可以是全局的。对于 xLLM，它们是直观的，因为系统基于可解释的 AI。在标准 LLM 中，LoRA（低秩自适应的缩写）实现了类似的目标。

自我调整的工作原理如下：收集用户选择的最喜欢的超参数，并根据这些选择构建默认超参数集。它还允许用户使用自定义超参数，两个用户对同一提示的答案不同。通过为答案中列出的每个项目（URL、相关概念、定义、参考、示例等）返回相关性分数，使此过程更加简单。

关于评估，我按如下方式进行。重建语料库附带的分类法：为每个网页分配一个类别，并将其与语料库中嵌入的实际类别进行比较。我使用过 Wolfram、维基百科和企业语料库：它们都具有非常相似的结构，包括分类法和相关项目；可以在抓取时检索此结构。

最后，只要有可能，就使用评估指标作为底层梯度下降算法（通常是深度神经网络）中的损失函数。当前使用的损失函数无法很好地代表模型质量，那么为什么不改用评估指标呢？这很难做到，因为你需要一个可以在训练过程中通过原子变化（例如权重更新或神经元激活）进行数十亿次更新的损失函数。我的解决方法是从评估指标的粗略近似开始，并随着时间的推移对其进行改进，直到它收敛到所需的指标。结果是一个自适应损失函数。它还可以防止你陷入局部最小值。

搜索、聚类和预测
一开始，搜索的 LLM 不受欢迎。现在，这是大多数公司客户正在寻找的，而且由于它可以比 Google 搜索或公司网站上的所有搜索框做得更好，它开始受到很多关注。网站上的出色搜索会带来更多销售。除了搜索之外，还有许多其他应用程序：代码生成、聚类和仅基于文本的预测分析。

知识图谱和其他改进
关于长距离上下文和知识图谱的讨论很多，它们被构建为顶层，以向 LLM 添加更多上下文。在我的 xLLM 中，知识图谱实际上是底层，在浏览时从语料库中检索。如果没有找到或质量较差，我会从外部来源导入一个，称之为增强知识图谱。我还使用同义词、索引、词汇表和书籍从头开始构建了一些。它可能由分类法和相关概念组成。无论如何，它带来了第一个 LLM 实现中缺少的长距离上下文。

我还引入了由多个标记组成的较长标记，例如“data~science”。我称它们为多标记。Meta 也使用它们。最后，我使用上下文标记，表示为（比如说）“data^science”。这意味着两个词“data”和“science”出现在同一个段落中，但不相邻。需要特别注意避免标记数量激增。除了语料库本身，我还利用用户提示作为增强数据来丰富输入数据。最频繁的嵌入存储在缓存中，以便在后端表中更快地检索。然后，可变长度的嵌入进一步提高了速度。虽然矢量和图形数据库是存储嵌入的流行方法，但在我的例子中，我使用嵌套哈希，即哈希（或键值数据库），其中值是哈希本身。处理稀疏性非常有效。

用于比较嵌入的余弦距离和点积受到越来越多的批评。还有其他指标，例如逐点互信息 (PMI)。

本地、安全、企业版本
越来越多的人对为企业客户提供本地、安全的实现感兴趣。毕竟，这就是钱所在。对于这些客户来说，幻觉是一种负担。低延迟、易于微调和可解释的参数是他们的其他重要标准。因此，他们对解决所有这些问题的开源 xLLM 感兴趣。

http://mp.weixin.qq.com/s?__biz=MzI3NDM0NjE1Nw==&mid=2247486657&idx=1&sn=e5374d0fa663f2cb1ca11e5a12fc275d

计算机视觉芯片设计

计算机视觉相关的咨讯，包括计算机视觉，3维重建，SLAM，计算机图形，计算摄像，深度学习芯片设计方案等！以技术发展方向为导向，创新论文技术为主，兼顾软硬件开发，同时希望引进最新的软硬开发流程管理!

最新文章

Pixel 9 必须具备的 6 大优势让我升级

谷歌2024第二季度财报前分析

新一代人工智能将首先服务于远程工作者

Nvidia 超越苹果成为美国第二大上市公司

LLM 架构的新趋势

高通首席执行官表示，Arm 在五年内占据 Windows PC 市场 50% 的份额是现实

专家称谷歌斥资 310 亿美元收购 HubSpot 是为了“抢占微软的市场份额”

现在买谷歌股票的三大原因！

生成式人工智能最新动态更新！

圣地亚哥被评为美国最佳夏季度假胜地之一。

它可能成为一家价值 4 万亿美元的公司

未来两年抵押贷款利率预测

华为新款麒麟 9010 SoC 与旧款骁龙芯片相比性能差距巨大

制药技术和药物输送设计中的人工智能（1）

CMU 的这篇 AI 论文介绍了 AgentKit：一种使用自然语言构建 AI 代理的机器学习框架

NVIDIA在生物医学的野心

谷歌的软件工程实践（2）：软件开发

Uber即将进入一个价值数万亿美元企业！

Nvidia 估值飙升至罕见的 1 万亿美元

到 2030 年，70% 的公司将使用人工智能——投资者现在可以购买的 2 只最佳人工智能股票

中国研究人员提出StructGPT，提高LLM对结构化数据的零样本推理能力

「傳奇投資人」吉姆羅傑斯：美元時代即將告終！全球正加速去美元化

LangChain 简介

斯坦福研究人员介绍 FrugalGPT：一种新的 AI 框架，用于 LLM API 处理自然语言查询

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉