一文彻底搞懂多模态 - 大语言模型推理

文摘科技 2024-10-11 22:39 湖北

大语言模型推理

大语言模型推理（Large Language Model Reasoning）是一种利用大型语言模型进行的分析、判断和得出结论的过程，这通常涉及到对语言的理解、逻辑关系的把握以及知识的应用等多个方面。在大语言模型推理中，模型能够处理复杂的自然语言输入，理解其含义，并根据这些信息进行推理，最终生成有意义的输出。

接下来分三部分：指令调优、上下文学习、思维链，一起来深入了解多模态基础：大语言模型推理。

大语言模型推理

一、指令调优

什么是指令调优（Instruction Tuning）？指令调优是通过在一组以指令格式组织的数据集上微调预训练的LLM，以实现对未见任务的泛化能力提升。多模态指令调优则是将这种方法扩展到多模态领域。

研究人员通常通过改编现有基准数据集或进行自我指导来获取适用于多模态指令调优的数据集。在模型方面，一种常见的方法是将外部模态信息注入到LLM中，并将其作为强大的推理器。

什么是多模态指令（Multimodal Instruction）？多模态指令数据的基本形式可以概括为（指令，多模态输入，回答）三元组。

一种直观的获得这种数据的方式是改造基准（Benchmark）数据集。例如，图像描述（Image Captioning）数据集，原本包括一张图片和一段文字描述（Ground Truth），这种数据自然构成了指令数据的多模态输入和回答部分，指令部分则为相应任务的描述，一般由人工编写或者调用GPT生成。

二、上下文学习

什么是上下文学习（In-contxt Learning）？上下文学习是LLM的一项重要且新兴的能力，它允许模型通过少量示例和可选指令进行学习，并能够在新问题上进行推广，以实现少样本学习并解决复杂且未见过的任务。

在推理阶段，上下文学习（ICL）可以通过在原始样本中添加一个演示集（即一组上下文样本）来实现。这种方法特别适用于解决各种视觉推理任务，以及教导LLM使用外部工具。

在GPT-3中，In-context learning可以分为以下三种情况：

Zero-shot Learning：不给GPT任何样例，仅通过自然语言指令来指导模型完成任务。
One-shot Learning：给GPT一个任务示例，模型根据这个示例来理解任务并生成输出。
Few-shot Learning：给GPT多个任务示例，模型通过这些示例来更好地理解任务并生成输出。

三、Chain-of-Thought（思维链）

什么是Chain-of-Thought？Chain-of-Thought（思维链，简称CoT）是一种改进的提示技术，旨在提升大型语言模型（LLMs）在复杂推理任务上的表现。

Chain-of-Thought要求模型在输出最终答案之前，先展示一系列有逻辑关系的思考步骤或想法，这些步骤相互连接，形成了一个完整的思考过程。

Chain-of-Thought可以通过两种主要方式实现：Zero-Shot CoT和Few-Shot CoT。

Zero-Shot CoT：在没有示例的情况下，仅仅在指令中添加一行经典的“Let’s think step by step”，就可以激发大模型的推理能力，生成一个回答问题的思维链。

Few-Shot CoT：通过提供几个包含问题、推理过程与答案的示例，让模型学会如何逐步分解问题并进行推理。这种方式需要少量的示例来引导模型，但通常能够获得更好的效果。

将单模态的CoT扩展到多模态CoT，需要填补模态差距。这通常涉及将不同模态的信息进行有效对齐和融合，以便模型能够同时理解和处理来自不同模态的数据。

http://mp.weixin.qq.com/s?__biz=MzkzMTEzMzI5Ng==&mid=2247492112&idx=1&sn=d178eeafcbebc781a069dc07a6718de7

架构师带你玩转AI

分享人工智能，让所有人玩转AI

最新文章

一文彻底搞懂深度学习 - 优化器（Optimizer）

一文彻底搞懂深度学习 - 模型评估（Evaluation）

一文彻底搞懂自然语言处理 - 贝叶斯统计（Bayesian Statistics）

大模型实战 - 如何使用Prompt快速构建应用？

一文彻底搞懂自然语言处理 - 词嵌入（Word Embedding）

好书推荐 -《大模型推荐系统：算法原理、代码实战与案例分析》

一文彻底搞懂自然语言处理 - 总体介绍（Introduction）

大模型面试 - T5（Text-to-Text Transfer Transformer）

一文彻底搞懂深度学习 - 过拟合和欠拟合

一文彻底搞懂深度学习 - 梯度消失和梯度爆炸

大模型实战 - 训练不了模型，就训练自己

好书推荐 - 《一本书读懂AI Agent：技术、应用与商业》

好书推荐 - 《架构思维：从程序员到CTO》

一文彻底搞懂深度学习 - Transformer

一文彻底搞懂深度学习 - 注意力机制（Attention Mechanism）

一文彻底搞懂深度学习 - 序列模型（Sequence Model）

一文彻底搞懂深度学习 - 卷积和池化（Convolution And Pooling）

大模型实战 - 如何学习和拥抱AI？

好书推荐 - 《这就是ChatGPT》

一文彻底搞懂深度学习 - 训练和推理（Training vs Inference）

一文彻底搞懂深度学习 - 超参数（Hyperparameter）

它来了，它来了，它终于来了

一文彻底搞懂深度学习 - 梯度下降（Gradient Descent）

一文彻底搞懂深度学习 - 反向传播（Back Propagation）

好书推荐 - 《大模型应用开发极简入门：基于GPT-4和ChatGPT》

大模型面试 - GPT（Generative Pre-trained Transformer）

一文彻底搞懂深度学习 - 损失函数（Loss Function）

一文彻底搞懂深度学习 -激活函数（Activation Function）

一文彻底搞懂深度学习 - 神经网络（Neural network）

一文彻底搞懂深度学习 - 感知机（perceptron）

好书推荐 - 《深度学习入门：基于Python的理论和实现》

大模型实战 - 如何构建AI底层架构？

一文彻底搞懂GPT - GPT-3

一文彻底搞懂GPT - GPT-2

一文彻底搞懂论文 - GPT-1

一文彻底搞懂大模型实战 - 角色扮演（Role Play）

一文彻底搞懂大模型实战 - 文本到SQL（Text2SQL）

好书推荐 - 《地理计算与R语言》

大模型实战 - 多模态

一文彻底搞懂多模态 - 大语言模型推理

一文彻底搞懂多模态 - 多模态推理

大模型面试 - BERT（基于Transformer的双向编码器）

一文彻底搞懂大模型 - Hugging Face Transformers

一文彻底搞懂大模型 - 基于人类反馈的强化学习（RLHF）

一文彻底搞懂大模型 - LLaMA-Factory

大模型面试 - 大模型第一部分课程简介

好书推荐 - 《深度神经网络高效计算：大模型轻量化原理与关键技术》

好书推荐 - 《多模态大模型：技术原理和实战》

一文彻底搞懂多模态 - 多模态检索

大模型面试 - 计算机视觉（Computer Vision）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉