集成大语言模型与产业数据智能，迈向“产业基础模型”

科技科技 2024-08-28 18:05 北京

（本文阅读时间：11分钟）

编者按：随着数据量和模型规模的增加，大语言模型在指令执行、知识存储、逻辑推理和编程技能等方面展现出了突破性的能力。然而，大语言模型在产业领域的潜能尚未得到充分挖掘，特别是在满足产业数据分析、推理、预测、决策等数据智能需求方面。如何有效地变革各行业的数据模型及智能的构建方法与应用范式，仍然面临诸多挑战。为应对这些挑战，微软亚洲研究院提出了构建产业基础模型的倡议，其核心理念在于通过持续预训练，将产业数据智能相关的知识与技能融入到大语言模型中。基于这一理念，微软亚洲研究院开发了生成式表数据学习（Generative Tabular Learning，GTL）框架，展示了如何在表数据这一广泛使用的数据表征上，构建具有跨行业、跨数据模式、跨任务的产业基础模型。

尽管大语言模在新闻撰写、文档总结、客服助理和虚拟助手等以语言为中心的任务上表现出色，但在深入理解和处理特定的行业数据时仍存在局限。为了应对大模型在产业界应用中所面临的挑战，微软亚洲研究院提出了构建产业基础模型（Industrial Foundation Models）的创新思路，并在表数据上成功验证了实现跨领域通用数据智能的可行性及其巨大潜力。研究员们设计的生成式表数据学习（Generative Tabular Learning，GTL）框架，成功地将多行业数据智能相关的知识融入大语言模型中，使其具备在新领域、新数据及新任务上的直接迁移和泛化能力，更加敏捷地响应不同的产业需求。现在，微软亚洲研究院正式开源这一技术范式，并希望通过此范式推动数据科学在各行业中的广泛应用，促使复杂的数据智能技术变得人人可及。

项目链接：

https://github.com/microsoft/Industrial-Foundation-Models

相关论文：From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models（已收录于KDD 2024）

https://dl.acm.org/doi/10.1145/3637528.3671975

产业数据的巨大潜力亟待挖掘

微软亚洲研究院的研究员们发现，大语言模型在利用产业数据这一关键资源方面，尚未充分发挥其潜力。产业数据通常以特定结构存储在不同行业和部门的数据仓库中，比如用于关系结构的表数据、记录时变信号的时间序列数据，以及用于复杂相互关联的图数据。这些结构中蕴含的丰富数据知识往往难以通过自然语言捕捉，因此当前以语义知识为核心的大语言模型在掌握数据智能相关的知识与能力方面存在不足。

更重要的是，产业数据及其蕴含的智能，为多个领域的重要应用奠定了基础。这种智能不仅来源于数值和结构化信息，还包括特定任务的需求和领域专有知识。例如，在医疗健康领域，来自患者的基本信息、生理信号和治疗历史的数据，可用于辅助精确诊断和预后分析。在能源存储领域，分析电池循环数据中的模式，可以加速材料筛选、优化充放电协议、指导电池回收中的价值评估。在商业领域，历史销售和需求数据可以辅助预测未来的市场趋势并制定定价策略。传统的数据智能方法通常依赖于特定的数据模式与任务需求，具体表现为各个垂直领域中独立开发及优化的小模型。

为应对这些挑战与机遇，微软亚洲研究院提出构建产业基础模型的新思路。其核心策略是以统一的方式表征产业数据，并在此基础上对大语言模型进行持续预训练，从而将通用的数据智能知识与能力整合到大语言模型中，创造出在新场景上可直接应用的产业基础模型。这种模型不仅能够在各行业部门中执行以语言指令为中心的任务，还可以提取跨任务和跨部门的产业知识，并进行数据驱动的预测和逻辑推理。

此外，通过提供一个以语言为中心、无需参数调优和编写代码的用户界面，产业基础模型还有潜力改变传统的数据科学应用范式。这个用户友好的界面将使各行业的领域专家具备全面的数据科学技能，推动先进数据分析技术的普及。

同时，产业基础模型强大的跨领域能力，也使其能够有效地进行知识迁移与技能泛化。这对在数据有限的领域进行有效地少样本上下文学习尤为关键。

图1：产业基础模型的架构概览

基于表数据开发产业基础模型

表数据（Tabular Data）通常存储于关系型数据库中，是众多产业领域中最普遍的数据格式之一，也是预测建模的基础。因此，微软亚洲研究院的研究员们从表数据着手，构建能够横跨不同产业领域的基础模型。

研究员们收集了来自不同产业领域的各种表数据集及其相应的预测任务，并将这些数据转换为面向指令的语言格式。这种转换使得大语言模型能够适应多样化的数据模式，例如不同特征的语义和数值含义，支持数值和类别特征的任意组合。此外，通过将大语言模型与数据样本及可选的背景信息结合，模型不仅能够处理回归和分类任务，还能够支持零样本（Zero-Shot）学习和少样本上下文学习（In-Context Learning）的场景。

图2：基于表数据的产业基础模型开发流程

然而，将大语言模型的语言处理能力融入表数据的学习中仍面临巨大的挑战。最主要的问题在于，大语言模型通常在自然语言数据上进行预训练，因此在处理格式化表数据的精细差别时显得力不从心，并且缺乏对特定领域知识的深入理解，而这些知识对于有效的表数据学习至关重要。

为了解决这些挑战，研究员们引入了一个持续预训练阶段，即生成式表数据学习（Generative Tabular Learning，GTL）。通过对特征和标签标记进行自回归式生成建模，GTL 框架可以将数据知识与统计学习能力有效整合到大语言模型中。经过 GTL 框架增强的大语言模型，可以通过调整指令提示，直接应用于新的产业数据和任务需求。这意味着，模型能够在无需复杂参数调优的情况下，实现高效的数据处理，并且在不同领域知识、数据模式和任务之间进行广泛迁移，从而推动大语言模型向产业模型的方向进化。

实验结果：GTL显著增强了LLaMA模型对表数据的理解能力

为了验证 GTL 的有效性，研究员们收集了来自超过400个不同领域的表数据集，经过严格的去重过滤和筛选，最终保留了384个独立的数据集。其中，44个数据集被用于模型评估，其余的数据集用于构建1000多个不同的预测任务，以支持 GTL 的持续预训练。研究员们选择 LLaMA 2 作为基础大语言模型，并将其与开源和私有的大语言模型，以及传统表数据机器学习算法进行了比较。

如图3所示，实验结果表明，GTL 显著增强了 LLaMA 模型对表数据的理解能力。这表明，表数据中所蕴含的行业知识尚未被开源的 LLaMA 模型充分掌握，而 GTL 则有效弥补了纯语言数据训练出的语言模型在产业数据智能上的不足。值得一提的是，尽管 GTL 增强的 LLaMA 模型参数规模较小，但其性能与 GPT-4 等更大规模的模型相比仍具有竞争力，甚至在某些情况下表现更为优异。不过需要注意的是，与 GPT-4 在公开表数据上的对比结果可能因其私有训练数据中潜在的“数据污染”问题而产生偏差。

此外，GTL 增强的 LLaMA 模型不仅在少样本学习场景中通过无须调参的上下文学习，超越了传统表数据机器学习方法的统计学习能力，还具备了这些方法所缺乏的零样本学习能力。

图3：GTL 增强的 LLaMA-2-13B 与其他基线模型的对比（更多详细结果请参阅论文）

研究员们还初步探究了 GTL 的规模定律。如图4所示，数据的多样性和模型参数规模都以幂律方式提升了新数据和新任务上的性能。这一发现表明了产业基础模型在跨多样任务和领域的广泛泛化潜力，有望使复杂的数据智能技术变得更加普及，即便在数据可得性有限的行业中也能发挥重要作用。

图4：初探 GTL 的规模定律

多维度拓展产业基础模型的潜力

生成式表数据学习（GTL）为会话式表数据深度学习打开了大门，使用户能够通过与模型对话来实现数据智能相关的分析、预测、推理和决策。通过将 GTL 与语言模型集成，模型不仅能够生成预测结果，还可以提供对相应结果的解释，从而为表数据学习的可解释性带来了新的机遇。基于这一范式所展现出的巨大潜力，微软亚洲研究院从两个角度展望了产业基础模型未来的研究和应用前景。

首先，产业基础模型本身的多维度扩展蕴含着巨大的潜力。这包括扩展数据集的种类和规模、增加模型规模、延长上下文长度，以及整合多样化的数据格式，如时间序列和图数据等。全面的扩展将使产业基础模型能够以更高的精度和更强的适应性，处理更多领域的更广泛任务。同时，产业数据知识与大语言模型生态系统的前沿进展相结合，如工具使用、智能体和对话交互，将进一步拓展产业基础模型的能力边界。这种协同作用可以打造更鲁棒和多功能的模型，将产业数据智能与大语言模型的复杂功能无缝融合。

其次，从用户视角来看，产业基础模型的发展将彻底革新产业数据智能的实现方式，重新定义数据科学的用户界面和工具链，进而催生出创新性的产品和服务。例如，领域专家无需掌握深厚的编程和数据科学知识，即可借助数据科学助手获得先进的数据分析和预测能力，从而推动前沿数据科学工具的普及。另外，产业基础模型可以作为决策支持工具，为行业领导者和从业者提供深刻的数据洞察和个性化分析，帮助企业做出更明智的战略决策，优化运营流程，并发掘新的增长机遇。

将大语言模型与产业数据智能相结合，是迈向产业基础模型的关键一步。通过持续扩展和创新，创建以用户为中心的工具，使前沿的数据智能技术更易于获取，能够释放出产业基础模型在各个行业中的更多潜能。微软亚洲研究院将持续推动这一进程，不断突破界限，让前沿的数据智能技术惠及更多的行业领域。

最新文章

Rust自动形式化证明、LLMs图模式理解、机械臂动作模仿

科学匠人 | 对话松下康之：以具身智能突破人工智能与物理世界的边界

对话《Nature》论文作者，揭秘AI2BMD背后的故事

近实时的全球碳预算，揭示2023年陆地碳汇能力锐减

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

MarS：生成式基座模型时代的通用金融市场模拟引擎

明天直播 | ECCV 2024精选论文分享

如何泛化AI的深度推理能力？

简单而强大：DIFF Transformer降噪式学习，开启模型架构新思路

科学匠人 | 刘海广：发挥“生物多样性”法则的力量，寻找科学的新答案

VIS 2024最佳论文 | VisEval：推动自然语言生成可视化的全新评估框架

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

ECCV上新 | 精选计算机视觉领域6篇前沿论文

Data Formulator：使用prompt就能轻松完成数据可视化

为什么你的LLMs玩不转外部知识？RAG分类学助你诊断！

守护记忆：多模态大模型为认知障碍患者带来全新的训练方法

科研上新 | 金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

开源工具RD-Agent：让研究与开发过程更智能

VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院2025校园招聘正式开启！

跨越模态边界，探索原生多模态大语言模型

明天直播 | ACL 2024精选5篇论文直播分享

代码摘要、生成、翻译、修复全覆盖... WaveCoder开启代码智能新篇章

集成大语言模型与产业数据智能，迈向“产业基础模型”

Microsoft Research Forum第四期来了！一起来看多模态模型的最新技术进展与应用

星跃计划 | 微软亚洲研究院北京+温哥华联合科研项目上新，聚焦大语言模型！

开启因果发现新范式！解密复杂系统的核心机制

微软亚洲研究院多项创新技术，弥合大模型低比特量化与终端部署间鸿沟

顶尖高校优秀学子齐聚微软亚洲研究院新星科技节，论道科研！

如何理解和探索大模型的多语言能力？

执业医师转型人工智能研究员，王子龙说“跨”才是关键

ACL上新 | 6篇精选论文带你看最新LLMs进展

周二直播 | AI for Science最新论文分享

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

图像解码器；多头混合专家网络；视觉模型美学对齐；医学视觉任务适应基准

大语言模型应用如何实现端到端优化？

LSR-MP：突破分子模拟瓶颈，探索知识引导的AI范式

明天直播 | ICML 2024精选论文分享

nnScaler：重塑深度学习并行策略，大幅提升训练效率

ICML 2024 | 微软亚洲研究院邀你共聚机器学习领域盛会

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

数据驱动模型提升电动汽车电池退化预测准确率

ProbTS：时间序列预测的统一评测框架

你应该知道的10个AI术语

实习 | 微软亚洲研究院“明日之星”开放岗位

脑启发设计：人工智能的进化之路

以智能化为舵手，引领现代计算机系统架构新航向

构建负责任且大规模的生成式人工智能的七个启示

AI赋能天气：微软研究院发布首个大规模大气基础模型Aurora

CVPR上新 | 从新视角合成、视频编解码器、人体姿态估计，到文本布局分析，微软亚洲研究院精选论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉