让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

科技 2024-11-21 12:03 北京

蔡泽坤投稿
量子位 | 公众号 QbitAI

在数据分布持续变化的动态环境中，如何进行连续模型泛化？

东京大学等高校的研究人员提出了名为Koodos的新框架，可以基于在一些随机时间点观测的数据分布，在任意时刻生成当下适用的神经网络。

尽管数据随时间持续发生变化，但是泛化的模型能在连续时间中与数据分布始终保持协调一致。

Koodos将模型的复杂非线性动态转化为可学习的连续动态系统，同时利用先验知识以确保泛化过程的稳定性和可控性。

实验表明，Koodos显著超越现有方法，为时域泛化开辟了全新的研究方向。

模型泛化面临三大难题

在实际应用中，数据集的数据分布往往随着时间而不断变化，预测模型需要持续更新以保持准确性。

时域泛化旨在预测未来数据分布，从而提前更新模型，使模型与数据同步变化。

领域泛化（Domain Generalization, DG）作为一种重要的机器学习策略，旨在学习一个能够在未见目标领域中也保持良好表现的模型。

近年来研究人员发现，在动态环境中，领域数据（Domain Data）分布往往具有显著的时间依赖性，这促使了时域泛化（Temporal Domain Generalization, TDG）技术的快速发展。

时域泛化将多个领域视为一个时间序列而非一组独立的静态个体，利用历史领域预测未来领域，从而实现对模型参数的提前调整，显著提升了传统DG方法的效果。

然而，现有的时域泛化研究集中在“离散时间域”假设下，即假设领域数据在固定时间间隔（如逐周或逐年）收集。

基于这一假设，概率模型被用于预测时域演变，例如通过隐变量模型生成未来数据，或利用序列模型（如LSTM）预测未来的模型参数。

然而在现实中，领域数据的观测并不总是在离散、规律的时间点上，而是随机且稀疏地分布在连续时间轴上。

例如在下图展示的示例中，与传统TDG假设的领域在时间轴上规律分布不同，实际情况下人们只能在特定事件发生时获得一个域，而这些事件的发生时间并不固定。

同时，概念漂移（Concept Drift）在时间轴上发生，即领域数据分布随着时间不断演变：如活跃用户增加、新交互行为形成、年龄与性别分布变化等。

理想情况下，每个时态域对应的预测模型也应随时间逐渐调整，以应对这种概念漂移。

最后，由于未来的域采集时间未知，作者希望泛化预测模型到未来的任意时刻。

此外，传统方法也难以保证泛化过程在整个时间流中保持稳定和可控。

为了应对这些场景中的模型泛化，作者提出了“连续时域泛化”（Continuous Temporal Domain Generalization, CTDG）任务，其中观测和未观测的领域均分布于连续时间轴上随机的时间点。

CTDG关注于如何表征时态领域的连续动态，使得模型能够在任意时间点实现稳定、适应性的调整，从而完成泛化预测。

CTDG任务的挑战远超传统的TDG方法。

CTDG不仅需要处理不规律时间分布的训练域，更重要的是，它旨在让模型泛化到任意时刻，即要求在连续时间的每个点上都能精确描述模型状态。

而TDG方法则仅关注未来的单步泛化：在观测点优化出当前模型状态后，只需将其外推一步即可。

这使得CTDG区别于TDG任务——

CTDG的关键在于如何在连续时间轴上同步数据分布和模型参数的动态演变，而不是仅局限于未来某一特定时刻的模型表现。

具体而言，与TDG任务相比，CTDG的复杂性主要来自以下几个尚未被充分探索的核心挑战：

如何建模数据动态并同步模型动态
如何在高度非线性模型动态中捕捉主动态
如何确保长期泛化的稳定性和可控性

接下来具体分析一下这三大挑战。

如何建模数据动态并同步模型动态

CTDG要求在连续时间轴上捕捉领域数据的动态，并据此同步调整模型状态。

然而，数据动态本身难以直接观测，需要通过观测时间点来学习。

此外，模型动态的演变过程也同样复杂。理解数据演变如何驱动模型演变构成了CTDG的首要挑战。

如何在高度非线性模型动态中捕捉主动态

领域数据的预测模型通常依赖过参数化（over-parametrized）的深度神经网络，模型动态因此呈现出高维、非线性的复杂特征。

这导致模型的主动态嵌藏在大量潜在维度中。

如何有效提取并将这些主动态映射到可学习的空间，是CTDG任务中的另一重大挑战。

如何确保长期泛化的稳定性和可控性

为实现未来任意时刻的泛化，CTDG必须确保模型的长期稳定性。

此外，在许多情况下，人们可能拥有数据动态的高层次先验知识。

如何将这些先验知识嵌入CTDG的优化过程中，进而提升泛化的稳定性和可控性，是一个重要的开放性问题。

模型与动态联合优化

数学问题建模

在CTDG中，一个域表示在时间采集的数据集，由实例集组成。

其中，和分别为特征值、目标值和实例数。

作者重点关注连续时间上的渐进性概念漂移，表示为领域数据的条件概率分布随时间平滑变化。

在训练阶段，模型接收一系列在不规律时间点上收集的观测域。

其中每个时间点是定义在连续时间轴上的实数，且满足。

在每个上，模型学习到领域数据的预测函数。

其中表示时刻的模型参数。

CTDG的目标是建模参数的动态变化，以便在任意给定时刻上预测模型参数，从而得到泛化模型。

在本文后续部分中，将使用简写符号、、和，分别表示在时间上的、、和。

设计思路

作者提出的方法通过模型与数据的同步、动态简化表示，以及高效的联合优化展开。

具体思路如下：

同步数据和模型的动态：作者证明了连续时域中模型参数的连续性，而后借助神经微分方程（Neural ODE）建立模型动态系统，从而实现模型动态与数据动态的同步。
表征高维动态到低维空间：作者将高维模型参数映射到一个结构化的库普曼空间（Koopman Space）中。该空间通过可学习的低维线性动态来捕捉模型的主要动态。
联合优化模型与其动态：作者将单个领域的模型学习与各时间点上的连续动态进行联合优化，并设计了归纳偏置的约束接口，通过端到端优化保证泛化的稳定性和可控性。

数据动态建模与模型动态同步

作者首先假设数据分布在时间上具有连续演化的特性，即条件概率分布随时间平滑变化。

其演化规律可由一个函数所描述的动态系统刻画。

尽管真实世界中的渐进概念漂移可能较为复杂，但因概念漂移通常源于底层的连续过程（如自然、生物、物理、社会或经济因素），这一假设不失普适性。

基于上述假设，模型的函数功能空间应随数据分布变化同步调整。

可以借助常微分方程来描述这一过程：

由此可推导出模型参数的演化满足：

其中，是对的雅可比矩阵。

这一结果表明，如果数据分布的演化在时间上具有连续性，那么的演化过程也具有连续性。

也就是说，模型参数会随数据分布的变化而平滑调整。

上式为建立了一个由微分方程描述的模型动态系统。

但由于数据动态的具体形式未知，直接求解上述微分方程并不可行。

为此，作者引入了一个由神经网络定义的连续动态系统，用可学习的函数描述模型参数的变化。

该函数通过鼓励模型动态和数据动态之间的拓扑共轭（Topological Conjugation）关系使逼近真实动态。

具体而言，拓扑共轭要求通过泛化获得的模型参数与直接训练得到的参数保持一致。

为此，作者设定了以下优化目标，以学习的参数：

其中，通过在时刻的领域上直接训练获得。

则表示从时间通过动态演变至的泛化参数：

通过这一优化过程，作者建立了模型动态与数据动态之间的同步机制。

借助动态函数，可以在任意时刻精确求解模型的状态。

用库普曼算子简化模型动态

在实际任务中，预测模型通常依赖于过参数化的深度神经网络，使得模型动态呈现为在高维空间中纠缠的非线性动态。

直接对建模不仅计算量大，且极易导致泛化不稳定。

然而，受数据动态的支配，而数据动态通常是简单、可预测的。

这意味着在过参数化空间中，模型的主动态（Principal Dynamics）可以在适当转换的空间内进行更易于管理的表示。

受此驱动，作者引入了库普曼理论（Koopman Theory）来简化复杂的模型动态。

库普曼理论在保持动态系统特征的同时将复杂的非线性动态线性化。

具体而言，我们定义一个库普曼嵌入函数，将原始的高维参数空间映射到一个低维的库普曼空间中：

其中，表示库普曼空间中的低维表示。

通过库普曼算子，可以在线性空间中刻画的动态：

一旦获得了简化的动态表示，就可以在库普曼空间中更新模型参数，而后将其反映射回原始参数空间：

最终，通过库普曼算子的引入，作者实现了对模型动态的简化，保证了泛化过程的稳健性。

联合优化与先验知识结合

作者对多个组件同时施加约束确保模型能稳定泛化，其中包含以下关键项：

预测准确性：通过最小化预测误差，使预测模型在每个观测时间点都能准确预测实际数据。
泛化准确性：通过最小化预测误差，使泛化模型在每个观测时间点都能准确预测实际数据。
重构一致性：确保模型参数在原始空间与库普曼空间之间的转换具有一致性。
动态保真性：约束库普曼空间的动态行为，使得映射后的空间符合预期的动态系统特征。
参数一致性：确保泛化模型参数映射回原始空间后与预测模型参数保持一致。
引入库普曼理论的另一优势在于，可以通过库普曼算子的谱特性来评估模型的长期稳定性。

此外，还可以在库普曼算子中施加约束来控制模型的动态行为。

通过观察库普曼算子的特征值，可以判断系统是否稳定：

若所有特征值实部为负，系统会稳定地趋向于一个平衡状态。
若存在特征值实部为正，系统将变得不稳定，模型在未来可能会崩塌。
若特征值实部为零，系统可能表现出周期性行为。

通过分析这些特征值的分布，可以预测系统的长期行为，识别模型在未来是否可能出现崩溃的风险。

此外，还可以通过对库普曼算子施加显式约束来调控模型的动态行为。例如：

周期性约束：当数据动态为周期性时，可将库普曼算子设为反对称矩阵，使其特征值为纯虚数，从而使模型表现出周期性行为。
低秩近似：将表示为低秩矩阵，有助于控制模型的自由度，避免过拟合到次要信息。

通过这些手段，不仅提高了泛化的长期稳定性，还增强了模型在特定任务中的可控性。

实验

实验设置

为验证算法效果，作者使用了合成数据集和多种真实世界场景的数据集：

合成数据集包括 Rotated 2-Moons 和 Rotated MNIST 数据集，通过在连续时间区间内随机生成时间戳，并对 Moons 和 MNIST 数据按时间戳逐步旋转生成连续时域。

真实世界数据集则包括以下三类：

事件驱动数据集Cyclone：基于热带气旋的卫星图像预测风力强度，气旋发生日期对应连续时域。
流数据集Twitter和House：分别从任意时间段抽取推文和房价数据流构成一个领域，多次随机抽取形成连续时域
不规则离散数据集Yearbook：人像图片预测性别，从 84 年中随机抽取 40 年数据作为连续时域。

定量分析

作者首先对比了Koodos方法与各基线方法的定量性能。

下表显示，Koodos方法在所有数据集上展现了显著的性能提升。

在合成数据集上，Koodos能够轻松应对持续的概念漂移，而所有基线方法在这种场景下全部失效。

在真实世界数据集上，尽管某些基线方法（如 CIDA、DRAIN和DeepODE）在少数场景中略有表现，但其相较于简单方法（如Offline）的改进非常有限。

相比之下，Koodos显著优于所有现有方法，彰显出在时域泛化任务中考虑分布连续变化的关键作用。

决策边界

为直观展示泛化效果，作者在Rotated 2-Moons数据集上进行了决策边界的可视化。

该任务具有极高难度：模型需在0到35秒左右的35个连续时域上训练，随后泛化到不规律分布在35到50秒的15个测试域。而现有方法通常只能泛化至未来的一个时域（T+1），且难以处理不规律的时间分布。

下图展示了从15个测试域中选取了7个进行可视化测试的结果（紫色和黄色表示数据区域，红线表示决策边界）。

结果清晰地表明，基线方法在应对连续时域的动态变化时表现不足。随着时间推进，决策边界逐渐偏离理想状态。

尤其是最新的DRAIN方法（ICLR23）在多步泛化任务中明显失效。

相比之下，Koodos在所有测试域上展现出卓越的泛化能力，始终保持清晰、准确的决策边界，与实际数据分布变化高度同步。

这一效果突显了Koodos在时域泛化任务中的优势。

模型演变轨迹

为更深入地分析模型的泛化能力，作者通过t-SNE降维，将不同方法的模型参数的演变过程（Model Evolution Trajectory）在隐空间中可视化。

可以看出，Koodos的轨迹呈现出平滑而有规律的螺旋式上升路径，从训练域平滑延伸至测试域。

这一轨迹表明，Koodos能够在隐空间中有效捕捉数据分布的连续变化，并随时间自然地扩展泛化。

相比之下，基线模型的轨迹在隐空间中缺乏清晰结构，随着时间推移，逐渐出现明显的偏离，未能形成一致的动态模式。

时域泛化的分析与控制

在 Koodos 模型中，库普曼算子为分析模型动态提供了有效手段。

作者对Koodos在2-Moons数据集上分析表明，库普曼算子的特征值在复平面上分布在稳定区和不稳定区。

这意味着Koodos在中短期内能稳定泛化，但在极长时间的预测上将会逐渐失去稳定性，偏离预期路径（下图b）。

为提升模型的稳定性，作者通过将库普曼算子配置为反对称矩阵（即Koodos版本），确保所有特征值为纯虚数，使模型具有周期性稳定特性。

在这一配置下，Koodos展现出高度一致的轨迹，即使在长时间外推过程中依然保持稳定和准确，证明了引入先验知识对增强模型稳健性的效果（下图c）。

（a：部分训练域数据；b：不受控，模型最终偏离预期；c：受控，模型始终稳定且准确。）

时域泛化与生成式模型任务有天然的关联，Koodos所具备的泛化能力能够为神经网络生成技术带来新的可能。

Koodos的应用并不局限于时域泛化，它也可以适用于其他分布变化的任务中。

作者计划探索其在非时态领域的应用。

同时，作者也将探索时域泛化在大模型中的集成，帮助LLM在复杂多变的分布中保持鲁棒性和稳定性。

论文地址：
https://arxiv.org/pdf/2405.16075
GitHub：
https://github.com/Zekun-Cai/Koodos/

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247760141&idx=5&sn=843c11b2bfc49bbc12b89cc252478559

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

黄仁勋港科大全程高能：对话沈向洋，现场发显卡，与梁朝伟共同获得荣誉博士学位

乌镇最火AI议题，原来答案藏在这份报告里

AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？

将活体神经元植入大脑，他和马斯克闹掰后开辟脑机接口新路线

限定120分钟科研挑战，o1和Claude表现超越人类

可口可乐pick可灵，用AI拍了新广告片

经典卡尔曼滤波器改进视频版「分割一切」，网友：好优雅的方法

Nature：谷歌学术正在被AI工具颠覆

20种复杂Excel操作一句话搞定！北大ChatExcel全新升级，所有人免费可用

最新嘉宾阵容来了！MEET2025智能未来大会正在报名中

陶哲轩宣布“等式理论计划”成功，人类AI协作，57天完成2200万+数学关系证明

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明

40亿美元！Anthropic再获亚马逊新一轮投资，双方正合作开发AI芯片

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

低成本机器人“皮肤”登上Nature子刊：实现三维力的自解耦，来自法国国家科学研究中心&香港大学

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

百度AI营收占比翻倍，净利润涨12%，李彦宏主动剧透新版文心大模型

第二波嘉宾曝光！二十位科技圈大咖齐聚MEET2025智能未来大会

汽车上的《Her》：模型竟然想做个人了，甩掉机械感，让灵魂有趣，来自吉利的全新尝试

王炸！谁能想到年底杀出的黑马是美图啊

谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

FLUX“官方版ControlNet”来了！景深轮廓更精准控制，共四款官方工具一齐上线

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

2D图纸分分钟转3D模型！杭州独角兽补齐空间智能关键一环，现公开两大技术引擎

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

OpenAI重夺竞技场第一，但这波靠的是4o

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

定档12月11日，MEET2025智能未来大会报名通道已开启！

DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次，后续将开源

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

蔡泽坤 投稿量子位 | 公众号 QbitAI

模型泛化面临三大难题

模型与动态联合优化

数学问题建模

设计思路

数据动态建模与模型动态同步

用库普曼算子简化模型动态

联合优化与先验知识结合

实验

实验设置

定量分析

决策边界

模型演变轨迹

时域泛化的分析与控制

蔡泽坤投稿
量子位 | 公众号 QbitAI