大模型引领的数据挖掘新时代，该如何平衡隐私保护与创新应用？

文摘 2024-09-13 18:28 北京

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

概述

在这个人工智能和大数据迅猛发展的时代，大模型技术正在以惊人的速度改变我们的生活和工作方式。然而，随着这些技术的进步，我们也面临着一系列新的挑战，尤其是在数据挖掘领域。2024年8月，在AI TIME举办的KDD预讲会上，来自北京大学数据科学和统计学博士李昊轩，悉尼大学博士张曦锟、合肥工业大学硕士生贺壮壮、北京联合大学自动化专业本科生左春生通过具体案例和专业见解，分析了大模型时代数据挖掘的机遇与挑战，为大家提供了新的视角和深入的见解。

点击 阅读原文 观看原视频！

在具身智能开发中，

如何处理实时数据挖掘与决策的问题？

李昊轩：

具身智能涉及智能系统通过感知和交互与环境实时互动。在这一领域，我们追求的是使Agent能够理解任务并执行，超越仅识别数据相关性的传统机器学习。Agent需要通过与环境的互动来学习，例如区分数字形状和颜色，识别真正的因果关系。

在具身智能中，关键挑战在于实时处理数据，识别因果关系而非误导的相关性。我们希望算法能够识别物体的本质特征，而不是依赖背景信息。因果关系的处理对于智能系统从基础学习环境至关重要。

贺壮壮：

在实时数据处理中，我们可能会遇到OOD（Out-of-Distribution）泛化问题，主流解决方案之一是学习特征，但这可能形成虚假相关性，影响未来模型的预测。在实时过程中，样本形式的不确定性要求我们处理从未见过的样本，这可能涉及OOD Detection。此外，如何在未见过的样本上成功预测其类别，涉及OOD泛化。这与OOD泛化关联性较大。

张曦锟：

我很认同Agent需要不断学习新知识的观点。我们在持续学习的过程中，必须找到因果关系。如果Agent在学习过程中只掌握了偶然相关性而非因果关系，那么它在面对新任务时更容易遗忘，因为这些不是通用的知识。此外，我也认同壮壮的观点，即数据处理和响应速度在大模型时代尤为重要，尤其是在需要实时响应的应用场景，如无人机控制等。

如何确保数据挖掘过程中的数据完全和隐私保护？

李昊轩：

在大模型和具身智能的背景下，数据挖掘过程中确实存在安全隐患。例如，北京大学王奕森老师团队的研究发现，通过多轮对话可以绕过大模型的初始安全防护，获取敏感信息。

实时数据处理和数据安全是两个独立但重要的问题。关键在于如何学习到通用知识，特别是在强化学习中，策略是动态变化的，确保稳健的知识尤为重要。此外，class-dependent continual learning在面对不断增加的新类时，如何避免遗忘是一个核心问题。

总的来说，长文本依赖性、数据安全和隐私保护，以及continual learning中的实时决策，都是值得深入探讨的方向。

贺壮壮：

大模型会学习到人类的认知偏差。比如，人们常认为工科是男生学的，文科是女生学的，这种偏见会被模型学习并反映出来。我们之前测试过GPT，设置了一个选择题，结果发现它在提到“合肥工业大学”时，更倾向于使用“男”字旁的“他”，这就表现出性别偏见。因此，若将大模型应用于高风险决策领域，可能会引发公平性和偏见问题，这是需要重视的。

张曦锟：

确保数据安全和隐私大概可以从两个方面考虑：第一，数据预处理。在获取数据的过程中，可以去除个人身份信息，比如医疗数据常常会去掉病人的身份标识，这样模型学到的内容就不会与具体个体相关联。第二，模型训练与使用过程中，应该避免让模型学到与个人身份相关的信息。如果模型能够抓住数据中真正的模式和因果关系，而非个人信息，那么就能减少这种关联性。这两个方面其实是相辅相成的。如果在训练过程中采取合适的措施，避免模型学习与身份相关的内容，可能是一个有效的方法。

大模型在数据挖掘中的算法优化与效率提升：

大模型如何通过算法优化来提高数据挖掘的效率和准确性？以及在这一过程中遇到的技术挑战和解决方案。

李昊轩：

这个问题探讨了算法效率与准确性的权衡。从数据挖掘角度看，推荐系统中的粗排、精排流程与大模型的预训练和微调类似，有助于在效率和准确性之间找到平衡。

优化方面，理解大模型的损失函数对于提升效率至关重要，但目前研究较少。信息检索中的排序算法也提供了类似的思路，可以提升从海量数据中筛选有用信息的效率。

准确性方面，大模型在预测下一个token表现不错，但在数学计算和幻觉等特定场景下仍存在问题，需通过外接工具或针对性微调解决。

总的来说，效率提升可以通过优化理解和信息检索思路，准确性问题则需要根据具体情况优化调整。

贺壮壮：

从具体的推荐模型层面来看。推荐模型的基础组件是用户和item的embedding，过去很多工作优化embedding的维度，而不是固定使用32或64维度。通过为每个用户或item设置不同维度，可以更高效地利用空间，提升效率。

此外，还有一些工作关注数据选择问题，是否真的需要大量数据来做微调，或者是否可以通过数据选择，用更少的数据达到相同效果，这也是一个值得探索的方向。

至于准确性，像基于评论的推荐系统，可以利用大模型为用户生成评论文本来解决冷启动问题，从而提升准确性。

张曦锟：

这个问题可以从三个主要方面进行讨论。

首先，当前大模型训练需要大量数据，而数据间的相似度高，导致效率低。探索减少数据量而保持效果的算法优化方法是一个有前景的方向。其次，大模型通常一开始参数过多，训练效率低，成本高。可以考虑借鉴continual learning中的参数隔离方法，从较小模型开始，随着知识增长逐步增加参数，这可能提升效率，但当前实验效果不如直接使用大模型。因此，这仍是一个值得探索的方向。最后，在推理阶段，通过剪枝或量化减少计算量可以提升效率，尽管这可能会降低准确性，但在许多应用场景中，效率的提升通常比准确性降低更为重要。

大模型在个性化推荐系统、教育等方面应用与挑战

李昊轩：

在推荐系统中，主要挑战是处理复杂的排序问题，因为推荐系统关注排序性能而非分类。排序任务需要处理大量排列组合，尽管已有进展，但全排序任务仍具有挑战性。

在教育大模型中，关键挑战是确保模型输出的准确性和避免不当内容。这包括数据的准确性和避免政治不正确的内容，数据质量控制难度大。因此，推荐系统和教育大模型在面临的挑战上各有侧重。

贺壮壮：

大模型在推荐系统中的应用可以分为两种思路：一是将大模型直接作为推荐器，二是将其用于推荐系统的各个子场景赋能。关于教育，大模型可以用于认知诊断和知识追踪。但更深层次的思考是如何让大模型真正提升教育质量。例如，大模型可以帮助学生解答问题时补全过程，提供详细的解题步骤，并生成类似题目以帮助学生巩固知识。这种应用将大模型的教学能力充分发挥出来，对教育具有重要意义。

张曦锟：

在个性化推荐系统中，大模型面临的挑战之一是确保数据安全和隐私保护，因为个性化推荐涉及到个人信息，保护这些数据的隐私变得尤为重要。在教育领域，大模型可以有效填补学生在课外和教育资源稀缺地区的支持空白，推动教育资源的民主化。它还能提升教育质量，尤其是在缺乏高质量教育资源的地区。此外，大模型有潜力减少教育过程中的偏见，例如老师可能带来的个人偏好，这将有助于提供更公平的教育体验。

本次panel环节深入探讨了大模型时代数据挖掘的隐私保护与应用潜力，触及了隐私安全、模型优化、应用场景等多个方面。可以看到，大模型技术确实为数据挖掘带来了前所未有的机遇，但也提出了诸多挑战。让我们共同期待，在未来的大模型时代，我们能够找到更加完善的解决方案，为数据挖掘和应用的创新之路铺就更加坚实的基础。

本篇文章由陈研整理

往期精彩文章推荐

精准“算病”！AI检测癌症，准确率高达94%，研究登上Nature

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看原视频！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247527639&idx=1&sn=5b399b59594187b73075303f2f2074f6

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

最新文章