大模型引领的数据挖掘新时代,该如何平衡隐私保护与创新应用?

文摘   2024-09-13 18:28   北京  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


概述

在这个人工智能和大数据迅猛发展的时代,大模型技术正在以惊人的速度改变我们的生活和工作方式。然而,随着这些技术的进步,我们也面临着一系列新的挑战,尤其是在数据挖掘领域。2024年8月,在AI TIME举办的KDD预讲会上,来自北京大学数据科学和统计学博士李昊轩,悉尼大学博士张曦锟、合肥工业大学硕士生贺壮壮、北京联合大学自动化专业本科生左春生通过具体案例和专业见解,分析了大模型时代数据挖掘的机遇与挑战,为大家提供了新的视角和深入的见解。


点击 阅读原文 观看原视频!


01

在具身智能开发中,

如何处理实时数据挖掘与决策的问题?

李昊轩

具身智能涉及智能系统通过感知和交互与环境实时互动。在这一领域,我们追求的是使Agent能够理解任务并执行,超越仅识别数据相关性的传统机器学习。Agent需要通过与环境的互动来学习,例如区分数字形状和颜色,识别真正的因果关系。


在具身智能中,关键挑战在于实时处理数据,识别因果关系而非误导的相关性。我们希望算法能够识别物体的本质特征,而不是依赖背景信息。因果关系的处理对于智能系统从基础学习环境至关重要。


贺壮壮

在实时数据处理中,我们可能会遇到OOD(Out-of-Distribution)泛化问题,主流解决方案之一是学习特征,但这可能形成虚假相关性,影响未来模型的预测。在实时过程中,样本形式的不确定性要求我们处理从未见过的样本,这可能涉及OOD Detection。此外,如何在未见过的样本上成功预测其类别,涉及OOD泛化。这与OOD泛化关联性较大。


张曦锟

我很认同Agent需要不断学习新知识的观点。我们在持续学习的过程中,必须找到因果关系。如果Agent在学习过程中只掌握了偶然相关性而非因果关系,那么它在面对新任务时更容易遗忘,因为这些不是通用的知识。此外,我也认同壮壮的观点,即数据处理和响应速度在大模型时代尤为重要,尤其是在需要实时响应的应用场景,如无人机控制等。

02

如何确保数据挖掘过程中的数据完全和隐私保护?

李昊轩

在大模型和具身智能的背景下,数据挖掘过程中确实存在安全隐患。例如,北京大学王奕森老师团队的研究发现,通过多轮对话可以绕过大模型的初始安全防护,获取敏感信息。


实时数据处理和数据安全是两个独立但重要的问题。关键在于如何学习到通用知识,特别是在强化学习中,策略是动态变化的,确保稳健的知识尤为重要。此外,class-dependent continual learning在面对不断增加的新类时,如何避免遗忘是一个核心问题。


总的来说,长文本依赖性、数据安全和隐私保护,以及continual learning中的实时决策,都是值得深入探讨的方向。


贺壮壮

大模型会学习到人类的认知偏差。比如,人们常认为工科是男生学的,文科是女生学的,这种偏见会被模型学习并反映出来。我们之前测试过GPT,设置了一个选择题,结果发现它在提到“合肥工业大学”时,更倾向于使用“男”字旁的“他”,这就表现出性别偏见。因此,若将大模型应用于高风险决策领域,可能会引发公平性和偏见问题,这是需要重视的。


张曦锟

确保数据安全和隐私大概可以从两个方面考虑:第一,数据预处理。在获取数据的过程中,可以去除个人身份信息,比如医疗数据常常会去掉病人的身份标识,这样模型学到的内容就不会与具体个体相关联。第二,模型训练与使用过程中,应该避免让模型学到与个人身份相关的信息。如果模型能够抓住数据中真正的模式和因果关系,而非个人信息,那么就能减少这种关联性。这两个方面其实是相辅相成的。如果在训练过程中采取合适的措施,避免模型学习与身份相关的内容,可能是一个有效的方法。

03

大模型在数据挖掘中的算法优化与效率提升:

大模型如何通过算法优化来提高数据挖掘的效率和准确性?以及在这一过程中遇到的技术挑战和解决方案。

李昊轩

这个问题探讨了算法效率与准确性的权衡。从数据挖掘角度看,推荐系统中的粗排、精排流程与大模型的预训练和微调类似,有助于在效率和准确性之间找到平衡。


优化方面,理解大模型的损失函数对于提升效率至关重要,但目前研究较少。信息检索中的排序算法也提供了类似的思路,可以提升从海量数据中筛选有用信息的效率。


准确性方面,大模型在预测下一个token表现不错,但在数学计算和幻觉等特定场景下仍存在问题,需通过外接工具或针对性微调解决。


总的来说,效率提升可以通过优化理解和信息检索思路,准确性问题则需要根据具体情况优化调整。


贺壮壮

从具体的推荐模型层面来看。推荐模型的基础组件是用户和item的embedding,过去很多工作优化embedding的维度,而不是固定使用32或64维度。通过为每个用户或item设置不同维度,可以更高效地利用空间,提升效率。


此外,还有一些工作关注数据选择问题,是否真的需要大量数据来做微调,或者是否可以通过数据选择,用更少的数据达到相同效果,这也是一个值得探索的方向。


至于准确性,像基于评论的推荐系统,可以利用大模型为用户生成评论文本来解决冷启动问题,从而提升准确性。


张曦锟

这个问题可以从三个主要方面进行讨论。


首先,当前大模型训练需要大量数据,而数据间的相似度高,导致效率低。探索减少数据量而保持效果的算法优化方法是一个有前景的方向。其次,大模型通常一开始参数过多,训练效率低,成本高。可以考虑借鉴continual learning中的参数隔离方法,从较小模型开始,随着知识增长逐步增加参数,这可能提升效率,但当前实验效果不如直接使用大模型。因此,这仍是一个值得探索的方向。最后,在推理阶段,通过剪枝或量化减少计算量可以提升效率,尽管这可能会降低准确性,但在许多应用场景中,效率的提升通常比准确性降低更为重要。

04

大模型在个性化推荐系统、教育等方面应用与挑战

李昊轩

在推荐系统中,主要挑战是处理复杂的排序问题,因为推荐系统关注排序性能而非分类。排序任务需要处理大量排列组合,尽管已有进展,但全排序任务仍具有挑战性。


在教育大模型中,关键挑战是确保模型输出的准确性和避免不当内容。这包括数据的准确性和避免政治不正确的内容,数据质量控制难度大。因此,推荐系统和教育大模型在面临的挑战上各有侧重。


贺壮壮

大模型在推荐系统中的应用可以分为两种思路:一是将大模型直接作为推荐器,二是将其用于推荐系统的各个子场景赋能。关于教育,大模型可以用于认知诊断和知识追踪。但更深层次的思考是如何让大模型真正提升教育质量。例如,大模型可以帮助学生解答问题时补全过程,提供详细的解题步骤,并生成类似题目以帮助学生巩固知识。这种应用将大模型的教学能力充分发挥出来,对教育具有重要意义。


张曦锟

在个性化推荐系统中,大模型面临的挑战之一是确保数据安全和隐私保护,因为个性化推荐涉及到个人信息,保护这些数据的隐私变得尤为重要。在教育领域,大模型可以有效填补学生在课外和教育资源稀缺地区的支持空白,推动教育资源的民主化。它还能提升教育质量,尤其是在缺乏高质量教育资源的地区。此外,大模型有潜力减少教育过程中的偏见,例如老师可能带来的个人偏好,这将有助于提供更公平的教育体验。


本次panel环节深入探讨了大模型时代数据挖掘的隐私保护与应用潜力,触及了隐私安全、模型优化、应用场景等多个方面。可以看到,大模型技术确实为数据挖掘带来了前所未有的机遇,但也提出了诸多挑战。让我们共同期待,在未来的大模型时代,我们能够找到更加完善的解决方案,为数据挖掘和应用的创新之路铺就更加坚实的基础。

本篇文章由陈研整理


往期精彩文章推荐



精准“算病”!AI检测癌症,准确率高达94%,研究登上Nature



 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 观看原视频!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章