AI项目中的数据质量挑战：过度清理与灵活应对

科技 2024-11-28 14:52 北京

点击上方“蓝色字体”，选择 “设为星标”

关键讯息，D1时间送达！

数据质量是AI项目成功的关键，但过度清理数据可能导致重要信息丢失，影响模型效果。高层管理人员日益重视数据质量，但数据孤岛、合规性问题及数据质量不佳仍阻碍AI发展。专家指出，数据清理需针对特定情境，不能一刀切。不同领域和应用需要不同级别的数据清理，过度清理可能删除有用数据，引入偏差，或使模型难以处理真实世界的混乱数据。因此，应采用灵活、协作、迭代的数据清理方式，根据数据使用方式进行定制。同时，要避免在理解AI用例前就试图让数据完美无缺，而应逐步引入数据，通过快速实验不断优化。

数据质量对于AI项目的成功至关重要，但你需要保留原始数据的丰富性、多样性和完整性，以免破坏结果。

数据管理曾一度是数据仓库团队的专属领域，但如今已日益成为高层管理人员的优先事项，他们将数据质量视为客户体验和业务绩效的关键，然而，除了数据孤岛和合规性问题外，数据质量不佳也在阻碍企业AI项目的发展。尽管大多数高管普遍信任他们的数据，但他们也表示，其中只有不到三分之二的数据是可用的。

AI编码助手Tabnine的联合创始人兼首席技术官Eran Yahav表示，对于许多企业而言，为AI准备数据是他们首次以跨领域的方式查看数据，从而发现了系统之间的差异。

解决这一问题可能意味着从基本的数据清理开始，比如确保数据库中有正确的字段来满足不同团队的需求，或者精简你用于AI的数据以反映你想要的结果。“我们正试图让AI拥有与企业中最佳员工相同的知识，”他说，“这需要整理和清理数据以确保其整洁性和一致性，而且还需要一个反馈循环。”

使用自己的代码库来教授AI编码助手最佳实践的企业需要删除他们不希望重复出现的带有某种模式的遗留代码，而且大数据集并不总是比小数据集更好。“一个客户通过复制现有项目并进行修改来创建新项目，”Yahav说，“他们有了上百个略有差异的同一项目副本，由于淹没在重复之中，所以无法区分哪些是重要的，哪些不是。”

良好的数据治理一直涉及处理数据集中的错误和不一致性，以及通过删除重复项、纠正拼写错误、标准化和验证数据的格式和类型，以及补充不完整的信息或检测数据中异常和不可能出现的变化来对结构化数据进行索引和分类。这仍然很重要，但并不总是与AI处理的非结构化和半结构化数据相关，这类数据的变化会更多。AI的数据质量需要涵盖偏差检测、侵权预防、模型特征数据中的偏斜检测以及噪声检测。

对于AI而言，数据清理需要针对特定情境并适应特定用例，而常见的数据管理实践过于缓慢、结构化且僵化。对于AI来说，没有普遍适用的标准来界定何时数据才算“足够干净”。

Domino Data Lab的AI战略负责人Kjell Carlsson表示，即使对于更传统的机器学习(ML)而言，为商业智能和财务部门带来回报的大规模数据清理工作也很少能满足数据科学团队的需求，他们可能已经在为AI进行自己的数据工程——并在此过程中创建了更多未受管理的数据孤岛。

数据清理不足会导致明显的问题，但上下文是关键。谷歌建议用胶水做披萨食谱，因为这是食品摄影师让融化的马苏里拉奶酪看起来诱人的方法，而这应该从通用的大型语言模型(LLM)中删除，但是，在训练AI提供摄影技巧时，这正是你想要包含的数据类型。相反，如果在训练集中保留了明显讽刺网站内容的来源，那么谷歌搜索中发现的其他一些不适当的建议可能就可以避免。

“数据质量极其重要，但它会导致非常顺序化的思维，从而让你误入歧途，”Carlsson说，“它最多只会浪费大量的时间和精力，而最坏的情况是，它会从你的数据中移除信号，并且实际上与你的需求背道而驰。”

相对而言

不同的领域和应用需要不同级别的数据清理。你不能将数据清理视为一种一刀切的方式，以获得适用于所有目的的数据，而商业智能一直追求的目标——“单一真实版本”——实际上是一个有偏见的数据集。“没有所谓的‘干净数据’，”Carlsson说，“它总是相对于你使用数据的目的而言。在不同的用例中，干净数据的标准截然不同。”

以你可能用于薪资处理和公司内部邮件营销活动的员工记录数据质量为例。“这些应该被区别对待，并且以不同的方式确定其质量。”日立全资子公司Pentaho的高级产品管理总监Kunju Kashalikar说。

Carlsson补充说，AI需要的数据清理更加灵活、协作、迭代，并且要根据数据的使用方式进行定制。“好事是我们现在正以许多以前没有的方式使用数据，”他说，“但挑战在于，你现在需要考虑在每一种不同的数据使用方式中，数据的清洁度。”有时这意味着需要做更多的清理工作，有时则意味着要做更少的清理工作。

Carlsson警告说，一个企业如果在开始理解和构建其AI用例之前，就试图让数据为AI做好准备，那么这可能会适得其反。因此，在为企业AI进行大规模数据清理之前，要考虑将数据清理得过于干净所带来的弊端。

收益递减

软件开发商Cohesity的EMEA地区首席技术官Mark Molyneux表示，CIO们会询问如何清理数据，但他们应该问的是要清理到什么程度。“理论上，根据你的数据量，你可能会永远清理下去。”他说。

一个恰当的例子是Syniti EMEA的董事总经理Chris Gorton，他在职业生涯早期花了大量时间为一家自动售货机公司清理客户地址，结果却发现他们真正需要的是用于发送发票的电子邮件地址，或者是用于维修的设备具体位置。

他警告说，许多企业正在囤积大量没有实际用途的大型数据集，在开始庞大且昂贵的数据清理项目之前，重要的是要确定更干净的数据将带来什么价值。“如果你无法描述你需要的活动或结果，以及数据如何与业务价值相关联，那么可能就不需要做这件事。”Gorton说。

通常，80/20规则适用，尤其是清理旧数据的边际收益可能不值得付出努力。无论你使用数据的目的是什么，这一规则都适用。如果检测并删除数据集中错误的电话号码的成本高于因拨打这些无效电话或发送无法送达的短信而产生的成本，那么提前修正这些号码就没有投资回报率。

“许多企业花费大量时间来丢弃或改进邮政编码，但对于大多数数据科学来说，邮政编码中的子部分并不重要，”Kashalikar说，“我们关注的是一般地理区域，以查看趋势可能是什么，这是一个过于追求完美而浪费资源的典型例子。”

哥伦比亚大学健康政策与管理兼职教授Howard Friedman表示，要了解你是否从数据清理中获得了价值，首先要定义成功并理解模型的意义。从基本的数据分类和围绕缺失数据、范围检查、分布和相关性的标准质量检查开始。并非所有列都同等重要，因此你需要优先清理对模型和业务结果重要的数据特征。与其清理数据，不如将基础工作自动化，寻找解释缺失数据的模式，并考虑转换特征，因为缩放可能会压缩值或增加方差。

但是，在你追求更先进的数据质量改进方法之前，要评估模型改进的增量将是多少。“如果我只需花费几个小时的努力和几千美元的投资，就能让我的模型获得90%的价值，而如果要让数据完美无缺，我需要花费25万美元，那该怎么办?”Friedman问道。为了模型的微小改进而付出额外的10%可能并不值得。

“把它当作一个商业问题来考虑，想想我在哪里投资时间和金钱，以及我期望获得什么回报。”他说。

调查现有项目，了解数据质量问题实际产生的影响。你可能可以使用其他来源的数据，而不是投资于清理低质量的数据集。这可能是你购买的数据，也可能是你构建的高质量数据集。“如果你的数据清理预算有限，那么值得花费这些预算来创建一个由人工管理的高质量输入数据集和黄金标准输出数据集，”斯坦福大学医学院生物医学数据领域的Knight-Hennessy学者Akshay Swaminathan说，“在GenAI领域，准确性的概念要模糊得多。”一个由问题与黄金标准答案组成的高质量数据集可以帮助你随着技术的进步快速对模型进行基准测试。

机会成本

过度的数据清理不仅会浪费时间和金钱，甚至可能会删除那些看似不完整但实际上有用的数据。

“如果你原本有100万条记录，并且得到了50万条质量最佳的记录，你真正想知道的是，在缺失的那50万条记录中，有多少是质量足够好但你没有得到的，”Kashalikar说，“如果你有25万条质量足够但不完美的记录，那么你要么损失了四分之一的潜在数据，要么在不需要的情况下花费时间清理了四分之一的记录。”

同样重要的是，不要过度清洗数据以至于失去其独特性，这种情况也称为过度规范化。对数据集进行过度标准化或同质化可能会消除对AI模型而言重要的特征——有价值的变化和细微差别，从而降低其泛化能力。例如，不考虑地区差异而规范地址拼写可能会抹去重要的人口统计信息。

丢失异常值是一个与过度规范化类似的问题，但涉及的是单个数据点而非整个数据集。激进地移除异常值和极端情况会剔除重要的边缘情况。“某人的垃圾可能是另一人的宝藏”，正如Swaminathan所言。

数据集中的某些不可能值很容易也很安全地修复，比如价格不太可能是负数，人的年龄也不会超过200岁，但手动数据收集或设计不当的数据库可能会引入错误。“也许数据是在医院紧急情况下输入的，工作人员把身高和体重弄混了”，Tabnine的Yahav说道。例如，他处理过的一个产品数据库没有产品序列号的字段，所以工作人员就把序列号填在了重量字段里。“于是，你突然发现玩具店里有了重达五吨的产品”，他补充道。

但有些异常值或看似“脏”的数据点实际上是真实的信号而非错误，并可能指示出值得探索的有趣领域。“某人因为下雨在交通上花了五个小时?这是一个有趣的交通信息异常值”，Yahav表示。

如果你在训练一个模型以对医疗数据进行去标识化处理，那么该模型需要能够稳健地处理诸如独特名称、地址的不同格式以及身份证号码等异常值，以便正确检测它们，这意味着你的训练集中需要包含这些异常值。特别是在处理不太可能更新代码的遗留系统时，你的数据管道需要验证和清理已知问题，但Yahav建议，这其中部分工作需要人工判断来区分真正的错误和对泛化有意义的信号。

增加偏差

过度激进的清洗会移除未通过验证的记录，这可能会给你的数据集引入偏差，因为你丢失了具有特定特征的记录。Kashalikar警告称，移除没有中间名首字母的记录将会剔除来自印度次大陆某些地区的人。同样，移除不寻常的名字或坚持所有名字都必须长于两个字母可能会导致模型产生偏差，在多样化的人群中表现不佳。

“创建模型的数据科学家可能不理解缺少数据对业务意味着什么”，他指出。在有关数据清洗的决策中，有重要意义的是让了解你试图解决的问题背景的人参与其中。

移除上下文

如果过于彻底地清洗数据集，你可能会剥离掉对全面了解情况至关重要的上下文信息。一些钓鱼信息故意包含错误的拼写和语法，以选择那些不够谨慎、信息了解不足的受害者，而虚假链接则会包含与真实域名相近的URL。清洗这些数据——或清洗来自不满客户的消息中的语言——可能会移除关于如何应对的有价值线索，而大型语言模型(LLM)与传统机器学习(ML)使用数据的方式不同，数据的语义可能至关重要。

医疗转录模型所需的干净数据集显然不应包含YouTube视频中要求用户“点赞和订阅”的常见短语，因为像OpenAI的Whisper这样的通用模型在处理杂乱无章的音频时经常会“幻想”出这些短语，使其不适用于医疗转录，但这些数据对于创建视频转录模型来说却至关重要。

标准的数据清洗还会移除停顿、叹息、犹豫和说话者没有说完的话，但Carlsson指出，这些线索在试图预测购买意愿或意图时会很有用。“有一个能够检测客户兴趣并告诉客服代表你可能应该停止强行推销的模型会很有用，因为这个人显然不感兴趣”，他说。这就是为什么在清洗数据之前了解数据的用途如此重要。

遗漏真实世界的混乱

传统机器学习在处理混乱数据时很脆弱，因此很容易想要将其移除，但使数据过于统一会导致模型在像其训练集那样的干净、结构化数据上表现良好，却难以处理真实世界的混乱数据，从而在生产环境中表现不佳。

Swaminathan解释说，大型语言模型能够通过律师资格考试或医疗委员会考试，是因为这些考试过于干净，无法作为有用的基准。“它给你一个包含所有相关信息的患者案例”，“它会告诉你患者告诉你他们的生命体征、影像学和实验室结果。但在现实世界中，医生需要分别获取所有这些信息。”同样，如果你在创建一个用于客户支持的“黄金”数据集，要避免将客户需求处理得过于干净和信息丰富。

Friedman承认，这里存在明显的矛盾。“你训练的数据集越‘脏’，模型学习和取得成功的难度就越大”，他说。“然而，同时，为了在真实世界中充分发挥作用，它需要在那些更‘脏’的环境中运行。”

特别是大型语言模型需要能够应对错误的输入。移除俚语、拼写错误或地区语言差异可能会阻碍模型处理真实世界语言使用的能力。“了解如何应对‘脏’数据以及理想的干净数据——从干净数据开始固然很好，但最终它必须足够稳健”，Friedman补充道。

遗漏趋势

以同样的方式清洗新旧数据可能会导致其他问题。新传感器可能更精确、更准确，客户支持请求将涉及你产品的更新版本，或者你会从新潜在客户的在线足迹中获得更多元数据。无论数据来源如何，都可能有新的信息需要捕捉，或者数据中的特征会随时间而变化。例如，在印度，离婚直到最近才得到正式承认。你无法将其添加到旧记录中，但为了保持一致性，也不应从新记录中删除它。因此，要注意数据清洗不要掩盖新旧数据之间的差异，从而导致模型无法考虑发展趋势。

“即使对于相同的用例，底层数据也可能随时间而变化”，Swaminathan警告说。“例如，我们在2024年10月为回答客户问题而制定的‘黄金’基准，可能在三个月后发生自然灾害时就过时了，突然之间就出现了厕纸短缺。即使是在同一家公司为同一批客户执行相同的任务，基准也可能随着时间而过时。”

随着趋势的变化，你也可能会丢失数据中的信号。当客户的联系方式从固定电话转向移动电话时，企业就失去了从电话号码中提取客户位置的能力。“如果你使用区号来验证位置，你会丢失大量记录”，Kashalikar补充道。你合作的两家公司也可能会合并，因此，是将它们视为同一实体还是在你的公司“黄金”主记录中分开处理，取决于用例。

即使没有重大变化，底层数据本身也可能已经发生了变化。“你感兴趣的结果变量和特征之间的关系可能已经改变”，Friedman说。“你不能简单地锁定并说，‘这个数据集绝对完美’，然后直接把它拿下来用于一年后的问题。”

为了避免所有这些问题，你需要让具有专业知识的人参与进来，以区分真正的错误和有意义的信号，记录你关于数据清洗的决策及其原因，并定期审查数据清洗对模型性能和业务成果的影响。

不要一开始就进行大量的数据清洗，然后才开始开发，而是要采用迭代的方法，逐步进行数据清洗和快速实验。

“我们所见的成功做法是逐步引入数据”，Yahav表示。“有一种巨大的诱惑是说，让我们把所有东西都连接起来，并相信它能工作，但当问题出现时，你不知道是哪里出了问题，然后你就不得不开始断开连接。”

因此，要从少量最新数据或你信任的数据开始，看看效果如何，然后在此基础上增加更多数据源或数据量，并观察问题出现在哪里。“它最终会出问题，因为你会忘记某些东西会进入主管道，而某些东西会让你大吃一惊”，他说。“你希望这个过程足够渐进，以便你理解是什么导致了问题。”

2024全国甲方IT选型大会将于11月29-30日在南京盛大召开，欢迎您扫描下方二维码报名↓↓↓。

（来源：企业网D1Net）

关于企业网D1net(www.d1net.com)

国内主流的to B IT门户，同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)

如果您在企业IT、网络、通信行业的某一领域工作，并希望分享观点，欢迎给企业网D1Net投稿。封面图片来源于摄图网

投稿邮箱：

editor@d1net.com

合作电话：

010-58221588（北京公司）

021-51701588（上海公司）

合作邮箱：

Sales@d1net.com

企业网D1net旗下信众智是CIO（首席信息官）的专家库和智力输出及资源分享平台，有五万多CIO专家，也是目前最大的CIO社交平台。

信众智对接CIO为CIO服务，提供数字化升级转型方面的咨询、培训、需求对接等落地实战的服务。也是国内最早的toB共享经济平台。同时提供猎头，选型点评，IT部门业绩宣传等服务。

扫描 “二维码” 可以查看更多详情

CIO信息主管D1net

专注于企业IT网络通信领域的媒体。涵盖：云计算；数据中心；数据通信；存储；虚拟化；安全；企业应用软件；UC协作；视频会议；视频监控；呼叫中心；IP语音；服务器；测试；移动办公; 运营商企业业务；渠道等