专题|数据清洗

文摘   职场   2024-08-05 00:09   上海  
给公众号加星标,微信改版也好找
 点击上方“收音机小姐”关注公众号

整理书稿第二版的时候,我对内容都做了梳理和更新,接下来会在这里持续登载。如果发现是你熟悉的内容,也可以在评论里补充一句你掌握之后发挥的新实践,互相激发思考。

针对大家的困惑,重点讲一期数据清洗(Data cleansing)的专题。
前面简单讲过基线预测三步骤:清洗+跑模型+新品和促销计划。这个理论的基础是,刨除特殊事件的销量曲线,是遵循统计规律的。三个步骤如图1-14至1-16:

图1-14

图1-15

图1-16

哪些特殊事件需要清洗?
1.缺货
没满足客户订单,或本月根本就不可订货。
如果系统能记录原始客户订单,用原始订单数量。但注意避免将重复下的订单多次计入。
没有数据,可以用原预测数代替。
如图1-17的例子中,9月到11月缺货,可以直接拿走这几个月的销量,估一串值进去。

图1-17

我这里是用历史数据和统计模型估算的,日常工作中为了效率,简单定性计算一下也可以:看看前两年的销量大概估摸一下季节规律——9、10月和3月差不多,11月是10月的1.1倍。这样对缺货的9月到11月填出大致的数:4500,4700,5170。
两版数据虽不一样,但是效果都出来了,就是曲线升上去了,接下去的月份可以用统计模型跑了。
这里是Sell-out清洗,如果你是在Sell-in上做清洗和跑模型,注意将缺货后的小峰值削掉一部分,那个小峰值是缺货后补充渠道库存的短期效应。
2.非季节性重复促销
11月数据异常大,问了销售之后得知,该月该产品有一个客户一次性团购,大概是4000支。该客户12月就没订货,可以认为影响是500支左右。于是做了如下的数字清洗。
知道大概的影响数就可以了,数据清洗贵在及时,12月去问11月发生了什么,销售还能记得,再过一个月就不一定咯。

图1-18

如果每年同一个月该产品都做类似的促销,可以不做清洗。但如果产品和促销方式/力度不同,还是要清洗,用统计模型计算,再加上将来的促销计划。
碰到跟农历日期相关的促销,不同年间会出现不同的季节性,比如春节在1月和在2月,曲线就会完全不同,这就必须把春节促销做清洗,做好基线预测之后,再加上新一年的春节促销。七夕节、年货节(腊月初八)同理。
3.非重复性压货
这个适用于Sell-out是B2B的情况,或者Sell-in的数据清洗(直接用Sell-in跑模型的场景)。因为如果Sell-out是B2C,也没法压货呀。
此例中我们发现该产品12月销量奇高,跟销售问了之后得知是因为某区域冲全年销量,说服客户进了一大批该产品(一般都是贵货嘿嘿)。这样在单一产品上压货的情况不一定在来年继续发生,所以要清洗,而且要在1月预测时根据渠道库存减少预测。

图1-19

发现异常了还是要去跟销售问问,打不得一点马虎眼。有的公司会出现虚假出库的情况,我们的预测也会被相应误导。对于解释不清的异常Sell-out,公司审计部门可以请经销商提供出货单和收款记录。在更新历史数据那部分我已经强调,数据真实性对我们预测无比重要。数据监督流程虽然不是预测流程的一部分,但是是对预测有效性的必要保证。
4.新品铺货
跟销售问了铺货门店数和套餐个数,大约估计8月和9月有各3000支是铺货效应,来年不会重复,于是做了如下数据清洗。

图1-20

5.非重复性调价
如此例,10月开始涨价,9月头公司出了调价通知,所以出现蜂拥而至的订单,10月销量相应降低。若来年不会同样在10月提价,就必须估计一个囤货效应,做清洗。清洗多少你若拿不准,可以撇除9月和10月销量自己预估,或者和销售商量拿个主意。

图1-21

你可能要说了,这个清洗好像蛮随意的,不同的人会有不同的版本。对,数据清洗就没有一个正确答案,别太纠结,心中默念:“清洗了总比没清洗准。”
而且如果你已经做到,次月就挑出最大的那些异常,分析原因,并跟销售/市场部询问,及时估计出特殊事件的影响去做清洗,已经是做得非常优秀了。行业内有公司清洗不及时又必须清洗时,用多次多项式回归来自动清洗,其实他们那是没办法的办法,不一定会比你及时、知晓原因的估计强。
清洗也不是越充分越好,那不仅不可能,而且不值得。只有影响大的特殊事件才需要清洗。
比如促销清洗,可以自行定义标准,对基线销量影响25%以上的促销才清洗;也可以根据预测准确率,将预测最差的SKU拿出来(比如前十项),向销售部和市场部了解原因,请他们估计大致数量再清洗。

photo from Unsplash.


另外,分享一个高级技巧:对于使用系统的公司,如果看季节系数的年与年之间的稳定性,也可以发现需要数据清洗的异常信号。
“季节系数=该月销量/该年平均销量”。意思是比如每年9月的销量都是全年的1.5倍左右,而某一年却偏离很远,则说明那一年9月有特殊情况,需要问问为什么,看看是否需要清洗。
好啦,关于数据清洗就精讲到这里,清楚一些了吗?实践起来再看看。


END

觉得本文有用
点最后的“喜欢作者”赞赏1块钱
或者转给需要的人

集中看干货,就扫码买我的书
需签名可在订单中备注



收音机小姐
在幸福的大路上小跑,在计划的田野里撒欢。用最易读的供应链专业文章来关心您的生意。
 最新文章