最近,各大App陆续推出了用户年度报告,人们跟着记录回顾这一年的同时,也不由感叹自己被大数据“拿捏”。平台收集用户数据用以实现个性化精准推送,这早已是人尽皆知的秘密,但数据具体是如何被收集的,又是如何作为算法机制的原料来支持流量分发的——后台的数据运作像密不透风的黑箱,引发着无数猜测。
01
打开各大应用软件,虽然好评与吐槽齐飞、感慨和自嘲并存,但不得不承认这股总结热潮很好地迎合了辞旧迎新的年关氛围和大众情绪。
美团的年度报告
微信读书的年度报告
这些年度报告多数围绕用户的使用时长、使用频率、兴趣偏好和消费数据等展开,并通过添加关键词、点评句和类型划分等方式提高趣味性和讨论度,而这些信息通常是构建用户画像的重要基础。确切来讲,平台利用数据搭建算法模型,就是为了得到更准确的用户画像帮助产品迭代,同时提升流量分发的精准度来优化用户体验和商家广告的转化率。
那么,在我们看不见的地方,平台究竟是怎样获取数据的,又是如何通过数据来描绘用户画像的呢?
02
大数据构建用户画像的过程,也就是对数据进行收集、清洗和分析的过程,最终是为了数据建模和模型预测,在梳理前,首先要了解一个贯穿始终的关键概念——标签。它是人为规定的特征标识,具有高度凝练性,如需求特征、购物偏好、资产特征,不同层次对应的概括程度不同,例如人口属性这个一级标签下可分为身份信息和性格信息,前者包括性别、年龄等,后者则包括星座、性格、MBTI类型等。这些标签的含义唯一且文本较短,标签体系的结构也十分严谨,目的都是为了方便计算机录入标准化信息。
上述提到的都是静态数据,但用户使用App是一种行为概念,这意味着在整合信息时还要考虑时间尺度,例如用户在什么时候搜索了什么关键词、浏览了哪个商品详情,在哪个话题界面停留了多长时间,这里包含了时间节点和时长两类数据,可以相应补充用户活跃度等标签内容,如近7日活跃时长、近30天交易次数等。
时间尺度在接下来的标签建模中至关重要,因为界面停留时长越长,搜索、点开等动作显示的时间节点越频繁,越能体现出用户偏好,在搭建模型的过程中,后台就会提高相关标签的计算权重。这是对单个用户的不同标签进行优先级分类,而对平台来说,不同质量的用户在整体数据中所占的权重也会有所不同。此外,在整理标签的过程中,后台还会根据不同来源信息进行交叉验证,这些数据清洗手段,是为了使模型更能准确反映真实信息。
用户属性和行为事件的标签组合,就可构成完整的用户画像,例如“27岁男性,居住地为重庆,月收入8000元,从事互联网行业,喜欢健身、网购、打台球,频繁使用社交平台,对营销敏感度较强,当前需求是购买一块运动手表”。
数据模型搭建的目的在于预测,也就是将这些标签通过大数据系统进行信息前置,为平台方的决策环节提供支持。例如,利用近段时间的活跃度来预测用户流失意向,通过频繁点开某款商品的链接预测潜在需求。不过,预测的能力不仅与数据源的丰富程度和准确性有关,还取决于机器学习的水平。
总而言之,从技术层面来看,App的年度报告其实只是简单调取后台数据加以趣味性分析的一种营销手段而已。
微信订阅