2024年美国大选已经尘埃落定。特朗普在新的总统任期会干啥成为全球关注的焦点。其实很简单,给他来个数据画像就一目了然。但本文并不想纠结于大洋彼岸的川建国,而是希望关照更为亲近的中国同胞读者您本人。
随着大数据技术一日千里地发展,人们担忧将来会出现硅基控制碳基——人类被机器统治甚至毁灭的局面。有道理,确实需要未雨绸缪,从技术伦理更从国内法、国际法维度防患于未然。但比较远虑,我们更需要应对近忧——已经和正在发生的数据安全威胁。
2024年7、8月份,本公众号分4期剖析了数据投毒的攻防策略,今次再聚焦数据画像的危害及其反制措施——如何避免成为大数据下任人宰割的透明人,推出3期系列文章。
移动电话、网购、网约车、网上购票、网上预约参观、网上缴费、网上银行、网上政务等互联网服务,全方位地从虚拟数字世界介入到现实生活中。人们已经习惯为了获取便利高效的服务,自主录入姓名、电话、住址、身份证号码、银行卡号等隐私信息。
同时,我们使用互联网的每一个点击、敲击键盘的每一个字符、每一次浏览、每一次搜索,包括在每一帧页面停留的时长,我们的每一笔商业交易、我们所在的每一个位置极其环境信息、每一个社交关系、每一次对话、每一篇文档,我们的行为和喜好都被记录在案,都会在我们不知不觉的情况下被细致地解剖分析,汇聚成一幅幅关于我们的数据画像。
随着汽车数智化进程不断加速,车内外各种智能传感设备采集的图像、道路、环境、驾驶行为、车辆数据等信息在车联网的加持下源源不断地向外传输。随着生物科技的发展,指纹、面容、虹膜、声音等个人生物信息也被作为特殊密钥,用于消费支付和解锁登陆——也可能被用于价格歧视、诈骗、侵权、刑事犯罪和本人犯罪线索、公共服务、社会治理、反恐和国家安全管理。这些会进一步丰富对个人的立体、全维数据画像。
那么,什么是数据画像?数据画像的功过是非有哪些?
数据画像:价值与风险
数据画像是大数据的基本应用之一。数据画像的过程即是用户信息标签化的过程。
画像主体可能是企业、国家机关或事业单位、社会组织,也可能是黑客、犯罪集团。他们通过收集用户的基础数据、生物信息、社会属性、行为数据、位置信息、内容偏好、交易数据、消费习惯等各个维度的数据,清洗、聚类,对用户特征属性进行刻画,提炼关键要素,进行统计、分析,标注各种维度的用户标签,构建可视化模型,从而抽象出用户的信息全貌,根据自身的需要,挖掘潜在价值。
画像的形成需要经历4个环节——数据积累、数据清洗、建模分析、数据产出。其中,数据清洗和数据建模统称数据处理。在经过数据处理之后,分析用户的线上兴趣偏好和线下行为场景,形成用户画像。
数据画像可以被看作企业应用大数据的根基。创建用户画像有助于企业理解现实生活中的目标受众,感知并解读用户的行为、需求、兴趣、品位和环境变化,针对用户的特征和需求,适时和同时满足海量个性化独特需求,解决用户的问题,实现转化客户、渗透产品、防控风险、改进服务的目的。其应用场景非常广泛,比如产品设计、精细化运营、精准营销、风险防控、经营分析、搜索和广告的个性化定向推送等。
不同行业的画像主体,依据应用目的差异,在数据采集选择上有所区别。电商领域可能是把用户的基本属性、购买能力、行为特征、兴趣爱好、心理属性、社交网络大致地标签化,而金融风控领域则更关注用户的基本信息、经营信息、置业信息、征信信息、融资信息、风险信息、财务信息等等。
人们享受着大数据时代前所未有的便捷,可能未曾想到自己在网络和现实世界中的所有活动都被数字化留存,这些数字信息借由机器和技术的力量,能够将自己变成被肆意操纵的透明人。
实践中,许多网站和软件通过以明示告知和默示同意相结合的隐私条款,规避侵权法律风险,用户如果不同意这种隐私条款,在网络世界中将寸步难行;用户如果同意隐私条款,则意味着给予这些网站和软件使用个人数据的合法授权。
有些网络信息平台在商业利益诱惑下,将所收集的消费者隐私数据用于其它用途或是出售给第三方。在缺乏成熟的数据保护技术,数据保护意识不强,保护力度不足的情况下,数据库中的个人隐私信息也极易泄露,并存在被恶意使用的风险。万豪酒店约2.4亿条客户资料泄露、圆通10亿条快递信息泄露、优衣库网站逾46万名客户资料泄露……形成的风险至今远未完全释放。
因此,数据画像,在助力企业经营(包括社会管理——本文未详加阐述),方便大众生活的同时也风险高企。
趋利避害,我们反数据画像,核心的是反大数据违法。这涉及法律、技术、教育和社会监督等多个维度,涉及政府、运营主体、社会公众等多个参与方。