本期笔谈专栏刊登国际统计学会主席、美国圣路易斯华盛顿大学统计与数据科学系主任、科兹贝–贝克曼杰出教授何旭铭和国务院学位委员会学科发展战略咨询委员、中国人民大学荣誉一级教授袁卫的《大数据统计应用的国际经验与前沿问题研究》。
本文发表于统计研究2024年第9期,原文已获得作者授权,引用格式:何旭铭,袁卫.大数据统计应用的国际经验与前沿问题研究[J].统计研究, 2024, 41(09):3-12.
新世纪以来,特别是近十余年来,大数据时代的到来是以技术和分析的快速发展为标志,彻底改变了传统的收集、存储、处理和分析数据方式。本文将简略地介绍海量数据的来源与特征,影响大数据统计分析的科技新进展,大数据分析的新方法以及统计研究的前沿领域,大数据分析应用的国际经验和政府统计大数据的研究进展。
一、数据的爆炸性增长
大数据的爆炸性增长始于21世纪初。根据MarketSplash[1]统计的数据显示,每天大约有3.3亿TB的新数据生成,这些数据主要有以下几个来源。一是互联网和社交媒体。从新世纪初开始,互联网的普及以及Facebook(2004年推出),Twitter(2006年推出)和抖音(2016年推出)等社交媒体平台的兴起,使得互联网用户数据快速增长。用户通过社交媒体平台分享信息、照片、图片、视频以及在线互动,产生了海量数据。截至2020年,互联网总数据量估计超过64ZB,预计到2025年将增长至175ZB[2]。二是移动设备。从2005年到2010年,智能手机和移动应用的出现进一步加速了数据的产生。苹果公司的iPhone于2007年推出,带来了革命性的移动计算,随后各种应用程序(app)的开发导致了数据的爆炸性增长。智能手机等移动设备在中国以及世界各国的广泛应用加速了这一增长。三是云计算。亚马逊网络服务(AWS,2006年推出)等云计算平台的出现提供了可扩展且经济高效的存储解决方案。云计算为各类用户存储和加工处理大数据提供便利的服务。根据Techjury网站对云统计计算量的研究[3],截至2023年,全球云计算市场仍在快速增长,预计公共云服务的终端用户支出将达到约5973亿美元,预计到2027年云计算市场规模将远超1万亿美元。四是大数据平台与技术。21世纪初期,开源软件项目Apache的团队于2006年推出分布式系统架框Hadoop,MongoDB和Cassandra开发了NoSQL数据库,这些大数据技术的开发和使用使得大规模非结构化数据集的高效存储和处理成为可能,这些技术使用户能够处理以前难以管理的数据量。2024年最受欢迎的大数据平台之一的计算引擎Apache Spark,以高性能、多功能性和对批处理与流处理的广泛支持而闻名。Apache Spark内置了SQL、机器学习和图型处理模块,并支持多种编程语言,包括R、Java、Python和Scala等[4]。
这些平台整合了来自社交媒体、传感器和交易系统等的结构化、半结构化和非结构化数据等各种数据类型。人们通过这些平台能够处理大型数据集和更为多样化的数据源。同时,大数据平台还提供了用于数据清理、转换和准备工作的高级工具,确保用于统计分析的数据准确且一致。例如,Apache Spark和Hadoop等工具支持复杂的计算和大规模数据处理,并能够进行实时数据分析。可以说,如果没有这些新平台和技术,大公司和政府机构几乎无法处理他们所拥有的数据。
然而,今天我们还不能完全依赖大数据平台,主要的问题和挑战有以下几个方面。一是数据隐私。随着数据量的增加,大数据平台成为网络攻击的主要目标。世界各国的数据保护法规不尽相同,如何在确保个人数据隐私的同时仍然能对数据进行有效的统计分析,还是一个具有挑战性的问题。二是数据质量和相关性。来自不同来源、具有不同格式和标准的数据组合可能影响数据的质量。在数据来源不同、格式不同等不一致的环境下如何确保数据质量是一个主要挑战。平台上的数据往往没有注明数据是如何设计和采集的,简单地将数据拿来进行分析,而忽视数据的来源,可能会导致无效的统计分析,其结果可能达不到工作的预期。三是伦理问题。大数据分析中使用的算法可能会延续数据中隐含的偏差和偏见。确保数据驱动决策的公平性并避免误导是一个应该持续关注的问题。用户可能无法完全理解为什么或如何在决策中使用这些数据。
二、高性能数据分析的出现
机器学习和人工智能(AI)已经使高性能数据分析成为现实。将机器学习和人工智能集成到大数据分析中,可以实现分类、模式识别和预测建模。算法在准确性和效率上都得到了提升,使实时数据处理成为可能。数据科学已经成为世界各国教学、科研和数字经济发展的重要部分,而数据科学方法也得到了快速发展。
“数据科学”一词的出现可以追溯到1974年,当时Peter Naur提议将其作为计算机科学的代名词[5]。1985年,吴建福(C. F. Jeff Wu)在北京中国科学院的一次讲座中首次提议将“数据科学”作为统计学的替代名词[6]。2007年,Jim Gray提出“第四范式”的观点,并在他的文章中讨论了数据科学如何通过计算和数据管理技术的进步,重塑科学研究方法论[7]。
机器学习和人工智能在21世纪初前20年对大数据及相关研究产生了重大影响。本文按照时间顺序列出若干重大创新。2006年,多伦多大学的Geoffrey Hinton及其团队发表了一篇关于深度神经网络的突破性论文[8],重燃了人们对深度学习的兴趣,展示了神经网络在无监督学习(Unsupervised Learning)中的威力,这使得人们重新关注AI和机器学习技术。2007—2008年,Hadoop等大数据技术的出现构建了存储和处理海量数据所需的基础设施,为机器学习应用奠定了基础。2010年,Google的深度学习项目谷歌大脑(Google Brain)开始在大规模数据研究上取得重大突破,其无监督学习算法可以确保在海量数据中自动学习[9]。2011年,IBM的AI系统沃森(Watson)在美国知名智力游戏Jeopardy!中大获全胜,展示了机器学习和自然语言处理在掌控和分析大数据集方面的巨大潜力[10]。2012年,在ImageNet大型视觉识别挑战赛(ILSVRC)中,Alex Krizhevsky、Ilya Sutskever和Jeoffey Hinton开发的深度卷积神经网络(CNN)取得了显著的突破,其错误率已经远远低于之前的方法,这标志着在海量数据中深度学习向广泛应用的转折点已经到来[11]。2013年,Apache Spark发布了一个强大的开源数据处理引擎,促进了大规模应用机器学习算法在大数据上的应用。Spark的MLlib提供了可扩展的机器学习库,使数据科学家更容易在大数据集上构建和部署机器学习模型[12]。2014年,Google开发的开源机器学习框架Tensor Flow进一步加快了机器学习与大数据的融合。Tensor Flow的灵活性和可扩展性使其成为开发和部署机器学习模型的热门选择[13]。2015年,深度学习框架,如2015年发布的Keras和2016年发布的PyTorch,简化了构建和进行神经网络实验的过程,使更多的数据科学家和工程师能够利用深度学习进行大数据分析[14]。2017年,由Google子公司DeepMind开发的AlphaGo击败了围棋世界冠军,这一成就显示了大数据与高级机器学习技术相结合,具有解决复杂问题的巨大潜力[15]。2017年,Vaswani等人引入的Transformer模型革新了自然语言处理(NLP)。Transformer模型提高了大规模文本数据的处理效率,为BERT和GPT等更先进的模型计算铺平了道路[16]。
此外,在大型语言模型领域,ChatGPT的成功研制是自然语言处理和人工智能发展历史中一个具有里程碑式的成果。2023年,OpenAI发布了GPT-4,这是一个具有更强大能力的先进模型,在理解上下文、产生相关联的呼应和维持长时间互动等方面都表现更好。今天,我们可以看到多种ChatGPT的竞争产品,而且这方面的改进和竞争会不断深化。
三、大数据统计分析的新进展
在机器学习和人工智能时代,大数据统计分析的力量和方法也在迅速发展。本文简单介绍以下7个方面的进展。
1.可扩展算法和技术。
分布式计算已经成为大数据统计分析的重要部分。如Google在2004年引入的MapReduce技术,允许在分布式系统中并行处理大数据集,实现大规模统计分析。将机器学习与统计结合,开发出可扩展的算法,如随机森林、支持向量机和深度学习模型,这些方法可以处理大规模、高维数据。
最新的发展之一是联邦学习。联邦学习允许在多个分散设备或服务器上训练机器学习模型,这些设备或服务器保有本地数据,而不需要数据互换。这种方法有利于保护数据隐私,同时减少了大规模数据传输工作量。例如,在医疗保健领域,可以用联邦学习方法在多个医院各自存储的医疗数据上训练模型,对患者病状做出诊断。在放射学中,联邦学习帮助开发检测X光片和MRI等医学图像异常的模型。医院可以在不共享敏感患者数据的情况下合作训练模型。在金融领域,各机构使用联邦学习来改进欺诈检测系统,通过在多个银行的交易数据上训练模型,同时能够确保客户数据隐私。在自然语言处理领域,虚拟助手和聊天机器人通过用户交互作用,使用联邦学习来改进语言模型,这就确保个人数据可以保存在个人设备中,并同时改善用户体验[17]。
2.高维数据分析。
高维数据分析在生物信息、图像分析、文本数据、推荐系统等方面的需求促进了近代统计学的发展。其中,正则化方法,如Lasso(最小绝对收缩和选择算子)和岭回归这些技术对于处理高维数据集至关重要,提供了一种执行变量选择和防止过拟合的方法。主成分分析(PCA)和奇异值分解(SVD)等方法在大数据环境中用于降维,方便从大数据集提取关键特征。
高维统计研究在统计和机器学习领域成为热点已经40多年。当样本量有限但测量变量数量庞大时,传统模型和分析方法会遇到困境,某种形式的降维通常是解决这些问题的办法。常见的结构性降维包括稀疏性或低秩,这一领域的统计和计算研究带来了高维数据问题的新思路,包括特征选择、因子分析、推荐系统和过拟合模型的双下降特性。本文推荐Tibshirani R和Fan J的两篇关于惩罚回归的论文[18]。此外,Donoho的论文[19]介绍了压缩感知的概念,并展示了这种方法相比于传统方法,只需进行较少测量就可以进行有效的信号采集和恢复。
更多关于高维统计工作的内容可以参考Wainwright M J的《高维统计:非渐近视角》[20],以及Belkin M等的文章《调和现代机器学习实践与经典偏差–方差权衡》[21]。后者研究了测试误差随模型复杂度(参数数量)变化的行为,得到了双下降现象的结果,即测试误差先减少,然后增加,再减少,且提供了实验证据和理论分析来支持这一现象。此外,双下降特性对理解过拟合模型的行为具有重要意义,为深度神经网络和其他复杂模型的泛化能力提供了新见解,挑战了关于模型复杂度和泛化性能之间关系的传统理解,强调了使用过参数化模型的潜在好处,即使在出现过拟合时也是如此。由此可见,AI使用的超大模型不可非议。
3.计算统计学。
统计计算的发展是多方面的,包括蒙特卡洛方法和自助法的发展。其中,随着计算能力的增加,马尔可夫链蒙特卡洛(MCMC)技术,在大数据背景下可实现复杂的贝叶斯推断。自助法的重复抽样技术在没有强参数假设的情况下变得重要,用于估计样本统计的精度。近年来,人们关注于将蒙特卡洛方法与深度学习技术相结合。最近的研究探讨了蒙特卡洛丢弃、贝叶斯神经网络和变分推断的使用,在深度学习模型中加入不确定性估计,从而对预测中的不确定性和稳健性进行更精确的度量和研究,这个领域的研究可以参考相关文献[22]。
再看一个较早的例子。1993年,Efron在论文中讨论了基于自助法的模型平均方法,特别改进了预测规则误差率的估计[23]。其中引入了自助聚合法(或袋装法)技术的概念,该技术涉及创建多个自助样本,在每个样本上拟合模型,并在模型间聚合预测。该论文展示了基于自助法的模型平均方法相对于传统交叉验证方法的优势。如今,模型平均已不断发展成为预测和验证的有效方法。
4.统计软件的发展。
本文只介绍具开放性框架,免费使用的统计软件。一类是R和Python,具拥有处理大数据的查询、存储、分析的结构和框架,已经成为统计分析和数据科学的主要工具(如Pandas、NumPy、Scikit-learn、TensorFlow)。一类是Hadoop和Spark,像Apache Hadoop和Apache Spark这样的大数据平台提供了分布式存储和处理的基础设施,促进了大规模的统计分析。
近期的统计软件开发旨在提供并行处理、分布式计算和优化技术,以高效地分析和处理大数据。例如,在R中,parallel、foreach和doParallel等软件包允许并行执行代码。在Python中,multiprocessing和joblib等包都能方便地进行并行计算与分析。在开放性框架下,这些软件生态系统用户多,贡献者多,其内容不断得到更新。
5.数据可视化。
数据可视化是大数据分析的重要一环,包括高级可视化工具,如Tableau、D3.js和Matplotlib等工具使大数据集的可视化成为可能,帮助统计学家和数据科学家有效地解释和展示他们的研究发现;交互式仪表板,使得实时数据的分析和动态报告成为可能;复杂结构数据可视化,随着数据变得越来越复杂,有效地将复杂的数据结构可视化变得至关重要。这一工具可以直观地表示复杂关系和层次结构。无论是网络图、树状图还是多层饼图,其目标都是清晰且直观地展示复杂数据结构。此外,还有一些商业网站,如observablehq.com和d3js.org,会提供最新工具的示例。
6.实时分析。
实时数据和流数据在社交媒体跟踪,金融、骗局侦测、实时推荐和智能城市等方面具有广泛应用。例如,实时数据源的出现需要开发流分析框架(如Apache Kafka、Apache Flink),从而可对流动中的数据进行统计分析。在线学习算法变得越来越重要[24],例如,在线形式的回归和聚类算法能够在流数据中不断开展学习活动。
在流数据中学习涵盖了广泛的算法和技术,旨在处理连续、快速且不稳定的数据。该领域的主要研究集中在开发高效且可扩展的算法,用于分类、聚类、模式挖掘和异常检测,同时解决概念漂移和实时处理等问题。在统计研究中,变点检测是异常检测的一种方法[25]。
7.大数据伦理与隐私。
保护大型数据集中个人隐私的技术手段变得至关重要,差分隐私(Differential Privacy)提供了分析数据的同时保护个人隐私的技术。差分隐私是一个正式框架,允许在保护个人隐私的同时发布统计信息。2017年,美国普查局宣布将使用一种基于“差分隐私”方法的新系统,该方法于2006年密码学研究中首先提出,其思想是向原始数据或中间计算步骤添加精心设计的随机值或噪声[26]。此外,开发统计方法来检测和减少大数据分析中的偏差,确保模型和预测是公平和无偏的,这部分内容在政府统计中将进一步讨论。
四、大数据统计前沿问题
统计研究是由数据驱动的。概率和随机模型的基本理论始终都是必要的,而经验过程理论和随机矩阵理论等新理论也提供了重要的基础。近年来,统计学界关注的前沿问题越来越多。何旭铭等在《十字路口的统计:数据科学时代的挑战和机遇》[27]中提出,应将研究和教育转向数据科学,以应对当前我们面临的重大科学和社会问题;何旭铭和林希虹在《统计与数据科学的挑战与机遇:十个研究领域》[28]中讨论了当前十个重要的研究领域。此处简要介绍几项由数据驱动的前沿研究。
1.自适应设计和自适应收集数据分析。
为了某个研究的目的,人们有意识地、主动地去收集数据,其最佳数据收集的方法取决于未知事实的特征。自适应数据收集的方法能够提高收集数据的效率和准确性。如何更好地适应数据收集策略,然后基于先前观察到的结果进行后续的统计分析,愈发引起研究者的兴趣,并且仍然有很多待研究的问题。
2.强化学习。
数据驱动为强化学习相关研究提供了一个框架,随着时间的推移做出的一系列决策,其结果是依赖于一系列行为而不是单一决策点做出。这与动态规划和控制理论一致。
3.基于云的可扩展和分布式统计推断。
当数据量太大而无法同时进行存储和分析,或由于安全原因无法横跨若干网站共享时,需要一个允许分布式处理的框架。例如,美国的Amazon Web Services(AWS)和中国的阿里云(Aliyun)提供的云平台,可以根据计算的需求进行弹性扩展或缩减,这时需要合适的统计算法和推断方法。
4.文本、图像和网络数据以及来自大语言模型的数据。
传统统计方法侧重于数值数据。当非数值数据被转换为数值数据时,我们必须考虑其背后的数据结构。使用广泛适用于这些复杂数据背后特有结构的统计方法,对于图像分割、遥感、推荐系统和情境学习和理解等问题非常重要。
5.机器学习中的公平性、责任性和透明性。
要确保机器学习(ML)中兼顾公平性、责任性和透明性,挑战来自于技术、伦理和社会等诸多方面。例如,ML模型通常是从历史数据中学习,而历史数据本身就包含了社会不平等,导致机器学习的结果产生偏差。训练数据中不同群体本身的不平衡,可能导致模型输出某些群体表现良好,另外的群体表现不佳。关于公平性,有多种、甚至是相互矛盾的定义(例如,机会平等、人口均衡),很难满足所有人的要求,公平性与统计效率往往不能兼顾。建立ML责任性的法律框架和伦理指南,还有许多有待研究和完善的地方。
6.因果推断。
计算变量的相关性不难,但显著的相关性还需要解释因果关系。统计学中的因果推断指的是确定一个变量是否以及在多大程度上影响另一个变量的过程。因果推断旨在揭示一个变量对另一个变量的影响方向和性质,这个领域对于基于数据做出决策至关重要,尤其是在医学、社会科学和经济学等领域。因果模型和图形通常用于推导和表示因果关系。潜在结果框架之所以受到用户欢迎,是因为能够对不同处理或干预的潜在结果分析而得出变量的因果效应。随机对照试验之外的因果推断研究在最近几十年引起了研究者的兴趣;现有方法包括倾向评分匹配、工具变量和差分中的差分,以考虑混杂变量并估计因果效应。像因果森林和目标最大似然估计(TMLE)等方法将因果推断原理与预测建模结合起来,还需要对如何合理地确定因果关系,以及如何从多种数据源中提取因果信息等进行研究。
五、大数据分析应用简述
大数据分析的应用范围很广,已经渗透到生活的各个方面。在医疗保健与医学领域,统计可以通过对大规模基因组数据的分析,识别与疾病及治疗反应相关的遗传变异,制定个性化治疗方案。在临床试验优化方面,统计方法帮助设计更有效的临床试验,分析患者数据以确定有效治疗方法,并确保医学研究结果的可靠性。在金融与经济学领域,统计模型用于评估和管理财务风险,包括信用风险、市场风险和运营风险,使金融机构能够做出明智的决策。在算法交易领域,统计技术支持算法交易策略,通过分析市场数据优化交易决策和管理投资组合。在营销与客户分析方面,在客户分类上,统计通过分析客户行为和偏好,制定客户分类和定位服务的策略,提升营销活动的效果,优化推荐系统。在预测分析方面,统计模型可以预测客户流失、客户终身价值和购买行为,指导企业优化产品和定价策略。在电信与互联网领域,包括网络优化和网络分析。统计方法可用于优化网络性能、预测流量模式并改善电信网络资源的分配。统计技术可以分析网站和社交媒体平台上的用户行为,优化用户体验、定向广告并评价营销活动效果。在环境科学领域,统计方法在气候建模中至关重要,通过分析大量环境数据以掌握气候变化规律,预测变化趋势并评估人类活动对环境的影响。用于生态监测上,统计可监测生物多样性,分析生态数据以保护环境,掌握生态系统动态。在制造业与供应链管理领域,统计过程控制方法监测和改善制造过程,确保产品质量并减少缺陷。在库存管理上,统计模型优化库存水平、预测需求并有效管理供应链,降低成本并改善交货效率。在政府与公共政策领域,包括犯罪分析和政策评估。统计可以绘制犯罪地图、实施预测性警务。通过分析刑事司法数据,可以有效配置警力资源并预防犯罪。基于大规模数据分析,统计方法能够评估公共政策、社会项目和政府政策的影响,实施科学决策。
六、政府统计大数据及其应用
大数据既是各国政府的资源,也是政府机构面临的挑战。本文先介绍数据来源和所需的处理,再介绍政府统计大数据的一些应用。
1.大数据来源。
政府可用的大数据来自多个渠道。一是行政数据,来自政府机构的记录(例如税务记录、社会保障数据等)。二是社交媒体,来自Twitter和Facebook等平台的数据,能够及时了解公众情绪和行为。三是手机数据,可以从手机使用中获取移动模式和通信信息。四是传感器数据,来自物联网设备(如交通传感器和环境监测系统)的数据。五是商业数据,来自私营部门的交易、网络浏览历史和其他数据。
2.数据加工与整合。
由于数据来自不同渠道,数据形式和质量并不稳定,需要进行数据清洗和结合多源数据创建综合数据集整合。AI算法可以自动清理和预处理大型数据集。此外,自然语言处理对于分析社交媒体、新闻文章和其他来源的文本数据,评估公众意见并预测舆情变化趋势,已必不可少,其可以自动分类文本数据,对开放式调查反馈自动编码。
3.政府统计的应用。
大数据加工、整合和处理之后,可在社会、经济、公共卫生等多方面起到智能化作用。在政府统计层面主要体现在以下几个方面。
一是监测预测。在环境监测方面,利用卫星图像和传感器数据监测环境变化和自然资源。在预测建模方面,AI模型可以预测趋势并识别传统统计方法无法显现的变化模式。例如,AI模型可能通过检测患者基因标记和健康数据随时间的细微变化来识别罕见疾病的早期迹象[29];AI模型可以分析来自卫星图像、气象站和海洋浮标的大量数据,以更高的准确性预测极端天气事件,如飓风、热浪和洪水[30]。在地理空间分析方面,使用地理信息系统(GIS)、卫星图像和其他基于位置的数据,以空间背景分析和可视化统计数据。这种分析为理解空间模式、关系和趋势提供宝贵洞见,这些在传统统计数据中不明显。
二是人口统计。该项工作的大数据应用体现在人口规模、人口密度和人口迁移模式的统计和分析上。首先,人口规模统计,利用手机和社交媒体数据估计两次人口普查之间年份的人口数据,利用机器学习模型预测经济指标、人口增长和其他关键指标。其次,人口密度统计,分析人口分布和密度有助于城市规划、资源分配和基础设施开发。最后,迁移模式统计,跟踪和分析迁移规律和趋势可以为住房、交通和社会服务政策提供信息[31]。由于现有数据来源的复杂性和传统数据来源的限制,迁移很难测量。最近,人们开始利用多个数据源应对这些挑战。此外,统计方法可以帮助分析新的和多样的数据流,例如,贝叶斯方法、自然语言处理、高密度时间序列可用于研究迁移的不同方面。
三是经济分析。在经济指标与预测方面,大数据技术可以得到来自交易记录和在线行为的经济实时数据。关于大数据预测问题可参考《大数据的经济预测:文献综述》[32]。在计量经济领域,《大数据:计量经济学的新技巧》[33]讨论了计量经济学的机遇与挑战。在贸易与运输方向,分析交通网络和贸易路线可以优化物流,提高贸易效率。公共交通大数据的应用可参考《公共交通中的大数据:源和方法的综述》[34]。经济方面的应用还包括区域经济指标分析;地理空间分析可以识别地区经济差距,提出有针对性的经济发展倡议。
四是公共卫生。公共卫生方面的应用包括健康统计,分析来自电子健康记录数据,掌握健康动态并追踪公共健康趋势[35];疾病爆发跟踪,绘制疾病爆发及传播地图,并实施有针对性的公共卫生政策,《传染病学杂志》刊登了大数据带来的若干问题[36];医疗保健接入,分析医疗服务设施和服务的空间分布,确保公平访问。研究人员也意识到算法决策中出现偏差和不平等的风险,重要的是依靠跨学科方法,结合数据科学家和领域专家的见解,解决和纠正这些问题[37]。
五是数据安全。对于官方统计来说,数据隐私和保密性非常重要。保护数据免受未经授权的访问、处理或泄漏是保密技术的简单目标。数据生命周期的每个阶段都可能带来隐私和安全性的风险,我们需要开发一系列工具,有些是基于技术的,有些则依赖于统计方法。
合成数据的使用是基于将敏感数据集转换为具有相似统计特性的新数据集,而不泄露原始数据中个人信息的想法。如何创建合成数据,使人们能够通过对数据的统计分析,以达到对感兴趣参数的深入了解,还需要进一步的研究。例如,生成对抗网络(GANs)已被发现是合成数据生成的强大方式[38]。有许多基于AI的合成数据生成工具,但它们的质量和有效性还需要研究[39]。
保护数据隐私和安全措施应该贯彻到整个数据生命周期的始终。这包括数据收集、存储、分析和发布阶段,认真监测和评估这些步骤的风险,采取适当的技术和管理控制措施,以确保数据隐私和安全。联合国在2023年为政府统计数据提供了一份保护数据隐私技术的指南[40],对于感兴趣的读者来说,这是一份很好的参考资料。
七、结语
统计技术和数据科学方法是现代政府统计工具箱中不可或缺的一部分,提供了处理复杂数据、度量经济社会的发展历程以及提供政府决策的巨大能力。然而,成功的实施取决于如何有效地应用这些技术,确保数据质量和安全,并从数据中获得最大的社会和经济效益。
最后,如何从大数据中得出真实可靠的结论也还存在风险和挑战,因为大数据和人工智能技术使得分组更细致,数据挖掘也更容易。对大数据进行挖掘和分析,就像大海捞针。问题是,最后捞出的是一根有价值的“银针”,还是一堆“废铁丝”,即数据假象。因而,对于所得到的结果,不仅要进行严格的数据检验,还要会同应用领域的专家对数据分析结果进行全面会商和检讨,避免发生就事论事的选择性风险[41]。
我们正处在一个大数据以及人工智能大发展的新时代。作为数据科学和人工智能技术核心的统计方法,必将大有作为。面向新时代,统计学者要加强交流,借鉴国际经验,发现新问题,提出新方法,促进数据的智能化和广泛化的应用。同时,必须重视新时代统计学者和数据科学工作者的培养,建立起一支更具包容、善于开发和利用人工智能工具的统计与数据科学队伍,为新时代做出新的贡献。
参考文献
[1]参见https://marketsplash.com。MarketSplash由私营增长咨询和创业孵化公司Empact Partners拥有并运营
[2]数据来源为https://www.statista.com/statistics/871513/worldwide-data-created/
[3]参见https://techjury.net/blog/cloud-computing-statistics/
[4]参见https://careerfoundry.com/en/blog/data-analytics/big-data-tools/
[5]参见Cao Longbing (29 June, 2017). “Data Science: A Comprehensive Overview”. ACM Computing Surveys. 50(3): 43:1–43:42.
[6]参见《数理统计与管理》1986年1期1–7页
[7]参见https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/
[8]Hinton G E,Osindero S,Teh Y-W,A Fast Learning Algorithm for Deep Belief Nets,Neural Computation,2006,18(7):1527–1554
[9]Dean J,Corrado G,Monga R,et al,Large Scale Distributed Deep Networks,In Advances in Neural Information Processing Systems,2012:1223–1231
[10]Ferrucci D,Brown E,Chu-Carroll J,et al,Building Watson:An Overview of the DeepQA Project,AI magazine,2010,31(3):59–79
[11]Krizhevsky A,Sutskever I,Hinton G E,Imagenet Classification with Deep Convolutional Neural Networks,In Advances in Neural Information Processing Systems,2012:1097–1105
[12]Zaharia M,Chowdhury M,Franklin M J,et al,Spark:Cluster Computing with Working Sets,In Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing,2010(10):10
[13]Abadi M,Barham P,Chen J,et al,Tensorflow:A System for Large-scale Machine Learning,In 12th Symposium on Operating Systems Design and Implementation,2016:265–283
[14]Chollet F. (2015). Keras. GitHub. Retrieved from https://github.com/keras-team/keras;Paszke A,Gross S,Massa F,et al,PyTorch:An imperative style,high-performance deep learning library. In Advances in Neural Information Processing Systems,2019:8026–8037
[15]Silver D,Huang A,Maddison C J,et al,Mastering the Game of Go with Deep Neural Networks and Tree Search,Nature,2016,529(7587):484– 489
[16]Vaswani A,Shazeer N,Parmar N,et al,Attention Is All You Need,In Advances in Neural Information Processing Systems,2017:5998–6008;Radford A,Narasimhan K,Salimans T,et al,Improving Language Understanding by Generative Pre-training,2018;Radford A,Wu J,Child R,et al,Language Models are Unsupervised Multitask Learners,2019;Brown T B,Mann B,Ryder N,et al,Language Models are Few-shot Learners,arXiv preprint arXiv:2005.14165
[17]Sachin D N,Annappa B,Ambasange S,et al,A Multimodal Contrastive Federated Learning for Digital Healthcare,SN COMPUT. SCI. 4, 674 (2023);Theodora Nevrataki,et al,A Survey on Federated Learning Applications in Healthcare,Finance,and Data Privacy/data Security. AIP Conf. Proc. 2023,2909,120015;Wen J,Zhang Z,Lan Y,et al,A Survey on Federated learning: Challenges and Applications. Int. J. Mach. Learn. & Cyber.,2023,14:513–535
[18]Tibshirani R,Regression Shrinkage and Selection via the Lasso,Journal of the Royal Statistical Society:Series B (Statistical Methodology),1996,58(1):267–288;Fan J,Li R,Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties,Journal of the American Statistical Association,2001,96(456):1348–1360
[19]Donoho D L,Compressed sensing,in IEEE Transactions on Information Theoy,2006,52(4):1289–1306
[20]Wainwright M J,High-Dimensional Statistics:A Non-Asymptotic Viewpoint,Cambridge University Press,2019
[21]Belkin M,Hsu D,Ma S,et al,Reconciling Modern Machine-learning Practice and the Classical Bias–variance Trade-off,2019,116(32):15849–15854
[22]Stewart R,Raiko T,Murray-Smith R,Monte Carlo Dropout for Uncertainty Estimation in Deep Learning:A Review,Frontiers in Artificial Intelligence,2020,3:13;Welling M,Teh Y W,Osawa Y,et al,Variational Inference:A Review for Statisticians,Journal of the Royal Statistical Society:Series B (Statistical Methodology),2020,82(2):267–288
[23]Efron B,Estimating the Error Rate of a Prediction Rule:Improvement on Cross-Validation,Journal of the American Statistical Association,1993,78(382):316–331
[24]Alejandro Carnero,Cristian Martín,Gwanggil Jeon,et al,Online Learning and Continuous Model Upgrading with Data Streams Through the Kafka-ML Framework,Future Generation Computer Systems,2024(160):251–263
[25]Jie Li,Paul Fearnhead,Piotr Fryzlewicz,et al,Automatic Change-point Detection in Time Series via Deep Learning,Journal of the Royal Statistical Society Series B:Statistical Methodology,2024(86):273–285
[26]Dwork,Cynthia,Frank McSherry,Kobbi Nissim,et al,Calibrating Noise to Sensitivity in Private Data Analysis,Proceedings of the Third Conference on Theory of Cryptography,ed. S. Halevi and T. Rabin,2006:265–284
[27]He X,Madigan C,Wellner J,et al,Statistics at a Crossroads:Who Is for the Challenge? NSF Workshop Report,National Science Foundation
[28]He X,Lin X,Challenges and Opportunities in Statistics and Data Science:Ten Research Areas,Harvard Data Science Review,2020,2(3)
[29]Topol E J,High-Performance Medicine:The Convergence of Human and Artificial Intelligence,Nature Medicine,2019,25(1):44–56
[30]Weyn J A,Durran D R,Caruana R,Can Machines Learn to Predict Weather? Using Deep Learning to Predict Gridded 500‐hPa Geopotential Height From Historical Weather Data,Journal of Advances in Modeling Earth Systems,2019,11(8):2680–2693
[31]Salat H,Smoreda Z,Schläpfer M,A Method to Estimate Population Densities and Electricity Consumption from Mobile Phone Data in Developing Countries,PLoS One,2020,15(6):e0235224;Woods D,Cunningham A,Utazi C E,et al,Exploring Methods for Mapping Seasonal Population Changes Using Mobile Phne Data,Nature:Humanit Soc Sci Commun,2022,9:247;Francesco Rampazzo,Marzia Rango,Ingmar Weber,New Migration Data:Challenges and Opportunities,Chapter 18 in Handbook of Computational Social Science for Policy,Springer,edited by by Eleonora Bertoni,Matteo Fontana,Lorenzo Gabrielli,Serena Signorelli,Michele Vespe,2023
[32]Wencan Lin,Yunjie Wei,Economic Forecasting with Big Data:A Literature Review,Journal of Management Science and Engineering,2024,9(2):254–270
[33]Varian,Hal R,Big Data:New Tricks for Econometrics,Journal of Economic Perspectives,2014,28(2):3–28
[34]Welch T F,Widita A,Big Data in Public Transportation:A Review of Sources and Methods,Transport Reviews,2019,39(6):795–818
[35]Corsi A,de Souza FF,Pagani RN,et al,Big Data Analytics as a Tool for Fighting Pandemics:A Systematic Review of Literature,J Ambient Intell Humaniz Comput,2021,12(10):9163–9180
[36]https://academic.oup.com/jid/article/214/suppl_4/S375/2527914
[37]Ibrahim S A,Charlson M E,Neill D B,Big Data Analytics and the Struggle for Equity in Health Care:The Promise and Perils,Health Equity,2020,4(1):99–101
[38]https://datasciencecampus.ons.gov.uk/projects/generative-adversarial-networks-gans-for-synthetic-dataset-generation-with-binary-classes/
[39]https://github.com/gretelai/awesome-synthetic-data
[40]https://unstats.un.org/bigdata/task-teams/privacy/guide/
[41]误用亚群分析可能会产生严重的后果。2018年美国最高法院的哈科宁诉美国政府案就是一个警示。2002年,时任生物技术公司InterMune首席执行官的Harkonen博士发布了一份新闻稿,介绍了FDA批准的药物Actimmune的三期试验结果,该药物可作为延缓特发性肺纤维化(IPF)进展的新适应症。该公司只用了他们的试验数据中的一部分数据(亚组数据),据此报告得出新药对患者具有显著性影响的统计学意义的结果。联邦陪审团发现这是选择性的错误报道。