中国经济社会大数据研究平台的“数据查询”和“数据分析”功能提供了丰富经济社会大数据资源,支持科研人员获取研究所需的数据,如果想要进一步进行深度数据挖掘分析,就需要用到“决策支持”功能。另外,平台还可以管理自有数据。这就是这一期要了解的决策支持和数据管理功能,做科研、报项目的师生赶紧了解掌握一下。同时参与文末有奖竞答活动还可以赢取奖品!涨知识,赢奖品,快来参与啦~~~
1313,virtual,Siren、
beside、M、刘瑞芳
以上读者请携带校园卡到图书馆3楼302办公室领奖。
领奖时间:周二至周五 上午8:00-11:30,下午2:00-5:00,法定节假日除外
决策支持功能支持在线设置参数,集成相关性分析、统计预测、科学评价、决策模型等4大类34种专业数据分析模型,实现一站式数据查询、分析与决策服务。
决策支持研究包括五大类功能:相关性分析、统计预测、科学评价、决策模型和数据智能分析平台(独立的在线分析工具,我校没有购买)。
①相关性分析:相关性分析是用于研究指标关系的分析方法,指对两个或多个具备相关性的变量元素进行分析,从而衡量变量因素的相关密切程度。
②统计预测:根据历史数据对指标数据未来的发展趋势进行预测。
③科学评价:采用多种评价方法对评价主体进行综合评比最后得到综合排名。
④决策模型:是在考虑多个属性的情况下,选择最优备选方案或进行方案排序的决策方法。
⑤数据智能分析平台:数据智能分析平台是一个独立的在线分析工具类产品,目前包括三大类分析模块:宏观经济、运筹决策、行业定制板块。
决策支持功能通过为用户精炼简化的操作方法,一键运算得到结果。进入到该模块下只需三大步骤,第一步选择研究模型,第二步选择建模方法及分析方法,第三步设定指标及参数,然后点击“计算”,即可生成对应的结果页。
进入到决策支持功能模块下,可通过两种途径:①通过首页决策支持导航栏,点击相关研究模型进入。②在决策支持的快捷入口进入。
相关性分析包括四种建模方法,分别是关联规则挖掘、一元线性回归分析、多元回归分析和相关系数。
关联规则挖掘:关联规则挖掘是数据挖掘中的一种重要技术,它主要用于发现数据集中项目之间的有趣关联或相互关系。在中国经济社会大数据研究平台上,关联规则挖掘功能可以帮助用户揭示不同经济社会指标、事件或现象之间的潜在联系,如消费水平与就业状况的关系、政策变化对产业发展的影响等。
通过关联规则挖掘,决策者可以更加深入地理解经济社会运行的内在机制,发现潜在的市场机会或风险点,从而制定出更加精准有效的政策或商业策略。例如,政府可以利用关联规则挖掘技术来预测哪些政策组合最有可能促进经济增长和就业,或者哪些产业间的协同发展最有可能带来经济效益的提升。
回归分析:回归分析是确定两个或两个以上变量间关系的统计方法。其优点是对变量间的关系进行提炼和固化,形成模型,可进行预测。分为一元线性回归分析和多元回归分析。两个变量使用一元线性回归分析,两个以上变量使用多元回归分析。
相关系数:可以通过数字对变量的关系进行度量,并且带有方向性,0~1表示正相关,-1~0表示负相关,越靠近0相关性越弱。相关系数能度量变量间是否存在线性关系,但具体有什么样的数量关系则需要用到回归分析。
下面以多元线性回归分析为例了解每一步的操作。多元回归分析需要设定解释变量和被解释变量,并且被解释变量是一个,解释变量可以是多个。
假设我们想研究2007到2018年间河北省粮食产量、受灾面积、化肥施用量、耕地灌溉面积之间的关系。
按照图中所示步骤选择相应的模型和指标。
其中,评价地区和评价指标中的“加号”是用来缩放扩展框;
在选择指标的时候,有两种方法:按指标分类筛选指标或直接检索指标。
结果图表:呈现结果,可进行数据形式和图表样式的转换,下载图片和word版的页面内容。
可根据结果页中的参数、数值,检测、评估结果并进行决策。
统计预测包括四种建模方法,分别是一元线性回归预测、多元线性回归预测、时间序列趋势外推预测和指数平滑法。
一元线性回归预测:分析只有一个自变量线性相关关系的方法。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。适用于自变量与因变量存在线性关系的情况。
多元线性回归预测:一个经济指标受多个因素影响,也就是一个因变量和几个自变量有依存关系的情况。有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用,可用多元线性回归预测,它适用于自变量与两个或两个以上因变量存在线性关系的情况。
时间序列趋势外推预测:时间序列趋势外推预测是将预测目标的历史数据按照时间的顺序排列成为时间序列,然后分析它随时间变化趋势,外推预测目标的未来值。当预测对象依时间变化呈现某种上升或下降趋势,且决定过去预测对象发展的因素,仍决定其未来的发展,同时,预测对象发展过程一般为渐进变化,非跳跃式变化,这种情况下,适用此模型预测。
指数平滑法:平滑法是利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化,从而显示长期趋势变化的规律。在实际生活中,我们会发现对于大多数随机事件,近期的因素会对现在的影响更大,远期的因素对现在影响较小。为了更好的反映这种影响作用,我们需要把所有因素考虑进去,同时还需考虑到时间间隔对事件发展的影响,使各期权重随时间间隔的增大而逐渐减弱。不舍弃过去的数据,给过去的观测值不一样的权重,即近期观测值的权数比远期观测值的权数要大,这就是指数平滑法。指数平滑法既用于生产预测,也用于中短期经济发展趋势预测。
统计预测操作步骤与相关分析操作步骤相似,按照系统设定好的必要选项,根据研究维度,自主选择即可。
以一元线性回归预测中国2021-2023年的GDP数据为例。
选择研究模型-选择建模方法-选择分析方法-选择评价时间和地区-选择预测指标-设置参数-点击计算生成结果页。
科学评价模型就是,采用多种评价方法对评价主体进行综合评比最后得到综合排名。在宏观经济研究中,科学评价模型也被普遍运用,如:评价各省城市建设环境、评价某省各市经济发展状况、中国主要城市空气质量的量化评价、中国副省级城市竞争力评价等等。
平台中的科学评价模型下有5种建模方法:熵值法、层次分析法(AHP法)、灰色关联分析法、因子分析法、主成分分析法。
熵值法:通过计算熵值来判断一个方案的随机性及无序程度,也可以根据熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。因此,熵值法中可根据各项指标的变异程度,计算出各个指标的权重,为多指标综合评价提供依据。
层次分析法:简称AHP法,是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。在现实生活中,我们往往会遇到决策的时候,比如专业的选择、工作的选择以及买房的选择等等。在决策者作出最后的决定以前,他必须考虑很多方面的因素或者判断准则,最终通过这些准则作出选择。例如评价北京、南京、三亚的宜居性,需同时考察环境水平、经济发展、教育水平、医疗水平等等因素,环境水平又包括大气环境、人口密度、绿化率等因素,教育水平需要考虑教师素质、高校比例、义务教育建设等因素。
灰色关联分析法:灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。简单的说,灰色关联度分析是一种多因素统计分析的方法,我们假设知道某一个指标可能与其他某几个因素相关,如想知道这个指标与其他哪个因素相对来说更有关系即相对关系的强弱,把这些因素排个序,得到一个分析结果,便可判断。
因子分析法:是一种降维、简化数据的技术。在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
主成分分析法:基本原理是利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
科学评价的操作步骤与相关分析、统计预测操作步骤相似,按照系统设定好的必要选项,根据研究维度,自主选择时间、地区、评价指标,设置参数。其中,层次分析法和灰色关联分析法还需要输入评价目标和评价面。下面以具体的案例来说明应用方法。
假设案例:用熵值法,以“GDP”、“第三产业增加值”、“第二产业增加值”来评价山西省、天津市、北京市、河北省的排名。
决策模型是用于在考虑多个属性的情况下,选择最优备选方案或进行方案排序的决策方法。在中国经济社会大数据研究平台上,决策模型中有四种分析方法:SWA法、WP法、TOPSIS法、ELEFCTRE法。
简单线性加权法(SWA法):多属性决策中最简单也是最常用的一种方法,这种方法先根据实际情况,确定各个属性的权重,再对决策矩阵进行归一化处理,通过线性加权平均求出每一个方案的融合值,最后根据其融合值的大小排序或选择最佳方案。
WP法:是与SWA方法类似的一种方法,与SWA方法不同的是在第三步中计算方案的融合值时不是用线性加权,而是将各属性值相乘,权重变成了相应属性值的指数。
理想点法(TOPSIS法):是一种从几何观点出发的多属性决策方法,在m个属性下评估n个方案,这是借助于多目标决策问题中理想解和负理想解的思想。
ELEFCTRE法:通过构造方案的级别优劣关系,来对方案排序。主要包括两步:一是构造级别高于关系,二是利用所构造的级别高于关系对方案集中的方案进行排序。
假设案例:2013年度,根据“GDP”、“GDP 指数”、“GDP 中第一产业增加值”三个指标,来决定投资“北京市”、“天津市”、“河北省”哪个地区。
1.从“决策支持研究模型”栏目中选择“决策模型”
2.从“选择分析方法”栏目“SWA 法”
3.从年度时间下拉框选择评价时间为“2013 年”
4.选择评价地区为“北京市”、“天津市”、“河北省”
5.从指标类别下选择“综合”、“国内生产总值”下,选择“GDP(亿元)”、“GDP 指数((上年=100))”,“GDP 中第一产业增加值((GDP=100))”
6.选择“指标权重计算方法”
7.点击最下方“计算”按钮
8.生成计算结果页面
我的统计数据是对自有数据进行管理的功能模块,可实现三个方面的功能:已收藏数据管理,我的统计数据库管理和自定义指标管理。
从首页导航栏“我的统计数据”即可进入此模块。
① “我的收藏”:包含统计报表,收藏年鉴,收藏模型。在使用统计数据库的过程中,可以将自己关注的统计报表、年鉴和模型进行收藏,收藏之后的内容会在“我的收藏”里进行统一管理。右侧列表里显示的是用户在使用各种数据分析功能的时候,将生成的统计报表页进行收藏之后的结果。对已收藏的统计报表可以进行查看和删除操作。
②“我的统计数据管理”:当平台的宏观指标数据不能满足某些研究时,可以通过“我的统计数据管理”,将自有的一些微观数据或企业数据上传,然后运用平台的功能进行分析研究,也可以结合平台的宏观数据进行综合分析。
③“我定义的统计指标”:分为“自定义统计指标”和“参考扩展指标”。自定义统计指标,指自己构建的指标。当系统中找不到某些指标时,可以自己构建,但前提是必须遵循系统的构建规则。参考扩展指标是系统提供的扩展指标列表,供研究参考使用。
另外,我们上传自有数据、构建新的指标的目的就是运用系统对这些指标、数据进行分析研究。上传或构建完之后,需要进入“数据分析”或“决策支持”功能模块,进一步做数据分析或决策支持研究。
中国经济社会大数据研究平台(data.cnki.net)上提供了多种自主学习渠道。
平台首页右上角的产品介绍和操作视频提供了中国经济社会大数据研究平台的总体介绍和具体详细的操作视频,平台靠右有两个沟通交流的途径:在线咨询、用户交流群,有问题可以进行咨询。
①进入“河北经贸大学图书馆”网站(https://lib.hueb.edu.cn/),找到“数字资源——数字资源导引”,在列表中查找“中国知网”,在学校IP范围内使用。
②通过中国知网(CNKI)超链接或者中国知网网址http://www.cnki.net/
在图书馆“数字资源导引”中,对数据库名称都做了超链接,可以点击直接进入具体数据库介绍,包括子库链接,从这里可以进入相关子库。或者从中国知网(总库)的链接地址进入,点击“统计数据”进入。
③直接输入网址:https://data.cnki.net/
全校师生均可通过学校的WebVpn系统,在校外使用图书馆的数字资源。
使用方式:进入河北经贸大学主页(https://www.hueb.edu.cn/),点击页面左上角的“WebVpn”标识,或直接访问Webvpn主页(https://webvpn.hueb.edu.cn/)。账号与密码为校内个人门户统一身份认证账号密码(账号为学号/工号),或微信扫描登录,登录成功后,即可在页面中的“外部数据资源”访问部分图书馆购买和试用的数字资源。
1、中国经济社会大数据研究平台的操作视频在首页哪个位置,可以截图?
2、决策支持研究模型有哪几种,请列举出来
3、“我的统计数据”模块上传的自有数据、构建的新指标,上传或构建完之后,怎样做进一步的数据分析或决策支持研究?
1、答题领奖活动面向河北经贸大学全体在校师生
2、答题的读者请将答案以留言的形式回复(附上工号或学号),我们会在全部答对的读者中随机抽取3名幸运者,于下期公布获奖名单;
3、中奖者请携带校园卡到图书馆3楼302办公室领取奖品。
文字、图片:张忠凤
排版:刘旭
审核:王玉卿