概率抽样的总体、元素和抽样框

学术   2024-11-03 21:00   山东  

 这是 科研写作研究所 的第 3368 篇原创文章 


关于科研写作研究所

“科研写作研究所”公众号由国高集团科研写作研究院主办,是国内人文社科领域专业和有影响力的科研写作研究与教育平台。公司现为教育部高教司产学合作协同育人项目立项单位、教育部高校学生司供需对接就业育人项目立项单位、人社部国家职业资格培训鉴定实验基地“论文写作指导”师资职业课程证书和教育部教育技术与资源发展中心COSE项目“论文写作能力”学生技能课程招生服务机构。自2012年成立以来,我们已经为国内1000多家高校/科研院所、500多万中青年教师/科研人员以及硕博研究生/本科生提供服务。


概率抽样又称随机抽样。概率抽样是以概率理论和随机原则为依据来抽取样本的抽样,是使总体中的每一个单位都有一个事先已知的非零概率被抽中的抽样。总体单位被抽中的概率可以通过样本设计来规定,通过某种随机化操作来实现。概率抽样中特有的语言除了总体之外,还包括元素和抽样框。但是,部分学者可能并不了解总体、元素和抽样框这几个语言在概率抽样中的具体应用。针对这一问题,学者劳伦斯·纽曼在《社会研究方法——定性和定量的取向》一书中,给出了详细解释。

一、总体和元素

(一)元素

研究者从一个庞大的个案群或元素中抽取样本。抽样元素是分析单位或总体中的个案,也可以是任何一个将被测量的个人、团体、组织、书面文件或符号信息,甚至是社会行动(例如,一次被捕记录、一次离婚)。

(二)总体

1.总体的定义

大的群体称为总体,它在抽样过程中扮演一个重要的角色。有时候术语“全体”和总体常会互相交换使用。所谓定义总体是指研究者指明将被抽样的单位、地理位置和总体在时间上的界限。

研究者从总体的观念(例如,某个城市中的所有人)开始,但是必须对它提出更精确的定义。目标总体一词就是指一个研究者想要研究的特定个案群。样本数与目标总体所含总数间的比率称为抽样比。例如,总体为50000人,研究者想要从其中抽取150人,因此抽样比就是150/50000=0.003,或0.3%。如果总体为500,而研究者要抽取100人,则抽样比就是100/500=0.20或20%。

总体是一个抽象概念。当某个特定时间下某个群体人数固定时,总体如何成为一个抽象概念的呢?

除非是特定的小总体,我们根本不可能固定一个总体来测量。例如,在一个城市的某一时刻中,某些人死去,某些人抵达或坐飞机离开,某些人坐车经过城市边界。研究者必须明确地界定要将哪些人计算在内,在那个时间内碰巧在旅行中的城市居民要计算在内吗?在监牢、医院中的成人、小孩等人要计算在内吗?一个总体,即使是指1996年3月1日上午12时1分威斯康星州密瓦克市内所有18岁以上的民众,都是一个抽象概念,它只存在于心中,不可能具体明确地指出来。

由于总体是一个抽象概念,除非是数量小的特定总体(例如,在教室中的所有学生),所以研究者需要去估计总体的大小。作为一个抽象概念,总体需要一个操作性定义,这个过程与发展要测量的概念的操作定义是类似的。

2.总体的特性

一个总体的任何特性(例如,城市居民中抽烟的百分比,所有超过21岁的妇女的平均身高、相信不明飞行物人群的百分比)称为总体的参数。这是总体的真实特性。当总体中所有的元素都被测量后,参数就决定了。对大总体(例如,全国人口)而言,绝对无法准确知道总体的参数,因此研究者必须根据样本来估计它。研究者用从样本获得的信息,即样本统计值来估计总体参数。

二、抽样框

研究者对总体下操作性定义时,会发展一个相当近似总体中所有元素的特定名单。这个名单称为抽样框。他可以选择一种抽样框类型:电话簿、税单记录、驾驶执照记录等。列出总体的元素听起来似乎很简单,其实是项相当困难的工作,因为总体可能并没有很好的元素名单。

好的抽样框是达到好的抽样的关键。抽样框与概念所界定的总体之间的不吻合,可能是偏差的主要来源。正如变量的理论定义和操作定义之间的不匹配,会产生缺乏效度的测量,抽样框和总体之间的不匹配也会产生无效的抽样。研究者要尽力减少这种不匹配的情况。举例来说,你想要在美国的某个地区选取一些民众做调查,所以你决定使用一份列出全国拥有驾驶执照者的名单。但是某些人并没有驾驶执照,而且这些有驾驶执照的人的名单即使经常更新,也很快旧过时了,然后你想到了缴纳所得税的记录。但是并不是每一个人都缴税;有些人舞弊不纳税;另外有些人没有收入,因此没有申报;还有一些人不是已经过世了就是还不必开始纳税;再有一些人在最近一次缴纳税款后才进入或离开这个地区。你可能又想到了电话簿,但它好不到哪儿去——有些人并没有被登录在电话簿上,而另一些人则不是没有登记的电话号码,就是最近搬走了。除了一些例外的情形之外(例如,在一所大学注册的所有学生名单),抽样框几乎总是不准确。抽样框可能包含目标总体之外的某些人(例如,电话簿上那些已经搬走的人)或者可能遗漏其中的某些人(例如,没有电话的人)。

三、总体、元素和抽样框的实际应用

抽样历史中有一个著名的案例说明了这个技术的限制。一本美国的主要杂志,《文学摘要》,在1920年、1924年、1928年和1932年的美国总统选举时,寄给一些人调查选举意向的明信片,这家杂志从车主登记簿和电话簿这两个抽样框中,挑选出作为样本的人的名字。人们把表达他们会投票给谁的明信片寄回,这家杂志正确地预测出这四次选举的结果。大家都知道这家杂志的预测很成功,它在1936年时将样本增加到1000万人。这家杂志预测兰顿会大胜罗斯福,但是结果显示《文学摘要》的预测是错的:罗斯福获得压倒性的胜利。

造成这次预测错误原因有很多,但是最重要的是抽样的错误。虽然杂志抽取了数量相当多的民众,但是它的抽样框并没有正确地代表目标总体(即所有选民)。它排除了没有电话或汽车的人,在1936年,这部分选民在总体中占相当高的百分比,而这个时候是20世纪30年代经济大恐慌最严重的时期。这个框架排除了近65%的总体元素,以及倾向于偏好罗斯福的选民(低收入者)。这家杂志在前几次选举的预测上一直都很准确,这是因为高收入和低收入人群的投票对象没有太大差异。同样的,在以前的选举中,即在经济大恐慌之前,较多的低收入者可能也买得起电话和汽车。

你从《文学摘要》所犯的错误中可以学到两个重要的教训。第一,抽样框非常重要。第二,样本的大小和它是否能够正确地代表总体比较起来,是一项不太重要的因素。一组具有代表性的2500人的样本,可以比一组1000万人或5000万人所构成的不具代表性的样本,能对美国民众做出更为准确的预测。

四、结语

总之,总体是指研究者指明将被抽样的单位、地理位置和总体在时间上的界限;抽样元素是分析单位或总体中的个案,也可以是任何一个将被测量的个人、团体、组织、书面文件或符号信息,甚至是社会行动;研究者对总体下操作性定义时,会发展一个相当近似总体中所有元素的特定名单。这个名单称为抽样框。
作者:姚荣霞(科研写作研究所编辑教研一室学术编辑
请尊重原创,未经许可,拒绝转载



科研写作研究所
人社部国家职业资格培训鉴定实验基地“论文写作指导”课程考试招生培训机构,教育部教育技术与资源发展中心COSE项目“论文写作能力”课程招生服务机构,教育部产学合作协同育人项目、供需对接就业育人项目立项企业,百万博士青椒科研写作实训基地。
 最新文章