数据编码及其质量评估

学术   2025-01-23 21:01   山东  

‍‍‍‍

 这是 科研写作研究所 的第 3543 篇原创文章 


关于科研写作研究所

“科研写作研究所”公众号由国高集团科研写作研究院主办,是国内人文社科领域专业和有影响力的科研写作研究与教育平台。公司现为教育部高教司产学合作协同育人项目立项单位、教育部高校学生司供需对接就业育人项目立项单位、人社部国家职业资格培训鉴定实验基地“论文写作指导”师资职业能力证书和教育部教育技术与资源发展中心(中央电化教育馆)“论文写作能力”学生技能证书考试开发与培训机构。自2012年成立以来,我们已经为国内1000多家高校/科研院所、500多万中青年教师/科研人员以及硕博研究生/本科生提供服务。


编码是根据代码本中列出的代码,标注或索引所有数据的过程。这样研究人员就可以通过代码来检索数据,将包含特定代码的所有文本片段都识别出来,再将分析工作的重点集中于这些片段。Strauss认为研究品质很大程度上取决于编码的质量。精心编码的数据奠定了数据分析的基础,如果数据编码工作做得不好,会影响接下来的分析工作。莫妮卡·亨宁克,英格·哈特和阿杰·贝利的《质性研究方法》中,围绕对数据进行编码的几个注意事项,给出了详细的介绍。

一、重要性

编码意味着数据简化,研究人员将整个数据集分割为短小而具有意义的片段用于分析。对数据的分割让数据检索更为便捷,研究人员很容易就能定位涉及某个主题的所有数据片段。这样研究人员就能重点分析数据中的特定主题。因此编码使得研究人员可以通过代码来分析数据,还可以比较代码讨论方式的总体差异,或是比较代码讨论方式的组间差异。编码颇为耗时,但是他奠定了数据分析的基础,因此是至关重要的步骤。

二、编码过程

编码过程中,研究人员要仔细阅读数据,思考在这部分数据中讨论了哪些代码,然后用相关的代码来标注这部分数据。研究人员在编码过程中要不断思考文本的内容,评估讨论的背景,明确讨论的走向并决定应该采用哪些编码来标注数据。一个文本片段通常会包含好几个代码,因此研究人员只要将所有相关的代码全部标注出来就可以了。

在编码过程中,研究人员可能识别出代码本中原来并未列入的新代码,也可能发觉已列入的代码有了变化。在这些情况下,研究人员可以将新代码添加到代码本中,或者完善某些代码的定义,纳入或排除研究人员在编码过程中意识到的数据细微变化。如果提出了新的代码,研究人员就要考虑对之前已编码的数据再度编码,因此改动代码要谨慎为之。

三、编码的文本量

编码的文本量应视具体情况而定。通常,编码的文本量应该根据数据中主题的起止而定。因此,有些编码对应的仅仅是一行文本,而有些编码对应的文本可能是一个段落、一页或者好几页文本,这取决于文本中对代码进行讨论的篇幅。

研究人员要考虑好编码的文本量,以确保对讨论主题有清楚的认识。当研究人员检索已编码的文本用于分析时,检索出来的是编码对应的片段,因此编码的文本量应稍多一些,以便研究人员在阅读检索好的文本片段时,这些片段还能保留原来的语感。同样,当采访者的问题揭示出讨论背景,有助于澄清讨论主题时,研究人员还可以对问题编码。编码是在两类情况之间权衡:如果研究人员没有标注足够多的文本,就难以清楚揭示相关的主题;如果研究人员标注了过量的文本,分析时难免要阅读大量的冗余数据。

四、编码数据的一致性

在对数据编码时,检查不同研究人员编码的一致性是很重要的;这通常称为编码者内部的统一性,这点在研究小组中尤为重要。编码不一致以及代码定义不明会使得不同研究人员在编码相同的数据时出现差异,立即影响到数据分析的质量。

在编码时,关键问题在于是否所有的研究人员都在数据中识别出了相同的主题,并且他们对数据的编码保持了一致。要做到这一点,第一种方法是对编码人员进行培训,确保他们理解所有的代码,清楚代码的含义,知道如何从数据中识别代码。编码不一致的原因一般包括:代码的定义不够明确,定义过于宽泛或狭义,代码本中出现了重复的代码以及编码人员的培训不足,难以从数据中识别代码。编码不一致的解决之道包括:修改或扩展代码的定义,(如果存在重复代码或冗余代码)减少代码的数量,再度进行数据分析的培训,减少编码数据量以免分析人员感觉疲劳。代码本能为研究人员识别文本中的代码提供参考,是编码工作的核心文件,因此对于参与编码的全体研究人员而言,代码本中的内容应当明确无误。

为了评估不同研究人员编码的一致性,可以请几位研究人员编码同一部分数据(例如,几页文本或一份转录抄本),然后比较他们编码时的明显不同之处。如果研究人员编码的一致性较差,就表示代码本中的定义不甚明确或是需要对编码人员重新培训。

五、编码后的质量评估

数据准备和确定代码奠定了后续数据分析工作的基础,因此研究人员要确保数据准备的质量,这一点很重要。研究人员必须了解访谈转录抄本是如何准备的,副本是否保持了口语化的风格,副本的准确性是否经过检验以及数据准备过程是否符合伦理。代码应扎根于数据,代码的确定过程应具有系统性,代码的一致性也要经过检验。下面的问题可以用于评估数据准备工作的品质。

(一)适宜性

访谈内容是否逐字转录?

研究人员是否使用代码本以确保编码的一致性?

如何检查编码者内部的统一性?

(二)透明性

研究人员是否描述了数据准备工作?

研究人员是否对代码的确定过程和编码过程进行了描述?

(三)扎根性

研究人员是否提出了归纳性代码和内在代码?代码和概念是否扎根于数据?

在确定代码的过程中,研究人员是否通过备忘录来深刻反思数据?

(四)饱和性

代码数量是否达到饱和?

(五)诠释性

转录抄本中是否保持了口语化的风格?

翻译后的转录抄本是否保留了参与者们特定的表述方式或隐喻?

(六)伦理性

研究人员是否已经从转录抄本中移除了所有显著标识?




白玉盼(科研写作研究所编辑教研二室学术编辑

转载开白请添加微信:ACWRITE0

科研写作研究所
百万博士青椒科研写作实训基地,国家高新技术企业,人社部国家职业资格培训鉴定实验基地“论文写作指导”、教育部COSE平台“论文写作能力”两门课程招生培训机构,教育部产学合作协同育人、供需对接就业育人项目立项企业。
 最新文章