问卷的预处理——如何对录入数据进行初步的检查中科易研

时间:2021-09-26 04:24来源:未知 点击:

  在调查问卷设计完成后,我们并不能立即发出,要先进行一个初步检查的环节,那么,在这个过程中,要如何对录入数据进行初步检查呢?

  好的做法是每输入一个被试的数据,随即检查一遍,然后才输入下一个被试数据。诚然,如果是通过网络问卷,则没有这个问题。数据完成输入后,可以对每个变量做一些简单的计算和描述统计,检查是否有异常的被试、变量和数值。 例如,www.00976a.com, 如果某个被试在每个题目的得分都相同或者呈现很规律的模式,则是不合作的被试,应当剔除;又如,如果题目得分的最大或最小值出现在预设范围之外,需要去检查相应的被试及其原因。对于检查无误的原始数据,如果所用量表存在反向计分的题目,需对反向题进行重新编码。

  问卷数据中通常一个题目就是一个变量,如果有被试对某个题目没有作答,相应的变量就存在缺失值(missing value),需要处理。缺失类型有三种:完全随机缺失(MCAR)、随机缺失(MAR)、非随机缺失(NMAR)。MCAR指某个变量X缺失的概率与其本身和研究中的其他变量都无关。MAR指某个变量X缺失的概率与研究中的某个或者某些变量有关,但与X本身无关。NMAR指某个变量X缺失的概率与X本身的取值有关(可能与其他变量也有关)。

  对于MCAR数据,缺失数据是可以忽略的,简单地将有缺失的被试删除(列删法,listwise) 就可以了,但样本容量只能算删除之后的。对于MAR数据,如果弓起缺失的变量与要估计的参数无关,则缺失数据也是可以忽略的。缺失种类不明的时候,只要缺失数据很少(如5%之内),删除有缺失的被试通常影响不大。

  另外,不少统计方法对变量有正态性假设,因而需要分布检验。好在不少基于正态分布的统计方法都有一定的稳健性,除非数据严重非正态(偏态系数或峰态系数的绝对值超过10),否则数据非正态对结果的影响通常不大。如果数据严重非正态,首先要考虑样本是否具有代表性,若样本无代表性,则分析结果不能推论到样本以外的情形。若样本有代表性,在后续统计分析时,要注意估计方法的选择。

  中科易研以十余年行业积累为基础,结合互联网大数据技术,秉承“数据、信息、知识、智慧”的方法论,坚持“用数据说话、用数据决策、用数据管理、用数据创新”的理念,以自主研发获得国家发明专利的易研问卷平台和易研大数据云平台为依托,专注于为教育科研机构、政府企事业单位提供基于数据采集、数据清洗、数据检索、数据管理、数据分析和可视化、数据资源整合等全流程数据服务,并为用户提供大数据云平台搭建服务。