您好! 欢迎来到中南人才测评中心(第三方命题专家)
帮助优秀组织提高人事决策准确性

全国服务热线:15364068073

讯中心

当前位置:资讯中心->人事考试理论与实践->考试的测量学基础知识——信度、效度

考试的测量学基础知识——信度、效度

2021-09-27

考试是一种常见的测量形式,其作为一门科学,拥有深厚的理论基础,了解理论基础有利于考试工作的开展,研究院作为学术性机构,致力于加强考试科学知识的普及,本公众号将会陆续推送考试科普知识,供各考试工作者参考学习。

本文介绍了测量的信度、效度,它们是衡量测量工具的重要指标,了解它们有助于在实践中更好地对考试的质量进行评价。


# 信度 #


信度概念

信度(reliability)又称可靠性,指的是测量结果的一致性和稳定性程度。即不同时间,使用同一测验,或者在同一时间使用它的不同版本,抑或在不同的测试条件下,测量同一组受测者的同一个心理特质所得的分数都相同。一个好的测量工具,对同一事物反复多次测量,其结果应该保持一致,否则它的测量结果便不可信。例如,一个学生在连续三次数学考试中,第一次得80分,第二次得95分,第三次却得60分,到底他的成绩如何,似乎其中哪一个也不能代表他的水平,因为测量的结果不稳定,或者说该数学考试是不可靠的。在实践中,不可靠的考试是没有意义的。

依据经典测量理论:实得分数 = 真分数 + 误差。要检验测量结果可靠与否,实质上就是去判断在考生实得分数中有多大成分是由其真分数的变异所引起的。若此比例偏低,则表明实得分数变异中的大部分是由误差变异所引起,因此测量结果并未很好地反映出考生的真实水平,即信度较低;反之则信度较高,结果较为可靠。


信度的种类

由于误差的来源可以是不同方面的,即影响测验分数不一致的条件有很多,所以,信度可以分为许多种。

重测信度是估计测验跨时间一致性的指标。

复本信度是估计测验跨形式一致性的指标,同质信度(又称内部一致性系数)是估计测验内部跨试题的一致性指标。

评分者信度是估计不同评分者对同一对象进行评定时的一致性指标等。

由于信度系数总是在特定条件下获得的,因此只有当一项考试在不止一种情况下证实具有较好的信度时,才能说明这个考试是真正可靠的。


信度的影响因素

一般来说,测验越长,信度越高一方面,测验越长,题目取样或内容取样就越充分,结果就越可靠。在增加测验长度时要注意:只有增加的题目和原题目在性质上相同时,才能达到提高信度的效果。

测验的难度也会对信度产生影响如果一个测验的难度太低,测验分数会非常集中并聚在高分端,即出现天花板效应;如果一个测验的难度太高,测验分数也会非常集中并聚在低分端,即出现地板效应。只有当测验的难度水平能够使测验分数分布范围最大时,测验的信度才会比较理想。一般来说,当所有应试者的平均分为测验总分的一半(50%),并且分数从零分到满分均匀分布时,测量的信度最高。

由此可知,测验的长度和难度会共同起作用,所以如果只增加测验的长度,但没有控制测验的难度,使测验分数不能充分散开,那么增加测验长度也是徒劳的。


# 效度 #


效度的概念

传统意义上,效度(validity)是指一项测试测量到了它所想要测量的东西的程度。由于效度反映的是测验的正确与有效性,效度被认为是测量工具本身的一项特征,因此效度的检验可说是测验开发最关键的步骤。


效度的种类

内容效度是检查测验内容是不是所要测量的行为领域的代表性取样的指标。在实际工作中,我们编制的测验不可能包含所要测量的行为领域的全部材料或情景,因此只能选择一个有代表性的样本,通过观察应试者对个别题目的反应,来推测他的总体行为表现。内容效度比较适合评估教育和职业成就测验,也适合评估某些用于选拔和分类的人事测验。

效标关联效度反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。效标是考查测验效用的外在参照标准。例如,一个机械能力倾向测验,其效标可以是某人成为机械师后的工作表现;对于一个管理能力测验而言,其效标可以是某人将来管理工作的绩效。

构想效度反映了测验能够测量到理论上的构想或特质的程度。构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性等,这些概念可以通过各种可观察的材料加以确定。构想效度则关注测验是否能正确反映理论构想的特性。例如,一项言语流畅性测验测量的是不是真正的言语流畅性,是否对言语流畅性的理论概念中包含的所有特点(如语速、语句间的逻辑性、口误的次数等)进行了测量。


影响效度的因素

能造成测验结果误差的因素都会影响测验的效度。一个测验的效度高低,很大程度上取决于该测验受无关因素影响的程度。受无关因素影响越小,则效度越高。

测验题目的表达不清晰、题目太难或太容易、题目中出现额外的线索、题目过少、题目的安排和组织不恰当、题目不符合测验目的等,都会使测验的效度降低。

一般来说,增加测验的长度通常可以提高测验的信度,而效度系数能否达到最大值也受信度的影响,因此,增加测验的长度往往也能提高测验的效度。不过,效度增加的前提是这些增加的测验题目必须与测验的目标相关。


文章来源:《中国考试》、《人才测评:方法与应用》


Copyright 中南人才测评中心(第三方命题专家) .ALL Rights Reserved.

湖南省长沙市雨花区金海路128号长沙国际研创中心A2栋1001   网站备案:赣ICP备10200863号-6TEL:15364068073