中南人才测评中心(中南命题)-湖南人事考试命题-第三方命题,国企考试出题,教师和卫生院招聘考试命题机构,考试服务考试的测量学基础知识：经典测量理论及项目反应理论人事考试理论与实践的有关文章，全在中南测评中心官网！

考试的测量学基础知识：经典测量理论及项目反应理论

2021-09-27

考试是一种常见的测量形式，其作为一门科学，拥有深厚的理论基础，了解理论基础有利于考试工作的开展，研究院作为学术性机构，致力于加强考试科学知识的普及，本公众号将会陆续推送考试科普知识，供各考试工作者参考学习。

本期文章转自《中国考试》，共上下两篇，按测量学的发展时间，分别介绍了四个测量学理论，本篇将介绍经典测量理论及项目反应理论的理论假设及特点。

经典测量理论（CTT）

经典测量理论（Classical Testing Theory，CTT）是历史上出现时间最早、发展时间最长、对实际工作影响广泛、人们也最为熟悉的一种心理测量学理论。1950年，美国学者Gulliksen《心理测验的理论》一书的出版，标志着CTT的成熟。

根据CTT理论，测量结果不可能是完全没有误差的真值，而只能获得包含测量误差在内的观测分数。因此CTT假定，观测分数与真分数之间是一种线性关系，观测分数（X）是真分数（T）与误差（E）之和，从而形成了CTT的模型：X=T+E，如小明某次数学考试卷面得了80分，80分即为观测分数。

由于公式中存在两个未知变量，因此这个公式是无法解的，除非做出一些简单的假设。CTT的假设是：①测量误差是随机的，并服从均值为零的正态分布；②被试总体的误差均值为零；③平行测验的误差分数不相关。

经典测量理论在真分数假设的基石上构建起了它的理论大厦，主要包括信度、效度、项目分析、常模、标准化等。依据CTT的框架编制和施测心理测验时，最重要的任务就是在测验的各个环节上，通过各种方法和技术尽量减小测验误差，以提高测验的可靠性，即信度。

经典测量理论由于模型简单、浅显易懂，在心理与教育测量领域应用范围较为广泛，且贡献巨大。其不足主要在于：①统计量的样本依赖性，效度、信度、难度、区分度等参数的估计对样本的依赖性很大，必须强调样本对总体的代表性。②测量分数的测验依赖性，由于很难建立“平行试卷”，测量相同能力的两个不同测验上的分数可比性差。③信度估计的不精确性，CTT假定对不同能力水平的被试来说，测量误差是相同的，但事实上一份测验只有在施测于能力水平与测验难度相当的被试时才容易获得比较高的测量精度。

项目反应理论（IRT）

项目反应理论（Item Response Theory，IRT）的基本思想起源于20世纪30年代末和40年代初。美国心理测量学家洛德（Lord）于1952年在其博士论文中首次提出项目反应模型，即双参数正态卵形模型，标志着IRT的正式诞生。1957年和1958年，美国数理统计学家伯恩鲍姆（Birnbaum）用数学上更容易处理的逻辑斯蒂曲线取代了Lord的正态卵形曲线。丹麦数学家和统计学家拉什（Georg Rasch）在1960年提出著名的单参数模型——Rasch模型，之后他的学生Wright将Rasch模型应用推广，推动IRT在发展方向上走出了另外一条路。20世纪70和80年代，项目反应理论迅猛发展，像组卷、项目功能差异（DIF）、标定、等值，以及标准设定和测验计分、自适应考试等越来越离不开IRT。

项目反应理论建立在2个基本概念上：①考生在某一测试试题上的表现情形，可由一组因素来加以预测或解释，这组因素叫做潜在特质或能力；②考生的表现情形与这组潜在特质间的关系，可通过一条连续递增函数来加以诊释，这个函数便叫做项目特征曲线（Item Characteristic Curve，ICC)。任何一条项目特征曲线所代表的含义是：答对某一试题的概率，是由考生的能力和试题的特性所共同决定。考生的潜在特质或能力的程度越强（或越高），其在某一试题上的正确反应概率便越大。

与CTT的弱假设不同，项目反应模型被称为强假设模型，因为其前提假设非常严格。这些假设有：①单维性假设。即假定测验中各题目都共同测量一种潜在特质，这种单一潜在特质包含在全部测验题目中。被试在测验上的表现只能由一种潜在特质来解释。②局部独立性假设。即假设受测者在测验题目上的反应只受他自身的能力水平以及题目的某些性质的影响，而不受他人或他在其他题目上的反应的影响。也就是说，涵盖在项目反应模型里的能力（特质）因素，才是唯一影响被试在测验题目上作出反应的因素。③单调性。即考生对题目正确反应的概率随其能力水平的增加而单调递增。通常认为，单维性假设与局部独立性假设是等价的，局部独立性是单维性假设成立的一个必然结果。

与经典测量理论相比，项目反应理论至少有以下几个优点：①题目参数稳定，不受考生样本的影响，题目参数估计更为精确；②针对每个考生提供个别差异的测量误差指标，因而能精确推算考生的能力估计值；③解决了测验等值问题，它既能实现被试测验总分等值，又能实现题目参数等值；④定义了信息函数这一综合质量指标，来评定某个题目或整个测验的准确性。

项目反应理论作为最重要的一个现代测量理论，正日益频繁地应用在大型题库建设、大尺度量表开发、国际评价项目及计算机化考试等领域，在心理与教育测量舞台上扮演着越来越重要的角色。

本文转载自《中国考试》