• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    基于经典测量理论和项目反应理论的等值与连接(一)
    作者:约瑟夫•M•瑞安(美)    文章来源:考试研究 2011.1    点击数:    更新时间:2011-3-9

    三、经典测量理论和项目反应理论的基本概念

    从技术角度看适当的等值和连接程序都是建立在经典测量理论CTT和项目反应理论IRT基础上的。鉴于它们是所有等值程序的基础笔者将在接下来的行文中简要介绍这两种测量学经典。在所有大规模测试项目中CTT都具有非常重要的地位即使大部分的测试主要是在IRT方法的基础上建立的。本文会在非常基础的层面上介绍CTTIRT中最主要的元素因此感兴趣的读者可以参考CrockerAlgina 1986 Hambleton SwaminathanRogers1991),以及YenFitzpatrick2006的论著以了解更深层的讨论。受过教育测量方面训练、特别是技术方面训练的读者应该会对这些概念感到很熟悉因此您可以选择略过以下的章节。

    经典测量理论的基础概念

    CTT指的是一系列植根于20世纪早期的统计测量方法中的知识。与IRT形成鲜明对比的是早期的CTT方法的重心在于观测分数。CTT的基础模型认为观测分数是由两部分组成的真分数即在完美的测量条件下个体应得到的成绩和误差即题目或者测试中可能出现的不足、具体试题中的特质、学生水平发挥的差别或者其他真实成绩模型没有考虑到的因素

    基础的CTT模型是这样的学生在测试中的观测分数是由假设的无错误真分数加上若干随机误差组成的Crocker& Algina107。这个基础模型可以用下面这个等式表达

    O=T+E

    Observed score= True score + Error

    其中O代表观测分数T代表真分数E代表随机误差。关于这个模型中误差这一部分学者提出了一些假设即误差是随机的与真分数没有关系相互之间也不关联。

    真分数模型及其假设直接导致信度的计算。信度是真分数方差与误差方差的比值。信度是衡量测量质量的一个重要指标。信度是成绩一致性的一个指标。经典方法把信度分成了三类跨时间一致性consistency over time也叫测试——再测试test-retest),跨试题信度consistency over test forms也叫交替测试信度alternate form reliability和试题内信度consistency within form也叫内在一致信度internal consistency reliability。除了信度之外CTT还非常强调效度的概念。CTT的效度概念运用于测试本身也分成三类内容效度、效标关联效度criterion related和构念效度。

    在对测试题目进行分析时 CTT关注三个统计属性或者说题目特征:(1难度即正确回答一道题目的考生比例;(2区分度即题目难度在高水平样本和低水平样本之间的区别;(3错误选项分析item distractor analysis),即分析在选择题中选择单个错误答案的考生比例。在选择题目组成需要等值的平行试卷时这三个属性是非常关键的。

    经典测量理论和经典试题统计有许多优点其中之一就是其计算程序非常简单易懂。此外CTT方法已经在教育测量领域使用了数十年了富有经验的测量专家和心理测量专家都对CTT很熟悉也很了解其本质。CTT曾一度是测试和考生分析的标准测量范例而且至今在试题命制、题目分析甚至在以IRT为主的环境下仍得到非常广泛地应用。经典测量理论是为了支持对测试进行常模参照解读而建立的。当时几乎所有的测试都以对学生进行分层、按成绩反映他们相对的成就等级为目的。在这一目标下CTT对于支持和引导试题的命制和使用发挥了非常重要的作用。

    CTT天生就带有一个重大的不足它会在试题特征和考生特征之间建立起一种不可分离的相互依赖关系而二者都建立在具体的测试题目和考生样本的基础上。经典统计或许能够体现一名学生的整体成绩但也仅仅是就那一项测试的成绩而言。同样有关试题的统计也只在特定的一群考生中才有效。举个例子假如有一名学生在50道题中答对了48就此信息这名学生的正确率达到了96% 判断我们可以说该测试对于这名学生来说很简单或者说该生将这项测试的内容学得很好。Hambleton等人1991这样说明了CTT的不足

    考生的能力是由某项具体测试来定义的。当测试很他就会显得能力较低当测试较容易他又会显得能力较高。那么我们说的又是什么意思呢?一道题目的难度的定义是同类考生中答题正确的比例。试题的难易取决于受试学生的水平而考生的水平高低则反过来又由试题的难易决定。HambletonSwaminathan&Rogers 19912~3

    CTT相关的群体水平依赖性group-level dependencies也会对命题人产生很重要的影响因为如果未来要参加测试的学生和目前的考生很不相同命制试题对他们来说就很具有挑战性

    很难把参加不同测试的考生放到一起对比也很难对考生群体不同的测试进行对比。并不是说这种对比是不可能的测量专家已经在实践中设计出了处理这种问题的程序但是概念性的问题依然存在Hambleton3

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: