• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    基于经典测量理论和项目反应理论的等值与连接(一)
    作者:约瑟夫•M•瑞安(美)    文章来源:考试研究 2011.1    点击数:    更新时间:2011-3-9

    2. IRT模型中的参数不变性和量表不定性

    IRT程序的一个重要特点就是所谓参数不变性”(parameter invarianceIRT的参数不变性假设认为学生的能力和试题的特征难度、区分度、猜测都是稳定的、一致的即使在同一个人群里选择不同的样本也不会发生变化。

    参数不变性parameter invarianceIRT的一个理论属性其在现实中或多或少也是真实的。当然试题的参数值仍然会出现变化这可能由多种原因引起。例如试题的参数值可能由于题目措辞或形式的细微变化而发生改变。此外题目的位置变化、该题之前的题目顺序的改变、更多的集中提示等等这些因素还有很多可能不好发现都可能造成参数值的一些变化。通过对模型拟合的检验可以判定一组特定数据是否符合参数不变性的要求。

    对于所有利用IRT模型进行等值的测试来说其参数不变性的特征非常关键。它使得量表可以经由某个固定的原点以及稳定的考生和试题参数值建立。在这些值已知的前提下后续的测试可以借由量表上的试题进行连接或等值。当对考生进行测量时也就意味着只要量表确定了无论采取哪一组试题学生能力参数都不再变化。

    量表不定性scale indeterminacy是指IRT分析要求赋予参数一个固定的初始值Hambleton Swaminathan Rogers 1991。这个IRT量表固定的初始值可以是在量表上的任何一个有用的位置。实际操作中如果用单参数模型通常把中等难度的题目放在量表正中间如果用三参数模型通常把平均能力的学生放在量表正中间。量表也可以固定在某一方便的位置比如代表熟练水平的一点上。固定量表位置既解决了量表不定性同时又定义了可以推算稳定或者不变估算的量表。从任何量表转化到另一个量表是相对比较简单的通常的方法是乘以或加上一些常数以改变方差和平均值或者原点。在IRT分析中固定一些数值以解决量表不定性是非常关键的特别是对一些以IRT为主的等值步骤。

    3.数值、量表、量表化

    在经典测量理论和项目反应理论中一个重要问题就是采用什么数值或者量表来报告考试结果。最直接的量表也是大家都很熟悉的即原始分数量表简单讲就是测试中的成绩。同样大家也很熟悉的另一种就是把原始分数重新量化成百分比即百分比量表。

    原始分数量表和百分比量表都有很多局限其中最主要的问题就是它们都依赖试卷中某个特定系列的题目并且容易引起不合适或者不准确的比较。用原始分数或者简单重新量表化的原始分数来判断学生的知识和能力可能导致错误的结论。

    像前面文章里所述的IRT分析和IRT量表在推断学生们的知识能力以及哪些题目较难或者较容易是非常有用的。例如 IRT软件在数学量表上使用logit这个单位进行计算,“logit量表在数学运算上很方便但也有一些缺点。首先目前很少有人在使用此外没有IRT参数的固定自然原点或者0。因此只有固定初始参数值才能改正这种不确定性。

    一旦用固定量表数值来解决IRT的不确定性就可以预测题目参数和考生的logit值。但是这些结果仍然在logistic量表上而这种量表大多数教育工作者并不熟悉。最后一步量表可以很方便地转化为任何想要的报告量表可以根据需要选择报告量表的平均值、标准差和范围参阅CrockerAlgina1986,“转化成绩的步骤一览”)

    4.常见的IRT应用

    在为新的试卷挑选题目时基于IRT的计算能够提供很多详细的、题目相关的信息这些都是非常有用的。如前文所述 IRT能够让命题人分析、解读学生和试题的特征且不依赖于试题或群组的选择。与经典测量理论相比其可以让命题人对考生可能的反应作出更好的预测。

    IRT常被用来

    提供可同时确定考生和试题在量表上位置的测量量表

    可以将参加不同测试的考生定位在同一张量表上

    有助于对试题质量、学生反应效度做出细致的检查。

    最常见的IRT应用有

    评价、审查试题和试卷

    建立题库

    对试卷进行连接或等值

    根据题库建立等值试卷

    制定内容参照型学生水平标准

    提供内容参照型成绩解读

    对试题的项目功能差异意即对于不同组群的学生体现出来的成绩偏差进行调查

    支持计算机适应性测试。

    IRT在以下领域具有较大的灵活性

    设计不同的平行试卷

    实施很适合学生水平的测试使得能力较低的学生不会负荷过重而能力较高的学生不会感觉太枯燥无聊

    建立能力等级跨度范围更大的相关测试可能跨两个或者更多年级);

    在试卷里插入或嵌入用于预测的新题因而新题可以获得具有可比性的题目参数最终用来组成新试卷

    需要特别注意的是上述说明和解释都非常概念化对于CTTIRT的简介也只包括其中最基本的概念还有许多其他问题尚未涉及建议想更深理解经典和现代测量理论的基础和技术的读者参阅文中提供的参考文献。

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: