• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    基于经典测量理论和项目反应理论的等值与连接(一)
    作者:约瑟夫•M•瑞安(美)    文章来源:考试研究 2011.1    点击数:    更新时间:2011-3-9

    项目反应理论的基本概念

    项目反应理论IRT是指一系列基于考生的题目反应来分析测试题目并为考生制定量表的技术程序。IRT考虑的是考生所做的题目的特点以及他们对此作出的反应并由其评价学生的能力。IRT能力测评要考虑学生的原始成绩但是也会体现学生作答的题目的特点。例如在使用IRT方法时一名在20道较难的测试中做对了8道的考生他所获得的能力评价就有可能比另一名在较简单的测试中答对了12道的考生高。

    IRTCTT做比较有助于我们理解IRT的基础假设。在之前的论述中笔者强调了CTT样本依赖sample-dependent的本质是其一个严重的不足。相比之下IRT是建立在题目层面的统计与测量理论并不依赖于一个特定的群体。更为重要的是IRT分析中人和试题可以放在同一个量表上进行衡量而且他们彼此之间相互独立。有时候人们也把IRT称为现代测量理论以区别于经典测量理论。

    1.基础IRT模型

    所有IRT模型都描述了考生做对一道题目的概率此概率是由其与测试目的相关的个人能力决定的。根据不同的IRT模型一道题目最多体现出三种特征或者说参数。所有的IRT模型都假设认为对于考生和试题的衡量都建立在其单维度的特质上而且测试题目都是相互独立的。每个常见的IRT模型都会对等值的过程和主要等值决策带来不同的影响。目前最常用的三种IRT模型是

    ·单参数Logistic模型有时简称1PL或者Rasch模型”)

    ·双参数Logistic模型有时简称2PL”)

    ·三参数Logistic模型有时简称3PL”)

    由于单参数模型简单易见地体现了IRT方法共通的一些特性笔者将以其为例简要介绍IRT模型主要的基本特征。Georg Rasch1980最先提出了这一基础模型因此单参数模型经常也被称做Rasch模型。

    单参数模型的得名是因为它仅从难度这一个方面厘定测试题目的特点。当使用这一模型时衡量相关能力的原始分数可能从0100全对都有分布。得到相同分数的学生就说明他们的能力相同此时并不考虑他们答对的是哪几道题。图3所示的就是一个理想的单参数测量情境。笔者稍后还会用这类图形来说明一种常见的等值方法。在这个图表中试题1代表简单试题试题2代表中等难度的试题试题3则代表较难的试题。

     

    3  IRT量表上的学生和试题

    学生1的能力较差学生2能力在中等水平学生3和学生4的能力分别为较强和极强。在单维性的假设条件下像学生4这样能力最强的学生答对试题3的概率就要大于学生2学生2有可能答不对试题3。同样虽然学生123都可能答不对试题3但是其中学生1出错的可能性最大。最后我们无法推论学生2能否正确回答试题2因为试题2和学生2在量表上处于同一个位置也就是说学生2答对题目的概率是0.5即答对答错的可能性各占一半。

    3说明的是单参数模型的情况也就是仅仅考虑试题难度这一个特征时的情况。与之不同的是双参数模型会考虑难度和区分度三参数模型则会考虑难度、区分度和猜测。笔者稍后还会继续讨论这些模型。

    IRT模型中的题目特征曲线

    IRT分析中非常重要的一个图表就是所谓题目特征曲线item characteristic curve简称ICC。在图4中所展示的即是在单参数模型条件下假想的两条题目特征曲线。

    在图4纵轴表示的是学生答题正确的概率01横轴体现的是考生的能力水平按照logit测量轴划定原点为0。这两条曲线体现的是随着考生能力的提高他们答题的正确率也随之上升。

    在图4中确定一道题目的难度的方法就是在ICC曲线上找到对应纵轴即正确答题的概率0. 5的点然后再将这个点垂直投射到横轴上找到相应的位置。例如图4中曲线1所代表的试题1curve1曲线1的难度为0试题2curve2曲线2的难度为1。说明试题2比试题1要难。也就是说要想在做试题2时达到0. 5的正确率考生的能力需要达到横轴上1的位置。

     

     

    4  两条单参数模型题目特征曲线ICC

     4中的曲线和由之产生的概率结论体现了单参数IRT模型的关键。在这个模型中只有题目难度这一个试题特征或者叫参数影响学生正确作答的概率。然而在某些情况下测试成绩并不遵从单参数模型。在这种情况下很多心理测量专家就会建议使用双参数或者三参数模型来解释这些成绩。

    双参数模型使用了试题的两个参量难度和区分度。这时试题的区分度就是ICC上正确率为0.5时曲线的斜率。当考生能力即图4和图5中的X的提高程度不变而题目的区分度越高时考生正确作答的概率体现在图4和图5中的Y轴上也会提高的更快。在大多数的实际情况中有数据显示有一些试题在区分较高能力和较低能力的考生时的效果更加明显。如图4中两条ICC曲线说明两道题目的区分度是一样的而在图5中的三条曲线则分别表示了三道区分度不同的题目。试题1的区分度最低试题3区分度最高而试题2的区分度则介乎于两者之间。

    在图4ICC的例子中随着学生能力的不断降低正确作答的概率越来越接近于0。然而在真实情境下能力水平较低的学生也许会碰巧或者通过利用部分信息猜出正确的答案。三参数模型就在双参数模型的难度和区分度之外又加入了一个调整ICC曲线低端的第三参量——可能的猜测guessing。图5中显示试题3ICC曲线对低端进行调整就考虑了学生答题中的瞎蒙”这一行为。

     

    5  三条题目特征曲线

    测试特征曲线

    测试特征曲线Test Characteristic Curve简称TCCIRT中使用的一种非常重要的视觉表达手段对最有用的等值方法之一意义重大。对所有的IRT模型来说TCC就是测试中所有ICC的总和。TCC反映的是一项测试的期望原始成绩纵轴所示和以logit测量轴形式表现的IRT能力横轴所示之间的关系。图6展示了两条TCC曲线它们表示了期望原始分数会随着IRT能力水平的提高而单调递增。在图6IRT能力值为1试卷B的期望分数比试卷A的分数要高这说明试卷B比试卷A要简单。换而言之当横轴IRT能力水平上同一个值在试卷B的曲线上所对应的纵轴原始成绩值大于试卷A就可以说试卷B比试卷A简单。

     

    6  假想试卷AB的测试特征曲线

     

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: