• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    基于经典测量理论和项目反应理论的等值与连接(一)
    作者:约瑟夫•M•瑞安(美)    文章来源:考试研究 2011.1    点击数:    更新时间:2011-3-9

    等值与连接中的基本术语

    这一部分中笔者将对等值与连接中一些重要术语作简要的定义以期能够用大众的、简单的语言来理解等值与连接中更多的细节。以下所有术语和程序都会在系列中的另一篇文章里作详细的论述。这里所收录的术语并没有网罗全部主要集中于等值中所有最基础、最重要的术语和概念。

    1.锚题、共同题、连接题anchor items/common items/linking items。这三个术语经常替换使用在本系列论文中将通称锚题。所谓锚题是指在两份或两份以上的试卷中出现的一组相同的题目。这些题目会像锚”一样起到稳定等值所需的测量量表的作用。这些在两份及以上的试卷中通用的题目还能够把不同的试卷连接到同一个量表上。

    锚题的特征。锚题需要在内容和形式上与整个测试保持相近还需要在题目顺序上与待等值的考卷相似。

    增补锚题与嵌入锚题appended and embedded anchor items。出现在试卷末端的锚题是增补锚题出现在试卷中不同位置的锚题是嵌入锚题。在等值中嵌入锚题会比增补锚题发挥更大的作用。

    锚题等值法。当使用锚题等值法时等值方法包括等值常数法the application of an equating constant、固定校准法 the fixed calibration method、同步校准法the concurrent calibration method、测试特征曲线法the test characteristic curve method等。

    2.随机等值群random equivalent groups。这种随机选择学生参加不同考试的方法是一种很有价值的抽样方法。把从中得到的数据当做是同一个学生参加不同测试的情况因而可以支持多种等值方法。

    3.螺旋测试形式spiraling test forms。所谓螺旋是指在一个学生群体一个班或一所学校内发放多种试卷形式。当不同的试卷例如试卷ABCD在同一个被测群体中随机发放时往往就会出现螺旋。通常的做法是把不同的试卷按照比如ABCDABCDABCD这样的顺序放好然后按顺序分发拿到不同试卷的组群可以看做是随机等值组。

    4.矩阵抽样matrix sampling。将题库中的题目分成不同的题组再将它们分发给学生作答。不同的题组由不同的学生完成这样每个人都不需要做完所有的题目同时所有的题目都由足够多的学生做过了。这样的结果能够支持经典测量理论和项目反应理论的分析也能够用于等值之中。

    5.题库item bank。通常来说题库指的是一组仔细归纳起来的试题其中包括题目文字表述、阅读文段、图表、特别的题目属性、答案以及从题目的预测和正式施测中得到的统计信息。在一个安全的题库中只有命题人在命题时才能接触到其中的题目。也可以将一组题目或题库应用于平时测试、基准测验或者形成性评价。在等值的语境下题库中的题目会以某种等值或连接的形式放置到一个通用的量表上。

    6.预测field testing。预测是指用对学生进行不计分测试的方式检查试题的整体质量并获得IRT题目参数的估计值。预测常用来开发原始题库和试用版的试卷。IRT值是否有用、建立在预测基础上的等值是否有效这些都取决于预测和正式考试之间的相似度有多少。

    7.多试卷版本、通用锚题multiple forms common anchors。多试卷版本通常和一套通用的锚题一起使用。例如如果需要等值的是试卷ABCD那么这四套题需要采用同一套锚题。

    8.试卷间等值form-to-form equating。这种等值的方法就是将一系列试卷以两两结对的方式等值起来。例如试卷A和试卷B可以由一套共用的锚题等值起来试卷B和试卷C又可以由另一套共用的锚题等值起来试卷C和试卷D也同理进行下去。理论上说通过这种方法可以将所有的试卷都统一到一个测量量表上来。有时候它也被称做将所有的试卷串联”起来。

    9.横向等值horizontal equating。在大规模测试项目中最普遍的需求就是在较长的时间里保持每个年级量表和行为评定标准的稳定。在同一年级或年龄阶段内的测试间进行的等值就是横向等值横向等值是一种试卷间等值。

    10.纵向量表化vertical scaling。纵向量表化是一个建立题库或者一系列试卷使用等值程序建立跨年级或年龄的测试量表的过程。虽然它有时也称为纵向等值但是在严格的等值定义下例如应用环境和测试构念等值),它还达不到这样的要求。然而如果把它看做不同年级测试之间的连接则比较合适Patz 20076

    11.预先等值pre-equating。预先等值是指利用提前确定的题目参数值从题库中的题目里组建construct新的试卷的过程。新的试卷需要在IRT难度、内容、形式等方面符合测试规范的要求。在使用新试卷前需要建立一张成绩对照表格这张表格是基于现有的IRT题库值显示量表的成绩和新试卷原始成绩的对应关系。

    12.事后等值post-equating。事后等值顾名思义就是在学生参加测试之后对得到的成绩进行等值。事后等值最好取参加测试的全体考生的成绩进行不过如果出成绩的时间要求比较紧也可以选择一个早期回收”(early return的样本但应选择一些有代表性的考生成绩进行。在时间和资源允许的情况下我们强烈推荐使用事后等值而非预先等值。

    13.试题参数偏离item parameter drift。当新试卷用到题库里或者别的试卷的试题时通常会使用题目难度、区分度和猜测参数后面将作介绍IRT参数估值前提是这些参数保持稳定不变。然而在某些情况下IRT参数值会发生变化或者偏离其题库值而使用IRT方法时任何大的试题参数发生偏离都可能损害等值。试题参数偏离通常是在这种情况下发生的题目已经使用了多次因而对目标考生群已经不陌生。

    14.等值误差equating error。等值操作中的每一个步骤都会有来源不同的误差变量。除了试题参数偏离之外还有试题本身的测量误差、样本误差、参数估算误差以及应用等值过程中产生的误差变量等。造成等值误差的变量来源很难确定而且它们之间的关系是相互叠加而非相互消除的。以上是对笔者选出的若干重点术语、概念所作的简要介绍在随后的文章中我们还会再次重点讨论。笔者将会通过更多的细节解释以上提到的术语、概念也会继续介绍一些、解释一些新的术语和概念。有关连接与等值的细节问题的讨论可以参看KolenBrennan2004),HollandDorans2006),以及DoransPommerichHolland2007等相关文献。

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: