• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    国家教育进展评估的效度研究
    作者:戴维•西森(美)    文章来源:《考试研究》2012年第二期    点击数:    更新时间:2012-5-18

    四、量表化与结果报告—NAEP机制  

    现行NAEP的实施与结果报告是一项非常复杂的工作,需要一系列的程序来支持。通常这些程序被整体称为“NAEP机制”(NAEP Machinery)NAEP的实施与结果报告过程非常特殊,因为该评估不提供应试者-个体的分数,而是把一个复杂的抽样设计与项目反应理论的模型、方法相结合,最终生成反映学生总体熟练程度的各种统计量,如平均值、不同的分位点以及达到表现水平量表上不同程度的群体的百分比。教育统计学杂志(Journal of Educational Statistics1992)曾专门做了一期特刊介绍NAEP。文章内容包括NAEP的综述(Becton and Zwick1992)NAEP的抽样(Rust and Johnson1992),项目反应理论量表化与连接(MislevyJohnsonand Muraki1992Yamamoto and Mazzeo1992),总体推论与变量(Johnson and Rust1992)及其他相关文章。  

    NAEP是一项全国范围内的调查,评估的抽样方式设计至关重要。20世纪八九十年代,“国家级的NAEP”与“试验性州级评估”完全分离。全国的抽样计划分为三个阶段:第一阶段是根据地理位置选择初级抽样单位(primary sampling unitsPSUs),第二个阶段是在PSUs内选择学校,第三个阶段是在选定的学校中选择学生。近年来,NAEP通过合并州级抽样的结果来进行国家级评估的抽样。在州级评估中,抽样工作只有两个阶段:第一个阶段是选择学校,第二个阶段就是在学校中进行学生抽样。在计算NAEP结果的统计数据时,抽样权重被用来解释由于抽样不同而产生的不同概率,并调节未参加评估的学校和学生对评估结果产生的影响(Rust and Johnson1992)  

    项目反应理论模型被用来估计组均值、方差和分数报告的各分位点。同时,利用不完全平衡组设计(BIB)进行题目管理,每个学生只需要作答一个不完全平衡组里的一部分试题。尽管评估中使用的是单维IRT模型,某些评估还是使用了多个量表。例如,数学评估就使用了五个量表。多年来,考试管理中在连接不同层次NAEP量表时,都是使用相同的项目反应理论模型(Yamamoto and Mazzeo1992)。其中一些试题也被反复使用。  

    随着每一道试题的特征值在各自的IRT量表中被校准,每个学生的“推断测试值”(plausible values)就能够得以计算(MislevyJohnsonand Muraki1992)。每个学生的推断测试值通过IRT的后验分布多项随机计算获得(MislevyJohnsonand Muraki1992)。推断测试值被用来计算组均值、方差和各分位点。每个学生的推断测试值都是由其IRT后验分布得出的,而该分布依赖于大量背景变量的主成分分析(MislevyJohnson and Muraki1992)。分析过程中通常使用的是Sheehan(1985) M-GROUP软件,或M-GROUP软件的升级版。  

    NAEP统计结果的标准误是通过一个重复复制的抽样程序(jackknife repeated replication procedure)来计算的,这个程序还同时考虑到了样本的权重(Johnson and Rust1992)。在NAEP报告的许多表格中都直接或间接地包含了各种比较,如州平均值的比较。为了控制这些比较发生错误的概率(False Discovery Rate)NAEP采用了Benjamini-Hochherg(1995)程序。(WilliamsJones&Tukey1999)  

    本节对NAEP机制中有关统计的内容进行了简要综述。当然,其他部分,如测试框架和题目的开发、手册汇编、背景问卷的开发、专业人员的实地培训和管理等,也都应被考虑到。  

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: