• 您现在的位置: 中国兴华科学教育网 >> 科教资源 >> 科学考试院 >> 考试评价研究 >> 正文
    国家教育进展评估的效度研究
    作者:戴维•西森(美)    文章来源:《考试研究》2012年第二期    点击数:    更新时间:2012-5-18

    美国国家教育进展评估(NAEP)是一种得到广泛认可的教育绩效指标(Becton and Zwick,1992)。借助其量表可以将评估结果进行全国性的比较,并为公众提供有关教育发展历时变化的信息“事实已经证明,在跟踪和了解美国教育进展上NAEP是一种很有价值的土具。它建立于1969年,是美国唯一定期对小学、初中和高中学生的教育成就进行的全国性调查。设计NAEP是为了建立一项教育指标,并使其成为全美初等教育与中等教育状况的晴雨表。NAEP仅仅提供团体数据,不提供学生的个人成绩。”(美国国会技术评价处,U.S.Congress,OTA,1992)  

    一、美国NAEP的发展历程  

    1.早期NAEP(20世纪60年代-1983)  

    Jones (1996)曾概述了NAEP的发展历程,之后又与Olkin (2004)合作对该评估40年的发展历史进行了长篇总结。NAEP最早设计于20世纪60年代,70年代开始启用。早期的NAEP与现今的NAEP在许多方面都存在很大差异。而两者的共同点是均采用全国抽样,并在科学、数学和阅读评估中使用精心设计的多项选择题和建构反应题,这些题目又被称为“练习(exercises)。但早期的评估没有使用量表、分数或者表现水平等,而是通常以人口统计学的几个主要变量作为分组依据,报告何一个题目的作答情况,标出正确作答的人数的百分比,或是选择何一个选项的人数的百分比。全国抽样是以年龄为依据的,目的是取得全国范围内9岁、13岁和17岁学生的样木,有时一候会将取样范围扩大到全体适龄年轻人以进行比较。但由于经费问题,早期的NAEP对非在校就读群体的取样从未能完全达到预期目标。  

    NAEP在建立初期并没有得到广泛的应用。20世纪80年代初,为了给教育政策制定者提供更多的有效信息,改革NAEP的呼声日益高涨。在经过激烈的提案竞争后,ETS取代美国联邦教育委员会(The Educational Commission of the States)成为该评估的主要承办者。ETS提出要以一种所谓的“新设计”(The New Design)为依托改造NAEP。这种新设计的NAEP20世纪80年代中期和末期开始使用。  

    2.“新设计”时期的NAEP(1983-)  

    ETS提议并采用的NAEP新设计有着一系列的特点,它使NAEP与教育政策的关联性更大。最为明显的是,新设计把抽样的依据从年龄(9岁、13岁、17)改为年级(4年级、8年级和12年级)。测试的总分通过一个满分为500分的量表进行报告。在进行评估的年份,通过这个量表报告每一个抽样群组的平均分数和各分位点(quantiles),并与以前的评估结果进行对比。  

    为了实现这些明显的变化,NAEP进行了许多技术调整。调整之一是使用不完全平衡组(Balanced Incomplete BlockBIB)设计来进行题目管理。这一做法在很大程度上催生了“国家教育进展评估机制”(NAEP Machinery)。这种方式既限定了每一个学生需作答的题目数量,同时又保证了测试所包含的大量题目覆盖了相应测试科目的全部领域。  

    上述设计要求计算使用不同试题组的学生的成绩。由于不同题组的难度不同,NAEP使用了项目反应理论来进行必要的修正。然而,就项目反应理论而言,评估中使用的题组仍然太短,仅仅依靠题目反应数据很难进行有效的估值。所以,又在标准项目反应理论中加入了一个系统。这个系统以学生背景变量和人口学变量为依据,对实测结果进行统计学调整“推断测试值”(plausible values),也称多重随机插补值(multiple random imputations)即被用于计算评估报告中的汇总统计。  

    ETS最初的“新设计”采用“行为锚定量表分”(behaviorally anchored scale points)作为分数解释的工具,其量表类似150200250.....但实际上,很少有人真正了解"500分量表”的含义,毕竟没有一个考试里包含了500个题目。“500分量表”实际上是项目反应理论量表的线性转换。后来,随着国家评估管理委员会(the National Achievement Governing Board)开始使用表现水平(Achievement levels)方法,“行为锚定量表分”被停止使用。尽管如此,早期“新设计”中的其他要素依然存在于当前的NAEP中。  

    3.国家评估管理员会(NAGB)时期的NAEP(1988-)  

    1986年,研究NAEP的亚历山大·詹姆斯研究小组(Alexander James Study Group)建议成立国家评估管理委员会(NAGB),并通过该委员会对NAEP进行监督。同时,该研究小组还建议进行州一级的教育进展评估,以将不同州的成绩进行比较。随后,国家评估管理委员会成立。成立初期,国家评估管理委员会即在美国国会指导下,创建了“试验性州级评估(Trial State AssessmentTSA)”或称为“州级国家教育进展评估”(State NAEP)。使用“试验性”这个词是因为授权法案建议这一评估应为“试验”或“实验”性质。但目前“试验性州级评估”已经成为NAEP“永久的”和“基础的”组成部分。  

    同时,国家评估管理委员会将“表现水平”的概念引入NAEP。通过一个分数划界程序,将NAEP量表划分为四个水平,即精通水平、熟练水平、基础水平和基础水平之下。由此,NAEP结果报告采用的基本模式是报告达到每一水平的学生的百分比。但是这种做法引起了一些争议,这将在后面详细论述。  

    随着州一级NAEP取得政治上的成功,近期新出现的“试验性城市区划评估”(Trial Urban Distract AssessmentsTUDAs)受到了很多评估管理机构的欢迎。多个美国较大城区的国家教育评估管理部门加入此项目。该评估为这些城区提供相应的评估结果。目前参与该计划的共有21个城区。  

    4.当代的NAEP  

    当前,NAEP是一项大型事业,涉及很多的参与者和利益相关者。美国国会批准并实际上制定评估计划表(含预算)。国家评估管理委员会制定政策,并负责研发和批准评估框架。国家教育统计中心(The National Center for Education StatisticsNCES)是负责实施和报告评估结果的政府机构,但它主要通过雇佣承办方来完成此项工。从1983年开始,ETS即成为研发、评分和数据分析的主要承办者。WestatETS的合作方,负责该评估项目的样本设计和实地施测。ACT是国家评估管理委员会有关标准设定土作的主要承担者。其他机构,如美国研究协会(AIR)HumROO等,也参与了令家委员会的组建和评估等土作。  

    上一页  [1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页


    网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    姓名: E-mail:
    评分: 1分 2分 3分 4分 5分
    内容:
    验证码: