考试分数可比性关乎考试公平,是检验一门考试质量的重要维度,尤其对于存在多个平行试卷的大规模英语测试更是如此.考试分数可比性研究中最关键的一步是考试分数等值.本文借助项目反应理论,展示了如何按照IRT的等值程序对高考英语两份平行试卷分数进行等值.通过建立的对应等值分数,结果呈现:(1)这两份试卷难度不同,使用实际考试分数时必须参考等值结果进行相应处理;(2)使用项目反应理论对高考英语考试分数进行等值时必须进行严格的模式筛选过程选择适合数据的参数模型.  相似文献   

测验等值无疑是测量中一个重要问题。《面向心理学家的项目反应理论》一书指出,“项目反应理论(IRT)最初吸引美国测验编制人员。是因为这种理论可以解决许多测验中的实际问题,比如将不同形式的测验形式等值。”《BILOG.3使用说明书》指出,“IRT与经典测验理论(CTT)相比,或许最大的长处是测验等值”。事实上,在IRT框架下实施等值,不仅理论完善,前提条件较容易满足,而且等值关系式也十分简洁。  相似文献   

为了有助于促进国内测评领域从业人员提高专业素质,《考试研究》从2011年起设置"测评课堂"栏目,刊载系列用以指导考试、评价实践的文章。近期将以美国教育测量学会(NCME)2010年年会(科罗拉多州,丹佛)的部分"培训课程"(Training Session)的相关主题为主要内容。首期主题为"考试等值及连接理论与技术入门",由美国亚利桑那州立大学前教授约瑟夫.M.瑞安(Joseph M Ryan)博士在此年会网络课程中的报告(APractitioner's Introduction to Equating with Primers on Classical Test Theory and Item Response Theory)的基础上撰写系列稿件,共有三篇。本期刊载的是第一篇,重点讨论测试等值和连接的一些重要概念,并对经典测量理论及项目反应理论作基础性的介绍。第二篇论文将重点讨论对等值与连接所做的研究和测量设计,以及等值的程序;第三篇论文将会是关于等值的技术程序和一些常见问题的简短讨论。   

每年一次的高考,全国都花费巨大的人力、物力和财力去组织考试,而最后无非是计算出总分,根据总分划出一条录取分数线供高校录取新生时参考。以总分这个单一标准决定考生取舍的规定并不是十分合理的。首先,不同学科的考试分数不能直接相加,因为不同学科的试题难度不一定相同,例如政治科的80分不一定等值于数学科的80分。为了解决不同学科的考试分数合理相加,我们曾在《教育研究》1983年第3期《正确计算多科考试成绩的方法》一文中提出了采用标准化分  相似文献   

1985年《教育与心理测验标准》(第5版)出版之前,效度研究的核心概念是"效标(criterion)",效度研究被视为一种用"效标"对测验的效度进行证明(verify)、对测验分数做出有效(valid)解释的过程。1985年以后,效度研究的核心概念是"证据(evidence)",效度研究被视为一种通过积累证据对测验的效度进行支持(support)、对测验分数做出合理(reasonable)解释的过程。关于效度的这种理解,突出体现在1999年出版的《教育与心理测验标准》(第6版)中。美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为"教育测量领域的《圣经》"。2006年《教育测量》(第4版)出版以后,效度研究的核心概念演变为"理由(warrant)",效度研究被视为一种通过构造"理由系统"和"理由网络"对效度进行"论证(argument)"、对测验分数做出可接受的(plausible)解释的过程。本文结合笔者的考试实践,介绍了效度概念的新发展。  相似文献   

教育评价具有重要的导向性,是教育综合改革的关键环节,对教育质量的全面提升起着引领作用;也是我国中高考改革的重要组成部分,对"指挥棒"系统有着重要的影响。2013年6月,教育部颁发《关于推进中小学教育质量综合评价改革的意见》(以下简称《意见》)以及《中小学教育质量综合评价指标框架(试行)》(以下简称《框架(试行)》)。同年12月份,教育部在全国遴选了30  相似文献   

美国于2011年7月颁布的《k-12年级科学教育的框架:实践、交叉概念、以及核心观念》(以下简称《框架》)是其新一代科学教育标准开发的基础文件,本文介绍了其研制背景。并通过将《框架》的主体内容与美国1996年的《国家科学教育标准》的"科学内容标准"(以下简称《前标准》)进行对比,抽提出《框架》的特点。最后根据上述分析得出该文件对我国研制课程标准的启示。  相似文献   

教育评价具有重要的导向性,是教育综合改革的关键环节,对教育质量的全面提升起着引领作用;也是我国中高考改革的重要组成部分,对"指挥棒"系统有着重要的影响。2013年6月,教育部颁发《关于推进中小学教育质量综合评价改革的意见》(以下简称《意见》)以及《中小学教育质量综合评价指标框架(试行)》(以下简称《评价指标框架(试行)》)。同年12月,教育部在全国遴选了30个实验区并启动了评价改革实验工作。  相似文献   

导言笔者连续撰写了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题。第一篇文章(发表在《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,介绍了等值和连接的主要概念和基本术语,概述了经典测量理论(CTT)和项目反应理论(IRT)。第二篇文章(发表在《考试研究》2011年第2期)重点讨论对等值与连接所做的研究和测量设计,以及等值的程序。本文是第三篇,将会是关于等值的技术程序和一些常见问题的简短讨论。   

正据日本《读卖新闻》2014年3月7日报道,日本文部科学省在6日召开的中央教育审议会(文部科学大臣的参谋机构)上就代替传统高考的"到达度·发展水平测验"(暂名)(「達成度テスト·発展レベル」)的成绩评定中是否有必要向大学方面提供具体的考试分数进行了探讨。  相似文献   

Test security is not an end in itself; it is important because we want to be able to make valid interpretations from test scores. In this article, I propose a framework for comprehensive test security systems: prevention, detection, investigation, and resolution. The article discusses threats to test security, roles and responsibilities, rigorous training for everyone involved in testing, and an evaluation of current practices in test security. I call on everyone responsible for testing programs—the Association of Test Publishers, Council of Chief State School Officers, National Council on Measurement in Education, U.S. Department of Education, and state assessment program managers, their vendors, and the research community—to collaborate on guidelines and practices for security violation prevention, detection, investigation, and resolution.  相似文献   

Equating methods make use of an appropriate transformation function to map the scores of one test form into the scale of another so that scores are comparable and can be used interchangeably. The equating literature shows that the ways of judging the success of an equating (i.e., the score transformation) might differ depending on the adopted framework. Rather than targeting different parts of the equating process and aiming to evaluate the process from different aspects, this article views the equating transformation as a standard statistical estimator and discusses how this estimator should be assessed in an equating framework. For the kernel equating framework, a numerical illustration shows the potentials of viewing the equating transformation as a statistical estimator as opposed to assessing it using equating‐specific criteria. A discussion on how this approach can be used to compare other equating estimators from different frameworks is also included.  相似文献   

During February and March 2001, a survey on ideas for recruiting new educational measurement professionals was posted on the website of the National Council on Measurement in Education  相似文献   

本文使用R-2.15.2软件模拟研究锚测验难度参数方差特征对测验等值误差的影响,采用三种等值方法(链百分位等值法、Levine等值法和Tucker等值法)对锚测验不同类型的难度方差进行比较研究。结果显示,当锚测验难度方差小于全测验难度方差时,其等值的随机误差和系统误差与锚测验难度方差和全测验难度方差一致时(即锚测验为全测验的平行缩减版minitest时)的表现基本相同。因此,对锚测验而言,要求其与全测验具有相同的统计规格可能过于严格。  相似文献   

Five methods for equating in a random groups design were investigated in a series of resampling studies with samples of 400, 200, 100, and 50 test takers. Six operational test forms, each taken by 9,000 or more test takers, were used as item pools to construct pairs of forms to be equated. The criterion equating was the direct equipercentile equating in the group of all test takers. Equating accuracy was indicated by the root-mean-squared deviation, over 1,000 replications, of the sample equatings from the criterion equating. The methods investigated were equipercentile equating of smoothed distributions, linear equating, mean equating, symmetric circle-arc equating, and simplified circle-arc equating. The circle-arc methods produced the most accurate results for all sample sizes investigated, particularly in the upper half of the score distribution. The difference in equating accuracy between the two circle-arc methods was negligible.  相似文献   

对新汉语水平考试(HSK)而言,"铆题"的等值方法不可行,单组设计的"铆人"等值方法也缺乏可操作性。面对等值的实际需求,新HSK选择了"平均分等值法"进行等值。本文是为HSK(六级)设计的平均分等值法实施方案,其流程同样适用于新HSK其它等级的考试。  相似文献   

表现性评定的研究和应用近几年在我国越来越多起来,反映了大家对传统纸笔考试特别是多项选择题形式以外多种评价方式的探索。本文是美国教育测量学会(NCHE)推出的教学模块系列之一,详细地介绍了表现性评定的设计和编制过程。虽是多年前发表的,仍不失为这一专题的经典之作。  相似文献   

Equating of tests composed of both discrete and passage-based multiple choice items using the nonequivalent groups with anchor test design is popular in practice. In this study, we compared the effect of discrete and passage-based anchor items on observed score equating via simulation. Results suggested that an anchor with a larger proportion of passage-based items, more items in each passage, and/or a larger degree of local dependence among items within one passage produces larger equating errors, especially when the groups taking the new form and the reference form differ in ability. Our findings challenge the common belief that an anchor should be a miniature version of the tests to be equated. Suggestions to practitioners regarding anchor design are also given.  相似文献   

本文根据作者于2018年4月在纽约召开的(美国)全国教育测量学会(NCME)年会上的主席演讲稿修改而成。作者首先介绍了未来教育测量发展变化的11个可能特征、每个特征之所以重要的原因,以及应该如何看待这些变化。随后概述了未来教育测量领域不太可能发生变化的几个方面。最后对今后十年的教育发展进行了展望,并就这些发展对教育测量工作者可能产生的影响进行了讨论。  相似文献   

National examinations in The Netherlands play an important role both as school-leaving exams and in providing access to tertiary education. For most subjects the exams consist of two parts: a part internal to the school which is constructed, set and marked by the individual schoolteacher; and a central part which is constructed by Cito, the Dutch National Institute for Educational Measurement, but administered and marked by the schools. For many years, and until the 1990s, the procedures for the construction of the exams and for setting cut-off scores remained largely unchanged. In the 1990s, in response to concerns over standards, studies were conducted which demonstrated the necessity and feasibility of using equating procedures. Acting upon the outcomes, the State Secretary for Education and Science provided funds for introducing and maintaining equating as a standard procedure in central exams. From 1994 onwards, more and more exams have involved formal equating procedures.  相似文献   

