期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《考试研究》2017,(3)

由于测验安全性、试卷组卷不当等问题,有些测验的题本相互之间不能或者没有设置锚题。对作答不同题本的被试进行分数比较时,需要用到测验等值技术。不同于有锚题测验能通过题本之间的锚题进行等值,无锚题情境下的测验需要借助于一些特殊方法进行等值。目前,对无锚题测验进行等值主要有三种方式,一种是通过测验中具体的题目,也就是构建相同的"锚题"来进行等值,如构造随机等组测验法和利用题目先验信息进行等值的方法;一种是通过构建相同被试组来进行等值,即构造随机等组样本法;还有一种是借助于测验题目所考查的认知属性来进行等值,一般是基于一种认知诊断模型——规则空间模型来进行操作。相似文献

2.

测量术语

《中国考试》2004,(4)

复本信度又名"等值性系数"、"替换本信度"。指用两份具有同等价值的测验在最短的时距内对同一组被试施测所得两次成绩之间的相关系数。反映两个测验的一致性和试题取样的代表性。复本信度要求两个测验必须真正等值。复本信度的差异主要来源于复本之间的等值性。为了消除施测顺序效应,在实际应用时,可以让被试中的一半人先做测验A再做测验B,另一半人先做测验B再做测验A。相似文献

3.

复本信度

一帆《教育测量与评价(理论版)》2015,(3):64

复本信度也叫等值系数,是衡量测验不同版本的等值程度的指标.用同一测验的两个版本(A、B)对同一组被试实测后,计算两个版本得分的相关系数,复本信度系数高,表示被试不论用A版本,还是用B版本,实测分数基本相同,A版本和B版本可以相互替代;复本信度系数低,则表示被试做A版本和做B版本,实测分数不一样,这两种版本的测验不能相互替代. 相似文献

4.

基于最小鉴别信息加权的伪等组等值应用探究

凡细珍张敏强任杰彭恒利《中国考试》2022,(12):34-42+53

在无锚情况下,国外学者提出可利用被试背景信息变量对非等组的被试进行最小鉴别信息加权构建伪等组实现分数连接。为探讨和分析伪等组等值在我国测验情境中应用的准确性,采用实证数据,对比分析了伪等组等值与传统锚题等值的结果。结果显示,在被试背景信息变量与待等值测验分数的相关达到0.75左右时,伪等组等值所产生的等值误差接近传统锚题等值,其等值分数与传统锚题等值分数的对比结果也显示,伪等组等值不存在等值重要差异,即二者的差异不会带来实际影响。结果表明,在一定测验情境下,伪等组等值可以成为传统等值的有效替代。未来研究可对伪等组等值在不同测验情境中应用的准确性进行更多验证。相似文献

5.

考生能力分布与被试量对IRT等值的影响

韩晓杰任杰《考试研究》2021,(1):58-64

基于项目反应理论中的LOGISTIC双参数模型研究共同题非等组设计下,考生能力分布与被试量对等值的影响。等值方法采用分别校准下的项目特征曲线法、Stocking-Lord法、Haebara法。等值结果采用等值分数标准误、等值系数标准误、共同题参数稳定性三种方法进行评价。研究结果表明,考生能力分布越接近,被试量越大,等值误差越小;且Stocking-Lord法较Haebara法的等值结果更稳定。相似文献

6.

测验标准化

《中国考试》2003,(Z4)

测验质量的复核或交叉效度检验(crossvalidating)。经过试测和测题质量分析,挑选出了质量符合要求的测题,这些测题就构成了题库(item bank)。但由于试测所选的被试仅仅是被试总体的一个样本,难免受抽样误差的影响,因此还要进行第二次试测。也就是从被试总体中独立地抽取另一被试样本,施测后分析测题的难度和区分度,比较同一测题两次分析的结果是否一致,不一致的测题还需作进一步的分析和修改。这称为测验质量的复核或交叉效度检验。复核后的测验就进入了供测验选题的题库中。复本的制作。复本指两份完全等值的测验,所谓等值,是指有相同的测验目的,题型、题数、测相似文献

7.

题目反应理论与标准参考性测验

漆书青《教育学术月刊》1988,(6)

标准参考性测验跟常模参考性测验不同,具有自己的突出特点和特殊的规定性。因此,我们有必要按照标准参考性测验的性质和要求,探讨适合于它的测量理论和方法。题目反应理论的基本概念题目反应理论是六十年代才大力兴起的一种现代测量理论。从这种理论看来,测验中被试的成绩,可用被试的内部特质或能力来说明,是这种特质和能力的函数。当前,描述被试成绩跟内部特质或能力关系的数学模型已有许多种。其中一种单相似文献

8.

测验等值设计的一种新方法──单组设计试卷分半法

莆田高专测验等值研究课题组《莆田学院学报》1999,(1)

测验等值的单组设计,是将需等值的测验X、Y都由同一考生组施测,然后对测验分数进行等值。其优点是考生组只有一个X、Y成绩的差异将归因于测验的不同而不会混杂考生组不同的因素。缺点是同一考生要测验两次,练习效应和疲劳将会干扰等值结果。本文提出一种新的设计方法──单组设计试卷分半法,是在单组设计中,把测验X、Y各分成平行的两半卷,各取X、Y的半卷组成新的测验Z,将Z对同一考生组施测,根据施测结果导出等值转换公式进行分数等值转换。这种方法每个考生只施测一次,既保持了单组设计的优点,又克服了它的缺点。相似文献

9.

测验等值中等值公式的研究

陈希镇《莆田学院学报》1999,(1)

通过对测验等值中线性等值公式进行研究,得到改进后的线性等值公式,该公式不仅与两测验的相关系数有关,而且同两测验的信度有密切联系。目前常用的线性等值公式是其当两份测验信度相等时的一个特例。相似文献

10.

计算机自适应测验

一帆《教育测量与评价(理论版)》2014,(2):18-18

计算机自适应测验（Computerized Adaptive Testing,简称CAT）是用项目反应理论建立题库,并由计算机根据被试能力水平自动选择测题,最终对被试能力作出估计的一种新型测验,其目的在于通过被试正确回答题目难度的高低来评价其能力。相似文献

11.

TSA题库建设中的锚题设计在小学英语中的应用及启示

陈丽曼《教育测量与评价(理论版)》2021,(9):48-55

锚题指的是在同一批被试或能力分布相等的两批被试中具有等值关系的试题.我国香港地区的全港性系统评估(TSA)在题库建设中采用锚题加独立题目的方式设计不同分卷,结合学科课程不同的考核要求,全面考查考生能力.以小学英语学科为例,TSA遵循多步固定分支测验策略设计锚题,设置固定的锚题比值,科学确立锚题难度,注重锚题的示范性和代表性.为了进一步优化试题质量,我国内地学科考试可尝试借鉴TSA题库建设中的锚题设计方法,如在评估初始阶段确定锚题、科学设置锚题比例、引进专业测评队伍等. 相似文献

12.

考生样本量对项目反应理论(IRT)等值稳定性的影响

马洪超《考试研究》2011,(2):62-66

测验等值使得不同形式的考试能进行比较,从而保证了测验之间的相对稳定性。基于IRT的分数等值是在估计出参数的基础上进行的参数转换,等值结果的稳定性与考生样本量密不可分。本研究针对汉语水平考试(HSK)阅读分测验,采用真实数据模拟共同组锚测验设计,确定等值的参照标准,考察考生样本量的变化对IRT分数等值稳定性的影响。结果表明,考生样本量为2000左右时各种方案的等值结果均比较稳定。考生样本量进一步增大时,等值误差不降反增。相似文献

13.

全测验与锚测验题型分值比对等值误差的影响

黎光明张敏强《考试研究》2009,(3):71-78

为探讨全测验与锚测验不同的客观题与主观题分值比对等值误差造成的影响,本文设计两种全测验与锚测验题型分值比,以等值标准误为因变量,构建2X2的两因素完全随机化设计进行等值误差的方差分析。结果表明,全测验题型分值比与锚测验题型分值比两因素的主效应显著（P〈0．001）,交互作用显著（P〈0．01）,简单效应检验表明两因素在各水平上差异显著（P〈0．01）。全测验题型分值比与锚测验题型分值比对等值误差产生一定的影响,在等值过程中应该考虑这两个影响因素,为了减小等值过程的误差,锚测验题型分值比应该尽量与全测验题型分值比相一致。相似文献

14.

教育与心理学研究中的若干测验(四)

李维《教育学术月刊》1991,(4)

九、外语操作能力测验外语能力测验通常分为知识测验和操作测验,前者主要指“纸一笔测验”,用以检查被试对某一给定课题所具有的信息量,其形式采用多项选择、是非题、配对、填空、问答,以及作文。后者一般用于需要对某一特定课题的熟练程度进行验证,但又不能通过知识测验来测量的情境。这就象取得驾驶执照需要进行专业性两项检测一相似文献

15.

项目反应理论框架下几个等值问题的探讨

丁树良熊建华《中国考试》2003,(Z4)

测验等值无疑是测量中一个重要问题。《面向心理学家的项目反应理论》一书指出,“项目反应理论(IRT)最初吸引美国测验编制人员。是因为这种理论可以解决许多测验中的实际问题,比如将不同形式的测验形式等值。”《BILOG.3使用说明书》指出,“IRT与经典测验理论(CTT)相比,或许最大的长处是测验等值”。事实上,在IRT框架下实施等值,不仅理论完善,前提条件较容易满足,而且等值关系式也十分简洁。相似文献

16.

跨年级小学生数学学力认知诊断测验的IRT垂直等值分析

王欣瑜《中国考试》2021,(2)

本研究采用“共同题?锚测验”设计,使用R语言ltm程序包中的IRT两参数模型进行各年级小学生数学学力认知诊断测验和被试参数的估计,并使用equateIRT程序包进行跨年级小学生数学学力认知诊断测验各项参数的等值转换。结果表明,等值转换后各年级测验的题目难度和小学生数学学力均随年级增长而逐渐递增,不同学校、民族、性别学生的数学学力发展差异性特征均与理论假设相符。本研究验证了采用IRT垂直等值方法构建跨年级小学生数学学力发展水平垂直量表的可行性,为制定系统性补救教学方案和自适应题库建设提供了必要的实证证据。相似文献

17.

略论测验等值的理论_方法和应用

张敏强胡晖《华南师范大学学报(社会科学版)》1988,4(4)

在测验考试中,人们显然有种种理由要求比较、解释不同地区、单位、时间的同一学科的考试分数;在考试命题中,也有理由希望对同一学科不同形式的试卷、试题参数作比较,从而确保测验考试的公平和正确评价试题建立题库等等.这些,都涉及到“等值问题.所以,测验等值是考试研究中均一个非常重要的问题.一、测验等值的概念、作用、形式测验等值,是指对测量同一心理特质的不同测验分数或试题参数,通过一定的数学模型,转换成同一单位系统中的量数,以利于相互比较的方法.测验等值的转换,是独立于导出这种转换式时所使用的具体考生组的.好象天气预报时气温摄氏度数与华氏度数的互化有公式F=1.8c+32一样,不依赖于当初求得这一公式时是从气体还是从液体物质中取得的.这是测验等值的一个重要特点,也是一项根本的要求.并非任何测验都是可以等值的,首先,进行等值的测验必须是测量同一心理特质的测验.比如比较考生不同次测验的成绩,只能是对同一学科的成绩相互比较.所以.不能通过值转换,把语文分数转化为数学分数,把初等数学分数转化为高等数学分数.因为这些都相似文献

18.

影响项目反应理论等值效果的因素探查

丁树良熊建华戴海琦《中国考试》2005,(1):25-26

1前言测验等值是对考核同一心理品质的多个测验形式系统地做出测验分数转换．从而使不同测验形式的测验分数之间具有可比性。由于项目反应理论(IRT)将项目难度与心理特质(能力)定义在同一量表上，故也可以认为IRT中的等值是将考核同一心理品质的多个测验形式系统地做出项目参数转换．从而使不同测验形式中的项目参数之间具有可比性。相似文献

19.

测验等值:新一轮高考改革的技术问题

《中国考试》2015,(4)

随着新一轮高考改革的深入,考生在一些科目中将有两次考试机会。这两次考试分数间的相互转换可以通过测验等值来解决。然而测验等值实践涉及诸多环节,每个环节都对最终的等值效果有重要的影响。本文从等值设计的选择、等值必要性判断、等值方法的选择、评价标准的选择以及等值过程的质量控制等方面说明在高考改革中测验等值应注意的问题,以期显著提高等值质量。相似文献

20.

大学英语四级考试集库式完形填空的内容效度研究

袁慧《宿州教育学院学报》2014,17(5):124-125

本文旨在研究大学英语四级考试集库式完形填空的内容效度,即探索它是否能测量被试在篇章层次上理解和运用单词的能力。被试为上海某高校438名非英语专业学生,研究工具为四个测验。其中两篇测验（整A和整B）取自大学英语四级考试历年真题。另外两篇测验（散A和散B）,分别改编自整A和整B。随机抽取的高低两个水平的被试,分别完成了一个整篇原文测验和一个散句改编测验。结果显示,在整篇原文和散句改编测验中,高水平被试的成绩并没有体现显著差异;低水平被试整篇和散句测验成绩有显著差异。研究表明,可通过提高考点层次、适当增加选项的干扰性来提高大学英语四级集库式完形填空的内容效度。相似文献