共查询到10条相似文献,搜索用时 15 毫秒
1.
《中国考试》2019,(9)
随着多级计分在心理和教育领域中日益广泛的应用,对检验项目功能差异(DIF)的方法提出新的挑战。已有研究表明,在检验DIF的方法中,MIMIC是一种经济有效的检验方法,然而还没有研究系统地分析MIMIC方法在多级计分项目中的有效性。本研究通过蒙特卡洛实验,探讨参照组与目标组的样本容量、DIF类别、项目区分度、组间能力差异和在锚题中存在的DIF题量5个因素,并在这些因素不同情况的组合中分析MIMIC方法的第一类错误率和检验力。研究发现:1)MIMIC是一种能够灵敏地检验一致性DIF的方法,即使在目标组样本容量较小或明显小于参照组的情况下,它仍然能很好地控制第一类错误率;2)纯化步骤对MIMIC方法控制第一类错误率、提高检验力是有必要的,但MIMIC方法对污染程度又有一定的容忍性;3)检验力受到低区分度的严重影响,但太高的区分度又会导致第一类错误率的增加;4)MIMIC方法对一致性DIF的检验力随着样本容量的增大而增大。 相似文献
2.
近年来关于DINA模型的相关研究显示,样本量、先验分布、经验贝叶斯或完全贝叶斯估计方法、样本的代表性、项目功能差异和Q阵误指等,均可能是导致DINA项目参数估计发生偏差的原因。使用Monte Carlo模拟试验,对DINA项目参数(猜测参数和失误参数)的组合变化类型和偏差量进行考察,通过条件极大似然估计法估计知识状态,发现项目参数估计值与真值偏差不大时,对知识状态估计的精度影响不大;但是项目参数偏离真值较大时,尤其是在三种组合类型上,对属性掌握存在明显的高估或低估现象。研究结果对于诊断测验等值有一定的启示:若两个测验上锚题的项目参数出现了较大的偏差(0.1),则需要考虑等值的必要性。 相似文献
3.
IRT下题量与被试量对参数估计模拟返真性能的影响 总被引:1,自引:0,他引:1
"基础教育教学质量监测系统"项目组 《中国考试》2009,(6)
在项目反应理论下的题库建设时,进行纸笔测验测试时需要多少被试量、题量,试题的参数估计能够达到较为精确估计?本文使用蒙特卡洛模拟方法模拟测验情境,对此问题进行探讨。分析题量的变化和被试量的变化对a、b参数估计的模拟返真性能的影响。1)从被试量角度来看,在两级、多级记分试题模拟测验情境下,随着被试量逐渐增大,项目参数估计值模拟返真指标均方误差逐渐减小。2)从题量角度来看,在两级记分试题模拟情境下,均方误差曲线在题量为25题左右时有一个拐点,即当题量小于25题时,随着题量增加时RMSE减小幅度较大,而当题量大于25题时,这时再增加题量,RMSE减小幅度很小。在多级记分试题模拟情境下,均方误差曲线在题量为15题左右时有一个拐点,即当题量小于15题时,随着题量增加, RMSE逐渐减小,当题量大于15题时,随着题量增加,RMSE逐渐增大。 相似文献
4.
以某省2013年英语听说口语考试为例,运用2PLM和2PTM模型进行实证分析,得出题组效应及改变题组效应大小对项目参数估计和等值结果均具有显著影响。 相似文献
5.
6.
7.
本文采用共同题非等组设计,对五种基于IRT的项目参数等值方法进行比较研究。研究数据来自湖北某试点地区课改实验区和非课改区考生在标准化中考数学科目的考试数据,兼用大样本标准和其他标准作为各等值方法比较的检验标准,以RMSD指标作为操作性检验标准,利用STUIRT程序进行等值分析。研究结果表明,针对本研究所设置的等值情境,MS方法稳健性最差,对于项目难度参数的等值,同时校准方法最好,其次是SL特征曲线法,对于项目区分度参数的等值,MM方法精确性最好。 相似文献
8.
9.
《中学物理教学参考》2007,36(9):31-35
(满分150分,考试时间120分钟) 一、(20分)填空题.本大题共5小题,每小题4分.答案写在题中横线上的空白处或指定位t.不要求写出演算过程. 本大题中第1、2、3小题为分叉题,分A、B两类,考生可任选一类答题.若两类试题均做,一律按A类题计分. A类题(适合于使用一期课改教材的考生) IA 相似文献
10.
本研究采用“共同题?锚测验”设计,使用R语言ltm程序包中的IRT两参数模型进行各年级小学生数学学力认知诊断测验和被试参数的估计,并使用equateIRT程序包进行跨年级小学生数学学力认知诊断测验各项参数的等值转换。结果表明,等值转换后各年级测验的题目难度和小学生数学学力均随年级增长而逐渐递增,不同学校、民族、性别学生的数学学力发展差异性特征均与理论假设相符。本研究验证了采用IRT垂直等值方法构建跨年级小学生数学学力发展水平垂直量表的可行性,为制定系统性补救教学方案和自适应题库建设提供了必要的实证证据。 相似文献