首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
四参数Logistic模型通过引入第4个参数,分析测验中高能力被试答错低难度试题的睡眠现象。运用四参数Logistic模型与双参数、三参数Logistic模型对汉语作为第二语言测验的实测数据进行分析,比对3种模型的分析结果,并通过四参数Logistic模型分析测验中的睡眠现象,结果表明:在模型拟合方面,四参数Logistic模型表现良好;四参数Logistic模型对项目区分度的估计结果高于双参数、三参数Logistic模型;语言测验存在睡眠现象时,被试能力值可能会被严重低估,高风险考试需要考虑使用四参数Logistic模型进行矫正;在语言测验中,睡眠现象是一种随机的失误现象,与所测的语言技能无关。  相似文献   

2.
在现实教育测验中,常常会出现相互依赖的题目。如果使用传统的项目反应模型对这种含有题组的测验进行分析,会违背项目局部独立的假设,导致参数估计的结果出现偏差。因此,对题组式测验进行分析,需要采用一些特殊的统计模型或测量模型。本文主要介绍几种常见的题组模型,并使用实际测验中的数据,比较不考虑题组的模型和两种有代表性的题组模型,结果显示,在该实际情境下,误差相关模型具有最好的拟合性。在此基础上,文章总结了题组模型的应用领域,并对未来研究方向作出展望。  相似文献   

3.
采用似然比检验的方法来比较双因子模型与传统因素模型之间的拟合差异,并进一步考察其项目功能。结果表明:双因子模型的拟合结果优于传统因素模型的拟合结果;双因子模型与传统因素模型的似然比结果显示,P值均小于0.05,数据拒绝传统因素模型,接受双因子模型;双因子模型下项目的因素负荷结果显示,大部分项目的质量较好,项目1、2、3、5和项目9需要进行修订,项目7和项目11需要重新拟定或者删除。双因子模型在青少年学习倦怠量表上的模型适应性更佳,部分项目的质量有待于改进。  相似文献   

4.
本研究应用Caojing等人的Bayesian IRT Guessing系列模型,分析初中二年级学生在汉语词汇测验中的猜测行为,使用DIC3指标评价模型的拟合程度,并将参数估计结果与双参数Logistic模型进行了比较。研究发现:(1)猜测模型的拟合度优于双参数Logistic模型;(2)初中二年级测验数据最适合临界猜测模型(IRT-TG),约有3.5%的学生存在TG型猜测行为;(3)猜测者的存在会明显影响本身的能力估计与项目难度估计,但是对非猜测者的能力及区分度参数估计影响不大。  相似文献   

5.
已有研究发现,对于高考语文测试因子结构的探索目前鲜有人涉及。本研究的目的是,采用因子分析方法探索高考语文测验的试题结构,考查高考语文试题的因子结构是否与理论预期的结构一致。结果发现,运用探索性因素分析建构的模型为:A、B两省语文试卷试题均出现题型因子,包括二级计分题因子和多级计分题因子;模型整体拟合度明显优于依据考试大纲建构的模型。基于此,建议应进一步提升考试命题技术,通过编制科学、合理的测验完善语文核心素养的测量与评价体系。  相似文献   

6.
建立基于投入产出方法的数学模型进行模拟和分析,具体方法是以风速、温差、相对湿度、非固定污染源排放量、某个时间段固定污染物的排放量作为投入因子,在兰州市的大气系统中,污染物和气象因子间相互作用,共同产生了空气污染指数(API).利用2011年4月21日2011年7月10日的观测数据,建立了空气污染指数与各投入因子间依存关系的数学模型,经过方差分析和数据拟合分析,证明所建立的模拟模型,研究主要气象因子对兰州市大气质量的影响力,具有较高的精度和可信度.  相似文献   

7.
IRT下题量与被试量对参数估计模拟返真性能的影响   总被引:1,自引:0,他引:1  
在项目反应理论下的题库建设时,进行纸笔测验测试时需要多少被试量、题量,试题的参数估计能够达到较为精确估计?本文使用蒙特卡洛模拟方法模拟测验情境,对此问题进行探讨。分析题量的变化和被试量的变化对a、b参数估计的模拟返真性能的影响。1)从被试量角度来看,在两级、多级记分试题模拟测验情境下,随着被试量逐渐增大,项目参数估计值模拟返真指标均方误差逐渐减小。2)从题量角度来看,在两级记分试题模拟情境下,均方误差曲线在题量为25题左右时有一个拐点,即当题量小于25题时,随着题量增加时RMSE减小幅度较大,而当题量大于25题时,这时再增加题量,RMSE减小幅度很小。在多级记分试题模拟情境下,均方误差曲线在题量为15题左右时有一个拐点,即当题量小于15题时,随着题量增加, RMSE逐渐减小,当题量大于15题时,随着题量增加,RMSE逐渐增大。  相似文献   

8.
基于迁移学习的遥感影像树种类型分类   总被引:1,自引:0,他引:1  
提出了基于迁移学习思想的卷积神经网络遥感影像树种类型分类算法。采用ImageNet上训练的Inception-v3模型对树种影像特征进行提取,使用AID标准数据集和自行采集的东北林业大学实验林场数据集训练一个新的全连接层和Softmax层,更改输出层的节点数量;引入Dropout函数改善过拟合现象;通过反向传播优化模型。实验结果显示,模型在两种数据集上总体分类精度分别达到了98. 8%和97. 2%,Kappa系数分别为0. 987和0. 984,表明实验算法不仅降低了卷积神经网络的参数数量,还提高了目标分类识别的准确性。与传统方法相比,实验算法无需进行复杂的预处理技术即可实现树种的自动特征提取,同时解决了只有依赖大规模样本才可达到较高分类精度问题,在树种类型分类上具有很高的应用价值。  相似文献   

9.
建立基于投入产出方法的数学模型进行模拟和分析,具体方法是以风速、温差、相对湿度、非固定污染源排放量、某个时间段固定污染物的排放量作为投入因子,在兰州市的大气系统中,污染物和气象因子间相互作用,共同产生了空气污染指数(API).利用2011年4月21日2011年7月10日的观测数据,建立了空气污染指数与各投入因子间依存关系的数学模型,经过方差分析和数据拟合分析,证明所建立的模拟模型,研究主要气象因子对兰州市大气质量的影响力,具有较高的精度和可信度.  相似文献   

10.
回顾国内外有关小样本情况下估计试题的Logistic IRT参数的研究,可以总结出六种参数估计方法,分别是:修改IRT模型法、提供先验信息法、人工神经网络法、非参数估计法、经典测验理论标准化法以及使用数据增强技术。后续研究应加强对已有参数估计方法的改进,使用包括标准误在内的多种误差指标,在250人以内的样本水平上,采用模拟数据与真实数据相结合的模拟实验法开展更加严谨的模拟研究。  相似文献   

11.
计算机化自适应测验(CAT)模拟是CAT研究的主要方法之一。CAT模拟结果的评价分析内容主要包括三个方面:被试能力估计与被试能力分类分析、题库试题使用情况分析和CAT测验作答过程分析。CAT模拟结果的分析模式主要分为整体分析和细化分析两种模式。本研究从测验模拟返真性能、测验准确性、题库安全性、题库使用率、测验分类效率与准确性、多测验目标约束控制的实现程度等角度概述CAT模拟结果的各类评价指标。CAT模拟结果的评价角度和评价指标需要根据CAT研究目标和测验情境要求加以确定。  相似文献   

12.
语言类篇章测验中经常出现题组题,由于可能违背局部独立性假设,使用传统项目反应理论会导致一系列误差。本文在讨论三个改进模型Polytomous模型、题组模型和双因子模型的基础上,分别使用题组模型和独立模型对汉语能力测试的题目进行检验和分析。结果发现:汉语能力测试中的题组题总体依存度不高;题组模型适合于汉语能力测试的篇章听力和篇章阅读类的题目;独立模型和题组模型对题目难度参数的估计较为接近,对于区分度则有明显差异;两种模型对个人能力估计的一致性很高,但在能力估计的标准误上差别很大。  相似文献   

13.
文章使用GDINA R程序包,借助Wald检验为英语听力诊断试题中的多属性题目选出最优简约模型,组成混合模型(Mixed-CDMs)。基于Mixed-CDMs与G-DINA模型的对比分析,文章发现:在样本量不够大(N=726)的情况下,Mixed-CDMs满足模型-数据绝对拟合的较高要求,相对拟合性、人员拟合性、属性分类的可靠性以及参数估计的准确性都有所提高,且属性之间的关系更加直观易读。由此,文章验证了混合模型对于英语听力诊断测评具有适用性并有一定的应用优势,这为混合模型在英语听力测试中的应用提供了实证依据,有助于加深对英语听力认知属性关系的了解,并可为其它语言测试使用混合模型提供借鉴。  相似文献   

14.
计算机自适应测验中Rasch模型稳健性的模拟研究   总被引:1,自引:0,他引:1  
本研究采用模拟数据的方法,在计算机自适应测验(Computer Adaptive Test,简称CAT)中分别采用Rasch及Birnbaum两种模型估计能力,通过比较两者的误差均方根(Root Mean Square Error,简称RMSE)、平均差异(Average Deviation,简称AD)及能力相关,对Rasch模型在CAT中的稳健性进行了研究。结果发现Rasch模型在区分度不等的条件下仍然能较准确地估计被试的能力水平,具有很强的稳健性。  相似文献   

15.
运用Rasch模型对2016年福建省综合质检文科英语测试数据进行分析。研究结果表明:实测数据与Rasch模型拟合较好,2016年福建省综合质检文科英语试卷是一套高质量的测验,能够较好区分考生的能力水平;但是,该测验中有个别题目的作答反应与Rasch模型的拟合效果不太理想,测验题目的难度分布也有一定的优化空间,这两点值得命题团队反思和总结,可以服务于教学调整并为下个周期的命题提供有益的测量学参考。  相似文献   

16.
传统的测量模型有一重要假设,即被试在完成测验过程中自始至终采用同一种策略.事实上,被试会根据题目类型不同而改变其解题策略,称之为策略转换.使用策略转换模型和潜在类别分析两种方法对平衡秤任务测验作答过程中的策略转换现象进行了分析比较.结果显示:策略转换模型存在策略位置参数越界、顺序混乱等缺陷,不适于策略转换问题研究;使用潜在类别分析方法可有效分析被试的策略转换行为,儿童在完成平衡秤任务测验时呈现出不同的策略转换路径.  相似文献   

17.
当前世界上教育测验的记分体制大体可分两种:一是绝对记分,二是相对记分. 一、绝对记分——一般目标参考性测验所使用的记分制度.这种测验常以“大纲”为参考目标.记分时,其分数的高低取决于考生对本测验所要求的全部知识究竟掌握的多少.答对了规定测验的全部试题可得满分;对测验内容毫无所知,  相似文献   

18.
计算机化自适应测验(CAT)在理论与实践中得到广泛应用。目前许多CAT研究可以归纳为两种研究范式:实测作答的CAT研究范式和测验作答数据模拟的CAT研究范式。CAT模拟研究方法的步骤有模型选择、题库模拟、测试起点、选题策略、测验终止策略等。CAT模拟研究的主要趋势有:选题策略、终止策略仍然是CAT研究的重点;CAT模拟研究的设计内容更适合实际测验情况;CAT研究设计采取多因素设计;模拟结果多方面综合评价等。  相似文献   

19.
Paris模型、Walker模型和Forman模型是常用的3种疲劳裂纹扩展速率模型,为比较3种模型在不同应力比下,拟合疲劳裂纹稳定扩展阶段速率的异同,采用标准紧凑拉伸试样进行疲劳裂纹扩展速率试验,由试验数据拟合得到3种模型公式的参数,并进行对比分析。结果表明,3种模型拟合精度均随应力比增大逐渐降低;对于单一应力比下的疲劳裂纹扩展,3种模型均具有较好的精度,但对于不同应力比下的疲劳裂纹扩展,Walker模型的拟合结果随应力比增大略有失真;而Forman模型的拟合结果随应力比增大有较大失真。  相似文献   

20.
模型评估在统计学习中占有重要的位置.数据集相对较小时,交叉核N(CV)是一种应用较广而且有效的方法,该方法的平均性能优于任何一种单一方法的使用.目前很多研究都比较了基于CV的不同变体得到的预估误差的性能.本文中,我们首先根据数据集建立线性回归模型和二元线性回归模型;然后从误差率和估计误差的近似密度函数曲线两个方面来比较留一的交叉核实(LOOCV)和bootstrap的LOOCV;最后通过模拟给出结论.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号