首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
本文系统梳理了我国成就测验的项目功能差异研究,主要包括介绍国外的项目功能差异研究的综合介绍性研究、利用我国的成就测验进行DIF检测方法的比较研究和影响因素研究、对我国的各种成就测验进行项目功能差异分析的应用性研究。在此基础上,指出了我国成就测验的项目功能差异研究存在的问题。  相似文献   

2.
本研究旨在从一维和多维的角度检测国际教育成效评价协会(IEA)儿童认知发展状况测验中中译英考题的项目功能差异(DIF)。我们分析的数据由871名中国儿童和557名美国儿童的测试数据组成。结果显示,有一半以上的题目存在实质的DIF,意味着这个测验对于中美儿童而言,并没有功能等值。使用者应谨慎使用该跨语言翻译的比较测试结果来比较中美两国考生的认知能力水平。所幸约有半数的DIF题目偏向中国,半数偏向美国,因此利用测验总分所建立的量尺,应该不至于有太大的偏误。此外,题目拟合度统计量并不能足够地检测到存在DIF的题目,还是应该进行特定的DIF分析。我们探讨了三种可能导致DIF的原因,尚需更多学科专业知识和实验来真正解释DIF的形成。  相似文献   

3.
本文通过对PISA2000阅读素养测验的不同语言组的DIF检测,发现中文版出现DIF标记的项目较之其他语种版本而言,数量较多,在反思评价认知过程中尤其突出。日语与英语、芬兰语版本的DIF项目数量只有中文版本的二分之一左右。本文最后对DIF产生原因与检测方法的局限性进行了讨论。  相似文献   

4.
本研究引入能够处理题组效应的项目功能差异检验方法,为篇章阅读测验提供更科学的DIF检验法。研究采用GMH法、P—SIBTEST法和P—LR法对中国汉语水平考试(HSK)(高等)阅读理解试题进行了DIF检验。结果表明,这三种方法的检验结果具有较高的一致性,该部分试题在性别与国别变量上不存在显著的DIF效应。本研究还将传统的DIF检验方法与变通的题组DIF检验方法进行了比较,结果表明后者具有明显的优越性。  相似文献   

5.
测验的公平性越来越受到包括政治家、法学家、教育和心理学家们在内的各个领域的专家们的重视。题目差异功能(DIF)分析是构造公平和有效测验的一个必要步骤。本文通过对 DIF 研究历史的回顾及两类常用的DIF 分析方法的介绍,力图引起我国的统计测量研究工作者对此研究方向的重视。  相似文献   

6.
提出检测连续协变量条件下项目功能差异的正则化方法,并将其与Logistic回归方法进行比较。模拟数据分析结果表明:1)在所有条件下,正则化方法的一类错误率比Logistic回归方法低。在DIF项目比例为20%时,正则化方法的检测效果优于Logistic回归方法。2)正则化方法对0.3的DIF值不敏感,检验力低。3)两种方法的一类错误率随着样本量增加、DIF值增加而增加,检验力随着样本量增加、DIF值增加、DIF项目比例减小而增加。将正则化方法应用于PISA2012数学测验数据,进行连续协变量下的DIF检测及正则化方法的实际应用,结果也发现正则化方法相比于Logistic方法可以更好地控制一类错误率。  相似文献   

7.
一 研究宗旨 本课题为国家社会科学基金项目《新疆维吾尔族、哈萨克族心理调查》的子课题,拟将少数民族的认知特点和智力发展水平作为整体研究项目的一个突破口。 我们课题组选用了中央教科所赵裕春研究员主编的《小学生数学能力测验》作为团体测验内容。这套测验是标准化的,信度好、效度高。该测验共有六套测验材料,每年级一套。测验有  相似文献   

8.
项目功能差异指的是在控制团体能力之后,一个项目在不同团体中显示的不同统计特性。项目功能差异最早始于20世纪60年代对跨文化团体的项目偏差研究,“偏差”一词带有判断和评价的含义,应用于项目的统计分析中不合适,故学者提出“项目功能差异”以区别“项目偏差”的判断与评价含义。1986年夏开始,美国教育测验服务公司(ETS)在测验的编制过程中规定:必须对试题进行项目功能差异的分析,对试题的常规  相似文献   

9.
任何一种测试都要公平、公正,否则就失去了它存在的价值和意义。对语言测试的公平性问题的研究是测验开发者不可推卸的责任和义务。汉语水平考试(HSK)是专门为汉语作为第二语言的学习者而设计的语言测试。经过二十多年的发展,HSK在公平性问题研究方面已经取得了长足进展。针对HSK特有的考生构成特点,本文将考生数量较少的非亚裔考生当作研究对象,将其设为目标组,考察HSK是否会对这个亚群体考生不公平。本文运用3种传统的DIF检验方法——MH方法、SIBTEST方法和Logistic regression方法,对HSK【初中等】一套试卷的听力理解测验进行DIF检验,比较目标组(非亚裔考生)和参照组(亚裔考生)在同一组项目上的表现。  相似文献   

10.
测量、测验与评价是与学生学业评估相关的三个基本概念,都涉及伦理问题。伦理的核心是按照是非原则行事,学业测验与评价中的伦理主要表现为分数污染、项目功能差异(DIF)以及对学业结果的不当解释和使用。文章基于这些伦理问题,从目标伦理、手段与过程伦理及结果伦理三方面进行了反思。  相似文献   

11.
本文使用SIBTEST方法,分析情绪智力量表中文版的项目功能差异。结果表明:(1)在性别变量上,EIS中文版四个项目存在DIF,其中两个是一致性DIF,另两个则是非一致性DIF。(2)在地域变量上,EIS中文版五个项目存在DIF,其中三个是一致性DIF,另两个则是非一致性DIF。  相似文献   

12.
本文使用SIBTEST方法,分析情绪智力量表中文版的项目功能差异.结果表明:(1)在性别变量上,EIS中文版四个项目存在DIF,其中两个是一致性DIF,另两个则是非一致性DIF.(2)在地域变量上,EIS中文版五个项目存在DIF,其中三个是一致性DIF,另两个则是非一致性DIF.  相似文献   

13.
近年来关于DINA模型的相关研究显示,样本量、先验分布、经验贝叶斯或完全贝叶斯估计方法、样本的代表性、项目功能差异和Q阵误指等,均可能是导致DINA项目参数估计发生偏差的原因。使用Monte Carlo模拟试验,对DINA项目参数(猜测参数和失误参数)的组合变化类型和偏差量进行考察,通过条件极大似然估计法估计知识状态,发现项目参数估计值与真值偏差不大时,对知识状态估计的精度影响不大;但是项目参数偏离真值较大时,尤其是在三种组合类型上,对属性掌握存在明显的高估或低估现象。研究结果对于诊断测验等值有一定的启示:若两个测验上锚题的项目参数出现了较大的偏差(0.1),则需要考虑等值的必要性。  相似文献   

14.
朱乙艺  焦丽亚 《考试研究》2012,(6):80-87,19
和基于实测数据的DIF研究相比,基于模拟数据的DIF研究不仅可以自由操纵实验条件,而且可以给出检验力和I型错误指标。本文详细阐述了二级计分DIF模拟数据的产生原理,其产生过程包括四个阶段:选择DIF产生思路,选择项目反应理论模型,确定考生特征、题目特征和复本数,计算考生在题目上的正确作答概率并转化为二级计分数据。并且分别利用常用软件Excel和专业软件WinGen3展示了二级计分DIF模拟数据的产生过程。  相似文献   

15.
本文旨在考察HSK应试者的专业背景是否会对他们的阅读成绩产生影响。运用MH方法和SIBTEST方法对2009年HSK(初中等)考试阅读题目进行DIF筛查,把专业背景为自然科学的HSK考生设为目标组,专业背景为人文社会科学的HSK考生设为参照组。MH方法的结果是没有找到含有DIF的题目;SIBTEST方法的结果如下:第一轮DIF筛查检测到一个题目,第二轮DBF筛查检测到一组题目。这组题目有利于人文社会学科专业背景的被试。就检测DIF的方法而言,本研究认为SIBTEST方法更加敏感,DBF检验更加适合像阅读理解测验这样的一组或多组相互关联的题目。  相似文献   

16.
本模拟研究的目标组与参照组的项目作答反应数据是通过Rasch模型产生的,模拟研究探讨了LRDIF检测方法在不同DIF比例和纯化方式下的检测效果。研究结果表明:LRDIF方法的检测结果在DIF比例≤40%时是可信的;当采用LRDIF方法进行DIF检测时,有必要对匹配变量进行纯化,最好是能够进行迭代纯化。  相似文献   

17.
随着多级计分在心理和教育领域中日益广泛的应用,对检验项目功能差异(DIF)的方法提出新的挑战。已有研究表明,在检验DIF的方法中,MIMIC是一种经济有效的检验方法,然而还没有研究系统地分析MIMIC方法在多级计分项目中的有效性。本研究通过蒙特卡洛实验,探讨参照组与目标组的样本容量、DIF类别、项目区分度、组间能力差异和在锚题中存在的DIF题量5个因素,并在这些因素不同情况的组合中分析MIMIC方法的第一类错误率和检验力。研究发现:1)MIMIC是一种能够灵敏地检验一致性DIF的方法,即使在目标组样本容量较小或明显小于参照组的情况下,它仍然能很好地控制第一类错误率;2)纯化步骤对MIMIC方法控制第一类错误率、提高检验力是有必要的,但MIMIC方法对污染程度又有一定的容忍性;3)检验力受到低区分度的严重影响,但太高的区分度又会导致第一类错误率的增加;4)MIMIC方法对一致性DIF的检验力随着样本容量的增大而增大。  相似文献   

18.
基于计算机的测验已逐渐普及,但不同的计算机测验形式在测量相同任务时可能会产生测验结果的偏差,从而导致教育测量与评价结果的不公平性。文章基于项目反应理论,探讨了计算机化线性测验与计算机自适应测验在测验效率、测验结果的统计学特征及其对考生个体心理特质的影响是否等效等问题,并以师范生"现代教育技术"课程为例开展了实证研究,结果显示:两种测验中考生的分数具有可比性,计算机自适应测验具有更高的测验效率与测验信度,但有无即时反馈对考生测验焦虑的影响较大;而计算机化线性测验具有更合理的内容效度,有无即时反馈对考生测验焦虑的影响较小。文章的研究不仅对教学评价中测验形式的选择是否公平合理进行了科学分析,而且为施测者根据测验场景有针对性地选择测验形式提供了理论参考。  相似文献   

19.
对592名大学生进行问卷调查,采用均值与协方差结构(MACS)分析方法对大学生网络利他行为量表(IABSU)进行跨地域的项目功能差异检验,结果表明:IABSU有4个题项存在跨地域的项目功能差异,即题项24、题项28和题项1存在一致性DIF,题项11存在非一致性DIF。为了提高量表的公平性和有效性,建议删除这4个有DIF的题项。  相似文献   

20.
DIF分析实际应用中的常见问题及其研究新进展   总被引:1,自引:0,他引:1  
多等级计分题、小样本、匹配变量不纯以及DIF检验后的原因分析是DIF检验面临的常见问题,对多等级计分题目进行DSF分析,小样本情况下DIF检测的平滑方法,匹配变量不纯情况下采用MIMIC法,以及运用Logistic模型进行DIF检验后的原因分析是DIF研究中的一些新进展。对这些进展的分析使我们相信,多种检验方法的配合使用、运用DIF研究进行多维IRT框架下的潜在变量探究等,都有可能使DIF研究成为测量学未来的基础研究领域之一。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号