首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
多面Rasch模型在主观题评分培训中的应用   总被引:7,自引:2,他引:7  
主观题的评分受到很多因素的影响,如评分者的知识水平、综合能力和个人偏好等。这些评分者偏差不仅会导致不同评分者之间存在主观差异,也会到导致同一评分者在不同的时间也具有主观不稳定性,最终导致主观题评分信度的降低。本研究将多面Rasch模型运用到某国家级考试论述题的评分培训中。通过分析6名有经验评分者对58份试卷的试评数据,鉴别出四种评分者偏差,然后据此对每个评分者进行个别反馈,从而提高评分的客观性和精确性。  相似文献   

2.
3.
谈PETS二级口试的培训艺术   总被引:1,自引:0,他引:1  
口试是通过全国英语等级考试的障碍之一,本文从几个方面论述了口语培训开口关、体态关、模拟关、提炼核心句、现场补救法等重点内容的培训方法,旨在以较少的时间获取较大的收益.  相似文献   

4.
全国公共英语等级考试体系(PublicEnglishTestSys-tem,简称PETS)是一种面向全社会、以全体公民为对象的非学历性英语证书考试,由笔、口试两部分组成。口试的目的是测试考生口头语言表达能力,属主观性考试。口试因其主观性,评分的最大难度在其公正性和一致性。因此,对PETS口试考官因素及其量分情况进行研究很有必要。本文拟在对一次PETS口试量分统计结果分析的基础上,研究影响考官评分的因素,并对考官素质和培训提出一些看法,目的是进一步提高PETS口试的信度、效度及其权威性。一、研究方法与统计结果研究对象为某考点2003年3月参加…  相似文献   

5.
目前电大系统英语考试的口试和作文部分多采用语言运用测试的方式.语言运用测试由于引入评分者而使评分的主观性变大.如何控制评分者差异对考生分数的影响成为保证语言运用测试评分质量的重要环节.本文在比较了行为测试中评分质量控制方面常用的三种理论的基础上,着重介绍了多面Rasch模型在提高评分质量方面的贡献,并探讨了在电大系统如何采用该模型对英语运用测试中的评分者进行培训,以控制评分质量和提高考试信度.  相似文献   

6.
主观性测试中,评分员差异是影响测试信度、效度和公平性的重要因素。本文采用多面Rasch模型考察8位评分员对记叙文和议论文两种体裁各60篇作文的评分情况。结果表明,评分员对不同体裁作文的评分存在不一致性:在评分员层面上,评分员的严厉度基本不受体裁的影响,但在评分员的信度与内在一致性方面,议论文评分好于记叙文评分;在评分量表层面上,评分员在评定语言和内容项目上,议论文比记叙文严格,而在条理项目上,议论文比记叙文宽松,并且议论文高分的使用频率比记叙文高。本文还就评分员评分的不一致性的原因进行了探讨,以求为降低评分偏差提供参考。  相似文献   

7.
1口试及口试考官培训的重要性 大规模的标准化考试大多由两大部分组成:笔试和口试,如由英国剑桥大学地方考试委员会(UCLES)开发的BEC,由英国剑桥大学地方考试委员会、英国文化委员会(The British Council)和澳大利亚高校国际开发署(IDP Education Australia)共同开发的IELTS。我国从1999年起在全国范围内开考的PETS也属于大规模的标准化考试。  相似文献   

8.
张洁 《考试研究》2008,(4):65-78
口语考试作为一种相对真实(authentic)和直接(direct)的测试手段,已被越来越广泛地应用于语言测试实践中。然而,在测试过程中引入的主观判断、评分标准和量表的设计与使用等因素,使分数受到更多考生能力以外因素的影响。本研究基于2007年某考点PETS三级口语考试数据,用多侧面Rasch模型(Many-facet Rasch Model,简称MFRM)对这次考试的评分进行了事后质量控制研究。MFRM将语言运用测试多方面因素综合在一个数学模型中,不仅能够把所有侧面在同一标尺下进行衡量,还能对单独侧面,甚至每个个体进行具体分析,有针对性地找到潜在的"问题评分员"和可能被误判的考生,是主观评分环节有效的质量监控手段。  相似文献   

9.
10.
针对影响演讲比赛打分结果的各种误差来源,本文引入多面Rasch模型对评分进行分析。此模型在分析评分结果中的应用不但有利于有效测量考生的能力水平,而且为识别问题评委、完善评分规则、及评委培训等问题都提供了全新的解决思路。本文同时也介绍了多面Rasch模型的理论及其在演讲比赛评分中的应用框架。  相似文献   

11.
基于多层面Rasch模型,研究分析某省随机抽样高中考生短文朗读和自由交谈两种口语考试任务的评分维度及量表的使用情况。结果表明,短文朗读任务和自由交谈任务的评分维度设置均较合理,能够较准确地反映考生的能力,但是短文朗读量表的等级之间存在非等距性问题,自由交谈任务评分维度中"交际策略"与其他三个维度存在显著差异。这些信息对于修改和完善评分量表及相关维度具有重要意义。  相似文献   

12.
主要采用自然实验法、问卷和访谈法,考察一段时间内PETS3口试测试频率是否会对高职学生英语成绩产生影响。自变量为"测试频率",因变量为学生的PETS3口试成绩与笔试成绩,得到如下结论:测试及其频率影响学习,PETS3口试及其测试频率对高职学生英语口语学习存在反拨效应,口试及其测试频率影响学生的口试成绩和笔试成绩。学生根据口试所获反馈信息进行自我评价,通过自我调整来改善学习。  相似文献   

13.
以在Rasch基础上拓展的多维随机系数多项式Logit模型(MRCMLM)为基础,对某高考数学试卷可能存在的三种能力维度模型进行验证性因素分析,最终确定了一种最佳的维度模型,并在该模型框架下进行多维试题分析。  相似文献   

14.
To detect differential item functioning (DIF), Rasch trees search for optimal splitpoints in covariates and identify subgroups of respondents in a data-driven way. To determine whether and in which covariate a split should be performed, Rasch trees use statistical significance tests. Consequently, Rasch trees are more likely to label small DIF effects as significant in larger samples. This leads to larger trees, which split the sample into more subgroups. What would be more desirable is an approach that is driven more by effect size rather than sample size. In order to achieve this, we suggest to implement an additional stopping criterion: the popular Educational Testing Service (ETS) classification scheme based on the Mantel–Haenszel odds ratio. This criterion helps us to evaluate whether a split in a Rasch tree is based on a substantial or an ignorable difference in item parameters, and it allows the Rasch tree to stop growing when DIF between the identified subgroups is small. Furthermore, it supports identifying DIF items and quantifying DIF effect sizes in each split. Based on simulation results, we conclude that the Mantel–Haenszel effect size further reduces unnecessary splits in Rasch trees under the null hypothesis, or when the sample size is large but DIF effects are negligible. To make the stopping criterion easy-to-use for applied researchers, we have implemented the procedure in the statistical software R. Finally, we discuss how DIF effects between different nodes in a Rasch tree can be interpreted and emphasize the importance of purification strategies for the Mantel–Haenszel procedure on tree stopping and DIF item classification.  相似文献   

15.
师资培训能否促进教师胜任力发展是评估其效果的重要维度。基于教师胜任力发展视角,选取福建省职业教育师资培训作为个案,并从中总结凝练可资借鉴的经验。以效果评估为手段,不断提升师资培训质量;以教师胜任力发展为目标导向,注重师资培训后的跟踪考查;以突出专业针对性为保障,提高培训课程结构和教师发展需求结构的匹配度。  相似文献   

16.
本文利用验证性因素分析(CFA)对一份高考数学试卷预设能力维度模型与实测数据进行拟合,给出了试题与其所反映的潜在能力维度之间的关系。分析结果表明,试题所反映的能力维度基本符合预设的目标,但试题所考核的能力目标并不十分明显,试题质量还需要进一步提升。分析也表明,验证性因素分析是一种有效的试卷能力维度分析方法。  相似文献   

17.
浙江经济的发展有其固有的“浙江模式”。在“浙江模式”影响下,民营企业需要的文秘集中在“专长型”、“复合型”和“素质型”三类。因此,要培养文秘人才,应从“浙江模式”的特殊性出发,立足地方经济、强化外语训练,突出实训内容、导入素质模块,以打造专业教育体系,为区域经济的发展服务。  相似文献   

18.
This study aims to explore the relationships between the extent and perceived quality of teachers’ experience of training in behaviour management (BM), and their awareness of the nature and extent of behavioural problems among school students, and their confidence in their own competence to deal with such problems. Teachers (n = 183) from Hong Kong primary schools were surveyed. The results showed that gender, age and whether teachers have received training had no significant influence on teachers’ awareness, conception and confidence regarding BM. A negative correlation was found between teachers’ levels of satisfaction in relation to their training experiences and their perceptions of the level of problematic behaviours among students, and the impact of students’ problematic behaviour on their teaching. A positive correlation was found between teachers’ levels of satisfaction in relation to their training experiences and their confidence in their own competence to deal with students’ problematic behaviour.  相似文献   

19.
军训是实践育人的主要形式之一,为了解新版《普通高等学校军事课教学大纲》 实施后的高校军训成效,对福建某大学2019 级新生军训实践育人情况进行问卷调查,运用SPSS 软件对1104份样本数据进行统计分析,研究发现:90.31%的大学生对2019年军训总体比较满意;大学生对军训目的理解占比高的前三项是磨练意志、锻炼身体、培养吃苦耐劳精神;学唱军歌、战场医疗救护、战术训练是大学生最喜欢的军训科目;92.48%的大学生对军训教官总体比较满意。基于研究数据和访谈结果,提出在新大纲背景下要不断提升军训实践育人成效,  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号