首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
主观性测试中,评分员差异是影响测试信度、效度和公平性的重要因素。本文采用多面Rasch模型考察8位评分员对记叙文和议论文两种体裁各60篇作文的评分情况。结果表明,评分员对不同体裁作文的评分存在不一致性:在评分员层面上,评分员的严厉度基本不受体裁的影响,但在评分员的信度与内在一致性方面,议论文评分好于记叙文评分;在评分量表层面上,评分员在评定语言和内容项目上,议论文比记叙文严格,而在条理项目上,议论文比记叙文宽松,并且议论文高分的使用频率比记叙文高。本文还就评分员评分的不一致性的原因进行了探讨,以求为降低评分偏差提供参考。  相似文献   

2.
普通话水平测试中,测试员之间的评分差异是影响测试信度的一个重要因素。要提高测试信度,让测评出的等级趋于应试人的普通话实际运用水平,使测试更具科学性、权威性,就必须缩小测试员间的评分差异。通过对普通话语调、语调偏误及其包括的范围,如何依据语调偏误程度给应试人的朗读和说话定性评分的探讨,以期为测试中的定性评分提供缩小差距的有效的依据,并以此提出对测试员自身听辨能力及普通话口语语感的更高要求。  相似文献   

3.
王显涛 《文教资料》2016,(4):173-174
大学英语口语考试的信度和效度受到很多学者关注,但是作为一种应用在一般教学环境中的小组讨论形式的测试,对于其中评分员信度的研究,目前相关的研究成果还不多见。本文对小组讨论形式的大学英语口语考试中评分员信度进行实证研究,并描述和讨论相关的数据与研究结果。  相似文献   

4.
主观考试采用评分员进行主观评分,由于评分一致性不高,缺乏信度,测量学界一直在努力探索提高主观评分信度的办法。本文用Longford方法对参加HSK[高等]作文考试评分的异常评分员作了一次实证检验。结果证明,该方法对检验大规模标准化主观考试评分员差异确实有效。  相似文献   

5.
口试评分规范化与信度研究   总被引:2,自引:0,他引:2  
口语考试的效度较高,信度却比较低。但没有信度,效度也不可能真正得到保证。因此,如何提高口试的信度,是很多测试研究者普遍关注的问题。本文通过描述清华大学英语水平考试中口试部分的评分规范化与评分员培训,对如何规范评分以提高口试信度这一问题进行讨论。  相似文献   

6.
此研究以网上阅卷环境下多个评分者同时评阅翻译和作文为例,建立多个评分者完成多个任务的结构方程模型,对数据进行拟合,实现评分者信度的量化分析。通过五个结构方程模型比较,选择拟合效果较好的相关任务相关特性模型,计算多评分者多任务的评分者信度,并对同一评分者完成不同任务时评分者信度和同一评分任务下不同评分者的评分信度进行比较,实现对评分效果的评价,从而对评分者的选拔和有针对性培训提供科学支持。  相似文献   

7.
《现代教育技术》2019,(9):59-65
文章首先从人工评分和机器评分两个方面,介绍了口语测试的发展情况。随后,文章采用MyET口语测试系统,以100名本科生为研究对象,基于对MyET口语测试系统中口语测试题题型、分数段、相关性的分析结果和问卷调查结果,研究了机器评分的信度和效度,结果表明:人分散度方面,机器评分在难度上与人工评分相差不大,但在区分度上不太理想;评分员信度方面,除部分题型之外,机器评分与人工评分有很高的相关性;表面效度方面,被试对My ET口语测试系统的接受度较高。文章从测试学角度探讨了机器自动口语测试的可行性,可为高校口语教学改革提供参考。  相似文献   

8.
英语录音口试考试在形式和评分过程方面较传统口语测试有不同特点和优势。作为主观性测试的一种,其评分过程涉及因素多且复杂。因此,探究录音口试评分的过程和模式对于提高其测试信度和进一步推广非常重要。结合院校在我国高等英语教育中的重要作用,选取了北方民族大学外国语学院非英语专业研究生英语复试这一个案,围绕评分员这一评分理论的核心,从口试评分员对评分标准的处理,以及Milanovic et al.评分模式在实践中的具体运用,探究了民族院校英语录音口试评分的过程与模式。  相似文献   

9.
着重分析普通话水平测试中评分差异存在的原因,指出评分标准不统一,定性分析界限不清都会造成评分差异,要提高测试信度,应统一标准,并建设一支高素质的测试员队伍。  相似文献   

10.
普通话水平测试(PSC)是推普工作的重要组成部分。而在测试实践中出现了测试员评分误差较大的现象,这必然影响PSC的质量,因此,应该设法减少评分误差,提高普通话水平测试的信度和效度,从PSC的理论与实践的结合上,全面而具体地分析造成测试员评分误差的原因及应采取的对策。  相似文献   

11.
通过有声思维实验方法并辅以刺激回忆,收集四名不同性格倾向的评分员在配对口语考试评分时进行的思维报告数据,定性分析结果表明:在实际评分中,评分员对评分量表的理解和使用存在很大的差异性,具体表现在:(1)外向的评分员在评分过程中,表现的比内向的评分员更为宽容;(2)内向的评分员更多地关注评分量表中的各项具体指标和标准,而外向的评分员强调任务的完成状况和考生之间的比较、交流,和互动;(3)外向的评分员比内向的评分员更少地依赖评分量表,更多地使用非语言的特征。本研究结果对考试评分标准的修订和评分员培训均有启示。  相似文献   

12.
信度是指测验结果的一致性程度或者可靠性程度,主要有重测信度、折半信度、复本信度、评分员信度等。计算方法常用的有Spearman-Brown Prophecy计算法、克朗巴赫α系数估算法、Kuder-Richardson20和Kuder-Richardson21计算法等。分析和研究信度计算方法,理解信度含义,正确运用信度概念,对改进语言测试设计、提高语言测试质量十分重要。  相似文献   

13.
能否保证普通话水平测试的信度和效度,直接关系到测试工作的成败。文章就测试员评分对普通话水平测试信度和效度的影响进行了探讨,并提出了保证普通话水平测试信度和效度的具体措施。  相似文献   

14.
口语考试评分员的稳定性事关考试的效度、信度及公平性.本文对连续五次计算机辅助PRETCO 口试评分进行历时分析,探讨PRETCO 口试评分员在严厉度、评分准确度以及集中趋势三个方面的稳定性,并探究其背后的原因.  相似文献   

15.
信度是指测验结果的一致性程度或者可靠性程度,主要有重测信度、折半信度、复本信度、评分员信度等。计算方法常用的有Spearman Brown Prophecy计算法、克朗巴赫α系数估算法、Kuder Richardson20和Kudcr Richardson21计算法等。分析和研究信度计算方法,理解信度含义,正确运用信度概念,对改进语言测试设计,提高语言测试质量有十分重要的意义。  相似文献   

16.
造成普通话水平测试员评分误差的原因及对策   总被引:2,自引:0,他引:2  
普通话水平测试(PSC)是推普工作的重要组成部分。而在测试实践中出现了测试员评分误差较大的现象,这必然影响PSC的质量,因此,应该设法减少评分误差,提高普通话水平测试的信度和效度,从PSC的理论与实践的结合上,全面而个体地分析造成测试成员评分误差的原因及应采取的对策。  相似文献   

17.
选取MHK口语试题实测数据,运用多面Rasch模型的理论和方法对人工评分与计算机自动评分的严厉程度、评分员内部以及各评分员之间的一致性程度进行研究,分析了两种评分方式在严厉度、一致性等方面存在的具体差异,以及不同试题之间是否存在难度差异,希望据此为提高MHK阅卷的科学化水平及命题质量提供依据和建议。  相似文献   

18.
主观题是语言测试中的重要组成部分。主观题可以弥补标准化试题的不足,但又存在评分依赖于评分员主观印象的问题,这导致评分员自身的不稳定性和评分员之间的差异。借鉴、利用三大测量理论和计算机辅助评分,可以优化主观题评分质量,提高其精准性和有效性。  相似文献   

19.
使用概化理论作为分析框架,请20位评分者对11位大学生每人2次翻译测试进行整体评分,通过一系列的概化(G)和决策(D)研究,以检验不同背景评分者的翻译测试的有效性和可靠性问题。实验研究的结果表明,与有培训背景的评分者相比,没有培训背景的评估者对评分标准把握不一致,对翻译评分存在较大差异。同时还发现,当前翻译测试主要靠评分者的经验来兑现将无法产生可接受可靠性系数,对评分者进行系统培训可以提高翻译测试信度。  相似文献   

20.
普通话水平测试是一项国家级语言测试,目前此项工作已大部分由计算机完成,只一名测试员参与第四大题的评分,原来的计算机“辅助”测试正在逐渐变成测试员“辅助”测试。现以2018、2019、2020年泸州市语言文字工作委员会测试站的测试数据为依据,筛选出偏差复审的成绩,提取第四题“命题说话”的评分细节进行分析。分别进行了三年复审率比对,2019、2020年复审数据计算机与测试员评分差、计算机与复审员评分差、复审成绩等级变化比对,异常偏差复审语料50例语音面貌描述和第三次测评比对、讨论,并辅以测试员评分问卷调查表,多维度地对“人机”模式测试第四题的信度进行了研究,得出了这一测试模式测试成绩基本可信的结论,并提出了相关建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号