首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
改进普通话测试的概化理论分析   总被引:4,自引:0,他引:4  
根据概化理论的原理和方法,讨论了普通话测试的测验设计问题。研究发现,国家语委实施的普通话测验从总体上说具有较高的信度。其中,测验的第一和第二部分的信度要高一些,而第三部分的信度要低一些。改进测验设计的首要方法是提高分测验三的信度。具体来说,评分者个数为2、题目数量为25是一个最低要求的设计方案。若要求信度值较高(如Eρ^2=0.60以上),则宜选择评分者个数为2、题目个数接近50,或评分者个数为3、题目个数大于30的测量设计。  相似文献   

2.
绘人测验是一种重要的心理测评技术,是投射技术的一种。文章简要论述了绘人测验的发展、实施过程、信效度分析及研究状况,修改Koppitz(1968)系统的30项情绪指标,并将各项指标采用5点式评分法,施测于吸毒人群,建立绘人测验人格量化分析体系。以漳州劳动教育研究所30名吸毒人员为被试,通过绘人测验、访谈法以及统计分析法来收集分析数据。采用专家命名法建立的绘人测验人格量化分析体系具有六个维度:对外界的探索性(主动探索、被动探索)、自我接纳性、性生理自我、安全感、自尊、能力自我,各指标间具有较高评分者一致性信度。  相似文献   

3.
张媛  张兰芳  朱新华 《文教资料》2009,(23):205-207
长期以来,教育测量对于客观题部分的信度系数测量有很多方法,并且越来越精确,但是对论文式测验的信度系数测量却没有太多改进,由于对评分者信度的忽视导致了对论文式测验信度测量的误差.文章首先分析了对论文式信度系数的测量方法及评分者信度系数的计算方法,然后在指出这种误差的基础上分析了错误的原因,并提出了相对完善的公式,最后介绍了相应的信度估计方法.  相似文献   

4.
阅读篇章的选择、多项选择题目的设计以及篇章数量与测验题目数量的拟合度问题,是影响阅读理解能力测试信度和效度的基本因素。篇章数量和题目数量的不同组合方式对阅读理解测验误差和信度的影响也不相同。本研究以中国汉语水平考试(HSK)的实测数据为基础,随机选择500名考生作为研究样本,借助概化理论的随机双面嵌套(nested)设计s×(i:p)分析了HSK阅读理解测验中的误差来源和结构,对篇章数量和题目数量的匹配合理性进行了检验。研究结果显示:增加文章数量和题目数量均可以提高测验的精度,但增加文章数量比增加题目数量对概化系数(Generalizability coefficient,Eρ2)的提高作用更有效;HSK阅读理解测验的篇章数量和题目数量的现行组合方式符合误差控制的原则和信度指标的要求。  相似文献   

5.
一、问题的提出论文性试题的评分存在误差,这是由评分者的主观原因造成的。考察评分误差的方法常常是计算评分之间的相关度,从而估计评分误差对信度的影响,称为评分者信度。计算评分者信度一般有两种情况,一种是由两位评分者给许多被试评分,或一位教师给许多被试评两次分数,计算两次分数之间的相关系数;另一种是许多位评分者给许多被试评分,或一位教师反复多次给许多被试评分,计算肯德尔和谐系数。肯德尔和谐系数实际就是多列变量间的等级相关系数。  相似文献   

6.
测验长度(test length)是影响语言测试信度和效度的重要因素之一。本文借助概化理论(Generalizability Theory,GT)的固定侧面s×(i:p)嵌套设计和边际效用递减法则(the Law of Diminishing Marginal Utility),对中国汉语水平考试(HSK[中级])的测验长度进行了实证研究。研究结果显示:由130题构成的HSK[中级]测验具有相当高的测验信度,概化系数(Eρ2)可达0.8890,即使将测验的题目数量减少至120题或110题,测验的概化系数仍可以达到0.8856和0.8816(分别降低了0.38%和0.83%),这种测验长度的缩减不仅明显地降低了研发成本,而且提高了测试效率,完全能够满足标准化考试在误差控制方面的较高要求,并确保测验结果和分数解释具有较高的信度和效度。  相似文献   

7.
测验信度大盘点   总被引:1,自引:0,他引:1  
信度是对测量一致性程度的估计。信度分成再测信度、复本信度、同质信度、评分者信度等四种类型。测验的长度与难度以及被试团体的变异性与能力水平是影响信度的主要因素。测量标准误差属另类信度,可用于解释个体分数或解释分数差异。估计速度测验和掌握测验的信度,需使用特殊的方法。  相似文献   

8.
随着国内外教育测量理念的转变,传统的常模参照测验所提供的相对性评价信息已无法满足考试用户和考生的需求,标准参照测验(CriterionReferenced Test,CRT)的社会价值越来越受到重视。在对被试掌握程度进行分类决策的CRT测验中,如何确定恰当的测验长度和合格分数是影响测验分类误差的重要因素。本文在对CRT测验研究的现状、原理和用途进行考察的基础上,专门介绍了二项式概率模型在CRT测验长度决策研究中的理论和过程,并以误差控制为原则,对二项式模型在综合性标准参照语言测验长度和合格分数决策中的应用过程进行了研究。  相似文献   

9.
信度与效度是衡量心理测验质量的重要指标。增加测验长度是提高测验信度和效度的重要方法之一。由于各学者对效度的代表符号规定不一,导致对于说明测验长度与测验效度关系的公式及其计算结果难于理解和解释。根据经典测量理论对代表测验长度与测验效度关系的公式进行分析和讨论,提出测验效度与长度关系的表达公式。  相似文献   

10.
从测量学角度来看,高考作文因其评分主观性强影响了对考生写作能力甚至是语文能力的测量。如何改革作文才能进一步减小评分误差、提高考试的公平性,是落实此次考试招生制度改革的一项具体任务。研究一表明,与西方采用的小评分量表相比,我国高考采用的60分制大评分量表评分趋中效应更为严重,评分标准更为宽松,不同评分者对评分标准的掌握一致性较差,据此建议改革高考作文评分量表的设计,将目前的大评分量表改为小评分量表,成绩单独报告。研究二表明,增加作文任务数量有助于明显提高评分信度,据此建议将高考作文由一个大作文变为一大一小两个作文。  相似文献   

11.
基于计算机的测验已逐渐普及,但不同的计算机测验形式在测量相同任务时可能会产生测验结果的偏差,从而导致教育测量与评价结果的不公平性。文章基于项目反应理论,探讨了计算机化线性测验与计算机自适应测验在测验效率、测验结果的统计学特征及其对考生个体心理特质的影响是否等效等问题,并以师范生"现代教育技术"课程为例开展了实证研究,结果显示:两种测验中考生的分数具有可比性,计算机自适应测验具有更高的测验效率与测验信度,但有无即时反馈对考生测验焦虑的影响较大;而计算机化线性测验具有更合理的内容效度,有无即时反馈对考生测验焦虑的影响较小。文章的研究不仅对教学评价中测验形式的选择是否公平合理进行了科学分析,而且为施测者根据测验场景有针对性地选择测验形式提供了理论参考。  相似文献   

12.
目前大规模考试作文评分大都采用双评评分模式,本研究采用多侧面Rasch模型(MFRM)分析双评模式下大型英语作文评分中的评分者误差来源及主要影响因素。对57名评分者所评价的2 427篇作文分析发现:1评分者的宽严度存在显著的差异;2在作文评分中,约有22.8%的评分者之间的一致性较差,也存在约3.5%的评分者之间一致性过高;3约90%的评分者自身的一致性都较高,但仍有8.8%的评分者自身一致性很差,约2%的评分者出现评分自身一致性过高的情况;4从整体上讲,评分者在不同的评分标准(或维度)上、不同评分等级宽严程度的把握存在差异;评分者和被试,以及评分者、被试和评分标准三者的交互作用不显著;5评分者对男生和女生具有相同的宽严度。  相似文献   

13.
全国计算机技术与软件专业技术资格(水平)考试属于目标参考性测验,但又具有常模参考性测验的特点,以此为出发点,本文从测量误差模型出发,分析并提出了一套计算机软件考试的质量评价指标,这些指标包括测验效度、信度、难度、区分度等,并以经典测验理论为基础,提出了一套有效的、可操作的计算方法。质量评价结果对于指导命题、改进教学、完善考试大纲、合理评价人才具有重要意义。  相似文献   

14.
张军 《考试研究》2013,(4):68-75
对外汉语课程测验属于标准参照性测验,应使用标准参照性测验理论体系下的技术指标对测验进行项目分析和评价,传统的分析方法(如区分度)不完全适用于课程测验的项目分析。本文使用该理论对北京语言大学汉语进修学院某次考试试卷进行分析,希冀为对外汉语教学提供一些有益的经验。实验结果表明:对“掌握者”和“未掌握者”来说,题目难度总体上可接受,大部分题目的区分性能良好,虽然有的题目略有“瑕疵”,但值得保留,以提高教学内容的测试覆盖面及测验信度。有7个题目过难或过易,几乎不具备区分性能,需要删除或修改。  相似文献   

15.
α系数可能会高估或低估单维测验的信度,用验证性因子分析可以更好地估计单维测验的信度。本文介绍并比较了用验证性因子分析估计单维测验信度的4个信度系数:合成信度、最大信度、RΛ系数、RT系数,并通过比较,推荐应用者在不同的情况下,用合适的信度系数估计单维测验的信度。  相似文献   

16.
在各类测验中,不同的评阅者在主观题上常常会评出不同的分数,其结果是增大了测验的误差以及误差的不确定性.为克服这一缺陷,可以采取一种新的评分方法,使不同的评分者在主观题上也能评出相同的分数.新的评分方法的主要步骤可概括为:找出主观题的节点,按照不同的评分步骤可将题目划分成6种不同的评分等级.  相似文献   

17.
面试是过程评价和综合评价特别是高水平大学选拔拔尖创新人才的重要手段.但目前常用的面试质量评价方法,如评分者信度或概化系数估计方法,并不能快捷评估每个评分者的工作表现,影响了面试的质量.借助经典测验理论和概化理论,通过逐一核查各评分者评分信息缺失条件下的信度估计值变化情况,构造了一个评分者贡献度指数,并举例展示其使用方法和注意事项,为实时监控评分者的表现、保障和提高面试质量提供了新的方法.  相似文献   

18.
汉语阅读障碍儿童识字状况测验的编制   总被引:1,自引:0,他引:1  
本研究编制了一套汉语阅读障碍儿童识字状况测验(CCLD)。CCLD测验既可以静态地反映儿童当前的识字总量,又可以动态地反映儿童的识字能力,对阅读障碍的诊断具有辅助作用。研究一将CCLD测验在113名3-5年级普通小学生群体中进行了试测,结果表明它具有良好的信度、效度、难度和区分度指标。研究二通过在3名阅读水平落后儿童中的试测,发现该测验能有效地区分阅读障碍引起的识字问题与非阅读障碍原因导致的识字问题。  相似文献   

19.
一、研究背景和目的 作文是一项综合性很强的言语行为,多少年来这一传统考试的题型有着悠久的历史,一直被语文考试所运用。但长期以来作文评分始终又是信度最低的。作文阅卷的主观性强,误差大,一直是困扰阅卷评分准确性的一个难题。1989上海成立了“上海市中考作文评分课题研究组”,也曾于1996年成立了“会考作文评分误差控制课题研究组”,开展了分项评分法与综合评分法的比较、实践以及探索建立稳定的评分者队伍。1999年  相似文献   

20.
时丽娟 《文教资料》2006,(9):185-186
目前人格测验的地位比较弱,原因在于人格测验中关于“人格”定义还未界定,这又导致题目的内涵范围太大,进而影响了被试的作答,信度和效度也同时受到了影响。本文试着论述好的人格测验应考虑的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号