期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田纯广《考试周刊》2009,(38)

本文作者通过测试理论研究和数据分析,探讨了全国公共英语等级考试口语测试的信度和效度.就测试的信度而言,要侧重施测(准备形式和测试过程)、测试内容(长度、难易程度)和评分(评分标准、评分依据、评分者)等方面的可靠性.测试的效度则应检验该测试是否具有内容效度、表面效度、标准效度(预示效度和共时效度)和理论效度,同时利用可靠系数检验该测试的信度. 相似文献

2.

教育教学能力测试的GT和多面Rasch模型分析

陈宛玉戴海琦《考试研究》2013,(3):70-78

本研究以概化理论和多面Rasch模型为工具,对某市教育教学能力测试的一批实测结果进行了分析,旨在探索影响此类测试评分的因素及其作用机制,为完善测试设计和评分培训提供依据。研究结果表明,影响教育教学能力测试的主要因素是任务难度、评委宽严、评委的跨任务一致性和任务的跨考生难度。当前的教育教学能力测试只适宜做相对决策,不适宜做绝对决策。建议在以后的测试中通过提高测试任务的数量和加强对评分员的针对性培训来提高评分可靠性。相似文献

3.

多评分者多任务情境下评分者信度的模型拟合研究

李斌辛涛张淑梅孙佳楠《湖南师范大学教育科学学报》2011,10(6):107-110,127

此研究以网上阅卷环境下多个评分者同时评阅翻译和作文为例,建立多个评分者完成多个任务的结构方程模型,对数据进行拟合,实现评分者信度的量化分析。通过五个结构方程模型比较,选择拟合效果较好的相关任务相关特性模型,计算多评分者多任务的评分者信度,并对同一评分者完成不同任务时评分者信度和同一评分任务下不同评分者的评分信度进行比较,实现对评分效果的评价,从而对评分者的选拔和有针对性培训提供科学支持。相似文献

4.

机械法与印象法对翻译测试评分信度的影响——以汉译德为例

《教育教学论坛》2016,(28)

本文结论建立在一项测试性研究基础之上,测试对象为德语系大三学生,本实验对这些学生进行汉译德测试,在翻译测试评分中对抽样试卷分别使用机械法和印象法进行评分,旨在测试不同评分方法对评分结果的影响。其结论为:对于篇章类翻译来说印象评分法的信度相对较低,不同评分员之间评分差距较大;而机械评分法相对来说信度较高,不同评分员之间的评分差距相对较小。相似文献

5.

评分人培训的研究现状及展望

《中国考试》2014,(2)

评分人培训是保证做事测试分数信、效度的重要方法,一直是国际语言测试界关注的重点。本文首先从理论框架、培训方法和培训效果等方面对评分人培训研究的现状进行了回顾,然后指出了当前研究中的两个问题:培训过程及内容不清楚,培训产生作用的机制不明确。最后,文章就下一步的研究进行了展望,希望能引起我国语言测试工作者对评分人培训的重视。相似文献

6.

学习者翻译语料库与汉英文本翻译测试

《外语教学理论与实践》2010,(2)

本文以《中国高校外语专业多语种语料库建设与研究——英语语料库子项目》(CEM)第1期中的八级考试汉英翻译语料为基础,通过综合分析和判别分析,初步展示学习者翻译语料库在汉英文本翻译测试上的应用。本文认为,学习者翻译语料库可以改进汉英文本翻译测试的命题和优化评分量表的制定,使汉英翻译试题的内容更具代表性和区分度,使评分量表更加客观、可靠,更具概括性。相似文献

7.

采用多面Rasch模型提高英语运用测试的评分质量

杨睿《开放教育研究》2011,17(5)

目前电大系统英语考试的口试和作文部分多采用语言运用测试的方式.语言运用测试由于引入评分者而使评分的主观性变大.如何控制评分者差异对考生分数的影响成为保证语言运用测试评分质量的重要环节.本文在比较了行为测试中评分质量控制方面常用的三种理论的基础上,着重介绍了多面Rasch模型在提高评分质量方面的贡献,并探讨了在电大系统如何采用该模型对英语运用测试中的评分者进行培训,以控制评分质量和提高考试信度. 相似文献

8.

汉语测试电子评分员实验研究报告

张晋军任杰《中国考试》2004,(10):27-32

根据《汉语测试电子评分员研究设想》(以下简称《研究设想》)提出的研究思路，我们随机选取了700份中国少数民族汉语水平等级考试(MHK)三级作文预测卷，由3位评分员严格按照MHK(三级)作文评分要求进行独立评分。设计、编写电子评分员程序，由电子评分员对这700份作文的电子文件进行评分。随后计算电子评分员相似文献

9.

运用标准化病人评价医学生对多元卫生保健信念的认识和敏感性

曾勇《复旦教育论坛》2001,(4)

为了解不同种族背景的学生在文化意识和敏感性上是否存在差异 ,密歇根大学开展了一项客观的有结构的临床考试 (OSCE)研究 ,参加该研究的学生有 71名 ,其中 5名非裔和 3名墨西哥裔美国人组成少数民族群体(URM)。在研究中 ,六位经过培训的标准化病人 (SP)扮演一位患有糖尿病的退休教师 ,SP根据每位学生的表现在评分表上给他们评分。分数在 SP间进行标化 ,利用因素分析(聚类分析 )方法对评分表中的 10个条目进行分析 ;利用 t检验分析性别和种族间 (一是URM与其他所有学生 ,二是白人学生与其他所有学生 )差异的显著性。用效应系数(ESm)… 相似文献

10.

写作能力行为测试评分员培训研究述评

《中学生英语》2016,(1)

在大规模语言考试实践中,评分员培训通常被认为是作文人工评分的必经环节,其目的在于提高评分一致性,保证考试公平性。然而,语言测试界对于评分员培训目的以及自身价值的争论颇多,本文将对这些观点进行梳理。同时,还将对评分员培训步骤、评分员培训效果与持续时间、培训中评分员认知发展过程等相关研究进行探讨。相似文献

11.

SOAP临床思维模式在儿科临床见习教学中的应用

王佳玲朱易萍高举蒋鸣燕《教育教学论坛》2020,(8):117-118

目的:探讨SOAP(Subjective–Objective–Assessment-Plan)临床思维模式在儿科临床见习病史汇报教学中的应用。方法:以临床医学本科四年级学生69人为研究对象。由同一培训教师对所有学生进行SOAP临床思维模式培训,并将其应用于病史汇报。培训前后由测试组对病史汇报情况评分,比较评分差异。结果:培训前病史汇报平均成绩(73.42±1.2)分,优良率27.5%。培训后病史汇报平均成绩(85.68±0.9)分,优良率73.9%。培训后病史汇报成绩较以前明显提高,差异有统计学意义(P<0.01)。结论SOAP临床思维模式训练有助于提高临床医学本科生的儿科见习病史汇报水平,可应用于儿科临床见习教学。相似文献

12.

学术定义测试的适用性研究

徐伟《铜陵职业技术学院学报》2022,(4):60-64

L2词汇测试一般衡量词汇学习者的词汇量和词汇深度,但学术阅读中L2学习者应对未知词汇的能力研究不足。ADT学术定义测试测量了识别学术课本中未知术语定义的能力,该测试使用一本入门级生物学教科书768字的节选,其中的虚构单词代替了十个术语定义,并且要求应试者为每个术语写下定义。本研究针对该测试在115名具有不同英语水平的英语专业大学生开展,通过调查测试的可靠性以及考生回答的质量来进行测试成绩的可靠性研究。结果表明,ADT评分内部一致性足够高,考生的回答与期望保持一致,证明考生对文本内定义有良好的信息加工。相似文献

13.

大学英语四级考试写作测评量表效度研究

邹绍艳范劲松《外国语文》2019,(3)

本文以大学英语四级写作测试(简称CET-4写作测试)中采用的整体评分量表为例,采用混合研究设计方案,借助问卷和访谈调查了评分员对该量表的意见。研究结果表明:现有的CET-4写作评分量表在清晰度和可操作性方面基本令人满意,但在量表的完整性、提供的反馈信息以及量表在评分员培训中的作用这三个方面仍有较大的提升空间。根据研究结果,本文建议进一步运用实证研究方法为CET-4写作测试开发分项评分量表,以便为大学英语写作教学提供更加丰富的诊断性信息,确保考试对教学产生积极的后效和影响。相似文献

14.

多媒体网络环境下学习者翻译能力培养策略的实证研究

张梅《牡丹江教育学院学报》2011,(6):158-160

在翻译能力结构分析和培养策略探索的基础上，采用翻译测试和问卷调查两种实证研究的方式，着重考察了在多媒体网络环境下，“以学习者为中心”的“过程教学法”对学生翻译能力的影响。通过对实验组和控制组进行一个学期的培训后，数据分析结果表明，此教学法对提高学生的翻译能力具有明显成效。相似文献

15.

多面Rasch模型在主观题评分培训中的应用 总被引：7，自引：2，他引：7

李中权孙晓敏张厚粲张立松《中国考试》2008,(1):26-31

主观题的评分受到很多因素的影响,如评分者的知识水平、综合能力和个人偏好等。这些评分者偏差不仅会导致不同评分者之间存在主观差异,也会到导致同一评分者在不同的时间也具有主观不稳定性,最终导致主观题评分信度的降低。本研究将多面Rasch模型运用到某国家级考试论述题的评分培训中。通过分析6名有经验评分者对58份试卷的试评数据,鉴别出四种评分者偏差,然后据此对每个评分者进行个别反馈,从而提高评分的客观性和精确性。相似文献

16.

广西沿海高校普通话培训与机测现状研究

颜丽娟《钦州学院学报》2013,28(6):61-66

广西沿海地区高校机测普通话培训与测试的特点是:学生对普通话重视程度高、使用范围在扩大,但推普环境不佳;师资力量雄厚但培训模式和方法相对单一陈旧;参测人数逐年增多,但达标率不高。从培训对象对普通话的认识和使用,考生对测试要求、评分细则的熟知情况,培训师资和培训方式方法以及机测结果入手,分析研究培训与测试现状,有助于解决在培训测试中存在的问题,以提高普通话培训的效率和测试水平。相似文献

17.

英语专业翻译能力培养教学方式的实证研究

李晓旭《潍坊教育学院学报》2017,(1):101-104

采用宏观和微观相结合的原则,对英语专业本科生的授课内容(翻译理论、翻译实践和翻译批评)、教学方法和测试进行了大胆地改革,探索了培养英语专业本科生翻译能力新的复合培养模式,旨在不断提高翻译教学质量,把学生培养成应用型的复合式翻译人才,以满足我国经济发展对翻译人才的实际需求。该研究结果对我国翻译教学模式的进一步改革具有一定的启示和参考价值。相似文献

18.

基于CTT、GT、IRT的评分者信度研究——以某届奥运会女子跳水决赛为例

钟晓玲康春花陈婧《考试研究》2013,(5):41-52

本文以某届国际奥林匹克运动会女子跳水决赛为例,综合应用CTT、GT和IRT三大测量理论进行评分者信度分析,从不同角度揭示评分者之间和评分者内部的差异情况。结果表明:CTT的评分者信度分别为0.981和078;GT的概化系数和可靠性指数分别为0.8279和0.8271,比赛中所采用的7名评委分别对选手在5轮上的跳水表现进行评定的决策是比较适宜的决策;在IRT中,相对而言,评委5在7名评委中最为严厉,评委2最为宽松,但评委之间在宽严程度上的差异不显著,评委1和评委4在自身一致性上存在问题,不同评委在评定不同选手、不同难度系数动作和不同轮数上存在偏差,但未达到显著性水平。基于本文的分析,可以了解三种评分者信度分析方法的特点及各自优势,为评分者培训和提高评分信度提供有用信息。相似文献

19.

小议主述位结构与翻译线性研究

高磊《读与写:教育教学刊》2008,5(1):21-22

主位(theme)和述位(rheme)是功能句子观(FSP)的两个重要术语,它们是从所含信息方面对语句进行的分析。从信息传递角度看,主位传递的是已知信息(given information),述位传递的是新信息(new information)。在一般情况下,英语句子的主语和主位重叠,即句子的主语就是主位。因而,在翻译研究中,有必要注意翻译过程中的线性研究。相似文献

20.

浅论大学英语四级考试翻译的解题方法

魏洲平《考试周刊》2011,(38):5-6

大学英语四级考试的翻译部分主要测试考生的对英语句子的理解和翻译能力。本文作者通过说明评分原则和介绍翻译方法来提高考生的翻译分数。相似文献