终身成长 思维 行为学习的探索:避免评分的偏误

行为学习的探索:避免评分的偏误

在电视机里的歌唱选秀节目中,歌手的表现交由现场观众评分。这些观众如何评分?他们是否完全遵照选手的歌唱表现来评分?在评分过程中又会受到什么因素影响?

无所不在的人为评分

评量一个人表现优劣的方式很多,常见的如纸笔评量,虽然也经常仰赖人工方式评分,但如果题目有标准答案,则尽管评分者不同,评分结果会大同小异。如果是开放性的申论题型,就可能因为涉及到每位评分者的主观判断而造成评分结果不一。生活中出现需要人为评分的场合甚多,举凡歌唱选秀节目,跳水、体操、美术、作文、创作等比赛,升学与工作面试,甚或校园里常见的整洁、秩序比赛等,都仰赖评分者针对受评者的表现评分。

这些比赛或考试是以邀请专家依据事先拟好的评分准则评分。如升学考试中的中文或英文写作评分,主试机构事先提供评分者一套评分准则,以及不同评分等级的作品模板,评分者则依据这一评分准则逐一评定每位考生的作文表现。维持这套评分机制的公平性,主要建立在评分者能够了解评分的准则、能够分辨出不同评分等级作品之间的差异,并且能够秉持客观与公正的态度审视每一件作品。

以口说、作品、歌唱或体能比赛为例,决定受评者的表现主要来自于受评者本身所展现出来的能力、这项比赛或面试问题的难度,以及评分者的评分。然而事实上,评分者在评分过程中可能掺杂其他因素而影响评分的客观与公平。例如,评分者是否能够从一而终地遵照评分准则评分呢?抑或是面对众多等待评阅的试卷或作品,因为疲倦而胡乱评分?这也正是为什么有些仰赖人为评分的场合会引发评分不公的争议。

生活中常见的评分者偏误有月晕效应、趋中倾向、过宽或过严倾向、刻板印象等。

月晕效应

月晕效应指的是当评分者在评分时,只根据受评者的某部分表现(好的或坏的)类推做为全面评分的依据。例如,升学面试时,评分者仅依应考者的履历档案就有了定见,忽略应考者在口试当下其他方面的表现,使部分的印象影响到全体。

在这种效应下,评分者对于受评者的评分可能会有所偏颇,陷入若受评者的某部分迎合自己的偏好,就认定这位受评者的其他方面也都表现优良,因而给予较高的评价。反之,若这位受评者的某部分表现不受评分者喜爱,则纵使其他部分的表现良好,评分者也可能忽略而给予较低的评价。也就是说,评分者因为自身偏颇的迷思而以偏概全,造成评分偏误。

要克服这种偏误,最主要就是要消除评分者的偏见。因此,可以采用分析式评分,事先设定各种评分项目,对受评者的各个项目分别评分,而非采用整体式评分,即依据受评者的表现给予单一的分数。这也是为何各类比赛或面试时,会事先拟订计分项目与比重,并要求评分者分别依据各个项目评分,这对消除这种误差有一定作用。此外,增加评分者的人数以及采用多阶段的面试程序,并设计多重关卡,不仅可以在面试过程中多次观察被评分者的表现,也可以避免月晕效应的影响。

趋中倾向

趋中倾向是指有些评分者可能不太熟悉评分准则,也可能因为受评者如考生或作品太多,无法精确判断受评者的表现,因而给受评者的分数都集中在某一固定的范围内变动,比较常见的是大多数的分数都集中在中间等级(平均值),而没有显著的好坏之别。以评等尺度1~5等级为例,趋中倾向的评分者所采用的评分策略,就是无论受评者的表现优劣,其评分都会落在中间值(3级),而避免给予太低等级(1~2级)或太高等级(4~5级)。理论上,趋中倾向的谬误又称为「分数局限」。

克服这类偏误,除了对评分者加强评分训练外,也应该提供每个对应评分准则的说明与作品模板给评分者参考,以便了解与分辨不同准则之间的差异。此外,也可以结合定锚量表的使用,每一个分数旁边有一些具体的表现水准说明,评分者的评分会较有依据,也能减少不同评分者之间的差异。

过宽或过严倾向

过宽是指有些评分者倾向给与受评者高估的成绩,也就是不论受评者的表现如何,至少是B或80分以上,这类偏误称作慷慨的错误。过严则指有些评分者把受评者评定在较低的分数,表现再好最多也只给予B或80分。

要了解评分者对其所有受评者是否有过宽或过严的倾向,可以采用所有受评者被评分数的平均值,若这平均值远高于中位数,则有过宽的问题,若其平均值远低于中位数,则有过严的问题。

出现过宽或过严偏误的原因,主要是由于评分者根据自己的经验和能力,采取主观的标准评价。克服这类评分误差,除了对评价者建立其自信心,或给予角色互换的培训外,还可以采用强制分配法,按照常态分配的比例来评价。

刻板印象

刻板印象是指个人对他人的看法往往受到其所属社会团体的影响。其来自于对某一特定团体如民族、种族、省籍、宗教或性别等成员所形成的认知构架,由这构架对团体的其他成员形成过度简化或以偏概全的意象,以致产生扭曲事实的认知。

常见的刻板印象例如身份地位高的人较温文,身份地位低的人较粗野,戴眼镜的人学识较渊博等。这样的刻板印象也可能影响升学或职场面试,因此评分者必须小心谨慎,避免让自己的偏好影响到对受评者表现的评分。

人为评分历程建模

前述的人为评分偏误都可能在评分历程中发生,当然或许可以多增加评量的次数、增加评分者人数、加强评分者的训练等,来减少这些偏误的发生。对于一些非关键性的比赛或考试,或对公平性并没有那么严格要求的,这样的处理方式并无不妥。

然而,如果这场考试或比赛结果攸关晋级或对学习、职涯有重大影响,那么即使是些微的分数差距也可能影响重大。站在考生、参赛者或家长的角度,自然会想:自己(自己的孩子)会不会遇到给分较为严苛的评分者?或者是,即使所有考生都交由同一评分者评比,评分者是不是会维持一贯的评分准则评分?当评分过程出现了前面所提及的评分者偏误时,对于受评者而言影响深远。

心理计量专家Linacre于1989年提出的多相式模型,就是把考生能力、考题难度、评分者等因素同时考察所建构的统计模型。藉由这统计模型,分析并且侦测出评分者在评分历程中,是否出现任何评分者偏误以及所出现的评分偏误类型。

目前,国内许多重要的考试或比赛已广泛使用这个模型,如国民中学学生基本学力测验写作测试、华语文口语能力测验,以及运动竞技比赛、创造力与想像力作品比赛等。这些应用除了可以确保评分者的评分质量外,对于受试者实际能力的评价,也因为同步考虑了评分者因素的影响而使得评分更为精准。

再者,如果侦测出不容忽视的评分者偏误时,也可了解造成评分者偏误的原因。例如,若发现评分者出现趋中的评分倾向,则可能是评分者不清楚评分准则所致,这也显示评分者的训练不足。而透过这些分析所得的结果,可以使评分者的训练更具效率。另外,当侦测出过严或过宽的评分倾向时,可以透过统计分析校正受评者的分数。

不论学校生活或就业职场,仰赖人为评分的时机甚多。随着心理计量学者的努力,在评分过程中,评分者的反应与心理历程也能透过建模的方式建构出来,并且运用在各种仰赖人为评分的场合。

资料来源:科技大观园

本文来自网络,不代表终身成长立场,转载请注明出处:http://www.togrowing.com/1950.html

作者: 浪人

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 2015498741@qq.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部