教育评价的方法

建站1560 更新时间：2025-06-08 06:08:11

2023年6月21日发(作者：)

第五章教育评价的方法

第一节教育评价方法概观

第二节收集教育评价信息的方法

教育评价的方法很多，我们大体上把评价的方法归纳为五类。

一、绝对评价法、相对评价法与个体内差异评价法

(一)绝对评价法

绝对评价法是在评价对象的集合之外确定一个标准，评价时把评价对象与客观标准进行比较。例如，教学评价的标准，一般是教学计划和教学大纲，以及由此确立的具体评定指标。

绝对评价法的优点是：其标准比较客观，如果评价是准确的，那么评价之后，每个被评价者都可以明确自己与客观标准的差距，有利于发扬优点，克服缺点。同时，运用绝对评价法，可直接鉴别各教育目标完成情况，明确今后工作的重点。缺点是：其客观标准很难做到客观，在制定和掌握评价标准时，容易受到评价者的教育价值取向和经验的影响。

(二)相对评价法

相对评价法是在评价对象的集合中选取一个或若干个作为基准，然后把各个评价对象与基准进行比较。例如，对某校统考成绩的评价，通常是以该校所在市(县)统考的平均水平作为评价的基准，以该校成绩在一个市(县)中所属的地位来判断。

这种评价方法的优点是：适用面广，不受集体整体水平的限制，就是说，无论集体的整体水平如何，都可比较出优与劣，先进与落后。其缺点是：判据会随集体的不同而发生变化，因而容易降低客观标准。

(三)个体内差异评价法

这种方法既不是在被评价集体以内确立判据，也不是在集体以外确立判据，而是把被评价者的过去和现在比较，或将评价对象的不同方面进行比较。例如，把某中学的过去和现在进行比较评价，或者把该中学的思想政治教育工作、教学工作、文娱体育工作、总务后勤工作等各方面工作进行比较评价，从而找出它们

之间的差异。

这种方法照顾了个体差异，但由于被评价者不与他校(或他人)相比较，这就难以找出自己真正的差距，而且个体内具体的判据，往往不容易选择。故应把个体内差异评价法与相对评价法以及绝对评价法结合起来使用。

二、定性分析评价法与定性综合判断法

(一)定性分析评价法

定性分析评价法是预先根据评价的观点，把评价内容分解为几个项目，分别进行评价。例如，评价教师一堂课，可分别评价：教学目的、教学内容、教学方法、教学组织、教态和教学语言等几个项目，评价时，‘可按照这些项目的具体要求，进行具体的分析评判。

(二)定性综合判断法

定性综合判断法是对评价对象的整体进行综合性的评价。要求评价者要有丰富的经验。如，评价学生的一篇文章，评价一位校领导，评价一间学校，评价者总是有一个总体印象的，根据总体印象，可作出总体的评价。定性综合判断法具有较多的主观因素，误差比较大，虽然如此，在教育评价中，定性综合判断法仍然是不可缺少的。

三、行为目标评价法和临床督导评价法

(一)行为目标评价法

这种方法的理论基础是行为主义心理学。其提倡者认为，传统的教育评价的目标(或标准)是含糊不清的，人们只是根据主观的期望和想象制定目标，而并不考虑这些目标在指导行为和评价实施过程中的具体作用。例如，传统的目标规定，学生“必须积极参加公益劳动”。但是，学生是怎样劳动的?是否应该经常劳动?究竟达到怎样的程度才能断定学生已经实现了这一目标?在传统的目标中，这些问题都是没有答案的，教师所能得到的只是一堆空洞、抽象的原则，因此，难以对学生进行科学的评价。所以就有必要把明确表述的、可观测的行为化为成就目标，来代替抽象的目标。行为目标的表达方式应注意两点：①应设立可能观察行动的场合；②应容易表示出行动的程度或阶段。所谓行为目标评价法就是采用可观测的行为目标作为评价的依据的一种评价方法。在这种评价法中，以上所述的“积极参加公益劳动”，是抽象的评价目标，因而要将它转换成具体的行为目标，即转换为以下的一系列行为术语表达的问题：①学生通过何种方式参加公益劳动?②学生用多少时间开展公益劳动?③学生劳动是出于自愿抑或为了完成教师布置的任务?

由此可见，行为目标评价法的实质在于评价内容的具体化以及标准的客观化。这种方法结合评语法使用，可改善一般评语描述的概念化、单一化和空洞无物。

(二)临床督导评价法

这种方法与行为目标评价法的区别在于，行为目标评价法是评价中较为正规的方法，而后者则具有更多的非正规性。“临床”一词意味着细致的观察，评价者与被评价者之间的直接交往以及他们之间亲密和睦的关系。临床督导就象医学中的诊断和处方，其意义不仅在于评价，更主要的在于帮助和提高。可见所谓的临床督导评价法，就是对被评价者的实际行为进行直接的现场观察和记录，然后把观察结果和评价意见反馈给被评价者，并和被评者一起讨论改进措施的一种评价方法。这种方法与评价的终极目的即教育目的最为接近，而且简单易行，不用抽出专门的时间开展评价活动，完全可以在日常的教育、教学活动中进行。

四、指标评分法和等级换分法

(一)指标评分法

这种方法是以百分为满分，把学生的行为表现划分为若干个指标，赋予每个指标一定的分值，评价时对每个指标分别打分，最后累计出总分。例如，假设将班级日常管理作为一个指标，占10分，评价者可根据实际情况给该项指标评出10分之内的一个具体分值，如3分、2分或9分、7分，等等。此法增大了可比性和精确性，并且量化指标明确，容易操作。但各项指标分值的确定缺少科学依据，评价者评出的具体分数也有随意性，受评价者主观因素的影响较大。

(二)等级换分法

这种方法就是把具体项目的等级评定换算成分数，然后将各项分数相加，满分是100分。具体做法为：①首先规定若干大项目的分数，各大项目分数之和为100分。②在各个大项目下，分列具体项目，并规定满分分数。③将各具体项目分为若干个等级进行评定。有些项目可分二等级，如合格、不合格；有的项目可分三等级，如优、中、劣；有的项目可分成四等级，如优、良、中、差。每一等级需确定具体的评价标准。④将各等第折算成分数，如某一项目的满分值为11分，可定为优——11分，良——9分，中——7分，差——5分。⑤将各项目得分相加，即为评价对象总体的评价分数。

由于评价分数是根据客观的等级标准转换的，所以该法比指标评分法更为精确。

五、加权平均法、模糊综合评判法、集体综合评价法和坐标综合图示法

(一)加权平均法

这种方法是通过自评、专家组评、社会群众评等不同方面的评价，或学生、教师、领导等不同阶层的评价者的评价来综合评定被评者的分数。做法是：先分别确定各方面或各阶层评价者的权重，然后用加权平均法，计算出综合值，如，假使自评权重为0.2，专家组评价权重为0．7，社会群众评价权重为0．1，那

么，被评者的综合评定分数=自评分×0．2+专家组评分×0．7+社会群众评分×0．1。一般而言，对学校办学水平的评价，常用自评、专家组评、社会群众评三者综合评定的方法来确定。对教师课堂教学的评价，常用学生评、同行教师评、单位领导评三者综合评定的方法来确定教师的课堂教学质量。对学生的思想品德

的评价，常用学生自评、学生干部评、教师(班主任)评三者综合评定的方法来确定学生思想品德的分数。加权平均法的优点在于其分数的合成来自多方面，从而避免了单方面评价的片面性。

(二)模糊综合评判法

模糊综合评判法是目前我国学校教育评价中广泛使用的一种评价方法，具体实施有多种多样，详见本章第三节。

这种方法的优点是：有明确的目标和标准；综合评分时，计入了各项目的权重；将定性判断与定量分析结合起来，比较科学；评价结果有一个精确值，便于比较。这种方法尤其适宜于学校工作、教师和学生的思想品德与行为表现、学校管理和办学条件等方面的评价。但运用这种方法时，项目的确定必须合理，等级不宜过多，权重要有充分依据，科学性才有保证，而这些都是不容易做到的。其计算也比较繁琐。

(三)集体综合评价法

近十多年来，前苏联心理学家研究学生的个性品质问题时，曾运用集体综合评价法。这种方法除了要求被试对自己品质进行评价外，还要求被试的同班同学对他进行综合评价。我们可以将这种方法运用于我国教育评价，主要是学生的思想品德评价。结合我国德育评价的实践，这种方法的实施可以采取如下步骤：

(1)确定德育评价的具体项目。德育评价项目的确定是关键的一环，必须符合我国德育总目标的基本精神，同时，还要与本校、本班对德育的具体要求结合起来。

(2)每一个德育评价项目均给予一个满分值(如100分)，要求被评价者根据每一个德育评价项目，实事求是地自我评分；同时，也要求全班其他同学根据每一个德育评价项目对评价对象打分。

(3)用如下公式计算集体综合评价分数。

公式1：

S =

r1r2r3rN

N式中，S表示评价对象对自己思想品德的总评价，r表示对每一种德育项目的自我评价分数，N表示所评价的德育项目的总数。

公式2：

FiL=

jSiRI

式中，Fi表示对学生思想品德的集体综合评价，Lj表示集体中每个成员对评价对象作出的评价(对各种德育项目评价得分的平均数)，Si表示评价对象对自己思想品德的总评价，R表示被试人数。

从上述公式可见，集体综合评价分数(Fi值)的大小，主要取决于全班每一个同学对评价对象评分的高低和自我评分的高低。其他同学评分高，自我评分低，则集体综合评分高；反之，则低。同时，R值越小，Si值对Fi值的影响就越大。当参加评价者(R)是2人，每一个思想品德评价项目的满分值都是100分时，随着自我评分(Si)的大小变化，集体综合评价分数(Fi)的大小变幅可在1一100分之间。当参加评价者人数(R)在10人以上时，随着自评分数(Si)的大小变化，集体综合评价分数(Fi)的大小变幅一般不超过10分。当参加评价者人数(R)在50人以上时，随着自评分数(Si)的大小变化，集体综合评价分数(Fi)的大小变幅不超过2分。因此，如果学生自我评价能力很差，自我评分的随意性大(如小学低年级学生)，那么，参加评价者人数(R)大一些(10人以上)，就能适当调节自我评分的随意性对集体综合评分的影响。

为了考察学生自我评价与别人对他的评价是否一致，可以采用如下公式计算不一致性系数。

公式3：

F K =

S式中，K表示不一致性系数，F表示集体综合评价分数，S表示学生对自己思想品德的评价分数。 K值为1时，说明学生的自我评价与班中别的同学对他的评价完全一致。

集体综合评价法评分精确，有利于集体成员之间的相互比较，实施也不难。缺点是评价项目的确定难以科学、合理，计算也比较繁琐。

(四)坐标综合图示法

这种方法可用于各种综合评价。它运用化学上描述电子运动状况的原理来对评价对象进行客观图示定量。在化学原子结构的问题上，我们虽然不能准确地判断某个电子某一时刻在核外的运动，但却能根据它在核外不断运动的轨道来描述其运动状况。坐标综合图示法就是借助于这个理论来进行综合评价的一种量化图象法。例如，图5．1是某学生的综合评定。

B●智力能力水平

C●思想品德水平

知识水平 ●A

图5．1 某学生的综合评定坐标图

如图所示，A，B，C分别表示知识水平、智力能力水平、思想品德水平三大项目。坐标分十等分，横坐标为主观评价，由学生根据统一标准自己评分，纵坐标为客观评价，由班主任综合各方面评分。每一项目的主、客观评分可在坐标区域内指出一个点。如图5．1可能出现几种状况：(1)客观评价大于主观评价(坐标点偏向纵坐标区域，如图5．1中的B点)；(2)客观评价小于主观评价(坐标点偏向横坐标区域，如图5．1中的C点)；(3)客观评价等于主观评价(坐标点集中于45。区域，如图5．1中的A点。距离0点近者，说明主、客观评价均较低；远者，说明主、客观评价均较高)。

这种方法具有较强的直观性，如将连续几学期的坐标图对照，则可发现某生各方面提高、变化的轨迹曲线，也能看出某些主、客观评价的变化。

我们是从不同的角度，不同的方面或不同的层次上去考察教育评价方法的。例如，第一类方法主要是从评价的参照点上去看评价方法和技术；第二类方法主要是从思维方法的角度去看评价方法和技术；第三类方法主要是从行为的角度看评价的方法和技术：第四类方法主要是从单项指标评分的方式方法上看评价的方法和技术；第五类方法主要是从综合评价的方式方法上看评价的方法和技术。上述各类评价方法之间，难免存在交叠之处。此外，我们还可以从组织形式，活动方式．搜集资料，整理、分析、处理资料等角度去考察教育评价方法。如从这些角度去考察，则教育评价方法还有观察、听汇报、访问、开调查会、查阅文献资料、发问卷、测试等评价信息的收集方法和处理评价信的各种方法。这些方法详见本章第二节和第三节。

第二节收集教育评价信息的方法

一、评价信息的收集标准

评价信息有时是很广泛的，在采集时，掌握一定的标准，可令方向更加明确，采集到的内容更有效、更可信，从而提高评价信息的质量。评价信息收集的标准主要有准确性、可靠性和时限性三个。

(一)准确性

评价信息的准确性是指采集到的资料与评价目标的一致性，是指采集到的评价资料是评价目标真正需要的资料。评价资料与评价目标越一致，说明评价信息的准确性越高，采集到的评价资料越有效。提高评价信息的准确性，要注意几点要求：

(1)在收集资料前，要熟悉评价指标体系的结构，记住各项指标，并透彻地理解指标的内涵。如果评价指标体系较庞大，全部记住指标很困难，则可按一级指标分类收集评价信息，从而可减少记忆指标的困难，也便于准确地采集评价资料。

(2)按评价指标体系的项目去设计问卷和调查表的题目，调查提纲、访谈提纲、测试题目、观察提纲、搜集文献的提纲，令指标体系的项目与收集资料的各种纲目相一致。要严格按设计的各种纲目去收集资料。

(3)注意评价资料的全面性、完整性和充分性。就整体而言，评价指标体系中的各项指标都应有资料去说明，不应有遗漏，既要抓重点指标的资料收集，也要照顾到一般指标的资料收集，要善于从各方面、多层次去考虑问题，令收集到的该项资料尽可能完整无缺，并尽可能充分地说明该项指标。

(二)可靠性

评价信息的可靠性是指收集到的资料真实可靠，用以说明评价指标的资料是信得过的资料，这些资料所反映的情况完全符合客观实际。提高评价信息的可靠性应做到：

(1)采集评价信息的方法手段要多样性，以便于令搜集到的信息能互相验证。例如，访谈法得到的信息往往能与问卷法得到的信息相互验证，查阅文献资料得到的信息，往往能与测验法或座谈法得到的信息相互印证。当然，各种方法手段采集到的各种资料之间不一定可以完全得到验证，大多数情况是部分验证或个别验证。

(2)注意改进收集资料的工具，并讲究收集资料的技巧。在许多情况下，由于收集资料工具的不科学，而造成收集到的评价信息失真。如由于问卷设计不科学，而造成随意填答或假答现象的产生；由于测试题目设计水平低，造成答题者猜答、乱答等现象的发生，从而影响评价信息的信度。有时，资料收集者观察的片面性，查阅文献资料的方法不当，座谈引导的方式不对头、访谈问题欠艺术，施测的导语欠佳，也会导致收集到的评价信息不可靠。

(3)信息整理时要注意去伪存真。无论采用什么方法，采集到的评价信息都难免存在着虚假成分。因此，要将最后收集到的评价信息进行认真的审核，常用分析法判断和比较鉴别的方法去剔除谬误。如果发现收集到的各种资料之间互相矛盾，收集到的文字资料与观察到、了解到的实际情况不符，或者发现收集的资料所反映的情况和数据违反日常生活准则和一般事理，那么，就表明收集的资料缺乏可靠性。于是就要进行剔除谬误的工作。

(三)时限性

评价信息的时限性是指严格按评价工作所规定的时限去采集评价信息。如果在某些单位或个人所采集到的评价信息是此一时限，而在另一些单位和个人所采集到的评价信息则是彼一时限，这就没有什么可比性了。就一个单位或个人而言，不按规定的时限去采集评价信息，也会影响评价结果的确切性，不能达到评价的目的。总之，不按照规定的时限去收集资料，所收集到的资料是不符合评价工作要求的无效资料。

收集资料的时限一般分起时和止时。时间精确到日。在起止时限内收集到的评价资料均为有效资料。资料有静态资料和动态资料两种。这里说的静态资料是指在规定的时限内不会变动的资料。动态资料是指在任何时候都有可能变动的资料。静态资料的采集可选用评价时限内任何一个时日。而动态资料的采集则应选择较接近终止时日为好。因为这样可以更好地反映被评者的现状。

二、评价信息的收集方法收集评价信息的方法多种多样，要根据指标内涵的性质和要求去选用收集资料的方法。例如，静态资料的收集常以查阅文献法为主，兼用其他方法，而动态资料的收集常以观察法、测量法为主，辅以其他方法。定性资料的采集，常以访谈法、观察法、座谈法为主，兼以其他方法，而定量资料的采集，常以测量法、问卷法为主，辅以其他方法。但许多方法是既可以采集静态资料，又可以采集动态资料，或既可以采集定性资料又可以采集定量资料的。较常用的采集评价信息的方法有观察、听汇报、调查访问、座谈会、收集文字资料、发问卷、测试等七种。

(一)观察法

观察法是根据评价指标的要求，在自然状态下，通过参观去获取评价信息的一种方法。观察具有目的性、直接性、情感性、可重复性等特征。其优点是简便易行，获得的资料可靠。中外许多学者都喜欢用观察法去搜集资料，如费孝通的《禄村农田》、《江村经济》，李景汉的《定县调查》等书的写作都是正确地运用观察法收集资料的先例。我国著名教育家陈鹤琴曾以长达三年的时间，用跟踪观察的方法去收集自己孩子成长的资料。瑞士的皮亚杰在探索认识发生发展的研究中，采用“临床”观察法去收集资料。他们注重运用观察法去搜集资料，值得我们学习。

1．观察的途径

(1)实地参观考察。如开展办学评价时，务必亲自到现场参观校舍、学生活动场地、设备、校内外环境等，还要巡视校园管理、课外活动。

(2)听课。听课的目的是收集教师课堂教学的资料，了解学生上课的活动情况等。通过听课，也可以在一定程度上了解到教师的备课情况。

(3)参与有关活动。如参加学校的各种集体活动，“身临其境”，考察师生在活动中的表现，了解校风、学风的情况。

2．观察记录的方法

(1)连续行为记录法。这种记录方法也称为现象描述法，是对评价的有关现象或行为，从开始到结束都作全面的观察和记录，把认为重要的现象和表现进行具体的描述，认为不重要的则可忽略。日记法和个案跟踪观察记录法均属这种观察记录法。

(2)时间取样记录法。这种记录法是以时间为样本的记录方法，它在预定的一段时间内，对特殊而明确的现象或行为进行观察和记录。如，每天安排l小时观察并即时记录，每周观察一天并即时记录；或相隔3小时就观察10分钟并即时记录。

(3)事件取样记录法。这种记录法的对象是某一事件或某一具体的活动，从活动开始到结束作全面观察和记录，不受时间限制。如，对学生某项课外活动作观察记录，对学校进行的某一重大事件进行观察记录。这种观察记录是对事先就有目的有计划安排的“事件”观察记录，而不是事件发生过后才去调查了解作

事后记录。

3．观察的辅助工具

(1)记录装置。

a．画面记录：如拍片或录相。

b．音响记录：如，录音。

(2)记录表格。记录表格可根据观察的目的来设计，以简明实用为宜。在记录表格上作记录一般有四种形式： a．等级式。在观察记录表的等级中选定一个等级，写上“√”。

b．是非式。在表格相应的项目中，写上“√”或“×”，以此表明观察者的判断。

c．次数式。可在表格相应的项目中，记录观察到的某种行为出现的次数。如某种行为若出现6次，可记录为“正一”。

d．文字式。在表格中用文字表述观察到的情况。

(二)听汇报

听汇报的目的是通过听取被评者的工作汇报和情况反映来收集评价信息。这种方法简便易行，可以在较短的时间内获得较多的信息。

运用这种方法收集信息应注意几个问题：

(1)在听汇报前，应将听汇报的目的、内容和要求通知汇报者，并要求做好汇报内容的充分准备，以免汇报时想到什么说什么。

(2)汇报时，要营造融洽的谈话气氛，令汇报者畅所欲言，言无不尽。

(3)善于引导。有的人，喜欢报喜不报忧，并在报喜材料中浮夸，若发现这种情况，要及时加以引导，令其客观地汇报情况。

(4)做好笔记。尽可能将汇报的主要内容记录下来，运用录像设备配合更好。

(三)调查访问

调查访问是指以调查的方式出去访问有关人员或找有关人员谈话，了解情况，从而收集评价信息。调查访问包括校内调查访问和校外调查访问两类型。调查访问可了解到真实情况，获得较深入和具体的资料。

运用这种方法的要求是：

(1)要制订好访问计划和提纲，并按计划和提纲去开展调查访问工作。

(2)选择好访谈的对象、场所和时间。访谈对象应是与调查内容有关并熟悉情况的人；访谈的场所应安静舒适，不受周围环境的干扰和影响；访谈的时间要适当，应在被访问者精神状态最好的时间内访问，并且时间安排要足够。

(3)围绕着调查提纲去问话。所有话题均与调查目的有关。必要时可围绕提纲追问。

(4)注意访谈态度。要亲切、自然、冷静，令被访者消除顾虑，不会产生不安的感觉。

(5)做好记录工作。

(四)座谈会

座谈会是约请少数有关人员聚集在一起交谈，从而获取评价的信息。这种方法可以集思广益，获得较全面的评价信息。

1．座谈会的种类

(1)学生座谈会。

(2)教师座谈会。

(3)领导和管理人员座谈会。

(4)师生座谈会。

(5)领导、管理人员和教师座谈会。

(6)上述人员不同组合的座谈会，如学生干部、班主任座谈会等。

(7)校外有关人员座谈会(包括学生家长座谈会)。

2．召开座谈会的基本要求

(1)根据评价内容的要求和实际情况去选择座谈会的种类。一次评价活动，座谈会可选用几种，每种座谈会也不限于只召开一次。应注意座谈会人员的代表性。 (2)做好准备工作。包括事先准备好会议的调查提纲、议程；安排好开会的时间、地点；确定参加会议人员并将座谈会的内容、时间、地点、参加者、会议要求等事项通知他们。

(3)座谈会上，以自由发言的形式为宜，但主持人要善于围绕评价内容引导讨论。

(4)指定专人做记录工作。

(五)收集文字资料

这是非常重要的收集评价信息的方法。这里说的文字材料，包括两部分：一部分是由被评价者提供的评价材料；另一部分则是由有关方面提供的与被评者有关的评价材料。大体可分为如下七类：

(1)计划类资料。如各种工作计划，各种学习和进修计划等。

(2)制度类资料。如各种规章制度、教学规范文件、德育工作文件、各种奖惩条例、各种会议记录等。

(3)业务工作类资料。如工作日记、大事记、听课记录、教案、课程计划表、学生成绩登记表、业务档案、班主任工作手册、运动会记录、体育达标记录、卫生保健资料、学生的作业和各种奖惩类资料。如师生获得的荣誉手册，各种奖状等。

(4)奖惩类资料。如师生好人好事荣誉手册，各种奖状、奖旗、纪念物，各级获奖证书，惩治记录等。

(5)总结类资料。如各种工作总结、专题总结、自评报告、自查报告、书面汇报、经验交流材料等。

(6)外来资料。如家长来信，群众的表扬信、揭发问题信，报刊有关被评者的报道，外单位对被评者的评价意见以及其他方面提供的关于被评者的评价材料。

(7)基本情况的统计报表。如，各类人数比例统计，教学工作统计，成绩、成果及获奖统计，体育卫生达标统计，升学就业统计，校舍设备场地达标统计，财务收支统计等。

查阅和收集文字材料要尽量齐全，并注意去伪存真；还要针对评价指标进行分类整理，令各类材料与相应的评价指标对口。

(六)发问卷

问卷是收集评价信息的问题表格。它的形式主要有是否式、类别式、条件式、排序式、线段式、表格式、问答式等。它可有效地收集到基本情况资料、行为资料和态度意见资料。

问卷设计时，一般应先确定要调查的评价指标，然后，将每一项指标，由陈述句形式改写或演绎成问卷题目(一项指标可设计一个问卷题目，也可以设计出几个问卷题目)，这样才能提高问卷的效度。在撰写问卷题目时，还要注意行文技巧，这样才能令问卷题目收集到的资料是真实可靠的，从而提高问卷的信度。

发问卷时，既可以将一份问卷只发给一种对象填答，也可以将相同的问卷发给几种对象填答。

(七)测试

测试是通过书面测验和考核、实践操作、口头询问、活动考验等形式去收集评价信息的方法，它包括各种各样的测验和考试。本书测量部分已详尽地阐述了测试的原理和方法问题，此不赘述。

总观上述七个评价信息的收集方法，大体上可归为两大类：一是调查法，包括观察、听汇报、访问、座谈会、收集文字资料、发问卷等六个方法。运用调查法，可取得大量的文字描述性资料，获得直接的认知，因而更有利于定性分析。二是测量法，即测试法。测量是评价的基础，通过测量，为教育评价提供大量信息，主要提供数据资料，因而更有利于定量分析。当然，这两类方法均可获得文字资料和数据资料。在收集教育评价信息时，应将上述七个方法结合起来运用。

第三节处理教育评价信息的方法

一、教育评价信息的定性分析描述法

定性分析描述法有等级判定法、评语鉴定法和写实分析法三种。

(一)等级评定法

目前，等级评定法主要有以下几种形式：①五等级法：优秀、良好、中等、及格、不及格；②四等级法：高级、一级、二级、三级。③三等级法：上、中、下。④二等级法：合格、不合格。评等法常用于学生评价、教师评价、学校整体水平的评价或办学质量的评价。学生评价的实施过程是：①制订评分等级及其评定标准；②学生根据评定标准进行自我评估，自报等级，然后由学生民主评议；③班主任和教师最后评定学生的等级。我国许多中小学采用此法来评定学生等级，包括操行等级、能力等级等。我国对中小学教师的职称评定，采用等级评定法，有“高级教师”、“一级教师”、“二级教师”、“三级教师”等称号。广东省

教育厅对中小学的评价也采用等级评定法，有“一级学校”二级学校”、“三级学校”等称号。这种方法简便易行，但不够精确。同一等级者很多，他们之间的差距仍很大，但无法加以区别。

(二)评语鉴定法

就是用简明的评语来表述评价结果的方法。对学生的作文、技能，对教师的教态、教学语言等方面的评价，常使用评语法。对教师业务职称的评定、对干部业务考核，也常用评语法。评语法的做法多种多样，譬如，对一所学校办学水平的评定，常以评语作鉴定。有专家组评语法(即由校外的有经验的专家组成一个小组进行评价)，有社会各方面评语法(即由教育系统以外的人员对学校进行评价)，还有领导小组评语法(即由上级领导组成的领导小组进行评价)。如果是对一个学生的思想品德的评定，则要求在学期结束或学生升学、升级、毕业或就业时，以班主任为主，依据一定的评价指标，对学生在这一时期的思想品德和行为以文字的形式进行简短的述评。对中小学生的操行评定，一般有班主任单方面评语法，以及教师、学生、家长共同评定的评语法。（对个体认识的过程积累）

这种方法的优点是：简便易行，结论使人一目了然，而且能对教育中的许多模糊现象进行描述和鉴定，解决了一些定量评价所不能解决的问题。缺点是：由于这种方法只注意定性描述而不重视定量分析，因而不够精确，对评价对象不能逐一排出优劣次序，有时也难以作具体的比较分析。作评语时，容易掺杂个人偏见或主观因素，难以做到客观、准确。信度和效度较低。

(三)写实分析法

写实分析法是根据一定的评价目标和要求，对评价对象的情况进行较为详细的描述，并在此基础上作出恰当的评价。做法是：

(1)搜集事实材料。内容包括：有关评价对象一般情况的事实材料；有关评价对象典型事例的事实材料；学校领导、班主任、各科教师、团队辅导、学生家长、社会群体等对评价对象的评价的事实材料；评价者亲自考察得来的事实材料，如现场观察学生活动的表现，与教师谈话了解情况，听取学校领导的情况汇报等。要十分重视第一手材料的收集，重视现实表现的材料。此外，有关评价对象的现实文献资料和历史档案资料也应给予注意。

(2)对搜集到的资料进行整理和描述。整理包括核实、分类和汇编等工作。描述多采取“写实”手法，一般先概括地描述一般情况，然后描述典型事例。

(3)分析评价。即对所描述的事实材料作总体上的分析评价。分析评价要中肯，简明扼要。运用此法要注意的问题是：搜集的资料要真实可靠，整理和描述事实材料要有系统性，分析评价要抓住主要问题或本质问题。这种方法与评语法主要区别在于，评语法主要是“评”，书面上很少反映事实依据。虽然，正确的评语对于评价对象和评价者都是可以理解和接受的，但写给别人看往往有欠缺事实依据之嫌。写实法最大的特点是能比较详细地描绘客观事实，其评价、结论是以所描绘的事实为依据的，能以充分的依据呈现在读者面前，信度高。缺点是要全面地收集资料十分困难，做起来花时间多，尤其是在样本数目很大的情况下，此法就更难实施。

二、教育评价信息的定量分析评判法

教育评价信息的定量分析评判法可分为统计分析评判法和模糊综合评判法两种。

(一)统计分析评判法

教育评价中应用较多的统计分析是平均数、标准差、标准分数、T分数、参数估计和统计检验。

1．平均数

平均数，又称均数或均值。英文为Mean，故以M表示。如果M是由变量x计算得来的就记为x（读x 杠)，M是由变量y计算得来的就记为y，现在一般都以x表示样本的平均数。算术平均数是由各个变量相加求和再除以变量的总次数。其计算公式是：

x=x1x2x3xN

Nix简写为：x=N

上式中x为平均数；x1,x2,x3,…,xN代表各个变量的观察值；N为观察的数；∑为希腊字母，读Sigma，是求和的意思。

在教育评价中，平均数有着广泛的用途：①利用平均数可以对各个样本或总体进行比较。如，可以利用各班学生的某科成绩的平均数进行比较与分析。②利用平均数来描述和代表评价对象的一般水平。如要了解一个班的学生某科成绩，我们可把分数的总和除以学生人数，得出平均数，这样就能明白地反映这个班级某科成绩的一般水平。③利用平均数可以分析教育现象之间的依存关系。如根据全班学生某科平均成绩的高低，可以看出学生的某科成绩与该科教师的教学水平有密切关系。④利用平均数可以研究样本或总体的一般水平在时间上的变化。如比较某个年级学生在不同时期某科平均成绩的提高，可以看出该年级学生某科成绩的不断提高过程。

2．加权平均数

在教育评价中，有时要将各方面的测量结果合并求平均数，但由于各方面的评价结果，其重要程度是不同的，若将它们等量齐观，像求算术平均数那样计算，显然不合理。正确的方法是：考虑来自各方面测量结果的重要程度，给予他们一定的权数，然后代人如下公式计算：

x式中，xWWx=Wiii

W为加权平均数；Wi为权数；∑Wixi为加权总分。

例如，某生语文的平时成绩为80分，期末考试成绩是90分，学校规定平时成绩占40%，期末考试成绩占60％，那么，该生的总评成绩府该是

800.4900.6xW=86（分）

0.40.6 3.标准差

标准差是各观察值与其算术平均数之差数之平方和的平均数的平方根。常以s表示。计算公式是：

s =

(xx)N2

式中，s为标准差；N为人数；x为各观察值，x为各观察值的平均数。

4．标准分数(见本书第六章)

5．T分数(见本书第六章)

上述常用的几种统计分析评判法属于描述统计法，此外，还有推断统计中的参数估计和统计检验，也常用于教育评价的定量分析。限于篇幅，这里不作介绍。读者可参阅《教育统计学》书籍的有关章节。

(二)模糊综合评判法

模糊综合评判是将模糊数学应用于教育评价，以解决在多因素前提下对模糊数据进行的综合的问题。模糊综合评判法的基本步骤是：

1．确定评判的因素集U

评判的因素集可根据评价指标体系的末级指标的性质特征和需要来确定，如末级指标是“课堂教学质量”，那么，可将“课堂教学质量”分解为“教学组织、教学内容、教学方法、教学手段、教学效果”等五个因素。这五个因素就构成一个评判课堂教学质量的因素集U。

2．确定因素权数

当因素集确定后，就要给每个因素分派一个权数。权数的分派法可采用经验法、德尔菲法、讨论法、运算法，等等。如上面提到的课堂教学质量评价，可将五个因素的权数分派为0．2．0．3，0．2，0．1，0．2。

3．确定评价等级

评价等级的划分应充分考虑指标的性质特点，如上面提到的课堂教学质量的评价等级的划分，不宜过细，一般以四等或五等为适中，但在教育评价实践中，我们发现，若分为五等级，则容易出现选项集中到中间等的现象，因此，定四等级为宜。这四等级是：很好、较好、一般、较差。

4．建立因素集的模糊矩阵

在线性代数中，矩阵就是如下形式的数表：

a11a

21am1a12a22am2a1na2n

amn其中，a11,a12,…,a1n;a21,a22,…,a2n;…,am1,am2,…,amn为矩阵的行。a11,a21,…,am1;a12,a22,…,am2;a1n,a2n,…,amn为矩阵的列。这个矩阵叫阶矩阵。m×n阶矩阵。在模糊数学中，把矩阵的每一行叫做一个模糊子集，而每一行表示一个评价因素的每个等级的隶属度。将各个模糊子集组合起来，从而构成模糊矩阵。

在教育评价中，有的现象的外延是模糊的，不清晰的，如“教学组织好”就不是“非此即彼”的现象，而是一个模糊的概念。模糊的现象只能用不精确的方法来加以描述。隶属度就是模糊数学中用来度量事物对集合的隶属程度，它可以把模糊的教育现象数量化。

5．选择评判模型

模糊数学中最常用的评判模型有如下几个。

①M（∧，∨） bj=(airij)

i1nn②M（·，∨） bj=(ai·rij)

i1n③M（∧，⊕） bj=(airij)

i1n④M（·，⊕） bj=(ai·rij)

i1其中，“bj”为每一个指标的综合评判值；“∨”为取大运算符号；“∧”为取小运算符号；(∨，∧)为扎德算符，如：5 ∨3=5，6∧4=4；“·”为相乘运算符号；“⊕”为相加运算符号；“∑⊕”为有界和。

要根据实际上对评价的要求去选用上述模型。我国目前最常用的是模型④M(·，⊕)。

6．计算综合评判值

现以例题来说明综合评判值的运算过程。

例1．50位评价者对某位教师的课堂教学质量进行综合评分。方法如下：

设：因素集U=[教学组织、教学内容、教学方法、教学手段、教学效果]，教学组织、教学内容、教学方法、教学手段、教学效果等五个因素的权数分配为0．2，0．3，0．2，0．1，0．2。

对每个因素的评价分为四个等级，构成V：

V=[很好、较好、一般、不好]

据此，编制出教育评价问卷表，如表5．1。

假定50位评价者的评价，看法未必一致。设对这位教师的“教学组织”这一因素的评价，选“很好”等级者有20人，占40％，选“较好”等级者有25人，占50％，选“一般”等级者有5人，占10％，没有人选“不好”等级。于是，可得到一个数列：0．4，0．5，0．1，0。类似地，假定：

对“教学内容”这个因素的评价，得到的数列是：0．6，0．3，0．1，0。

对“教学方法”这个因素的评价，得到的数列是：0．1，0．2，0．6，0．1。

对“教学手段”这个因素的评价，得到的数列是：0．1，0．2，0．5，0．2。

对“教学效果”这个因素的评价，得到的数列是：0．3，O．3，0．2，0．2。

这样，可得到一个矩阵R：

0.40.50.100.60.30.100.10.20.60.1

0.10.20.50.20.30.30.20.2表5．1 课堂教学质量问卷等级表

因素很好较好一般不好

教学组织

教学内容

教学方法

教学手段

教学效果

在权集设计里，已经对上面五个因素分别赋予了权数，得到的权重向量为：

W =(0.2,0.3,0.2,0.1,0.2)

假如选用模型

M（∧，∨）: bj=(airij)

i1n则可按下列方法作出模糊综合评判：

0.40.6B=WR=(0,2,0.3，0.2，0.1，0.2)0.10.10.30.50.10.30.10.20.60.20.50.30.2000.1

0.20.2上式中，符号“”表示对W和R合成；扎德算符（∧,∨）表示“最小——最大”，即两两先取小，然后在所得结果中保留最大的一个。

上述综合评判结果B共有四个因素，分别为： b1=(0．2∧0．4) ∨(0．3∧0．6) ∨(0．2∧0．1) ∨(0．1∧0．1)

∨(0．2^0．3)=0．2∨0．3∨0．1 ∨0．1∨ 0．2=0．3

b2=(0．2∧0．5) ∨(0．3∧0．3) ∨(0．2∧0．2) ∨(0．1∧0．2)

V(0．2∧0．3)=0．2∨0．3∨0．2∨0．1∨0．2=0．3

b3=(0．2∧0．1) ∨(0．3∧0．1) ∨(0．2∧0．6)( ∨0．1∧0．5)

∨(0．2∧0．2)=0．1∨0．1∨0．2∨0．1∨0．2=0．2

b4=(0．20∧) ∨(0．3∧0) ∨(0．2∧0．1) ∨(0．1∧0．2) ∨

(0．2∧0．2)=0∨O∨0．1∨0．1V0．2=0．2

故B表示为：

B=WR=(0．3，0．3，0．2，0．2)

这一结果表示：50位评价者对某教师课堂教学质量的综合评判是：30％的评价者认为“很好”，30％的评价者认为“较好”，20％的评价者认为“一般”，20％的评价者认为“不好”。如果按“最大隶属原则”，既可以评判为“很好”，又可以评判为“较好”，无法得出肯定的评判结论。这种现象称为扎德算符(∧，∨)的“二义性失效”。此外，采用模型①M（∧，∨），有时还可能出现在综合评判结果中，全部隶属度相同的现象，造成扎德算符（∧，∨）的“全同失效”。

模型④M(·，⊕)的运算过程在步骤上与模型①M（∧，∨）基本相同，不同之处是，其在模糊矩阵的合成时，以“·”取代“∧”；以“+”取代“∨”。

例2.根据例1的假定数据，改用模型④M(·，⊕)，计算课堂教学质量的综合评判值。

模型④M(·，0)：bj=(ai·rij)

i1n0.40.6B=WR=(0.2,0.3,0.2,0.1,0.2)0.10.10.30.50.10.30.10.20.60.20.50.30.2000.1

0.20.2b1=0.20.4+0.30.6+0.20.1+0.10.1+0.20.3=0.35

同理可得：b2=0.31,b3=0.26,b4=0.08

故b可表示为

B=WR=(0．35，0．31，0．26，0．08)

这一结果表明：50位评价者对某教师课堂教学质量的综合评判是：35％的评价者认为“很好”，31％的评价者认为“较好”，26％的评价者认为“一般”，8％的评价者认为“不好”。根据“最大隶属原则”，50位评价者对教师课堂教学质量的评价的综合评判结论为“很好”

三、教育评价结果的合成方法评价结果的合成可分为三种情况：

(一)单纯普通数据的合成方法

这里说的“普通数据”是相对于模糊数据而言，多属“硬指标”。如，某项指标得70分，某人达到某项指标的程度为0．9。这些就被称为普通数据。普通数据是教育评价指标体系普遍存在的一种类型数据。对于这类型数据的合成方法是：用“加权平均法”，逐级向上施行同一算法，直到所有的普通数据在一级指标上归并为一个合成的分值为止。例见第四章第二节中“教育评价方案编制示例”说明部分第四个问题第2小点。

(二)单纯模糊数据的合成方法

模糊数据多属“软指标”。末级软指标常用模糊综合评判结果，从而得出模糊数据。但如何将各个模糊数据合成和汇总呢?下面阐述两种方法供参考。

1．多级模糊综合评判法

模糊数据的合成问题可用多级模糊综合评判法去解决。现以两级教育评价指标体系模糊数据的合成为例加以说明，步骤是：

(1)对末级(即二级)指标进行第一次综合评判(即，将对末级指标评判所形成的模糊矩阵与末级指标自身权重向量合成)，获得二级指标对一级指标形成的第一次综合评判结果；

(2)将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新的模糊矩阵；

(3)将新组成的模糊矩阵与一级指标自身权重向量合成，形成第二次模糊综合评判，并计算综合评判结果(这是第二次综合评判结果)。

如果评价指标体系的指标有三级以上，可用此方法逐级合成，由末级指标开始，直到合成到一级指标为止。

2．二维加权综合合成法

二维加权是指纵向加权和横向加权。纵向加权是指不同信息源间的加权，横向加权是指对同一级各因素间的加权。二维加权综合合成的做法是：

首先，纵向加权综合。

现以对“课堂教学状态B22”的评价为例说明纵向加权合成法(此例中，A、B、C分别代表一级指标、二级指标和三级指标，W为指标权数，R为模糊矩阵。英文字母下标的数据为序号)：

B22的末级指标教学组织C221，教学方法C222，教学素质C223。某校组织了三个评价组对某教师上课进行单项评定，这三个评价信息源的纵向权集如表5.2。

表 5.2 教师课堂教学评价纵向权集

组别

W221 W222

（教学方法）

0.4

0.2

W223

（教学素质）

0.2

0.4

（教学组织）

学生组（S） 0.3

同行教师组（T） 0.4

领导组（L） 0.3

三个组别对某组教师课堂教学状态作单项评定后，得表5.3

表5.3 对某组教师课堂教学状态的评定结果

指标组别优良中差

教学组织学生组(S) 0.6 0.4 0 0

同行教师组(T) 0.5 0.4 0.1 0

C221

领导组(L) 0.4 0.3 0.2 0.1

教学方法学生组(S) 0.5 0.3 0.2 0

同行教师组(T) 0.6 0.4 0 0

C

222领导组(L) 0.4 0.3 0.2 0.1

教学素质学生组(S) 0.3 0.2 0.3 0.2

同行教师组(T) 0.5 0.4 0.1 0

C223

领导组(L) 0.6 0.4 0 0

三个评价组对“教学组织”这个指标的综合评判是：

00.60.40B221=W221R221=(0.3,0.4,0.3)0.50.40.10

0.40.30.20.1 =(0.5,0.37,0.1,0.03)

三个评价组对“教学方法”这一指标的综合评判是：

B222=W222R222=(0.52，0.34，0.12，0.02)

三个评价组对“教学素质”这一指标的综合评判是：

B223=W223R223=(0.5，0.36，0.1，0.04)

B221,B222,B223这三组数据归一化后，组成模糊矩阵：

0.500.370.100.03 R22=0.520.340.120.02

0.500.360.100.04 然后，横向加权综合。

将纵向加权综合形成的新的模糊矩阵R22与C级指标自身权重向量合成，进行横向加权综合，即进行多级模糊综合评判。

(三)混合数据的合成方法

混合数据是指一个指标按逻辑隶属关系分解出若干个下一级指标，在这些下一级指标中既有模糊数据，也有普通数据，这两种不同质的数据混合在一起。

这种混合数据，若按逻辑隶属关系向上一级指标汇总时，必须进行同质化处理。同质化处理可用转换的方法。

1．普通数据转换成模糊数据的方法这种方法是把普通数据的测量分值转换成为模糊矩阵中的一个元素的方法。根据集合论的原理，对于普通子集，论域中的每一元素对子集的隶属程度或者为1(属于子集)，或者为0(不属于子集)；而模糊子集的隶属函数若只取0、1两个数时，就转化为普通集和的特征函数。换言之，普通集合是模糊集合的特殊形态。这就是把普通数据通过特征函数转化为隶属函数。

设某末级指标测量分值为，划分区间的尺度为：

当S∈(0.8, 1)时，对“很好”的隶属度为1。

当S∈(0.6,0.8)时，对“较好”的隶属度为1。

当S∈(0.4,0.6)时，对“一般”的隶属度为1。

当S∈(0 ,0.4)时，对“不好”的隶属度为1。

上述尺度除规定的隶属度为1的等级外，对其余等级的隶属度均为0。现假设某末级指标测量分数为72分，转化为小数是0.72。按上述划分区间的尺度，可转换成：B = (0, 1, 0, 0)

2.模糊数据转换为普通数据的方法

这种方法是把模糊隶属度转化为分值。例如，设某末级指标的单因素评价结论为：B = (0.4 , 0.3 , 0.3 , 0 )

设“很好”是100分，“较好”是80分，“一般”是60分，“不好”是40分。得矩阵R。

10080R =



6040设模糊数据转换成普通数据，分值为S，则

10080S = (0.4 , 0.3 , 0.3 , 0 )



6040 = 0.4×100+0.3×80+0.3×60+0×40

= 82 （分）

2023年6月21日发(作者：)

第五章教育评价的方法

第一节教育评价方法概观

第二节收集教育评价信息的方法

教育评价的方法很多，我们大体上把评价的方法归纳为五类。

一、绝对评价法、相对评价法与个体内差异评价法

(一)绝对评价法

绝对评价法是在评价对象的集合之外确定一个标准，评价时把评价对象与客观标准进行比较。例如，教学评价的标准，一般是教学计划和教学大纲，以及由此确立的具体评定指标。

绝对评价法的优点是：其标准比较客观，如果评价是准确的，那么评价之后，每个被评价者都可以明确自己与客观标准的差距，有利于发扬优点，克服缺点。同时，运用绝对评价法，可直接鉴别各教育目标完成情况，明确今后工作的重点。缺点是：其客观标准很难做到客观，在制定和掌握评价标准时，容易受到评价者的教育价值取向和经验的影响。

(二)相对评价法

相对评价法是在评价对象的集合中选取一个或若干个作为基准，然后把各个评价对象与基准进行比较。例如，对某校统考成绩的评价，通常是以该校所在市(县)统考的平均水平作为评价的基准，以该校成绩在一个市(县)中所属的地位来判断。

这种评价方法的优点是：适用面广，不受集体整体水平的限制，就是说，无论集体的整体水平如何，都可比较出优与劣，先进与落后。其缺点是：判据会随集体的不同而发生变化，因而容易降低客观标准。

(三)个体内差异评价法

这种方法既不是在被评价集体以内确立判据，也不是在集体以外确立判据，而是把被评价者的过去和现在比较，或将评价对象的不同方面进行比较。例如，把某中学的过去和现在进行比较评价，或者把该中学的思想政治教育工作、教学工作、文娱体育工作、总务后勤工作等各方面工作进行比较评价，从而找出它们

之间的差异。

这种方法照顾了个体差异，但由于被评价者不与他校(或他人)相比较，这就难以找出自己真正的差距，而且个体内具体的判据，往往不容易选择。故应把个体内差异评价法与相对评价法以及绝对评价法结合起来使用。

二、定性分析评价法与定性综合判断法

(一)定性分析评价法

定性分析评价法是预先根据评价的观点，把评价内容分解为几个项目，分别进行评价。例如，评价教师一堂课，可分别评价：教学目的、教学内容、教学方法、教学组织、教态和教学语言等几个项目，评价时，‘可按照这些项目的具体要求，进行具体的分析评判。

(二)定性综合判断法

定性综合判断法是对评价对象的整体进行综合性的评价。要求评价者要有丰富的经验。如，评价学生的一篇文章，评价一位校领导，评价一间学校，评价者总是有一个总体印象的，根据总体印象，可作出总体的评价。定性综合判断法具有较多的主观因素，误差比较大，虽然如此，在教育评价中，定性综合判断法仍然是不可缺少的。

三、行为目标评价法和临床督导评价法

(一)行为目标评价法

这种方法的理论基础是行为主义心理学。其提倡者认为，传统的教育评价的目标(或标准)是含糊不清的，人们只是根据主观的期望和想象制定目标，而并不考虑这些目标在指导行为和评价实施过程中的具体作用。例如，传统的目标规定，学生“必须积极参加公益劳动”。但是，学生是怎样劳动的?是否应该经常劳动?究竟达到怎样的程度才能断定学生已经实现了这一目标?在传统的目标中，这些问题都是没有答案的，教师所能得到的只是一堆空洞、抽象的原则，因此，难以对学生进行科学的评价。所以就有必要把明确表述的、可观测的行为化为成就目标，来代替抽象的目标。行为目标的表达方式应注意两点：①应设立可能观察行动的场合；②应容易表示出行动的程度或阶段。所谓行为目标评价法就是采用可观测的行为目标作为评价的依据的一种评价方法。在这种评价法中，以上所述的“积极参加公益劳动”，是抽象的评价目标，因而要将它转换成具体的行为目标，即转换为以下的一系列行为术语表达的问题：①学生通过何种方式参加公益劳动?②学生用多少时间开展公益劳动?③学生劳动是出于自愿抑或为了完成教师布置的任务?

由此可见，行为目标评价法的实质在于评价内容的具体化以及标准的客观化。这种方法结合评语法使用，可改善一般评语描述的概念化、单一化和空洞无物。

(二)临床督导评价法

这种方法与行为目标评价法的区别在于，行为目标评价法是评价中较为正规的方法，而后者则具有更多的非正规性。“临床”一词意味着细致的观察，评价者与被评价者之间的直接交往以及他们之间亲密和睦的关系。临床督导就象医学中的诊断和处方，其意义不仅在于评价，更主要的在于帮助和提高。可见所谓的临床督导评价法，就是对被评价者的实际行为进行直接的现场观察和记录，然后把观察结果和评价意见反馈给被评价者，并和被评者一起讨论改进措施的一种评价方法。这种方法与评价的终极目的即教育目的最为接近，而且简单易行，不用抽出专门的时间开展评价活动，完全可以在日常的教育、教学活动中进行。

四、指标评分法和等级换分法

(一)指标评分法

这种方法是以百分为满分，把学生的行为表现划分为若干个指标，赋予每个指标一定的分值，评价时对每个指标分别打分，最后累计出总分。例如，假设将班级日常管理作为一个指标，占10分，评价者可根据实际情况给该项指标评出10分之内的一个具体分值，如3分、2分或9分、7分，等等。此法增大了可比性和精确性，并且量化指标明确，容易操作。但各项指标分值的确定缺少科学依据，评价者评出的具体分数也有随意性，受评价者主观因素的影响较大。

(二)等级换分法

这种方法就是把具体项目的等级评定换算成分数，然后将各项分数相加，满分是100分。具体做法为：①首先规定若干大项目的分数，各大项目分数之和为100分。②在各个大项目下，分列具体项目，并规定满分分数。③将各具体项目分为若干个等级进行评定。有些项目可分二等级，如合格、不合格；有的项目可分三等级，如优、中、劣；有的项目可分成四等级，如优、良、中、差。每一等级需确定具体的评价标准。④将各等第折算成分数，如某一项目的满分值为11分，可定为优——11分，良——9分，中——7分，差——5分。⑤将各项目得分相加，即为评价对象总体的评价分数。

由于评价分数是根据客观的等级标准转换的，所以该法比指标评分法更为精确。

五、加权平均法、模糊综合评判法、集体综合评价法和坐标综合图示法

(一)加权平均法

这种方法是通过自评、专家组评、社会群众评等不同方面的评价，或学生、教师、领导等不同阶层的评价者的评价来综合评定被评者的分数。做法是：先分别确定各方面或各阶层评价者的权重，然后用加权平均法，计算出综合值，如，假使自评权重为0.2，专家组评价权重为0．7，社会群众评价权重为0．1，那

么，被评者的综合评定分数=自评分×0．2+专家组评分×0．7+社会群众评分×0．1。一般而言，对学校办学水平的评价，常用自评、专家组评、社会群众评三者综合评定的方法来确定。对教师课堂教学的评价，常用学生评、同行教师评、单位领导评三者综合评定的方法来确定教师的课堂教学质量。对学生的思想品德

的评价，常用学生自评、学生干部评、教师(班主任)评三者综合评定的方法来确定学生思想品德的分数。加权平均法的优点在于其分数的合成来自多方面，从而避免了单方面评价的片面性。

(二)模糊综合评判法

模糊综合评判法是目前我国学校教育评价中广泛使用的一种评价方法，具体实施有多种多样，详见本章第三节。

这种方法的优点是：有明确的目标和标准；综合评分时，计入了各项目的权重；将定性判断与定量分析结合起来，比较科学；评价结果有一个精确值，便于比较。这种方法尤其适宜于学校工作、教师和学生的思想品德与行为表现、学校管理和办学条件等方面的评价。但运用这种方法时，项目的确定必须合理，等级不宜过多，权重要有充分依据，科学性才有保证，而这些都是不容易做到的。其计算也比较繁琐。

(三)集体综合评价法

近十多年来，前苏联心理学家研究学生的个性品质问题时，曾运用集体综合评价法。这种方法除了要求被试对自己品质进行评价外，还要求被试的同班同学对他进行综合评价。我们可以将这种方法运用于我国教育评价，主要是学生的思想品德评价。结合我国德育评价的实践，这种方法的实施可以采取如下步骤：

(1)确定德育评价的具体项目。德育评价项目的确定是关键的一环，必须符合我国德育总目标的基本精神，同时，还要与本校、本班对德育的具体要求结合起来。

(2)每一个德育评价项目均给予一个满分值(如100分)，要求被评价者根据每一个德育评价项目，实事求是地自我评分；同时，也要求全班其他同学根据每一个德育评价项目对评价对象打分。

(3)用如下公式计算集体综合评价分数。

公式1：

S =

r1r2r3rN

N式中，S表示评价对象对自己思想品德的总评价，r表示对每一种德育项目的自我评价分数，N表示所评价的德育项目的总数。

公式2：

FiL=

jSiRI

式中，Fi表示对学生思想品德的集体综合评价，Lj表示集体中每个成员对评价对象作出的评价(对各种德育项目评价得分的平均数)，Si表示评价对象对自己思想品德的总评价，R表示被试人数。

从上述公式可见，集体综合评价分数(Fi值)的大小，主要取决于全班每一个同学对评价对象评分的高低和自我评分的高低。其他同学评分高，自我评分低，则集体综合评分高；反之，则低。同时，R值越小，Si值对Fi值的影响就越大。当参加评价者(R)是2人，每一个思想品德评价项目的满分值都是100分时，随着自我评分(Si)的大小变化，集体综合评价分数(Fi)的大小变幅可在1一100分之间。当参加评价者人数(R)在10人以上时，随着自评分数(Si)的大小变化，集体综合评价分数(Fi)的大小变幅一般不超过10分。当参加评价者人数(R)在50人以上时，随着自评分数(Si)的大小变化，集体综合评价分数(Fi)的大小变幅不超过2分。因此，如果学生自我评价能力很差，自我评分的随意性大(如小学低年级学生)，那么，参加评价者人数(R)大一些(10人以上)，就能适当调节自我评分的随意性对集体综合评分的影响。

为了考察学生自我评价与别人对他的评价是否一致，可以采用如下公式计算不一致性系数。

公式3：

F K =

S式中，K表示不一致性系数，F表示集体综合评价分数，S表示学生对自己思想品德的评价分数。 K值为1时，说明学生的自我评价与班中别的同学对他的评价完全一致。

集体综合评价法评分精确，有利于集体成员之间的相互比较，实施也不难。缺点是评价项目的确定难以科学、合理，计算也比较繁琐。

(四)坐标综合图示法

这种方法可用于各种综合评价。它运用化学上描述电子运动状况的原理来对评价对象进行客观图示定量。在化学原子结构的问题上，我们虽然不能准确地判断某个电子某一时刻在核外的运动，但却能根据它在核外不断运动的轨道来描述其运动状况。坐标综合图示法就是借助于这个理论来进行综合评价的一种量化图象法。例如，图5．1是某学生的综合评定。

B●智力能力水平

C●思想品德水平

知识水平 ●A

图5．1 某学生的综合评定坐标图

如图所示，A，B，C分别表示知识水平、智力能力水平、思想品德水平三大项目。坐标分十等分，横坐标为主观评价，由学生根据统一标准自己评分，纵坐标为客观评价，由班主任综合各方面评分。每一项目的主、客观评分可在坐标区域内指出一个点。如图5．1可能出现几种状况：(1)客观评价大于主观评价(坐标点偏向纵坐标区域，如图5．1中的B点)；(2)客观评价小于主观评价(坐标点偏向横坐标区域，如图5．1中的C点)；(3)客观评价等于主观评价(坐标点集中于45。区域，如图5．1中的A点。距离0点近者，说明主、客观评价均较低；远者，说明主、客观评价均较高)。

这种方法具有较强的直观性，如将连续几学期的坐标图对照，则可发现某生各方面提高、变化的轨迹曲线，也能看出某些主、客观评价的变化。

我们是从不同的角度，不同的方面或不同的层次上去考察教育评价方法的。例如，第一类方法主要是从评价的参照点上去看评价方法和技术；第二类方法主要是从思维方法的角度去看评价方法和技术；第三类方法主要是从行为的角度看评价的方法和技术：第四类方法主要是从单项指标评分的方式方法上看评价的方法和技术；第五类方法主要是从综合评价的方式方法上看评价的方法和技术。上述各类评价方法之间，难免存在交叠之处。此外，我们还可以从组织形式，活动方式．搜集资料，整理、分析、处理资料等角度去考察教育评价方法。如从这些角度去考察，则教育评价方法还有观察、听汇报、访问、开调查会、查阅文献资料、发问卷、测试等评价信息的收集方法和处理评价信的各种方法。这些方法详见本章第二节和第三节。

第二节收集教育评价信息的方法

一、评价信息的收集标准

评价信息有时是很广泛的，在采集时，掌握一定的标准，可令方向更加明确，采集到的内容更有效、更可信，从而提高评价信息的质量。评价信息收集的标准主要有准确性、可靠性和时限性三个。

(一)准确性

评价信息的准确性是指采集到的资料与评价目标的一致性，是指采集到的评价资料是评价目标真正需要的资料。评价资料与评价目标越一致，说明评价信息的准确性越高，采集到的评价资料越有效。提高评价信息的准确性，要注意几点要求：

(1)在收集资料前，要熟悉评价指标体系的结构，记住各项指标，并透彻地理解指标的内涵。如果评价指标体系较庞大，全部记住指标很困难，则可按一级指标分类收集评价信息，从而可减少记忆指标的困难，也便于准确地采集评价资料。

(2)按评价指标体系的项目去设计问卷和调查表的题目，调查提纲、访谈提纲、测试题目、观察提纲、搜集文献的提纲，令指标体系的项目与收集资料的各种纲目相一致。要严格按设计的各种纲目去收集资料。

(3)注意评价资料的全面性、完整性和充分性。就整体而言，评价指标体系中的各项指标都应有资料去说明，不应有遗漏，既要抓重点指标的资料收集，也要照顾到一般指标的资料收集，要善于从各方面、多层次去考虑问题，令收集到的该项资料尽可能完整无缺，并尽可能充分地说明该项指标。

(二)可靠性

评价信息的可靠性是指收集到的资料真实可靠，用以说明评价指标的资料是信得过的资料，这些资料所反映的情况完全符合客观实际。提高评价信息的可靠性应做到：

(1)采集评价信息的方法手段要多样性，以便于令搜集到的信息能互相验证。例如，访谈法得到的信息往往能与问卷法得到的信息相互验证，查阅文献资料得到的信息，往往能与测验法或座谈法得到的信息相互印证。当然，各种方法手段采集到的各种资料之间不一定可以完全得到验证，大多数情况是部分验证或个别验证。

(2)注意改进收集资料的工具，并讲究收集资料的技巧。在许多情况下，由于收集资料工具的不科学，而造成收集到的评价信息失真。如由于问卷设计不科学，而造成随意填答或假答现象的产生；由于测试题目设计水平低，造成答题者猜答、乱答等现象的发生，从而影响评价信息的信度。有时，资料收集者观察的片面性，查阅文献资料的方法不当，座谈引导的方式不对头、访谈问题欠艺术，施测的导语欠佳，也会导致收集到的评价信息不可靠。

(3)信息整理时要注意去伪存真。无论采用什么方法，采集到的评价信息都难免存在着虚假成分。因此，要将最后收集到的评价信息进行认真的审核，常用分析法判断和比较鉴别的方法去剔除谬误。如果发现收集到的各种资料之间互相矛盾，收集到的文字资料与观察到、了解到的实际情况不符，或者发现收集的资料所反映的情况和数据违反日常生活准则和一般事理，那么，就表明收集的资料缺乏可靠性。于是就要进行剔除谬误的工作。

(三)时限性

评价信息的时限性是指严格按评价工作所规定的时限去采集评价信息。如果在某些单位或个人所采集到的评价信息是此一时限，而在另一些单位和个人所采集到的评价信息则是彼一时限，这就没有什么可比性了。就一个单位或个人而言，不按规定的时限去采集评价信息，也会影响评价结果的确切性，不能达到评价的目的。总之，不按照规定的时限去收集资料，所收集到的资料是不符合评价工作要求的无效资料。

收集资料的时限一般分起时和止时。时间精确到日。在起止时限内收集到的评价资料均为有效资料。资料有静态资料和动态资料两种。这里说的静态资料是指在规定的时限内不会变动的资料。动态资料是指在任何时候都有可能变动的资料。静态资料的采集可选用评价时限内任何一个时日。而动态资料的采集则应选择较接近终止时日为好。因为这样可以更好地反映被评者的现状。

二、评价信息的收集方法收集评价信息的方法多种多样，要根据指标内涵的性质和要求去选用收集资料的方法。例如，静态资料的收集常以查阅文献法为主，兼用其他方法，而动态资料的收集常以观察法、测量法为主，辅以其他方法。定性资料的采集，常以访谈法、观察法、座谈法为主，兼以其他方法，而定量资料的采集，常以测量法、问卷法为主，辅以其他方法。但许多方法是既可以采集静态资料，又可以采集动态资料，或既可以采集定性资料又可以采集定量资料的。较常用的采集评价信息的方法有观察、听汇报、调查访问、座谈会、收集文字资料、发问卷、测试等七种。

(一)观察法

观察法是根据评价指标的要求，在自然状态下，通过参观去获取评价信息的一种方法。观察具有目的性、直接性、情感性、可重复性等特征。其优点是简便易行，获得的资料可靠。中外许多学者都喜欢用观察法去搜集资料，如费孝通的《禄村农田》、《江村经济》，李景汉的《定县调查》等书的写作都是正确地运用观察法收集资料的先例。我国著名教育家陈鹤琴曾以长达三年的时间，用跟踪观察的方法去收集自己孩子成长的资料。瑞士的皮亚杰在探索认识发生发展的研究中，采用“临床”观察法去收集资料。他们注重运用观察法去搜集资料，值得我们学习。

1．观察的途径

(1)实地参观考察。如开展办学评价时，务必亲自到现场参观校舍、学生活动场地、设备、校内外环境等，还要巡视校园管理、课外活动。

(2)听课。听课的目的是收集教师课堂教学的资料，了解学生上课的活动情况等。通过听课，也可以在一定程度上了解到教师的备课情况。

(3)参与有关活动。如参加学校的各种集体活动，“身临其境”，考察师生在活动中的表现，了解校风、学风的情况。

2．观察记录的方法

(1)连续行为记录法。这种记录方法也称为现象描述法，是对评价的有关现象或行为，从开始到结束都作全面的观察和记录，把认为重要的现象和表现进行具体的描述，认为不重要的则可忽略。日记法和个案跟踪观察记录法均属这种观察记录法。

(2)时间取样记录法。这种记录法是以时间为样本的记录方法，它在预定的一段时间内，对特殊而明确的现象或行为进行观察和记录。如，每天安排l小时观察并即时记录，每周观察一天并即时记录；或相隔3小时就观察10分钟并即时记录。

(3)事件取样记录法。这种记录法的对象是某一事件或某一具体的活动，从活动开始到结束作全面观察和记录，不受时间限制。如，对学生某项课外活动作观察记录，对学校进行的某一重大事件进行观察记录。这种观察记录是对事先就有目的有计划安排的“事件”观察记录，而不是事件发生过后才去调查了解作

事后记录。

3．观察的辅助工具

(1)记录装置。

a．画面记录：如拍片或录相。

b．音响记录：如，录音。

(2)记录表格。记录表格可根据观察的目的来设计，以简明实用为宜。在记录表格上作记录一般有四种形式： a．等级式。在观察记录表的等级中选定一个等级，写上“√”。

b．是非式。在表格相应的项目中，写上“√”或“×”，以此表明观察者的判断。

c．次数式。可在表格相应的项目中，记录观察到的某种行为出现的次数。如某种行为若出现6次，可记录为“正一”。

d．文字式。在表格中用文字表述观察到的情况。

(二)听汇报

听汇报的目的是通过听取被评者的工作汇报和情况反映来收集评价信息。这种方法简便易行，可以在较短的时间内获得较多的信息。

运用这种方法收集信息应注意几个问题：

(1)在听汇报前，应将听汇报的目的、内容和要求通知汇报者，并要求做好汇报内容的充分准备，以免汇报时想到什么说什么。

(2)汇报时，要营造融洽的谈话气氛，令汇报者畅所欲言，言无不尽。

(3)善于引导。有的人，喜欢报喜不报忧，并在报喜材料中浮夸，若发现这种情况，要及时加以引导，令其客观地汇报情况。

(4)做好笔记。尽可能将汇报的主要内容记录下来，运用录像设备配合更好。

(三)调查访问

调查访问是指以调查的方式出去访问有关人员或找有关人员谈话，了解情况，从而收集评价信息。调查访问包括校内调查访问和校外调查访问两类型。调查访问可了解到真实情况，获得较深入和具体的资料。

运用这种方法的要求是：

(1)要制订好访问计划和提纲，并按计划和提纲去开展调查访问工作。

(2)选择好访谈的对象、场所和时间。访谈对象应是与调查内容有关并熟悉情况的人；访谈的场所应安静舒适，不受周围环境的干扰和影响；访谈的时间要适当，应在被访问者精神状态最好的时间内访问，并且时间安排要足够。

(3)围绕着调查提纲去问话。所有话题均与调查目的有关。必要时可围绕提纲追问。

(4)注意访谈态度。要亲切、自然、冷静，令被访者消除顾虑，不会产生不安的感觉。

(5)做好记录工作。

(四)座谈会

座谈会是约请少数有关人员聚集在一起交谈，从而获取评价的信息。这种方法可以集思广益，获得较全面的评价信息。

1．座谈会的种类

(1)学生座谈会。

(2)教师座谈会。

(3)领导和管理人员座谈会。

(4)师生座谈会。

(5)领导、管理人员和教师座谈会。

(6)上述人员不同组合的座谈会，如学生干部、班主任座谈会等。

(7)校外有关人员座谈会(包括学生家长座谈会)。

2．召开座谈会的基本要求

(1)根据评价内容的要求和实际情况去选择座谈会的种类。一次评价活动，座谈会可选用几种，每种座谈会也不限于只召开一次。应注意座谈会人员的代表性。 (2)做好准备工作。包括事先准备好会议的调查提纲、议程；安排好开会的时间、地点；确定参加会议人员并将座谈会的内容、时间、地点、参加者、会议要求等事项通知他们。

(3)座谈会上，以自由发言的形式为宜，但主持人要善于围绕评价内容引导讨论。

(4)指定专人做记录工作。

(五)收集文字资料

这是非常重要的收集评价信息的方法。这里说的文字材料，包括两部分：一部分是由被评价者提供的评价材料；另一部分则是由有关方面提供的与被评者有关的评价材料。大体可分为如下七类：

(1)计划类资料。如各种工作计划，各种学习和进修计划等。

(2)制度类资料。如各种规章制度、教学规范文件、德育工作文件、各种奖惩条例、各种会议记录等。

(3)业务工作类资料。如工作日记、大事记、听课记录、教案、课程计划表、学生成绩登记表、业务档案、班主任工作手册、运动会记录、体育达标记录、卫生保健资料、学生的作业和各种奖惩类资料。如师生获得的荣誉手册，各种奖状等。

(4)奖惩类资料。如师生好人好事荣誉手册，各种奖状、奖旗、纪念物，各级获奖证书，惩治记录等。

(5)总结类资料。如各种工作总结、专题总结、自评报告、自查报告、书面汇报、经验交流材料等。

(6)外来资料。如家长来信，群众的表扬信、揭发问题信，报刊有关被评者的报道，外单位对被评者的评价意见以及其他方面提供的关于被评者的评价材料。

(7)基本情况的统计报表。如，各类人数比例统计，教学工作统计，成绩、成果及获奖统计，体育卫生达标统计，升学就业统计，校舍设备场地达标统计，财务收支统计等。

查阅和收集文字材料要尽量齐全，并注意去伪存真；还要针对评价指标进行分类整理，令各类材料与相应的评价指标对口。

(六)发问卷

问卷是收集评价信息的问题表格。它的形式主要有是否式、类别式、条件式、排序式、线段式、表格式、问答式等。它可有效地收集到基本情况资料、行为资料和态度意见资料。

问卷设计时，一般应先确定要调查的评价指标，然后，将每一项指标，由陈述句形式改写或演绎成问卷题目(一项指标可设计一个问卷题目，也可以设计出几个问卷题目)，这样才能提高问卷的效度。在撰写问卷题目时，还要注意行文技巧，这样才能令问卷题目收集到的资料是真实可靠的，从而提高问卷的信度。

发问卷时，既可以将一份问卷只发给一种对象填答，也可以将相同的问卷发给几种对象填答。

(七)测试

测试是通过书面测验和考核、实践操作、口头询问、活动考验等形式去收集评价信息的方法，它包括各种各样的测验和考试。本书测量部分已详尽地阐述了测试的原理和方法问题，此不赘述。

总观上述七个评价信息的收集方法，大体上可归为两大类：一是调查法，包括观察、听汇报、访问、座谈会、收集文字资料、发问卷等六个方法。运用调查法，可取得大量的文字描述性资料，获得直接的认知，因而更有利于定性分析。二是测量法，即测试法。测量是评价的基础，通过测量，为教育评价提供大量信息，主要提供数据资料，因而更有利于定量分析。当然，这两类方法均可获得文字资料和数据资料。在收集教育评价信息时，应将上述七个方法结合起来运用。

第三节处理教育评价信息的方法

一、教育评价信息的定性分析描述法

定性分析描述法有等级判定法、评语鉴定法和写实分析法三种。

(一)等级评定法

目前，等级评定法主要有以下几种形式：①五等级法：优秀、良好、中等、及格、不及格；②四等级法：高级、一级、二级、三级。③三等级法：上、中、下。④二等级法：合格、不合格。评等法常用于学生评价、教师评价、学校整体水平的评价或办学质量的评价。学生评价的实施过程是：①制订评分等级及其评定标准；②学生根据评定标准进行自我评估，自报等级，然后由学生民主评议；③班主任和教师最后评定学生的等级。我国许多中小学采用此法来评定学生等级，包括操行等级、能力等级等。我国对中小学教师的职称评定，采用等级评定法，有“高级教师”、“一级教师”、“二级教师”、“三级教师”等称号。广东省

教育厅对中小学的评价也采用等级评定法，有“一级学校”二级学校”、“三级学校”等称号。这种方法简便易行，但不够精确。同一等级者很多，他们之间的差距仍很大，但无法加以区别。

(二)评语鉴定法

就是用简明的评语来表述评价结果的方法。对学生的作文、技能，对教师的教态、教学语言等方面的评价，常使用评语法。对教师业务职称的评定、对干部业务考核，也常用评语法。评语法的做法多种多样，譬如，对一所学校办学水平的评定，常以评语作鉴定。有专家组评语法(即由校外的有经验的专家组成一个小组进行评价)，有社会各方面评语法(即由教育系统以外的人员对学校进行评价)，还有领导小组评语法(即由上级领导组成的领导小组进行评价)。如果是对一个学生的思想品德的评定，则要求在学期结束或学生升学、升级、毕业或就业时，以班主任为主，依据一定的评价指标，对学生在这一时期的思想品德和行为以文字的形式进行简短的述评。对中小学生的操行评定，一般有班主任单方面评语法，以及教师、学生、家长共同评定的评语法。（对个体认识的过程积累）

这种方法的优点是：简便易行，结论使人一目了然，而且能对教育中的许多模糊现象进行描述和鉴定，解决了一些定量评价所不能解决的问题。缺点是：由于这种方法只注意定性描述而不重视定量分析，因而不够精确，对评价对象不能逐一排出优劣次序，有时也难以作具体的比较分析。作评语时，容易掺杂个人偏见或主观因素，难以做到客观、准确。信度和效度较低。

(三)写实分析法

写实分析法是根据一定的评价目标和要求，对评价对象的情况进行较为详细的描述，并在此基础上作出恰当的评价。做法是：

(1)搜集事实材料。内容包括：有关评价对象一般情况的事实材料；有关评价对象典型事例的事实材料；学校领导、班主任、各科教师、团队辅导、学生家长、社会群体等对评价对象的评价的事实材料；评价者亲自考察得来的事实材料，如现场观察学生活动的表现，与教师谈话了解情况，听取学校领导的情况汇报等。要十分重视第一手材料的收集，重视现实表现的材料。此外，有关评价对象的现实文献资料和历史档案资料也应给予注意。

(2)对搜集到的资料进行整理和描述。整理包括核实、分类和汇编等工作。描述多采取“写实”手法，一般先概括地描述一般情况，然后描述典型事例。

(3)分析评价。即对所描述的事实材料作总体上的分析评价。分析评价要中肯，简明扼要。运用此法要注意的问题是：搜集的资料要真实可靠，整理和描述事实材料要有系统性，分析评价要抓住主要问题或本质问题。这种方法与评语法主要区别在于，评语法主要是“评”，书面上很少反映事实依据。虽然，正确的评语对于评价对象和评价者都是可以理解和接受的，但写给别人看往往有欠缺事实依据之嫌。写实法最大的特点是能比较详细地描绘客观事实，其评价、结论是以所描绘的事实为依据的，能以充分的依据呈现在读者面前，信度高。缺点是要全面地收集资料十分困难，做起来花时间多，尤其是在样本数目很大的情况下，此法就更难实施。

二、教育评价信息的定量分析评判法

教育评价信息的定量分析评判法可分为统计分析评判法和模糊综合评判法两种。

(一)统计分析评判法

教育评价中应用较多的统计分析是平均数、标准差、标准分数、T分数、参数估计和统计检验。

1．平均数

平均数，又称均数或均值。英文为Mean，故以M表示。如果M是由变量x计算得来的就记为x（读x 杠)，M是由变量y计算得来的就记为y，现在一般都以x表示样本的平均数。算术平均数是由各个变量相加求和再除以变量的总次数。其计算公式是：

x=x1x2x3xN

Nix简写为：x=N

上式中x为平均数；x1,x2,x3,…,xN代表各个变量的观察值；N为观察的数；∑为希腊字母，读Sigma，是求和的意思。

在教育评价中，平均数有着广泛的用途：①利用平均数可以对各个样本或总体进行比较。如，可以利用各班学生的某科成绩的平均数进行比较与分析。②利用平均数来描述和代表评价对象的一般水平。如要了解一个班的学生某科成绩，我们可把分数的总和除以学生人数，得出平均数，这样就能明白地反映这个班级某科成绩的一般水平。③利用平均数可以分析教育现象之间的依存关系。如根据全班学生某科平均成绩的高低，可以看出学生的某科成绩与该科教师的教学水平有密切关系。④利用平均数可以研究样本或总体的一般水平在时间上的变化。如比较某个年级学生在不同时期某科平均成绩的提高，可以看出该年级学生某科成绩的不断提高过程。

2．加权平均数

在教育评价中，有时要将各方面的测量结果合并求平均数，但由于各方面的评价结果，其重要程度是不同的，若将它们等量齐观，像求算术平均数那样计算，显然不合理。正确的方法是：考虑来自各方面测量结果的重要程度，给予他们一定的权数，然后代人如下公式计算：

x式中，xWWx=Wiii

W为加权平均数；Wi为权数；∑Wixi为加权总分。

例如，某生语文的平时成绩为80分，期末考试成绩是90分，学校规定平时成绩占40%，期末考试成绩占60％，那么，该生的总评成绩府该是

800.4900.6xW=86（分）

0.40.6 3.标准差

标准差是各观察值与其算术平均数之差数之平方和的平均数的平方根。常以s表示。计算公式是：

s =

(xx)N2

式中，s为标准差；N为人数；x为各观察值，x为各观察值的平均数。

4．标准分数(见本书第六章)

5．T分数(见本书第六章)

上述常用的几种统计分析评判法属于描述统计法，此外，还有推断统计中的参数估计和统计检验，也常用于教育评价的定量分析。限于篇幅，这里不作介绍。读者可参阅《教育统计学》书籍的有关章节。

(二)模糊综合评判法

模糊综合评判是将模糊数学应用于教育评价，以解决在多因素前提下对模糊数据进行的综合的问题。模糊综合评判法的基本步骤是：

1．确定评判的因素集U

评判的因素集可根据评价指标体系的末级指标的性质特征和需要来确定，如末级指标是“课堂教学质量”，那么，可将“课堂教学质量”分解为“教学组织、教学内容、教学方法、教学手段、教学效果”等五个因素。这五个因素就构成一个评判课堂教学质量的因素集U。

2．确定因素权数

当因素集确定后，就要给每个因素分派一个权数。权数的分派法可采用经验法、德尔菲法、讨论法、运算法，等等。如上面提到的课堂教学质量评价，可将五个因素的权数分派为0．2．0．3，0．2，0．1，0．2。

3．确定评价等级

评价等级的划分应充分考虑指标的性质特点，如上面提到的课堂教学质量的评价等级的划分，不宜过细，一般以四等或五等为适中，但在教育评价实践中，我们发现，若分为五等级，则容易出现选项集中到中间等的现象，因此，定四等级为宜。这四等级是：很好、较好、一般、较差。

4．建立因素集的模糊矩阵

在线性代数中，矩阵就是如下形式的数表：

a11a

21am1a12a22am2a1na2n

amn其中，a11,a12,…,a1n;a21,a22,…,a2n;…,am1,am2,…,amn为矩阵的行。a11,a21,…,am1;a12,a22,…,am2;a1n,a2n,…,amn为矩阵的列。这个矩阵叫阶矩阵。m×n阶矩阵。在模糊数学中，把矩阵的每一行叫做一个模糊子集，而每一行表示一个评价因素的每个等级的隶属度。将各个模糊子集组合起来，从而构成模糊矩阵。

在教育评价中，有的现象的外延是模糊的，不清晰的，如“教学组织好”就不是“非此即彼”的现象，而是一个模糊的概念。模糊的现象只能用不精确的方法来加以描述。隶属度就是模糊数学中用来度量事物对集合的隶属程度，它可以把模糊的教育现象数量化。

5．选择评判模型

模糊数学中最常用的评判模型有如下几个。

①M（∧，∨） bj=(airij)

i1nn②M（·，∨） bj=(ai·rij)

i1n③M（∧，⊕） bj=(airij)

i1n④M（·，⊕） bj=(ai·rij)

i1其中，“bj”为每一个指标的综合评判值；“∨”为取大运算符号；“∧”为取小运算符号；(∨，∧)为扎德算符，如：5 ∨3=5，6∧4=4；“·”为相乘运算符号；“⊕”为相加运算符号；“∑⊕”为有界和。

要根据实际上对评价的要求去选用上述模型。我国目前最常用的是模型④M(·，⊕)。

6．计算综合评判值

现以例题来说明综合评判值的运算过程。

例1．50位评价者对某位教师的课堂教学质量进行综合评分。方法如下：

设：因素集U=[教学组织、教学内容、教学方法、教学手段、教学效果]，教学组织、教学内容、教学方法、教学手段、教学效果等五个因素的权数分配为0．2，0．3，0．2，0．1，0．2。

对每个因素的评价分为四个等级，构成V：

V=[很好、较好、一般、不好]

据此，编制出教育评价问卷表，如表5．1。

假定50位评价者的评价，看法未必一致。设对这位教师的“教学组织”这一因素的评价，选“很好”等级者有20人，占40％，选“较好”等级者有25人，占50％，选“一般”等级者有5人，占10％，没有人选“不好”等级。于是，可得到一个数列：0．4，0．5，0．1，0。类似地，假定：

对“教学内容”这个因素的评价，得到的数列是：0．6，0．3，0．1，0。

对“教学方法”这个因素的评价，得到的数列是：0．1，0．2，0．6，0．1。

对“教学手段”这个因素的评价，得到的数列是：0．1，0．2，0．5，0．2。

对“教学效果”这个因素的评价，得到的数列是：0．3，O．3，0．2，0．2。

这样，可得到一个矩阵R：

0.40.50.100.60.30.100.10.20.60.1

0.10.20.50.20.30.30.20.2表5．1 课堂教学质量问卷等级表

因素很好较好一般不好

教学组织

教学内容

教学方法

教学手段

教学效果

在权集设计里，已经对上面五个因素分别赋予了权数，得到的权重向量为：

W =(0.2,0.3,0.2,0.1,0.2)

假如选用模型

M（∧，∨）: bj=(airij)

i1n则可按下列方法作出模糊综合评判：

0.40.6B=WR=(0,2,0.3，0.2，0.1，0.2)0.10.10.30.50.10.30.10.20.60.20.50.30.2000.1

0.20.2上式中，符号“”表示对W和R合成；扎德算符（∧,∨）表示“最小——最大”，即两两先取小，然后在所得结果中保留最大的一个。

上述综合评判结果B共有四个因素，分别为： b1=(0．2∧0．4) ∨(0．3∧0．6) ∨(0．2∧0．1) ∨(0．1∧0．1)

∨(0．2^0．3)=0．2∨0．3∨0．1 ∨0．1∨ 0．2=0．3

b2=(0．2∧0．5) ∨(0．3∧0．3) ∨(0．2∧0．2) ∨(0．1∧0．2)

V(0．2∧0．3)=0．2∨0．3∨0．2∨0．1∨0．2=0．3

b3=(0．2∧0．1) ∨(0．3∧0．1) ∨(0．2∧0．6)( ∨0．1∧0．5)

∨(0．2∧0．2)=0．1∨0．1∨0．2∨0．1∨0．2=0．2

b4=(0．20∧) ∨(0．3∧0) ∨(0．2∧0．1) ∨(0．1∧0．2) ∨

(0．2∧0．2)=0∨O∨0．1∨0．1V0．2=0．2

故B表示为：

B=WR=(0．3，0．3，0．2，0．2)

这一结果表示：50位评价者对某教师课堂教学质量的综合评判是：30％的评价者认为“很好”，30％的评价者认为“较好”，20％的评价者认为“一般”，20％的评价者认为“不好”。如果按“最大隶属原则”，既可以评判为“很好”，又可以评判为“较好”，无法得出肯定的评判结论。这种现象称为扎德算符(∧，∨)的“二义性失效”。此外，采用模型①M（∧，∨），有时还可能出现在综合评判结果中，全部隶属度相同的现象，造成扎德算符（∧，∨）的“全同失效”。

模型④M(·，⊕)的运算过程在步骤上与模型①M（∧，∨）基本相同，不同之处是，其在模糊矩阵的合成时，以“·”取代“∧”；以“+”取代“∨”。

例2.根据例1的假定数据，改用模型④M(·，⊕)，计算课堂教学质量的综合评判值。

模型④M(·，0)：bj=(ai·rij)

i1n0.40.6B=WR=(0.2,0.3,0.2,0.1,0.2)0.10.10.30.50.10.30.10.20.60.20.50.30.2000.1

0.20.2b1=0.20.4+0.30.6+0.20.1+0.10.1+0.20.3=0.35

同理可得：b2=0.31,b3=0.26,b4=0.08

故b可表示为

B=WR=(0．35，0．31，0．26，0．08)

这一结果表明：50位评价者对某教师课堂教学质量的综合评判是：35％的评价者认为“很好”，31％的评价者认为“较好”，26％的评价者认为“一般”，8％的评价者认为“不好”。根据“最大隶属原则”，50位评价者对教师课堂教学质量的评价的综合评判结论为“很好”

三、教育评价结果的合成方法评价结果的合成可分为三种情况：

(一)单纯普通数据的合成方法

这里说的“普通数据”是相对于模糊数据而言，多属“硬指标”。如，某项指标得70分，某人达到某项指标的程度为0．9。这些就被称为普通数据。普通数据是教育评价指标体系普遍存在的一种类型数据。对于这类型数据的合成方法是：用“加权平均法”，逐级向上施行同一算法，直到所有的普通数据在一级指标上归并为一个合成的分值为止。例见第四章第二节中“教育评价方案编制示例”说明部分第四个问题第2小点。

(二)单纯模糊数据的合成方法

模糊数据多属“软指标”。末级软指标常用模糊综合评判结果，从而得出模糊数据。但如何将各个模糊数据合成和汇总呢?下面阐述两种方法供参考。

1．多级模糊综合评判法

模糊数据的合成问题可用多级模糊综合评判法去解决。现以两级教育评价指标体系模糊数据的合成为例加以说明，步骤是：

(1)对末级(即二级)指标进行第一次综合评判(即，将对末级指标评判所形成的模糊矩阵与末级指标自身权重向量合成)，获得二级指标对一级指标形成的第一次综合评判结果；

(2)将二级指标对一级指标所形成的若干综合评判结果(即第一次综合评判结果)组成一个新的模糊矩阵；

(3)将新组成的模糊矩阵与一级指标自身权重向量合成，形成第二次模糊综合评判，并计算综合评判结果(这是第二次综合评判结果)。

如果评价指标体系的指标有三级以上，可用此方法逐级合成，由末级指标开始，直到合成到一级指标为止。

2．二维加权综合合成法

二维加权是指纵向加权和横向加权。纵向加权是指不同信息源间的加权，横向加权是指对同一级各因素间的加权。二维加权综合合成的做法是：

首先，纵向加权综合。

现以对“课堂教学状态B22”的评价为例说明纵向加权合成法(此例中，A、B、C分别代表一级指标、二级指标和三级指标，W为指标权数，R为模糊矩阵。英文字母下标的数据为序号)：

B22的末级指标教学组织C221，教学方法C222，教学素质C223。某校组织了三个评价组对某教师上课进行单项评定，这三个评价信息源的纵向权集如表5.2。

表 5.2 教师课堂教学评价纵向权集

组别

W221 W222

（教学方法）

0.4

0.2

W223

（教学素质）

0.2

0.4

（教学组织）

学生组（S） 0.3

同行教师组（T） 0.4

领导组（L） 0.3

三个组别对某组教师课堂教学状态作单项评定后，得表5.3

表5.3 对某组教师课堂教学状态的评定结果

指标组别优良中差

教学组织学生组(S) 0.6 0.4 0 0

同行教师组(T) 0.5 0.4 0.1 0

C221

领导组(L) 0.4 0.3 0.2 0.1

教学方法学生组(S) 0.5 0.3 0.2 0

同行教师组(T) 0.6 0.4 0 0

C

222领导组(L) 0.4 0.3 0.2 0.1

教学素质学生组(S) 0.3 0.2 0.3 0.2

同行教师组(T) 0.5 0.4 0.1 0

C223

领导组(L) 0.6 0.4 0 0

三个评价组对“教学组织”这个指标的综合评判是：

00.60.40B221=W221R221=(0.3,0.4,0.3)0.50.40.10

0.40.30.20.1 =(0.5,0.37,0.1,0.03)

三个评价组对“教学方法”这一指标的综合评判是：

B222=W222R222=(0.52，0.34，0.12，0.02)

三个评价组对“教学素质”这一指标的综合评判是：

B223=W223R223=(0.5，0.36，0.1，0.04)

B221,B222,B223这三组数据归一化后，组成模糊矩阵：

0.500.370.100.03 R22=0.520.340.120.02

0.500.360.100.04 然后，横向加权综合。

将纵向加权综合形成的新的模糊矩阵R22与C级指标自身权重向量合成，进行横向加权综合，即进行多级模糊综合评判。

(三)混合数据的合成方法

混合数据是指一个指标按逻辑隶属关系分解出若干个下一级指标，在这些下一级指标中既有模糊数据，也有普通数据，这两种不同质的数据混合在一起。

这种混合数据，若按逻辑隶属关系向上一级指标汇总时，必须进行同质化处理。同质化处理可用转换的方法。

1．普通数据转换成模糊数据的方法这种方法是把普通数据的测量分值转换成为模糊矩阵中的一个元素的方法。根据集合论的原理，对于普通子集，论域中的每一元素对子集的隶属程度或者为1(属于子集)，或者为0(不属于子集)；而模糊子集的隶属函数若只取0、1两个数时，就转化为普通集和的特征函数。换言之，普通集合是模糊集合的特殊形态。这就是把普通数据通过特征函数转化为隶属函数。

设某末级指标测量分值为，划分区间的尺度为：

当S∈(0.8, 1)时，对“很好”的隶属度为1。

当S∈(0.6,0.8)时，对“较好”的隶属度为1。

当S∈(0.4,0.6)时，对“一般”的隶属度为1。

当S∈(0 ,0.4)时，对“不好”的隶属度为1。

上述尺度除规定的隶属度为1的等级外，对其余等级的隶属度均为0。现假设某末级指标测量分数为72分，转化为小数是0.72。按上述划分区间的尺度，可转换成：B = (0, 1, 0, 0)

2.模糊数据转换为普通数据的方法

这种方法是把模糊隶属度转化为分值。例如，设某末级指标的单因素评价结论为：B = (0.4 , 0.3 , 0.3 , 0 )

设“很好”是100分，“较好”是80分，“一般”是60分，“不好”是40分。得矩阵R。

10080R =



6040设模糊数据转换成普通数据，分值为S，则