考研论坛

 
查看: 10578|回复: 33
打印 上一主题 下一主题

[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

[复制链接]

4

主题

50

帖子

1073

积分

中级战友

Rank: 3Rank: 3

精华
4
威望
1061
K币
12 元
注册时间
2001-9-23
跳转到指定楼层
楼主
发表于 2004-4-14 22:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
第一章  心理测量的历史
要了解当代心理学的各个领域不可不了解心理测验,因为测验是在当代心理学的各个领域从事理论研究和实际
应用的重要手段。要研究心理测验,不可不考察它的发生发展的历史。
第一节  心理测量在我国有着悠久的历史
测验的历史根源虽然无从考究,但中国人最早使用测验,也最重视测验,这一点是举世公认的。
一、我国古代的心理测验
早在2500多年前,我国古代教育家孔子就曾根据自己的观察评定学生的个别差异,把人分为中人、中人以上和中人以下,这实际上相当于测量学中的命名量表和次序量表。所谓“中人以上可以语上也,中人以下不可以语上也”,就是说智力比普通人高的可以给他高等教育,智力比普遍人低的不能给他高等教育。比孔子稍晚的孟子也说过:“权,然后知轻重;度,然后知短长。物皆然,心为甚”这就明确指出了心理现象进行测量的必要和可能。   
三国时刘劭著的《人物志》一书,提出了心理观察的一条基本原理,即“观其感变,以审常度。”意思是霉根据一个人的行为变化便可推测他的一般心理特点。并提出通过词,以回答法(“应赞”)为手段来观察人的智力。这是一部论述能力问题的古代专著。1937年美国人把它译成英文,书名为《人类能力的研究》。
6世纪初,南朝人刘勰在《新论•专学篇》甲提到,“使左手画方,右手画圆,无一时俱成”,“由心不两用则手不并运也”。这是世界上最早的心理测验,比西方分心测验的出现要早1300多年。
世界上最早的婴儿发展测验也出自中国民间,自6世纪中叶以来,“周岁试儿”在我国江南就已经成为风俗。《颜氏家训》作者颜之推在《风操篇》中对此做了详细记载:“江南风俗,儿生一期(一周岁),为制新衣,盥浴装饰。男则用弓矢纸笔,女则刀尺针缕,并加饮食之物及珍宝服玩,置之儿前,观其发意所取以验贪廉、智愚,名之为试儿。”美国的盖塞尔(A•Gese11)到本世纪20年代才用类似方法在实验室条件下记录幼儿的动作和顺应行为等方面的发展。颜之推还根据心理与行为的密切关系强调客观了解心理的可能,在《名实篇》中写道,“人之虚实真假在于心,无不见乎迹。”
自从隋炀帝创行开科取仕,科举制度在我国通行了1300多。年。目前西方言语测验中常见的填字和类比,相当于我国科举考试中的贴经和对偶,早在7世纪的唐代就有了。欧美各国通过考试选拔官吏的方法是18世纪末、19世纪初从我国学去的。
    清朝后期出现的益智图(通称七巧板),形状大小不同的七块小板能够组成近百种的生物和实物图样,这可以看作是创造力测验的最早方案之一。七巧板的操作属于典型的发散式思维活动,操作的成果是形象转化(见图1—1),值得高度重视。我国民间流行的九连环,其设计之巧妙,也可以和现代的魔方、魔棍相媲美《见图1—2》。西方直到1914年才有五巧板。后来刘湛恩先生用英文写了《中国人用的非文字智力测验》一书,把七巧板、九连环介绍到国外,武德沃斯(Woodworth)对九连环极为赞赏,把它称作“中阻式的述津”。最近,五巧板、七巧板已经发展成为纸笔测验,可应用于团体,测试方便,计分准确,已达到标准化程度。








二、民主革命时期测验运动的发展
清朝末年,心理学由西方传人我国。1914年有人在广东测验了500名儿童的记忆和比喻理解。1920年,北京高等师范学校和南京高等师范学校建立了我国最早的两所心理实验室。廖世承和陈鹤琴在南京高师开设测验课,并用心理测验试测投考该校的学生。这便是我国正式开始的科学心理测验。1921年他俩正式出版《智力测验法》一书。1922年,比奈量表由费培杰译成中文,并在江、浙二省的一些小学生中进行过测验。同年美国测验专家麦柯尔(W•A•Mocall)博士应中华教育改进社聘请来华讲学,在他的指导下,北京师范大学、北京大学、燕京大学、北京女子高等师范、东南大学等校的教授和学生开始编制测验。据麦氏说:当时中国心理学家所编造的各种测验“至少都与美国的水平相等,有许多竟比美国的为优。”1923年,在教育改进社的主持下,进行了全国小学教育调查,调查地区包括22个城市和11个乡镇,测验了92000个儿童。这个大规模的调查,引起了当时教育界对测验的注意。1924年,陆志韦先生发表了《订正比奈西蒙智力测验说明书》,30年代又与吴天敏再次做了修订;1931年中国测验学会成立。1932年《测验》杂志创刊。根据不完全的资料统计,到抗日战争前夕,我国心理学工作者制订或改编出合乎标准的智力测验和人格测验约20种,教育测验50多种。如廖世承团体智力测验,陈鹤琴图形智力测验,刘湛恩非文字智力测验,以及肖孝嵘修订的墨跋量表和画人测验(原编制者美F•L.Goode-•nongh)、艾伟修订的宾特纳智慧测验等。在这一时期,测量工作者能比较正确地估计测验的效用和价值,并不满足于已有的方法和技术,因而力图改进和提高。但是抗日战争爆发后,绝大多数人不得不中断或推迟当时所进行的工作。解放前共出版心理的研究、王征葵的《态度溅量法》、沈有乾的《心理与测验》、王书林的《心理与教育测量》、陈选善的《教育测验》、艾伟的《小学儿童能力测验》、孙帮正的《心理与教育测验》等。
林传鼎先生指出:“民主革命时期我国心理学家在测验领域至少做了两方面有益的工作:一是为当时的语文教学改革提供科学根据。二是为探索我国青少年儿童心理特点积累一些客观材料。”
三、心理测验在科学的春天中复苏
解放后的近30年,由于多方面原因,心理测验一直成为禁区。粉碎“四人帮”后,心理测验才在科学的春天中复苏。1979年,林传鼎,张厚粲等参考国外材料编制了少年儿童学习能力测验.同年,中国心理学会在天津开会时,医学心理专业委员会成立了心理测验协作组,建议由湖南医学院龚耀先主持修订韦氏成人智力量表。1980年初,北京师大心理学系首次开设心理测量课。同年5月,中国心理学会实验心理学专业委员会在武汉召开了全国心理测验研究协作会议,决定由林传鼎,张厚粲主持修订韦氏儿童智力量表,吴天敏主持修订比奈量表。经过三年的努力,这些测验已基本修订完成。在这期间中国科学院心理研究所和北。京安定医院等单位协作修订了明尼苏达多相个性调查表,北京大学心理系陈仲庚先生等修订了艾森克人格问卷,北京师大心理系编制了镶嵌图形测验,还有其它许多单位也编制或修订了一些心理测验,如注意测验、记忆测验、气质测验、婴幼儿发展测验等,并在编制创造思维能力测验方面做了一些有益的尝试。随着心理测量教学和研究工作的开展,心理测验开始在实际部门应用,如飞行员的选拔,运动员的选材、精神病的诊断、儿童多动症以及超常与智力落后儿童的检查等都用到心理测验。1983年初,在昆明召开的普通心理,实验心理专业年会上,就测验问题进行了讨论。总结了近几年测验工作中的经验,找出了问题,明确了方向。1984年末,在北京召开的第五届全国心理学年会上,成立了—测验工作委员会,加强了对测验工作的指导。
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    沙发
     楼主| 发表于 2004-4-14 22:18 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第二章  心理测量的性质与功能
    第一节  心理测量的性质
    美国心理学家桑代克和教育测量学家麦柯尔在几十年前曾先后提出“凡客观存在的事物都有其数量”,“凡有数量的东西都可以测量”。对物理现象的测量由来已久,其可能性已为世人所公认。对心理现象测量的可能性,直到现在尚受到一些人的怀疑。
    随着科学的发展,技术的进步,人们不但对物体的长度,重量,温度以及时间,空间,运动等物理特性做出了越来越精确的测量,而且不断地尝试着对人的感知,记忆,思维、想象、注意、情绪以及能力,气质、性格等心理特性进行测量,并摸索出了一些方法,加深了对人类心理现象的了解,促进了心理学理论的发展。
    唯心主义者把人的心理归结为灵魂的活动。灵魂,自然是神秘不可测的。辩证唯物主义认为,心理是脑的机能,是客观现实的反映。人的心里既是主观的,又是客观的。其客观性不但表现在心理的产生具有客观的物质基础(外界刺激和脑的生理过程),还表现在心理要通过各种活动或行为表现出来。心理的客观性,存在性决定了心理的可知性、可测性。譬如我们平时说的“怕” 这种心理现象,虽不是物质实体,但也是—种客观存在,伴随有一系列生理变化,并能用仪器测量出来。从脉博,呼吸、心跳,血压,皮肤电及外显行为的改变,便可以推测其“怕”的程度。当然,由于心理现象本身十分复杂,目前的测量方法尚未完善,心理测量无论就其可靠性和准确性都远不如物理测量。但测得不—准不等于不能测,现在不能测不等于将来不能测。不承认心理现象的可测性,是唯心主义的不可知论。
    一、什么是测量
    (一)测量的定义   
    简单地说,测量就是根据一定的法则用数字对事物加以确定。
    所谓“一定的法则”,指的是在测量时所采用的规则或方法。例如,用秤测物体的重量,依据的是杠杆原理,用温度计测物体的温度,依据的是热胀冷缩规律,用尺子测物体的长度,是把尺子的零点对准物体的一端,看物体的另一端所对着的刻度,测量人的智力,是根据智力理论编制测验,看被试者在测验上的得分,如此等等。使用好的法则,可以得到准确的测量效果,使用坏的法则,则会得到不准确的测量效果。许多事物易于测量,因其使用的法则易于确立和遵守,心理现象难以测量,是因为我们很难设计清晰而良好的法则。随着人类认识的发展,测量法则不断完善,测量也就越来越真确。
    所谓“事物”,指的是我们所感兴趣的东西,说得更明确些,是引起我们兴趣的事物的属性或特征。测量就是确定这些属性或特征的差异。人与人的差别不只表现在有高有矮,有强有弱,有人跑得快、有人跳得高等身体外貌和体力特点上,也表现在较为抽象的心理能力和人格特点方面。例如有人活泼好动,有人沉静安详,有人勇敢豪放,有人谦逊细心,有人过目不忘,有人思维敏捷,有人精于数理工程,有人擅长文学艺术等等。所有这些特性都是心理测量的对象。
    所谓“数字”,是个比数值意义更广泛的概念,可以表示数量,也可以不表示数量。一般说来,用数字对事物加以确定,就是确定出一个事物或事物的某一属性的量。但有时也可把数字当作一种事物的符号,而不反映事物的量,如“1班、2班、3班……”等。通常人们说的测量,指的是前一种情况,  即根据特定的法则,采用一定的操作程序,给事物确定出一种数量化的价值。
    (二)测量的要素
    1.参照点
    要确定事物的量,必须有一个计算的起点,这个起点叫参照点。参照点不同,测量的结果便无法相互比较。参照点有两种:一种是绝对的零点,如测量轻重、长短,都以零点为参照点,即以“恰恰没有一点重量”、“恰恰没有一点长度”为计算的起点。另一种人定的参照点,如以海平面为测量陆地高度的起点,以冰点为测量温度的起点,这些都是人定的参照点。
    理想的参照点是绝对零点。心理测量中所用的参照点都是人定的,此种参照点有一个极大的限制,就是从该点起计算的数值不能以“倍数”的方式解释。如甲的智商为100,乙的智商为50,不能说甲的智力是乙的二倍,因为没有零智力。这个道理虽然简单,但往往为人们所忽略,因而常常对测验分数做出不恰当的解释。      
    测量长度以米、厘米等为单位,测量重量以公斤、克等为单位,测量时间以分、秒等为单位。没有单位,数量的多少、大小便无法表示。
    好的单位须符合两个条件,一为有确定意义,即同一单位在大家看来意义相同,不允许有不同的解释。二为有相等的价值,即第一单位与第二单位间的距离等于第二单位与第三单位间的距离。上述测量长度、重量与时间所的单位符合这两个条件,而心理和教育测量所用的单位则不等值。如智龄是年龄作为智力的单位,因为智力发展的速度先快后,4岁与5岁之间的差别,明显大于14岁与15岁之间的差别。
    (三)测量的量表        
    要测量某个事物,必须先有一个定有单位和参照点的连续体,将要测的每个事物放在这个连续体的适当位置上,看他们距参照点的远近,便会得到一个测量值.这种连续体就叫量表。
    由于制定量表的单位和参照点的种类不同,量表的种类也不同,根据测量的精确程度,其蒂文斯(S。S.Sfepens)将测量从低级到高级有分成四种水平,高级量表除包括低级量表的条件假设和功能外,还有本身的特点。
    1.命名量表
    这是测量水平最低的一种,只是用数字来代表事物或把事物归类。因为这里的数字没有数量化的关系,所以也有人认为它不能算是测量。这种量表又可分为两种,
    (1)代号——用数字来代表个别事物,如学生和运动员的编号等。
    (2)类别——用数字来代表具有某一属性的事物的全体,即把某些事物确定到不同性质的类别里,如用1代表男,用2代表女,或用不同数字代表不同职业等。
    在命名量表中,数字只用来作标记和分类,而不能作数量化分析,既不能说A>B>C,也不能做加,减,乘,除的运算。它所适用的统计有次数、众数、百分比、偶发事物相关(如四分相关,相关)以及x2考验等。
    2.二次序量表
    它比命名量表水平高,不但指明类别的大小或含有某种属性的多少,如学生的考试名次、工资级别、能力等级、对某事物时喜爱程度等等。这里的数字包含有数量关系,代表符号是“>”,  如A>B>C等,主要用于分等(当然也包含了分类)。
    在次序量表中,既无相等单位,又无绝对零点,数字仅表示等级。并不表示某种属性的真正量或绝对值。它所适用的统计有中位数,百分位数、斯皮尔蔓等级相关系数和肯德尔和谐系数等,但不能做加、减、乘、除运算。
    3.等距量表
    它比次序量表又进一步,不但有大小关系,而且一定数量的差异在整个量表的所有部分都是相等的,也就是具有相等的单位,其数值可相互做加、减运算,但没有绝对的零点,因此不能做乘除运算。典型例子是温度计,10℃与15℃的差别,同15℃与20℃的差别是一样的,我们可以说某物温度比另一物高多少,但不能说某物温度是另一物的多少倍,因为它的零点是人定的,0℃并不意味着没有温度。
    等距量表的数值加或减一个常数或用一个常数乘或除,不会破坏原来数据之间的关系,因此一个量表上的数值可以转换为另一个具有不同单位的量表上的数值,而且几个不同单位的测值可以转换到一个通用量表上以便于比较。如摄氏10度可以转换华氏50度。用此种量表获得的数值可计算平均数、标准差、积差相关、阶层相关,并作T和F检验。
    4.比率量表
    是最高水平的量表,既有相等单位又有绝对零点。此种量表在物理测量中容易见到,长度、重量、时间等都是。所得的数值可做加,减,乘、除运算。如体重:甲80公斤,乙40公斤,我们既可以说甲的体重比乙多40公斤,也可以说甲的体重是乙的2倍。
    比率量表所适用的统计除上述几种外,还可以计算几何均数及变异系数等。
    由于大多数心理特征难以找到有意义的零点,所以本书不讨论用比率量表进行的测量。   
    二、什么是心理测量   
    所谓心理测量,就是根据一定的法则用数字对人的行为加以确定。即依据一定的心理学理论,使用一定的操作程序,给人的行为确定出一种数量化的价值。
    本书中所讨论的心理数量,是以测验作为工具的测量,而不是用实验,观察等方法对心理现象的测量。
    (一)  测验的定义   
    “测验”一词虽为大家所熟悉,但要给测验下一个严格的定义却并不容易。目前,关于测验有许多定义,笔者较为赞成美国心理与教育测量学家布朗(F•G•Brown)的说法:测验是 “测量一个行为样本的系统程序”。通俗地说,心理测验就是通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析一种科学手段。
    首先,测验测量的是人的行为,严格地讲,只是测量了做测验的行为,也就是一个人对测验题目所进行的反应。在这个意义上可以说,测验即引起某种行为的工具。
    其次,一个测验不可能包含所要测量的行为领域的所有可能的题目,它所包含的只是全部可能题目的一个样本。当然,也有例外的情况;例如对幼儿施测一个10以内数字的加法测验,就可以包括两个一位数字加法的全部各种组合。但这种情况是极少的,由于测验只是测量一个行为样本,因此测验题目的取样必须有代表性,而且在用同一领域的另一个等值的样本时,应该得到同样的分数。   
    第三,在编制、施测、评分和解释方面依据一套系统的程序。这种按照严格的科学程序去编制和使用的测验称之为标准化测验。标准化有三点好处,一是可以减少无关因素测验目的的影响,使测量准确、客观。二是有统一标准,便于对不同人的测验成绩进行比较和交流。三是同一份测验可用于许多人并可反复使用,较为经济。
    我们平时说的考试也是用来测量人的某种行为,藉以判定个别差异的工具,它们与测验的主要差别在于没有标准化,或标准化程度较低。通常只凭教师各自经验出题施测和评分,对分数的解释也带有主观随意性。而测验不但要通过统计分析等科学程序编制出符合测验目的的题目,并有严格的实施程序与计分方法,而且要有关于测验的信度、效度以及如何解释分数的说明。
    (二)心理测量属于哪一种水平的测量
    一个标准化测验除了有一系列测题外,还有一个或几个标定得很好的量表,每个量表是一组符号或一组数量,用来描写所测量的特性的拥有程度。这些量表是属于哪一级水平呢?
    一般说来,心理测量是在次序量表上进行的。因为对于人的智力、性格、兴趣、态度等来说,绝对零点是难以确定的。有人从智力发展曲线推定出智力的、绝对零点是在出生前三个月,亦即受孕后六个月,这个时期恰恰相当于胎儿开始活动,中枢神经系统开始控制肌肉运动这样一个成熟的时期。但此说尚未得到普遍承认。即便在某一学科的考试中得了零分,也不能认为被试在此学科方面的知识和能力为零。而且,在心理测量中,相等单位是很难获得的,例如,假定一个测验包含50个个难度不同的题目,每题1分,我们能否说10分和15分的差别与45分和50分的差别相等?表面看来,都是5分之差,似乎是相等的,但仔细考虑一下就会发现,45—50之差比10—15之差要大些,因为从45分提高到50分,要求再答对5个较难的题目,而从10分提高到1—5分却只要求再做对5个相对容易的题目。所以此量表实际上并没有相等间隔或单位。
    虽然心理现象适合在次序量表上进行测量,但大多数心理学家喜欢把测验成绩表现在等距量表上。尽管目前在心理测验中还无法直接制定出等距量表,但可以采用统计方法把测验分数转换到一个有相等单位的量表上,最通常的转换方法是转换成标准分数。即把次序量表转变成以标准差为单位的等距量表。
    (三)心理测量的性质
    把心理测量同物理测量等量齐观,是导致人们对心理测验产生种种误解的原因。心理测量与物理测量有同也有异,总的看来,心理现象比物理现象更复杂,更难以测量。
    1.心理测量的间接性
    科学发展到今天,我们还无法直接测量人的心理,只能测量人的外显行为,也就是说,我们只能通过一个人对测验题目的反应来推论出他的心理特质。
    所谓特质是描述一组内部相关或内在联系的行为时所使用的术语,是在遗传与环境影响下,个人对刺激作反应的一种内在倾向。例如,一个人喜欢阅读机械杂志,喜欢观看各种机器运转,热心为别人修理钟表、自行车,由此我们便可推论此人具有机械兴趣的特质。可见,特质乃是个体特有的(与他人不同)、稳定的(表现于多种情况)、可辨别的(可与其他特征分开)特征。但它又是一个抽象的产物,一个构想,而不是一个被直接测量到的有实体的个人特点。由于特质是从行为模式中推论出来的,所以心理测量永远是间接的。对这种间接测量有人持怀疑态度,认为所测量的不是所要要测的东西。实际上,这种间接测量的方法不仅在心理测量中采用,在生理学上,巴甫洛夫用狗的唾夜分泌推测大脑的高级神经活动,也是一种间接的测量。人的心理活动与行为具有因果关系,由“果”推测“因”,这是科学研究的基本方法之一。   
    2.心理测量的相对性
    在对人的行为做比较时,没有绝对的标准,亦即没有绝对零点,我们有的只是一个连续的行为序列;所谓测量就是看每个人处在这个序列的什么位置上,由此测得一个人智力的高低兴趣的大小等,都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。
    3.心理测量的客观性
    客观性是对一切测量的基本要求。在心理测量中要控制的变量比物理测量多得多,要做到客观颇不容易。
    测验的客观性实际上就是测验的标准化问题;量具必须标准化,这是对一切测量的共同要求。经过长期的努力探索,测验的标准化即客观性已经有了很大改进。
    首先,测验用的题目或作业、施测说明、施测者的言语态度及施测时的物理环境等,均经过标准化,测验的刺激是客观的。特别是对测验项目的选择不是随意的,而是在预测基础上,通过统计分析(难度、区分度等)确定的。
    其次,评分计分的原则和手续经过了标准化,对反应的量化是客观的。评分方面的客观性测验种类和题目类型而异。一般说来,投射测验的客观性差些,而选择题的客观性较好,因此后者有时又叫客观测验。
    最后,分数的转换和解释经过了标准化,对结果的推论是客观的。测验常模是通过对总体的代表性样本的预测确定的,测验的信度和效度也在一定程度上经过实践的检验,依据这些资料所做出的推论,自然较为可靠和客观。
    心理测验的客观性虽然尚需进一步提高,但它毕竟是测量人的心理特性的较为客观、较为科学的方法,目前,还没有更有效、更实用的方法能够取代它。
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    板凳
     楼主| 发表于 2004-4-14 22:21 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第二节        心理测验的种类及功能

    心理测验是判定个别差异的工具,个别差异包括很多方面,并可在不同的目的与不同的情境下去研究,这就使测验具有了不同的类别和功用。
    一、心理测验的种类
    心理测验的分类随采用的标准不同而有所不同。
    (一)按测验的功能分类
    1.能力测验
    能力一词,其含义颇为笼统。从心理测验的观点看,可将其分为实际能力与潜在能力。实际能力是指个人当前“所能为者”,即代表个人已有的知识、经验与技能,是正式与非正式学习或训练的结果。潜在能力指个人将来,严可能为者”,是在给予一定的学习机会时,某种行为可能达到的水平。有人只把测量实际能力的测验称作能力测验,而把测量潜在能力的测验称作能力倾向测验。实际上二者很难分清。能力测验又可进一步分为普通能力测验与特殊能力测验。前者即通常说的智力测验,后者多用于测量个人在音乐、美术、体育、机械、飞行等方面的特殊才能。
    2.学绩测验
    主要用于测量个人(或团体)经过某种正式教育或训练之后对知识和技能掌握的程度。因为所测得的主要是学习成绩,所以称作学绩测验。最常见的是学校中的学科测验。
    无论学绩测验还是能力测验(包括能力倾向测验),所测得的都是个人在其先天条件下经由后天学习的结果。不过学习成绩测验多是测量有计划的或比较确知的情境(如学校)下学习的结果,而能力测验,特别是能力倾向测验则是测量较少控制的或不大确知的情境中学得的结果,也就是在个人生活中经验累积的结果。
    3.人格测验
    人格测验主要用于测量性可知、气质、兴趣、态度、品德、情绪、动机、信念等方面的个性心理特征,亦即个性中除能力以外的部分。
    (二)按测验的对象分类
    1.个别测验
    个别测验每次仅以一位受测者为对象,通常是由一位主测者与一位受测者在面对面的情形下举行。此类测验的优点在于主测者对受测者的行为反应有较多的观察与控制机会尤其对某些人(如幼儿及文盲)不能使用文字而只能由主试者记录其反应时,就非采用面对面的个别测验不可。个别测验的主要缺点是时间不经济,不能在短时间内经由测验收集到大量的资料,而且个别测验手续复杂,主持者需要较高的训练与素养,一般人不易掌握。
    2.团体测验
    团体测验是在同一时间内由一位主测者(必要时可配几名助手)短时间内收集到大量资料,因此在教育上被广泛采用。团体测验的缺点是是受测者的行为不易控制,容易产生测量误差。
    (三)按测验材料分类
    1.文字测验
    文字测验所用的是文字材料,受测者用文字作答,所以也称其缺点是容易受被测者文化的影响,因而对不同教育背景下的人使用时,其有效性将降低,甚至无法使用。
    2.非文字测验
    非文字测验也称操作测验。测验题目属于对图形、实物、工具、摸型的辨认和操作,无需使用文字作答,所以不受文化因素的限制,可用于学前儿童和不识字的成人。此种测验的缺点是大多不宜团体实施,在时间上不经济。   
    (四),按测验的目的分类
    1.描述性测验   
    测验的目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。
    2.诊断性测验
    目的在于对个人或团体的某种行为问题进行诊断。
    3.预示性测验
    目的在于从测验分数预示一个人将来的表现和所能达到的水平。   
    (五)按测验的难度和时限分类
    1.速度测验   
    题目数量多,并严格限制时间,主要测量反应速度。此种测验题目较为容易,一般都没有超出被试的能力水平,但因时限较短,几乎每个被试都不能做完所有题目。在纯粹的速度测验中,分数完全依赖于工作的速度。   
    2.难度测验   
    包含各种不同难度的题目,由易到难排列,其中有一些极难的题目,几乎所有被试都解答不了。但作答时间较为充裕,使每个受测者都有机会做所有的题目,并在规定时间内做完会做的题目,因此测量的是解答难题的最高能力。
    (六)按测验的要求分类
    1.最高行为测验   
    此种测验要求受测者尽可能做出最好的回答,主要与认知过程有关,有正确答案。能力测验、学绩测验均属最高行为测验。
    2.典型行为测验  
    此种测验要求受测者按通常的习惯方式做出反应,没有正确答案。一般说来,人格测验测量的均属典型行为。
    (七)按测验的性质分类
    1.构造性测
    在此种测验中,所呈现的刺激和受测者的任务是明确的。
    2.投射性测验
    在此种测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。
    (八)按测验的应用分类   
    1.教育测验
    教育部门是测验应用最广的领域,许多能力和人格测都可在学校中应用,但用得最多的的是学绩测验,平时说的教育测验,主要指后者。
    2.职业测验
    主要用于人员选拔和安置,可以是能力和学绩测验,也可以用人格测验.
    3.临床测验
    主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病,为临床诊断和心理咨询工作服务。
    以上几种分类都是相对的,同一个测验采用不同的标准,可能归为不同的类别。
    二、心理测验的功能
    心理测验的基本功能是测量个体差异或同一个体在不同场合下的反应。测验在实际工作和理论研究中有着广泛的应用。
    (一)测验在实际工作中的应用
    1.选材
    在教育、工业、军事、艺术、体育等部门,人们经常面临着选材问题,也就是要辨认那些具有最大成功可能性的人。世人常常感叹伯乐之不常有,实际上仅仅依靠个人经验来识别人才,是学生,也可用于评价教师和教学方法,既可用于评价个人,也可用于评价集体。测验还有助于人们的自我了解和自我评价一种原始方式,不能满足当代社会对各种各样不同人才的大量需要。根据对各种活动的分析,找出各种活动所要求的心理模式,然后根据这些特征设计出各种能力、人格和学绩测验,预测人们从事各种活动的适宜性,可以提高人才选拔和职业训练的效率。例如,美国1942年制定全套方案对飞行员进行选拔,结果淘汰率由65%下降到36%。我国近年来制定的《学习飞行能力预测方法》,从注意广度,视觉鉴别,运算能力、地标识别,图形记忆等几方面进行测验,大大减少了人力,物力的浪费。   
    2.安置   
    在学校对学生如何按能力分班以做到因材施教、早出人才;在工厂和部队如何根据每个人的特长分配工作和兵种,以做到人尽其才,提高劳动生产率和部队战斗力。借助于心理测验,可以使我们在人和工作之间做出较好的匹配,避免乱点鸳鸯谱。
    3.诊断
    对于智力落后者的鉴别是促进心理测验发展的原动力之一,直到今天,在临床上对各种智能缺陷、精神疾病和脑功能障碍的诊断仍是某些心理测验的主要用途。  
    测验的诊断功能不只限于临床,在教育工作中还可以用测验来发现学生适应不良的原因和学习困难之所在,搞清是缺乏某种特殊能力,还是某方面的知识没有掌握,亦或是性格不良,从而采取适当的帮助和补救措施。专门为某一学科编制的诊断测验还可以确定学生所犯错误的类型,找出每个学生在学习中的弱点,以决定采用什么方法弥补。
    4.评价   
    测验可以评价人们在学习和能力上的差异,人格的特点以及相对长处和弱点,评价儿童已达到的发展阶段等。既可用于评价
    5.咨询
    各种学业,能力,兴趣、性格测验可以服务于升学,就业指导,还可探察人的情绪困扰和人格障碍,为当事人的自我决策和行为矫正提供参考意见。
    用测验来解决实际问题时,要注意测验资料只是作决定时要考虑的一个因素,而不是充分的条件,要作出一个好的决策还必须考虑其它方面的信息。   
    (二)测验在理论研究中的应用   
    1.搜集资料   
    几乎所有的心理学领域都涉及到个别差异问题,而测验是用来搜集有关资料的一个简便易行而又较为可靠的方法。譬如对智力的发展速率、智力的个别差异,团体差异以及影响智力发展的环境和遗传因素等问题的研究,大量资料都是由测验得到的。
    2.建立和检验假说   
    心理学中的许多理论是在测验资料的基础上提出来的,并且用测验来检验。心理测验在基本理论的研究中所起的作用是不容忽视的。如智力结构理论的提出和发展,智力测验就起了重要作用。在教育工作中,不同教育措施的效果也要靠测验来比较和检验。
    3.实验分组
    在心理学研究中,常用测验来对被试进行实验分组,以达到等组化的要求。
    总之,心理测验充实了研究心理学的方法,不但推动了心理学理论的发展,面且使心理学更好地为实际服务。
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    地板
     楼主| 发表于 2004-4-14 22:22 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第三节  正确地对待和使用测验
    —、对测验的错误看法
    自测验问世以来,人们对其毁誉不一。对测验的效能存在两种极端看法:   
    (一)测验完美无缺        
    有的人高估测验的效能,对测验奉若神明,单纯依靠测验做各种决定,而不考虑从其他方面来的信息。他们迷信分数,把测验分数绝对化,甚至把测验分数的微小差异也看作具有重大的实际意义。特别是在20年代,随着团体测验的兴起,测验在西方风靡一时、泛滥成灾,忽略了测验还只是个粗糙的工具。当测验结果与那些毫无根据的期望大相径庭的时候,对测验的失望、怀疑,乃致敌视情绪便油然而生。这一狂热运动实际上反而延宕了心理测验的进一步发展。   
    (二)测验无用且有害
    心理测验在其发展过程中不断受到人们的批评。测验的反对者认为测验是根本无用的,依靠测验往往会做出许多错误的决定。
    在西方对测验的另一种批评是,某些人格测验侵犯了个人秘密,违背民主原则。他们认为人的个性和态度是自己的事,与学习或工作的成功无关,不应该在作实际决定时加以考虑。美国加利福尼亚州的立法机关通过的一条法令规定:凡涉及学生“家长或监护人的个人信仰、私生活、家庭生活、品格或宗教方面的问题,禁止施行任何测验,问卷,调查或检查……除非书面通知学生的家长或保护人,说明需要施行这样的测验、问卷、调查或检查,并得到他们以书面形式所表示的同意……”
    人们对测验批评最强烈的问题是:测验为宿命论和种族歧视、阶级压迫提供心理学依据。近年来对此问题国际上已取得渐趋一致的看法。人们普遍认为,这不是测验本身的过错,测验是一个工具,测的是人的心理的差异,至于这个差异是先天的还是后天的,这要看使用者持哪种心理学理论,而与测量工具无关。现在大多数人认为测验测量的是教育成就和现有能力,是遗传与环境,成熟与学习相互作用的结果。至于测验为少数种族主义者和统治者所利用,这种情况确实存在。早期的智力测验由于内容多是白人和城市中产阶级所熟悉的材料,黑人和劳动人民在测验上得分较低。于是有人便得出了黑人和劳动人民天生愚笨的结论。但此种观点很快就受到正直的心理学家的批判。譬如,美国明尼苏达大学心理学教授欧文•戈茨曼(I•Gotte—Sman),就曾明确指出:“美洲黑人和其他美国人的平均智商之间的差异,几乎完全可以用从胎儿起直至整个一生的处境不利来说明。”   
    对文化背影影响测验分数的问题已经研究了很多年,最初,有些研究者企图发展排除文化影响的测验,可是人们很快就认识到这是行不通的,于是又转向编制所谓文化公平的测验。还有人根据亚文化群的特点,为不同文化背景的团体编出不同的量表。 所有这些努力都取得了一定的效果,我们认为所谓公平只是相对的,更重要的是找出造成各个团体文化差异的因素,然后再去设法消除它。
    过去,某些人脑子里有这样一个公式:心理测验=智力测验=智商=遗传决定论,这实在是对测验的一种误解,正是这种误解,使心理测验蒙受了长期的不白之冤。
    二、对测验的正确态度
    (一)测验是研究心理学的一个重要方法和作决策的辅助工具。
    俄国化学家门捷列夫说过:“从开始有测量的时候,才开始有科学。”
    从心理学的发展史来看,心理测验是在心理学由思辩科学转向实验科学后产生的,对行为的客观测量代替了内省法,这是—个进步,是继实验法之后,在心理学研究方法上的又一次唯物主义尝试。测验法较之观察法和旧法考试更推确、更客观。同时由于测验对被试的取样大,并能研究较为复杂和高级的心理现象。因而可弥补实验法的某些不足。有人承认通过测验法所得到的心理学理论,            却反对测验法本身,实在是一件很荒唐的事,但是,我们也应看到,测验不是鉴别个别差异的唯一方法,更不是万能方法。任何一种方法都有自己的长处和短处,测验的作用是有限的,只有把各种方法结合起来,才能对人的心理现象做出全面的考察。当现实需要我们做出决定时,我们应当采用最有效的信息,如果它能从测验分数得到,那就使用测验,如果别的方法能提供更好的信息,那就不用测验,重要的是对各种方法的功效做出评价,权衡利弊,尽可能公正地客观地采用最理想的程序。
    现在的问题是,我们一方面责难心理测验不准确、不可靠、不科学,另一方面却又大量使用更不准确,更不可靠、科学性更差的旧法考试。在升学,就业、招工,晋级、长工资、授学位时用一些未经标准化的测验来作筛选,甚至以一次考试定终身。自己的东西因为用起来顺手,尽管有许多弊端,也舍不得丢掉,别人的东西,尽管有某些长处,因为自已不熟悉,便拒之门外。崇洋媚外,月亮也是外国的圆,固然不对,但闭关自守,抱残守缺,也未必好.正确的态度应该象鲁迅先生说的那样,对外国一切好的东西都采取拿来主义,为我所用。
    (二)测验作为一个研究手段和测量工具尚不完善
    心理测验无论在理论上和方法上都存在不少问题,绝不能认为测验分数对于人们的能力和人格提供了非常准确可靠的指标,在对测验分数作解释,尤其是对个别人做预测时必须十分小心。
    在某些情况下,测验使人做出了错误的决定,但在更多的情况下,测验能为我们提供用其他方法得不到的有用信息。我们不应该重犯倒洗澡水把孩子也泼掉的错误。
    心理测验的主要问题是缺乏坚实的理论基础,关于智力和人格目前还没有统一的定义和理论。有人可能会质问心理学家,你们连什么是智力和人格都没搞清就想要测量它们,岂不荒唐?我们说这种情况在科学史上是屡见不鲜的。譬如,在对万有引力定律、一无所知时,人们仅根据简单的杠杆知识就能称物体的重量,在认识到物体受热分子运动加速以前,人们仅根据热胀冷缩这一现象就可以测量物体的温度。正是由于秤和温度计等测量工具的发明与使用,促进了对物理现象的研究,发展了物理学理论。
    世界上第一把石斧绝不会削铁如泥,世界上第一杆秤也绝不会量出一克的千万分之一。任何一个工具只有在使用中才能发现它的弊端,从而不断改进和完善。如果当初因为秤不够准,刀不够快就禁止使用,那么今天的电子天平和金属切割机就绝不会产生。
    (三)为了更好发挥测验的效能,必须防止测验的乱编滥用
    测验是个有用的工具,但对测验的使用必须加以控制。测验之所以遭到一些人的反对,除了测验本身的问题外,在很大程度上是由于测验的误用带来严重的社会后果,败坏了测验的信誉。
    为此,美国心理学会于1954年制订了《心理学家的道德准则》和《心理测验与诊断方法的技术建议》两个文件,对测验的发行和实施原则做了明确规定,对使用者的资格也做了严格的限制。
    前车之覆,后车之鉴。目前,测验在我国刚刚兴起,我们应该一开始就强调它的科学性、严肃性,使之沿着正确方向发展。为了防止测验的乱编滥用,要注意以下几个问题:   
    1.测验的编制和修订要注意科学性
    编制和修订心理测验是一项十分复杂的工作,必须由有关领域的专家来主持。他们不但要对该领域(如智力、人格等)的心理学理论有较深造诣,而且要通晓测验的基本原理和编制技术。对心理学和测量学一窍不通或一知半解就来编制或修订测验是应该禁止的。
    测验的首要条件是标准化。标准化测验在编制时要遵循特定的程序,不但要有统一的内容、施测程序和评分方法,而且要有较高的效度和信度,还要有解释分数的常模资料或其他参照标准。即使国外广为流行的测验,在引进时也必须根据试测结果修订常模和某些不合适的题目,简单照搬或仅凭主观经验稍加更改就拿来应用,是很危险的。
    2.测验的出版和发行要严加控制
    对于大多数心理测验来说,泄露测验内容,可能会使测验失效。因此,对测验的出版发行必须严加控制。不应在科普读物上发表测验题目,在一般公开发行的书籍上,(包括某些教科书)介绍能力或教育测验需要举例时,最好用模拟题目。编制和修订一个测验需要很长时间,有的测验经过几十年的使用和反复修订已渐趋完善,一旦公开发表,便整个报废。某些人格测验对题目的保密要求虽然不象能力测验那样强,但广为散发也会增加误用的可能性,造成不良的社会后果。为了保护测验,防止测验失密,不让一般人熟悉测验内容,需要有相应的出版法来保证。
    正式发行的测验,必须备有详细的测验手册或说明书,不仅要讲清施测和计分方法,而且应提供足够的信息以使得人们能对测验本身做出评价,没有效度和信度资料的测验是不能发行的。目前在一些科普刊物上登载的测验多半是游艺性的,不能正式拿来使用。在宣传和介绍测验时要实事求是地讲清测验适用范围,指出其不足和局限,不要夸大测验的功能。
    3.测验使用者要具备一定的资格
    测验的选择、施测、计分和解释都必须由受过专门训练的心理学工作者,教育工作者或医生来进行。一般说来,个别施测的智力测验和大部分人格测验对使用者的要求较高,而学绩测验的使用者只要受过初步训练即可。
    测验的使用者既要有能力,又要恪守一定的职业道德。在宣传和分析测验结果时要谨慎行事,要考虑对当事人可能产生的影响,在一般情况下,告诉当事人的应是对结果的解释,而不是简单宣布一个分数,要保护受测者的利益,如对测验结果保密等,如果发现受测者在能力、人格或学习上存在某种问题,要给以辅导和帮助,并尽可能提供相应的教育和治疗上的措施,把诊断与矫正结合起来。
    我国著名心理学家陈立先生在一篇文章中谈了对测验的看法,他在充分肯定测验是一个有用工具的前提下,特别表示了对目前社会上乱编、滥用测验的关切。每一个心理测量工作者必须牢记陈老的告诫。
    4.要学习和宣传测量理论
    乱编滥用测验的根源在于不懂测量理论。为了解决这个问题,有必要提倡心理学和教育学工作者学点测量学对广大教师宣传和普及测量理论,促进考试科学化,亦属当务之急。对国外测量理论和测验一样,也要加以适当改造,使之适合我国国情。
    回复

    使用道具 举报

    3

    主题

    148

    帖子

    1325

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    3
    威望
    1195
    K币
    130 元
    注册时间
    2003-11-1
    5
    发表于 2004-4-14 23:17 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    罪犯大哥果然 厉害
    小弟甚是佩服!!
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    6
     楼主| 发表于 2004-4-15 20:47 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第四章  心理测量的误差
    前面我们已经讨论了什么是测验,以及如何编制测验,现在转入研究什么是一个好的测验。
    无论何种测量工具,我们对它起码的要求是稳定,准确。用心理测量学的术语来说,就是要可信和有效。所谓可信是指多次测量的结果是一致的,所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计,效度是测量准确性程度的估计。
    关于测量的信度和效度问题,下边有专章分别讨论。为了考察测量的信度和效度,首先要了解测量的误差。
    第一节  什么是误差
    一、误差的定义和种类
    误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。   
    这个定义包含两层意思,1)误差是由与测量目的无关的变因引起的,2)误差是不准确或不一致的测量结果。
    定义的后一部分又从准确性和一致性两方面对误差做了区分。准确性与一致性的关系可以用射击靶环来说明。假设有A、B、C三支枪,对准靶面中心固定位置后各放9枪,所得结果如图4—1。






    A枪弹着点十分分散,说明准确性和一致性都不好,B枪弹着点虽然比较集中,但偏离靶心,说明一致性好,准确性差:枪弹着点全部集中在靶心,说明一致性和准确性都好。
    图4—1的A和B显示了两种主要的误差形式。  一种是随机误差,又叫可变误差,这是由与测量目的无关的偶然因素引起而又不易控制的误差,它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的,无规律可循。例如几个人用同杆秤称同一件东西,由于秤杆高低掌握的不同,所产生的不一致即属随机误差。另一种是系统误差,又叫常定误差,这是由与测量目的无关的变因引起的一种恒定而有规律的效应,稳定地存在于每一次测量中,此时测值虽然一致,但不正确。如有的奸商在秤盘或秤砣上搞鬼,一斤多(或少)一两,二斤多(或少)二两,这就是系统误差。可见,系统误差只影响测值的准确性,而随机误差既影响准确性又影响一致性。这就是说,系统误差只与效度有关,而随机误差与效度、信度都有关。
    二、真分数
    在测量理论中,真分数是个重要概念。所谓真分数就是一个测量工具在测量没有误差时,  所得到的纯正值。这实际上是个循环定义,因为一个量具若测得真值,便没有误差。真分数的操作定义是,经过无数次测量所得的平均值。可见,真分数是一个在理论上构想出来的概念,在实际测量中是得不到的,因为一个测量工具无论多么精确,也会有误差,我们只能通过改进量具来接近真值,而不能完全得到它。
    真分数的定义表明,一个人在一个测验上所得的分数,既是他的真分数的函数,也是测量误差的函数,用公式表示如下:X=T+E    (4.1)
    这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。
    需要说明的是,这里的测量误差(E)指的是引起测量不一致性的变因产生的效应,即指随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。
    在公式4.1中,E可能是正的,也可能是负的。这就是说,一个人的实得分数可能大于真实量,也可能小于真实量,总是围绕着真值上下波动。
    关于测量误差(E)有以下假设:
    1)如果对一个人测量无数次,其平均误差为0,即 =0
    2)真分数和测量误差是相互独立的,即rTE=0
    3)误差分数和实得分数的相关为0,即rEX=0
    公式4.1只表明了在一个特定人身上实得分数、真分数和测量误差之间的关系。在一个团体中,由于每个人的误差都是随机的,方向不同,只要团体足够大,其误差便会互相抵消。因此,一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。证明如下:
                     (T=X—E)                 (ΣE=)0
    对于一个团体来说,实得分数,真分数和测量误差之间有如下关系:

    即实得分数的变异数:真分数的变异数加上误差变异数。
    公式4.2并不难证明:

    以上推导过程。可参看统计学中求和方差的公式。当X=Xl+X 2时,如果Xl 和X 2均为正态分布,则 和数的方差为 公式。
    公式4.2只涉及到随机误差的变异,系统误差的变异包含在真分数的变异中。这就是说,真变异数还可以分成两个部分,与测量目的有关的变异和与测量目的无关的变异,即
                                 (4.3)
    式中的 是与测量目的有关的(亦即有效的)变异数, 是与测量目的无关但却是稳定的变异数。 是由所要测量的变因引起的, 是由其它变因引起的。将公式(4.3)代入公式•(4.2)得到如下公式:
                              (4.4)
    这就是说,一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和潞盛误鏊盛异数所决定的。
    第二节  误差的来源
    一个测验要准确可靠,必须控制各种误差,为此首先要了解误差的来源。
    根据误差定义,任何变因只要与测量目的无关,并使得结果不准确、不一致,便可认为是一种误差因素。在心理测量中,
    常见的误差来源于三个方面:测验内部,施测过程,受测者本身。
    一、测验内部引起的误差
    测验内部的误差主要来源于题目取样:当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大,(譬如一次考试碰巧准备到或没准备到某题),当几个测验复本不等值时,接受不同的题目,就会获得不同的分数。   
    除题目取样不当可引起误差外,其它一些因素,如题目用词的模棱两可,对反应步骤说得不清,题目过难引起猜测,时限短使被试仓促作答等,也都可能成为误差的来源。
    二、由施测过程引起的误差
    在三种误差来源中,与施测过程有关的误差可能是最容易控制和检验的。通过长期实践,测验的标准化水平越来越高,大部分施测条件能够得到控制。但由于心理现象的复杂性,许多意想不到的偶然因素仍可能影响测验分数,使人防不胜防。
    (一)物理环境
    施测现场的温度。光线,声音、桌面好坏,空间阔窄等皆具有影响。
    (二)主试者方面:
    主试者的年龄、性别、外表,施测时的言谈举止、表情动作等均能影响测验结果。倘若不按照规定实施测验,如制造紧张气氛,给予特别协助或暗示,以及计时错误等,都会带来较大误差,特别是当测验具有复杂步骤和说明,或测验题本身是模糊不确定的形式时,当主试者在安排测验条件上有较多余地(例如个别施测)时,当测验是对幼儿,有情绪困扰者以及对测验程序不熟悉的人施测时,主试者的影响更大。
    (三)意外干扰:
    在测验环境复杂,特别是当受试人数较多时,容易发生出乎预料的干扰或分心事件。例如:停电、有人生病,有人作弊,计价表停了、临时发现题目或作答纸印刷不清或装订错误等,无论哪种情况都会引起不安和扰乱,导致成绩不准确、不一致。
    (四)评分计分,
    评分不客观以及计算登记分数出错等也是常见的误差。一般选择题的评分较为客观。而问答题、论文题等自由反应型的题目,评分标准很难掌握,加之阅卷者的偏好各不相同,因而难以保证分数的一致性.
    早在几十年前,国外就有人对旧法考试的评分误差做过研究。斯达奇(D•storch)和埃立奥特(E•C•Elliott)将一份英文考卷请142位英文教员评阅,所得分数从50分到98分应有尽有。某国教育界还有一件引为笑谈的事,1920年夏季,许多大学教授在评阅历史试卷时,有一位教授为评分便利起见,自己写了一份标准答案,不料和其它考卷混在一起,经另一位教授评阅竟然不及格。为慎重起见,由其它教授重复评定,结果所得分数以10分到90分不等。1961年美国教育测验中心由53个评判员组成专门小组。对大学一年级学生写的200篇作文按九个等级评分,结果有1/3的文章得到了九个等级,有60%的文章得到了七个或八个等级,没有一篇文章少于五个等级。一般理科评分要比文科客观些,但也不尽然。罗雪(Ruch)将—道地理题的解答请91位教员评阅,满分为20分,结果给17种分数,全距为2—20,给各种分数的人次见表4—1,斯达奇和埃立奥特将一份几何考卷请115位中学教员评立,所得分数为28—92分,全距60多分。我国1979年高考数学试卷第四题叙述并证明勾股定理,对于
        表4—1  91位教师对于一个地理题的回答所给分数的分布
    分数        0        1        2        3        4        5        6        7        8        9        10        11        12        13        14        15        16        17        18        19        20
    人次        0        0        1        2        0        1        4        3        7        5        24        5        14        8        2        10        2        1        1        0        1
    用余弦定理进行循环论证的答卷,有的阅卷教师不给分,有的却给满分(6分)。不仅各教师间有此差异,即使同一教师一次评许多卷,受情绪,疲劳,外界干扰;卷面整洁、试卷前后位置引起的对比效应以及对学生成见的影响,标准也可能不统一,甚至同一张试卷隔一段时间再评,前后给分也可能不一致。至于学校之间,地区之间的差别就更大了。1980年,清华大学受教育部委托对新生进行数学复试,并与高考数学成绩对照。将各省市学生按两次考试的平均成绩分别排队。G省学生的高考平均成绩居第11名,而复试成绩降到第28名,T市学生成绩次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分别升至第3名和第7名,产生这种变化的原因很多,其中很重要的一条是各省评分标准掌握不同,宽严不一。这就使得学生分散的差异在一定程度上反映的是评分者的差异,而不完全是学生水平的差异。
    对于论文题、问答题要多少人评分,平均分数才能相对稳定和客观呢?国外有人对此做了研究,结果如下:哲学论文127人,作文78人,物理16人,数学13人。
    为了控制与施测过程有关的误差,主试者必须严格遵循标准化程序施测和评分,不得任意改动和发挥,同时要机智地处理各种意外情况。
    三、由受测者本身引起的误差既使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。  
    来自受测者的误差因素,有些是属于个人的长期的一般的变化,有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。
    (一)应试动机
    受测者对测验的动机不同,会影响其作答态度,注意力、持久性、反应速度等,从而影响测验成绩;例如,在西方国家,大多数人具有较强的竞争观念,因而在参加能力和学业等要求最高行为的测验时,能尽力做出最好的回答,而在一些少数民族和社经地位较低的团体中,则不大强调竞争,测验的内躯力不强,往往随随便便做出回答。因此,黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低,其中还掺杂有动机效应。
    动机效应在人格测验中也有表现。譬如,当个性调查表用于选人时,雇主感兴趣的是申请者的典型行为,但有的申请者,为了给人留下一个好印象,在回答时可能考虑雇主的期望或社会道德等因素,而不按自己的真实情况作答,从而给分数带来误差。
    应试动机对测验成绩的影响表现在各方面,如果动机效应使一个人在反复测量中以一种恒定的方式进行活动,这便导致系统误差,使测量的有效性降低,如果受测者的动机引起了偶然性的不稳定的反应,这是一种随机误差,测量的有效性,可信性便都会降低。
    (二)测验焦虑
    测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。和一切情绪反应一样,焦虑的产生既有认知因素的作用,也有生理因素的作用。
    对测验的焦虑会影响被试的成绩。一般说来,适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极影响.过高的焦虑却会使工作能力降低,注意分散,思维变得狭窄,刻板,记忆中储存的东西提取不出来。但一点焦虑没有,也不是好事,内驱力过小的受测者往往采取满不在乎的态度,因而成绩大多较低。焦虑对测验成绩的影响可用图4—2的倒U型曲线来表示。
       





    图4—2  焦虑对测验成绩的影响
    研究表明,测验焦虑受主客观两方面因素影响:
    l.能力和测验焦虑成负相关。能力高的人,测验焦虑一般较低,两对自已的能力没有把握的人,测验焦虑较高。
    2.抱负水准与焦虑成正相关,抱负水准过高,求胜心切的人,测验焦虑较高。
    3.患得患失、缺乏自信、情绪不稳、顺应不良的人产生测验焦虑。
    4.经常接受测验的人焦虑较低,而对测验程序不熟悉的人焦虑较高。
    5.测验成绩对被试关系重大,后果严重,或被试受的压力很大时易产生焦虑.
    6.被试不了解测验的目的,测验的指导语不清,采用了新的题目形式或施测程序,以及有严格时间限制等测验方面的因素,也会增加被试的焦虑。
    (三)学习,发展与教育
    由一般学习经验或发展变化所引起的测验分数上的差异,在大多数情况下,只构成恒定误差。但有时,大多数人对于某个测验没有准备,只有个别人获得了特殊训练,或者在两次测验的间隔期中,有的人获得了特殊的教育和训练,而其他人没有,在这种情况下,第二次测验所得到的分数,既反映了第一次施测时所测量的东西,也反映了在两次施测之间所学到的东西。由于受测者所受的训练量不同,他们的分数就会受到不同的影响,而表现出随机误差。
    (四)测验经验
    受测者对测验的经验也会影响成绩,对测验的程序和技能熟悉程度不同,所得分数便不能直接比较。  
    任何时候只要引入一种新的题目形式或一种新的反应程序,就有可能造成理解上的错误并最终在测验中带来误差。因此,当使用一种新的、不寻常的测验形式或反应方式时,需要提供练习题和演示。在大多数情况下,少量的练习就足够了,但对于很少接触测验的人,练习应稍多一些。总之,在测验前,应尽可能使每个被试都对测验程序有所了解。
    也有另外一种情况,有些人经历过多次测验,发展了测验技能,成为“测验油子”。他们在觉察正确答案与错误答案的细微差别,合理分配时间,以及适应新的测验形式等方面具有丰富的经验,因此常比那些能力相差不多、但缺乏测验经验和技巧的人获得更多的分数。
    (五)练习效应
    任何一个测验在第二次应用时,都会有练习效应而使成绩提高。
    在能力测验方面,练习效果的研究大体获得下列结论:
        1.练习对于智力较高者,效果较为显著。
        2.着重速度的测验,练习效果较明显。
        3.再作同—个测验比作复本的练习效果显著.
        4.两次测验之间的时距愈大,练习效果愈小,相距三个月以上,练习效果可忽略不计。
        5.一般的平均练习效果,约在1/5个标准差以下,但第二次再测后,练习效果即接近于零。
        以上结论只是某些人使用某些测验的研究结果,不一定具普遍意义。
      (六)反应方式
        反应方式是指独立于测验内容的反应倾向。例如,在速度性测验中,有的人“快而不准”,有的人却“宁慢勿错”;在是非题中,有的人有—种“默认反应方式”,即不管内容如何都答“是”,有时甚至会自相矛盾。为了纠正此种误差,应使“是”“非”答案大体相等。
    (七)生理变因
    不但心理因素会影响测验成绩,生病,疲劳、失眠等生理因素也会影响测验成绩而带来误差。能影响测验分数的变因还有许多,实际上任何与测量目的无关的变因都可能引起误差,这里介绍的只是几种主要的,这些变因既能引起随机误差,也能产生系统误差。
    某些情况如计时错误或指导语不当,很明显会产生可变误  差。其它变因,如个人在有关内容方面的知识或技能,通常产生恒定的效果。然而,当两测验施测时距长,在两次测验当中可能产生不同的学习或遗忘效果,这不仅会使分数不稳定,而且还可能是个人的永久改变。测验的标准化就是为了控制这些因素,以减少误差,使测验分数更可信,更有效。
    第五章  测量的信度
    第一节  什么是信度
    一、信度的定义
    信度又叫可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致,否则便不可信。信度只受随机误差影响。随机误差越大,信度越低。因此,信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应,不影响信度。
    在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即,
       
                                                         (5.1)
    式中rxx代表测量的信度,S  代表真分数的变异数,   代表实得分数的变异数,即总变异数。
    根据公式(4.3),信度还可表示为
                                            (5.2)
    该定义有两点要注意:  1)信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。
    任何测验只能包含特定样本的题目,由特定的施测者,对特定的被式,在特定的时间、地点施测,情况不同便会得到不同的分数。信度涉及的主要问题是对测验分数的意义的概化能力,即从一次测量来推论总体(真实分数)能达到何种正确程度。
    根据现代信息论,每组信息可包括一些真正信息(信号)和一些错误的信息(噪音)。为了提供有用的数据,任何测量必须有高的信号噪音比率——即提供更多真正的信息。信号可由真实分数的变异数表示,噪音可由误差分数的变异数表示。
    信噪比与信度有如下关系:
    信号/噪音=                                    (5.3)
    公式(5.3)并不难证明,将 代入上式的右端可得:

    =信号/噪音
    假如一个测验的信度为0.90,则信噪比为0.90/(1—0.90)=9.0即真正变异数对误差变异数的比率为9:1。
    一个测验的信度只要稍微增加一点就会使信噪比大大改变。例如,信度从0.90增为0.91,可使信噪比从9:1,变为10.1:1。因此,即使一个相当可靠的测验也应努力改善其信度。
    二、信度系数
    大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。
    与信度系数有关的一个概念叫信度指数,是实得分数与真分数的相关,这是部分与整体的相关,可用下式表示:

    信度指数的平方就是信度系数,可用下列公式表示,
                                                    (5.4)
    换言之,信度系数是实得分数与真正分数相关的平方。相关系数的平方表示两个变量间共有的变异数比例。因此,信度系数实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如,当rxx =0.90时,我们可以说实得分数中有90%的变异数是来自真正分数的差别,仅有10%是来自测量误差,在极端例子中,如rxx=1.00,则无测量误差,所有的变异都来自真分数,若rxx=0,则所有的变异均反映了测量误差。
    对信度系数也要注意三点,1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。
    信度系数达到多高才可以接受呢?最理想的情况是 rxx=1.00m,但这是办不到的。不过我们可用已有的同类测验作为比较的基准。一般能力与学绩测验的信度系数在0.90以上,有的可以达0.95,至于性格、兴趣、价值观等人格测验的信度系数,通常在0.80到0.85或更高些。当 rxx<0.70时,不能用测验来对个人作评价,也不能在团体间作比较,当 rxx>0.70时,可用于团体间比较;当 rxx>0.85时,可用于鉴别个人。
    由于信度系数总是在特定情况下获得的,因此只有当一个测验在很多情况下都被证实具有较高的信度时,才可以说它是比较可靠的测验。
    三、信度与测验分数的解释
    信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异.
    (一)个人测验分数的误差
    信度仅表明一组测量的实得分数与真分数的符合程度,但并没直接指出个人测验分数的变异量。由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差。在这个假设的分布里,平均数就是这个人的真分数,而标准差则为测量误差大小的指标。这在实际上是行不通的。然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,、以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。
    测量的标准误可用下式求出:
    SE=S
    这里SE为测量的标准误,  为所的分数的标准差,   为测量信度。从式中可以看出,测量的标准差与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。
    测量的标准误实际上是在一组测量分数中误差分布的标准差,可以象其它标准差一样地解释。因此,个人每次测量所得分数(X)有68%的可能性落在真分数(T)加减一个单位标准误(SE)的范围内,有95%的机会落在真分数加减1.96个标准误的范围内。图5—1表明实得分数在真实分数上的回归,以及距回归线一个标准误的平行线。










    根据公式(5.6),知道了一组测量的标准差和信度系数就可以求出测量的标准误。进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。人们一般采用95%的或然率水准,其置信区间为:
    (X-1.96SE)≤T≤(X+1.96SE)                          (5.7)
    这就是说,大约有5%的可能性真正分数落在所得分数±1.96SE的范围内,或有5%的可能性落在这范围之外。这实际上也表明了再测时分数改变的可能范围。
    例如:在一次测验中有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84,将适当的数值代入公式5.6与5.7,并解之:
    SE=5× =2
    T=80±1.96*2=80±3.92=76.08~83.92
    我们可说这些学生的真正分数有95%的可能性落在76与84分之间。即若再测一次,他们的分数低于76、高于84的可能性不超过5%。
    (二)两种测验分数的比较
    来自不同测验的原始分数是无法直接比较的,只有参照同一个团体的平均分数,将它们转换成相同尺度的标准分数,才能进行比较。
    譬如某班期末考试,张生语文数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。为了说明个人在两种测验上表现的优劣,我们可用“差异的标准误”来检验其差异的显著性,常用的公式如下:
    SEd=                                               (5.8)
    式中SEd为差异的标准误,SE1、SE2分别是两组测验分数的标准误,用SE1= 和SE2=  代入公式5.8可得:
    SEd=                                               (5.9)
    这里S表示相同尺度的标准分数之标准差,Txx表示第一种测验的信度系数,ryy表示第二种测验的信度系数。
    在上例中,假定此次语文,数学考试的信度系数分别为0.84和0.91,张生的两个分数转化成T 分数后,其差异的标准误为:SEd= 5
    采取95%的置信区间(即.05显著水平),,则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8,始能认为二者真有差异。因为数学的T分数只比语文高5分,所以差异并不显著。
    用SE估计个人分数的误差要注意三点:1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,为此,我们要选择最适合某一特殊情况的信度估计来解决问题。例如倘若我们对半年内的分数稳定性感兴趣,我们就以六个月为时距施测两次的相关系数作为信度估计,依据此信度系数求出标准误,再用来估计在六个月内分数可能改变多少。2)这个估计假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。上面所计算的SE实际是整个分数范围的平均测量误差指标。如果分数的分布近似正态,而且实得的分数不超过可能的全距,则测量的标准误差在所有分数水平上近似一致。3)测验上所得分数是一个人真正分数的最佳现成估计,但是,由于存在测量误差,所以它并不是个确切的指标。所得分数对真分数估计得如何精确,可以由SE的大小或间接地由测验的信度显示出来。因为在一般情况下,rxx<1.00,SE>0,所以我们必须将测验分数看成范围或带状,而不要看成确切的点。这条带子有多宽将取决于测量标准误的大小,最终取决于信度系数。rxx越小,SE越大,这个范围便越广。若经常将分数想成是一个范围,我们在比较不同被试的分数,或同一个被试在不同测验上的分数时,就可以克服对分数间的微小判别作出过分解释的习惯。4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正能力则可能导致严重错误,因为它没有考虑到系统误差的影响,真分数与真正能力是两个不同的概念。
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    7
     楼主| 发表于 2004-4-15 20:50 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第四章  心理测量的误差
    前面我们已经讨论了什么是测验,以及如何编制测验,现在转入研究什么是一个好的测验。
    无论何种测量工具,我们对它起码的要求是稳定,准确。用心理测量学的术语来说,就是要可信和有效。所谓可信是指多次测量的结果是一致的,所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计,效度是测量准确性程度的估计。
    关于测量的信度和效度问题,下边有专章分别讨论。为了考察测量的信度和效度,首先要了解测量的误差。
    第一节  什么是误差
    一、误差的定义和种类
    误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。   
    这个定义包含两层意思,1)误差是由与测量目的无关的变因引起的,2)误差是不准确或不一致的测量结果。
    定义的后一部分又从准确性和一致性两方面对误差做了区分。准确性与一致性的关系可以用射击靶环来说明。假设有A、B、C三支枪,对准靶面中心固定位置后各放9枪,所得结果如图4—1。






    A枪弹着点十分分散,说明准确性和一致性都不好,B枪弹着点虽然比较集中,但偏离靶心,说明一致性好,准确性差:枪弹着点全部集中在靶心,说明一致性和准确性都好。
    图4—1的A和B显示了两种主要的误差形式。  一种是随机误差,又叫可变误差,这是由与测量目的无关的偶然因素引起而又不易控制的误差,它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的,无规律可循。例如几个人用同杆秤称同一件东西,由于秤杆高低掌握的不同,所产生的不一致即属随机误差。另一种是系统误差,又叫常定误差,这是由与测量目的无关的变因引起的一种恒定而有规律的效应,稳定地存在于每一次测量中,此时测值虽然一致,但不正确。如有的奸商在秤盘或秤砣上搞鬼,一斤多(或少)一两,二斤多(或少)二两,这就是系统误差。可见,系统误差只影响测值的准确性,而随机误差既影响准确性又影响一致性。这就是说,系统误差只与效度有关,而随机误差与效度、信度都有关。
    二、真分数
    在测量理论中,真分数是个重要概念。所谓真分数就是一个测量工具在测量没有误差时,  所得到的纯正值。这实际上是个循环定义,因为一个量具若测得真值,便没有误差。真分数的操作定义是,经过无数次测量所得的平均值。可见,真分数是一个在理论上构想出来的概念,在实际测量中是得不到的,因为一个测量工具无论多么精确,也会有误差,我们只能通过改进量具来接近真值,而不能完全得到它。
    真分数的定义表明,一个人在一个测验上所得的分数,既是他的真分数的函数,也是测量误差的函数,用公式表示如下:X=T+E    (4.1)
    这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。
    需要说明的是,这里的测量误差(E)指的是引起测量不一致性的变因产生的效应,即指随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。
    在公式4.1中,E可能是正的,也可能是负的。这就是说,一个人的实得分数可能大于真实量,也可能小于真实量,总是围绕着真值上下波动。
    关于测量误差(E)有以下假设:
    1)如果对一个人测量无数次,其平均误差为0,即 =0
    2)真分数和测量误差是相互独立的,即rTE=0
    3)误差分数和实得分数的相关为0,即rEX=0
    公式4.1只表明了在一个特定人身上实得分数、真分数和测量误差之间的关系。在一个团体中,由于每个人的误差都是随机的,方向不同,只要团体足够大,其误差便会互相抵消。因此,一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。证明如下:
                     (T=X—E)                 (ΣE=)0
    对于一个团体来说,实得分数,真分数和测量误差之间有如下关系:

    即实得分数的变异数:真分数的变异数加上误差变异数。
    公式4.2并不难证明:

    以上推导过程。可参看统计学中求和方差的公式。当X=Xl+X 2时,如果Xl 和X 2均为正态分布,则 和数的方差为 公式。
    公式4.2只涉及到随机误差的变异,系统误差的变异包含在真分数的变异中。这就是说,真变异数还可以分成两个部分,与测量目的有关的变异和与测量目的无关的变异,即
                                 (4.3)
    式中的 是与测量目的有关的(亦即有效的)变异数, 是与测量目的无关但却是稳定的变异数。 是由所要测量的变因引起的, 是由其它变因引起的。将公式(4.3)代入公式•(4.2)得到如下公式:
                              (4.4)
    这就是说,一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和潞盛误鏊盛异数所决定的。
    第二节  误差的来源
    一个测验要准确可靠,必须控制各种误差,为此首先要了解误差的来源。
    根据误差定义,任何变因只要与测量目的无关,并使得结果不准确、不一致,便可认为是一种误差因素。在心理测量中,
    常见的误差来源于三个方面:测验内部,施测过程,受测者本身。
    一、测验内部引起的误差
    测验内部的误差主要来源于题目取样:当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大,(譬如一次考试碰巧准备到或没准备到某题),当几个测验复本不等值时,接受不同的题目,就会获得不同的分数。   
    除题目取样不当可引起误差外,其它一些因素,如题目用词的模棱两可,对反应步骤说得不清,题目过难引起猜测,时限短使被试仓促作答等,也都可能成为误差的来源。
    二、由施测过程引起的误差
    在三种误差来源中,与施测过程有关的误差可能是最容易控制和检验的。通过长期实践,测验的标准化水平越来越高,大部分施测条件能够得到控制。但由于心理现象的复杂性,许多意想不到的偶然因素仍可能影响测验分数,使人防不胜防。
    (一)物理环境
    施测现场的温度。光线,声音、桌面好坏,空间阔窄等皆具有影响。
    (二)主试者方面:
    主试者的年龄、性别、外表,施测时的言谈举止、表情动作等均能影响测验结果。倘若不按照规定实施测验,如制造紧张气氛,给予特别协助或暗示,以及计时错误等,都会带来较大误差,特别是当测验具有复杂步骤和说明,或测验题本身是模糊不确定的形式时,当主试者在安排测验条件上有较多余地(例如个别施测)时,当测验是对幼儿,有情绪困扰者以及对测验程序不熟悉的人施测时,主试者的影响更大。
    (三)意外干扰:
    在测验环境复杂,特别是当受试人数较多时,容易发生出乎预料的干扰或分心事件。例如:停电、有人生病,有人作弊,计价表停了、临时发现题目或作答纸印刷不清或装订错误等,无论哪种情况都会引起不安和扰乱,导致成绩不准确、不一致。
    (四)评分计分,
    评分不客观以及计算登记分数出错等也是常见的误差。一般选择题的评分较为客观。而问答题、论文题等自由反应型的题目,评分标准很难掌握,加之阅卷者的偏好各不相同,因而难以保证分数的一致性.
    早在几十年前,国外就有人对旧法考试的评分误差做过研究。斯达奇(D•storch)和埃立奥特(E•C•Elliott)将一份英文考卷请142位英文教员评阅,所得分数从50分到98分应有尽有。某国教育界还有一件引为笑谈的事,1920年夏季,许多大学教授在评阅历史试卷时,有一位教授为评分便利起见,自己写了一份标准答案,不料和其它考卷混在一起,经另一位教授评阅竟然不及格。为慎重起见,由其它教授重复评定,结果所得分数以10分到90分不等。1961年美国教育测验中心由53个评判员组成专门小组。对大学一年级学生写的200篇作文按九个等级评分,结果有1/3的文章得到了九个等级,有60%的文章得到了七个或八个等级,没有一篇文章少于五个等级。一般理科评分要比文科客观些,但也不尽然。罗雪(Ruch)将—道地理题的解答请91位教员评阅,满分为20分,结果给17种分数,全距为2—20,给各种分数的人次见表4—1,斯达奇和埃立奥特将一份几何考卷请115位中学教员评立,所得分数为28—92分,全距60多分。我国1979年高考数学试卷第四题叙述并证明勾股定理,对于
        表4—1  91位教师对于一个地理题的回答所给分数的分布
    分数        0        1        2        3        4        5        6        7        8        9        10        11        12        13        14        15        16        17        18        19        20
    人次        0        0        1        2        0        1        4        3        7        5        24        5        14        8        2        10        2        1        1        0        1
    用余弦定理进行循环论证的答卷,有的阅卷教师不给分,有的却给满分(6分)。不仅各教师间有此差异,即使同一教师一次评许多卷,受情绪,疲劳,外界干扰;卷面整洁、试卷前后位置引起的对比效应以及对学生成见的影响,标准也可能不统一,甚至同一张试卷隔一段时间再评,前后给分也可能不一致。至于学校之间,地区之间的差别就更大了。1980年,清华大学受教育部委托对新生进行数学复试,并与高考数学成绩对照。将各省市学生按两次考试的平均成绩分别排队。G省学生的高考平均成绩居第11名,而复试成绩降到第28名,T市学生成绩次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分别升至第3名和第7名,产生这种变化的原因很多,其中很重要的一条是各省评分标准掌握不同,宽严不一。这就使得学生分散的差异在一定程度上反映的是评分者的差异,而不完全是学生水平的差异。
    对于论文题、问答题要多少人评分,平均分数才能相对稳定和客观呢?国外有人对此做了研究,结果如下:哲学论文127人,作文78人,物理16人,数学13人。
    为了控制与施测过程有关的误差,主试者必须严格遵循标准化程序施测和评分,不得任意改动和发挥,同时要机智地处理各种意外情况。
    三、由受测者本身引起的误差既使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。  
    来自受测者的误差因素,有些是属于个人的长期的一般的变化,有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。
    (一)应试动机
    受测者对测验的动机不同,会影响其作答态度,注意力、持久性、反应速度等,从而影响测验成绩;例如,在西方国家,大多数人具有较强的竞争观念,因而在参加能力和学业等要求最高行为的测验时,能尽力做出最好的回答,而在一些少数民族和社经地位较低的团体中,则不大强调竞争,测验的内躯力不强,往往随随便便做出回答。因此,黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低,其中还掺杂有动机效应。
    动机效应在人格测验中也有表现。譬如,当个性调查表用于选人时,雇主感兴趣的是申请者的典型行为,但有的申请者,为了给人留下一个好印象,在回答时可能考虑雇主的期望或社会道德等因素,而不按自己的真实情况作答,从而给分数带来误差。
    应试动机对测验成绩的影响表现在各方面,如果动机效应使一个人在反复测量中以一种恒定的方式进行活动,这便导致系统误差,使测量的有效性降低,如果受测者的动机引起了偶然性的不稳定的反应,这是一种随机误差,测量的有效性,可信性便都会降低。
    (二)测验焦虑
    测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。和一切情绪反应一样,焦虑的产生既有认知因素的作用,也有生理因素的作用。
    对测验的焦虑会影响被试的成绩。一般说来,适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极影响.过高的焦虑却会使工作能力降低,注意分散,思维变得狭窄,刻板,记忆中储存的东西提取不出来。但一点焦虑没有,也不是好事,内驱力过小的受测者往往采取满不在乎的态度,因而成绩大多较低。焦虑对测验成绩的影响可用图4—2的倒U型曲线来表示。
       





    图4—2  焦虑对测验成绩的影响
    研究表明,测验焦虑受主客观两方面因素影响:
    l.能力和测验焦虑成负相关。能力高的人,测验焦虑一般较低,两对自已的能力没有把握的人,测验焦虑较高。
    2.抱负水准与焦虑成正相关,抱负水准过高,求胜心切的人,测验焦虑较高。
    3.患得患失、缺乏自信、情绪不稳、顺应不良的人产生测验焦虑。
    4.经常接受测验的人焦虑较低,而对测验程序不熟悉的人焦虑较高。
    5.测验成绩对被试关系重大,后果严重,或被试受的压力很大时易产生焦虑.
    6.被试不了解测验的目的,测验的指导语不清,采用了新的题目形式或施测程序,以及有严格时间限制等测验方面的因素,也会增加被试的焦虑。
    (三)学习,发展与教育
    由一般学习经验或发展变化所引起的测验分数上的差异,在大多数情况下,只构成恒定误差。但有时,大多数人对于某个测验没有准备,只有个别人获得了特殊训练,或者在两次测验的间隔期中,有的人获得了特殊的教育和训练,而其他人没有,在这种情况下,第二次测验所得到的分数,既反映了第一次施测时所测量的东西,也反映了在两次施测之间所学到的东西。由于受测者所受的训练量不同,他们的分数就会受到不同的影响,而表现出随机误差。
    (四)测验经验
    受测者对测验的经验也会影响成绩,对测验的程序和技能熟悉程度不同,所得分数便不能直接比较。  
    任何时候只要引入一种新的题目形式或一种新的反应程序,就有可能造成理解上的错误并最终在测验中带来误差。因此,当使用一种新的、不寻常的测验形式或反应方式时,需要提供练习题和演示。在大多数情况下,少量的练习就足够了,但对于很少接触测验的人,练习应稍多一些。总之,在测验前,应尽可能使每个被试都对测验程序有所了解。
    也有另外一种情况,有些人经历过多次测验,发展了测验技能,成为“测验油子”。他们在觉察正确答案与错误答案的细微差别,合理分配时间,以及适应新的测验形式等方面具有丰富的经验,因此常比那些能力相差不多、但缺乏测验经验和技巧的人获得更多的分数。
    (五)练习效应
    任何一个测验在第二次应用时,都会有练习效应而使成绩提高。
    在能力测验方面,练习效果的研究大体获得下列结论:
        1.练习对于智力较高者,效果较为显著。
        2.着重速度的测验,练习效果较明显。
        3.再作同—个测验比作复本的练习效果显著.
        4.两次测验之间的时距愈大,练习效果愈小,相距三个月以上,练习效果可忽略不计。
        5.一般的平均练习效果,约在1/5个标准差以下,但第二次再测后,练习效果即接近于零。
        以上结论只是某些人使用某些测验的研究结果,不一定具普遍意义。
      (六)反应方式
        反应方式是指独立于测验内容的反应倾向。例如,在速度性测验中,有的人“快而不准”,有的人却“宁慢勿错”;在是非题中,有的人有—种“默认反应方式”,即不管内容如何都答“是”,有时甚至会自相矛盾。为了纠正此种误差,应使“是”“非”答案大体相等。
    (七)生理变因
    不但心理因素会影响测验成绩,生病,疲劳、失眠等生理因素也会影响测验成绩而带来误差。能影响测验分数的变因还有许多,实际上任何与测量目的无关的变因都可能引起误差,这里介绍的只是几种主要的,这些变因既能引起随机误差,也能产生系统误差。
    某些情况如计时错误或指导语不当,很明显会产生可变误  差。其它变因,如个人在有关内容方面的知识或技能,通常产生恒定的效果。然而,当两测验施测时距长,在两次测验当中可能产生不同的学习或遗忘效果,这不仅会使分数不稳定,而且还可能是个人的永久改变。测验的标准化就是为了控制这些因素,以减少误差,使测验分数更可信,更有效。
    第五章  测量的信度
    第一节  什么是信度
    一、信度的定义
    信度又叫可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致,否则便不可信。信度只受随机误差影响。随机误差越大,信度越低。因此,信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应,不影响信度。
    在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即,
       
                                                         (5.1)
    式中rxx代表测量的信度,S  代表真分数的变异数,   代表实得分数的变异数,即总变异数。
    根据公式(4.3),信度还可表示为
                                            (5.2)
    该定义有两点要注意:  1)信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。
    任何测验只能包含特定样本的题目,由特定的施测者,对特定的被式,在特定的时间、地点施测,情况不同便会得到不同的分数。信度涉及的主要问题是对测验分数的意义的概化能力,即从一次测量来推论总体(真实分数)能达到何种正确程度。
    根据现代信息论,每组信息可包括一些真正信息(信号)和一些错误的信息(噪音)。为了提供有用的数据,任何测量必须有高的信号噪音比率——即提供更多真正的信息。信号可由真实分数的变异数表示,噪音可由误差分数的变异数表示。
    信噪比与信度有如下关系:
    信号/噪音=                                    (5.3)
    公式(5.3)并不难证明,将 代入上式的右端可得:

    =信号/噪音
    假如一个测验的信度为0.90,则信噪比为0.90/(1—0.90)=9.0即真正变异数对误差变异数的比率为9:1。
    一个测验的信度只要稍微增加一点就会使信噪比大大改变。例如,信度从0.90增为0.91,可使信噪比从9:1,变为10.1:1。因此,即使一个相当可靠的测验也应努力改善其信度。
    二、信度系数
    大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。
    与信度系数有关的一个概念叫信度指数,是实得分数与真分数的相关,这是部分与整体的相关,可用下式表示:

    信度指数的平方就是信度系数,可用下列公式表示,
                                                    (5.4)
    换言之,信度系数是实得分数与真正分数相关的平方。相关系数的平方表示两个变量间共有的变异数比例。因此,信度系数实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如,当rxx =0.90时,我们可以说实得分数中有90%的变异数是来自真正分数的差别,仅有10%是来自测量误差,在极端例子中,如rxx=1.00,则无测量误差,所有的变异都来自真分数,若rxx=0,则所有的变异均反映了测量误差。
    对信度系数也要注意三点,1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。
    信度系数达到多高才可以接受呢?最理想的情况是 rxx=1.00m,但这是办不到的。不过我们可用已有的同类测验作为比较的基准。一般能力与学绩测验的信度系数在0.90以上,有的可以达0.95,至于性格、兴趣、价值观等人格测验的信度系数,通常在0.80到0.85或更高些。当 rxx<0.70时,不能用测验来对个人作评价,也不能在团体间作比较,当 rxx>0.70时,可用于团体间比较;当 rxx>0.85时,可用于鉴别个人。
    由于信度系数总是在特定情况下获得的,因此只有当一个测验在很多情况下都被证实具有较高的信度时,才可以说它是比较可靠的测验。
    三、信度与测验分数的解释
    信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异.
    (一)个人测验分数的误差
    信度仅表明一组测量的实得分数与真分数的符合程度,但并没直接指出个人测验分数的变异量。由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差。在这个假设的分布里,平均数就是这个人的真分数,而标准差则为测量误差大小的指标。这在实际上是行不通的。然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,、以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。
    测量的标准误可用下式求出:
    SE=S
    这里SE为测量的标准误,  为所的分数的标准差,   为测量信度。从式中可以看出,测量的标准差与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。
    测量的标准误实际上是在一组测量分数中误差分布的标准差,可以象其它标准差一样地解释。因此,个人每次测量所得分数(X)有68%的可能性落在真分数(T)加减一个单位标准误(SE)的范围内,有95%的机会落在真分数加减1.96个标准误的范围内。图5—1表明实得分数在真实分数上的回归,以及距回归线一个标准误的平行线。










    根据公式(5.6),知道了一组测量的标准差和信度系数就可以求出测量的标准误。进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。人们一般采用95%的或然率水准,其置信区间为:
    (X-1.96SE)≤T≤(X+1.96SE)                          (5.7)
    这就是说,大约有5%的可能性真正分数落在所得分数±1.96SE的范围内,或有5%的可能性落在这范围之外。这实际上也表明了再测时分数改变的可能范围。
    例如:在一次测验中有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84,将适当的数值代入公式5.6与5.7,并解之:
    SE=5× =2
    T=80±1.96*2=80±3.92=76.08~83.92
    我们可说这些学生的真正分数有95%的可能性落在76与84分之间。即若再测一次,他们的分数低于76、高于84的可能性不超过5%。
    (二)两种测验分数的比较
    来自不同测验的原始分数是无法直接比较的,只有参照同一个团体的平均分数,将它们转换成相同尺度的标准分数,才能进行比较。
    譬如某班期末考试,张生语文数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。为了说明个人在两种测验上表现的优劣,我们可用“差异的标准误”来检验其差异的显著性,常用的公式如下:
    SEd=                                               (5.8)
    式中SEd为差异的标准误,SE1、SE2分别是两组测验分数的标准误,用SE1= 和SE2=  代入公式5.8可得:
    SEd=                                               (5.9)
    这里S表示相同尺度的标准分数之标准差,Txx表示第一种测验的信度系数,ryy表示第二种测验的信度系数。
    在上例中,假定此次语文,数学考试的信度系数分别为0.84和0.91,张生的两个分数转化成T 分数后,其差异的标准误为:SEd= 5
    采取95%的置信区间(即.05显著水平),,则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8,始能认为二者真有差异。因为数学的T分数只比语文高5分,所以差异并不显著。
    用SE估计个人分数的误差要注意三点:1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,为此,我们要选择最适合某一特殊情况的信度估计来解决问题。例如倘若我们对半年内的分数稳定性感兴趣,我们就以六个月为时距施测两次的相关系数作为信度估计,依据此信度系数求出标准误,再用来估计在六个月内分数可能改变多少。2)这个估计假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。上面所计算的SE实际是整个分数范围的平均测量误差指标。如果分数的分布近似正态,而且实得的分数不超过可能的全距,则测量的标准误差在所有分数水平上近似一致。3)测验上所得分数是一个人真正分数的最佳现成估计,但是,由于存在测量误差,所以它并不是个确切的指标。所得分数对真分数估计得如何精确,可以由SE的大小或间接地由测验的信度显示出来。因为在一般情况下,rxx<1.00,SE>0,所以我们必须将测验分数看成范围或带状,而不要看成确切的点。这条带子有多宽将取决于测量标准误的大小,最终取决于信度系数。rxx越小,SE越大,这个范围便越广。若经常将分数想成是一个范围,我们在比较不同被试的分数,或同一个被试在不同测验上的分数时,就可以克服对分数间的微小判别作出过分解释的习惯。4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正能力则可能导致严重错误,因为它没有考虑到系统误差的影响,真分数与真正能力是两个不同的概念。
    回复

    使用道具 举报

    4

    主题

    50

    帖子

    1073

    积分

    中级战友

    Rank: 3Rank: 3

    精华
    4
    威望
    1061
    K币
    12 元
    注册时间
    2001-9-23
    8
     楼主| 发表于 2004-4-15 20:51 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    第四章  心理测量的误差
    前面我们已经讨论了什么是测验,以及如何编制测验,现在转入研究什么是一个好的测验。
    无论何种测量工具,我们对它起码的要求是稳定,准确。用心理测量学的术语来说,就是要可信和有效。所谓可信是指多次测量的结果是一致的,所谓有效是指正确地测量了所要测的东西。信度是测量一致性程度的估计,效度是测量准确性程度的估计。
    关于测量的信度和效度问题,下边有专章分别讨论。为了考察测量的信度和效度,首先要了解测量的误差。
    第一节  什么是误差
    一、误差的定义和种类
    误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。   
    这个定义包含两层意思,1)误差是由与测量目的无关的变因引起的,2)误差是不准确或不一致的测量结果。
    定义的后一部分又从准确性和一致性两方面对误差做了区分。准确性与一致性的关系可以用射击靶环来说明。假设有A、B、C三支枪,对准靶面中心固定位置后各放9枪,所得结果如图4—1。






    A枪弹着点十分分散,说明准确性和一致性都不好,B枪弹着点虽然比较集中,但偏离靶心,说明一致性好,准确性差:枪弹着点全部集中在靶心,说明一致性和准确性都好。
    图4—1的A和B显示了两种主要的误差形式。  一种是随机误差,又叫可变误差,这是由与测量目的无关的偶然因素引起而又不易控制的误差,它使多次测量产生了不一致的结果。此种误差的方向和大小的变化完全是随机的,无规律可循。例如几个人用同杆秤称同一件东西,由于秤杆高低掌握的不同,所产生的不一致即属随机误差。另一种是系统误差,又叫常定误差,这是由与测量目的无关的变因引起的一种恒定而有规律的效应,稳定地存在于每一次测量中,此时测值虽然一致,但不正确。如有的奸商在秤盘或秤砣上搞鬼,一斤多(或少)一两,二斤多(或少)二两,这就是系统误差。可见,系统误差只影响测值的准确性,而随机误差既影响准确性又影响一致性。这就是说,系统误差只与效度有关,而随机误差与效度、信度都有关。
    二、真分数
    在测量理论中,真分数是个重要概念。所谓真分数就是一个测量工具在测量没有误差时,  所得到的纯正值。这实际上是个循环定义,因为一个量具若测得真值,便没有误差。真分数的操作定义是,经过无数次测量所得的平均值。可见,真分数是一个在理论上构想出来的概念,在实际测量中是得不到的,因为一个测量工具无论多么精确,也会有误差,我们只能通过改进量具来接近真值,而不能完全得到它。
    真分数的定义表明,一个人在一个测验上所得的分数,既是他的真分数的函数,也是测量误差的函数,用公式表示如下:X=T+E    (4.1)
    这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。
    需要说明的是,这里的测量误差(E)指的是引起测量不一致性的变因产生的效应,即指随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。
    在公式4.1中,E可能是正的,也可能是负的。这就是说,一个人的实得分数可能大于真实量,也可能小于真实量,总是围绕着真值上下波动。
    关于测量误差(E)有以下假设:
    1)如果对一个人测量无数次,其平均误差为0,即 =0
    2)真分数和测量误差是相互独立的,即rTE=0
    3)误差分数和实得分数的相关为0,即rEX=0
    公式4.1只表明了在一个特定人身上实得分数、真分数和测量误差之间的关系。在一个团体中,由于每个人的误差都是随机的,方向不同,只要团体足够大,其误差便会互相抵消。因此,一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。证明如下:
                     (T=X—E)                 (ΣE=)0
    对于一个团体来说,实得分数,真分数和测量误差之间有如下关系:

    即实得分数的变异数:真分数的变异数加上误差变异数。
    公式4.2并不难证明:

    以上推导过程。可参看统计学中求和方差的公式。当X=Xl+X 2时,如果Xl 和X 2均为正态分布,则 和数的方差为 公式。
    公式4.2只涉及到随机误差的变异,系统误差的变异包含在真分数的变异中。这就是说,真变异数还可以分成两个部分,与测量目的有关的变异和与测量目的无关的变异,即
                                 (4.3)
    式中的 是与测量目的有关的(亦即有效的)变异数, 是与测量目的无关但却是稳定的变异数。 是由所要测量的变因引起的, 是由其它变因引起的。将公式(4.3)代入公式•(4.2)得到如下公式:
                              (4.4)
    这就是说,一组测验分数之间的变异性是由与测量目的有关的变异数、稳定的但出自无关来源的变异数和潞盛误鏊盛异数所决定的。
    第二节  误差的来源
    一个测验要准确可靠,必须控制各种误差,为此首先要了解误差的来源。
    根据误差定义,任何变因只要与测量目的无关,并使得结果不准确、不一致,便可认为是一种误差因素。在心理测量中,
    常见的误差来源于三个方面:测验内部,施测过程,受测者本身。
    一、测验内部引起的误差
    测验内部的误差主要来源于题目取样:当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大,(譬如一次考试碰巧准备到或没准备到某题),当几个测验复本不等值时,接受不同的题目,就会获得不同的分数。   
    除题目取样不当可引起误差外,其它一些因素,如题目用词的模棱两可,对反应步骤说得不清,题目过难引起猜测,时限短使被试仓促作答等,也都可能成为误差的来源。
    二、由施测过程引起的误差
    在三种误差来源中,与施测过程有关的误差可能是最容易控制和检验的。通过长期实践,测验的标准化水平越来越高,大部分施测条件能够得到控制。但由于心理现象的复杂性,许多意想不到的偶然因素仍可能影响测验分数,使人防不胜防。
    (一)物理环境
    施测现场的温度。光线,声音、桌面好坏,空间阔窄等皆具有影响。
    (二)主试者方面:
    主试者的年龄、性别、外表,施测时的言谈举止、表情动作等均能影响测验结果。倘若不按照规定实施测验,如制造紧张气氛,给予特别协助或暗示,以及计时错误等,都会带来较大误差,特别是当测验具有复杂步骤和说明,或测验题本身是模糊不确定的形式时,当主试者在安排测验条件上有较多余地(例如个别施测)时,当测验是对幼儿,有情绪困扰者以及对测验程序不熟悉的人施测时,主试者的影响更大。
    (三)意外干扰:
    在测验环境复杂,特别是当受试人数较多时,容易发生出乎预料的干扰或分心事件。例如:停电、有人生病,有人作弊,计价表停了、临时发现题目或作答纸印刷不清或装订错误等,无论哪种情况都会引起不安和扰乱,导致成绩不准确、不一致。
    (四)评分计分,
    评分不客观以及计算登记分数出错等也是常见的误差。一般选择题的评分较为客观。而问答题、论文题等自由反应型的题目,评分标准很难掌握,加之阅卷者的偏好各不相同,因而难以保证分数的一致性.
    早在几十年前,国外就有人对旧法考试的评分误差做过研究。斯达奇(D•storch)和埃立奥特(E•C•Elliott)将一份英文考卷请142位英文教员评阅,所得分数从50分到98分应有尽有。某国教育界还有一件引为笑谈的事,1920年夏季,许多大学教授在评阅历史试卷时,有一位教授为评分便利起见,自己写了一份标准答案,不料和其它考卷混在一起,经另一位教授评阅竟然不及格。为慎重起见,由其它教授重复评定,结果所得分数以10分到90分不等。1961年美国教育测验中心由53个评判员组成专门小组。对大学一年级学生写的200篇作文按九个等级评分,结果有1/3的文章得到了九个等级,有60%的文章得到了七个或八个等级,没有一篇文章少于五个等级。一般理科评分要比文科客观些,但也不尽然。罗雪(Ruch)将—道地理题的解答请91位教员评阅,满分为20分,结果给17种分数,全距为2—20,给各种分数的人次见表4—1,斯达奇和埃立奥特将一份几何考卷请115位中学教员评立,所得分数为28—92分,全距60多分。我国1979年高考数学试卷第四题叙述并证明勾股定理,对于
        表4—1  91位教师对于一个地理题的回答所给分数的分布
    分数        0        1        2        3        4        5        6        7        8        9        10        11        12        13        14        15        16        17        18        19        20
    人次        0        0        1        2        0        1        4        3        7        5        24        5        14        8        2        10        2        1        1        0        1
    用余弦定理进行循环论证的答卷,有的阅卷教师不给分,有的却给满分(6分)。不仅各教师间有此差异,即使同一教师一次评许多卷,受情绪,疲劳,外界干扰;卷面整洁、试卷前后位置引起的对比效应以及对学生成见的影响,标准也可能不统一,甚至同一张试卷隔一段时间再评,前后给分也可能不一致。至于学校之间,地区之间的差别就更大了。1980年,清华大学受教育部委托对新生进行数学复试,并与高考数学成绩对照。将各省市学生按两次考试的平均成绩分别排队。G省学生的高考平均成绩居第11名,而复试成绩降到第28名,T市学生成绩次序由第8名降到第23名。相反H省和S省考生的名次由第15名和第18名分别升至第3名和第7名,产生这种变化的原因很多,其中很重要的一条是各省评分标准掌握不同,宽严不一。这就使得学生分散的差异在一定程度上反映的是评分者的差异,而不完全是学生水平的差异。
    对于论文题、问答题要多少人评分,平均分数才能相对稳定和客观呢?国外有人对此做了研究,结果如下:哲学论文127人,作文78人,物理16人,数学13人。
    为了控制与施测过程有关的误差,主试者必须严格遵循标准化程序施测和评分,不得任意改动和发挥,同时要机智地处理各种意外情况。
    三、由受测者本身引起的误差既使一个测验经过精心编制,题目取样具有代表性,又有标准化的施测和记分程序,由于受测者本身的变化,仍然会给测验分数带来误差,这种误差是最难控制的。  
    来自受测者的误差因素,有些是属于个人的长期的一般的变化,有些是与特定测验内容和形式以及特定施测条件相联系的暂时的特殊变化。
    (一)应试动机
    受测者对测验的动机不同,会影响其作答态度,注意力、持久性、反应速度等,从而影响测验成绩;例如,在西方国家,大多数人具有较强的竞争观念,因而在参加能力和学业等要求最高行为的测验时,能尽力做出最好的回答,而在一些少数民族和社经地位较低的团体中,则不大强调竞争,测验的内躯力不强,往往随随便便做出回答。因此,黑人儿童和白人儿童在测验分数上的差异反映的就不完全是能力的高低,其中还掺杂有动机效应。
    动机效应在人格测验中也有表现。譬如,当个性调查表用于选人时,雇主感兴趣的是申请者的典型行为,但有的申请者,为了给人留下一个好印象,在回答时可能考虑雇主的期望或社会道德等因素,而不按自己的真实情况作答,从而给分数带来误差。
    应试动机对测验成绩的影响表现在各方面,如果动机效应使一个人在反复测量中以一种恒定的方式进行活动,这便导致系统误差,使测量的有效性降低,如果受测者的动机引起了偶然性的不稳定的反应,这是一种随机误差,测量的有效性,可信性便都会降低。
    (二)测验焦虑
    测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。和一切情绪反应一样,焦虑的产生既有认知因素的作用,也有生理因素的作用。
    对测验的焦虑会影响被试的成绩。一般说来,适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极影响.过高的焦虑却会使工作能力降低,注意分散,思维变得狭窄,刻板,记忆中储存的东西提取不出来。但一点焦虑没有,也不是好事,内驱力过小的受测者往往采取满不在乎的态度,因而成绩大多较低。焦虑对测验成绩的影响可用图4—2的倒U型曲线来表示。
       





    图4—2  焦虑对测验成绩的影响
    研究表明,测验焦虑受主客观两方面因素影响:
    l.能力和测验焦虑成负相关。能力高的人,测验焦虑一般较低,两对自已的能力没有把握的人,测验焦虑较高。
    2.抱负水准与焦虑成正相关,抱负水准过高,求胜心切的人,测验焦虑较高。
    3.患得患失、缺乏自信、情绪不稳、顺应不良的人产生测验焦虑。
    4.经常接受测验的人焦虑较低,而对测验程序不熟悉的人焦虑较高。
    5.测验成绩对被试关系重大,后果严重,或被试受的压力很大时易产生焦虑.
    6.被试不了解测验的目的,测验的指导语不清,采用了新的题目形式或施测程序,以及有严格时间限制等测验方面的因素,也会增加被试的焦虑。
    (三)学习,发展与教育
    由一般学习经验或发展变化所引起的测验分数上的差异,在大多数情况下,只构成恒定误差。但有时,大多数人对于某个测验没有准备,只有个别人获得了特殊训练,或者在两次测验的间隔期中,有的人获得了特殊的教育和训练,而其他人没有,在这种情况下,第二次测验所得到的分数,既反映了第一次施测时所测量的东西,也反映了在两次施测之间所学到的东西。由于受测者所受的训练量不同,他们的分数就会受到不同的影响,而表现出随机误差。
    (四)测验经验
    受测者对测验的经验也会影响成绩,对测验的程序和技能熟悉程度不同,所得分数便不能直接比较。  
    任何时候只要引入一种新的题目形式或一种新的反应程序,就有可能造成理解上的错误并最终在测验中带来误差。因此,当使用一种新的、不寻常的测验形式或反应方式时,需要提供练习题和演示。在大多数情况下,少量的练习就足够了,但对于很少接触测验的人,练习应稍多一些。总之,在测验前,应尽可能使每个被试都对测验程序有所了解。
    也有另外一种情况,有些人经历过多次测验,发展了测验技能,成为“测验油子”。他们在觉察正确答案与错误答案的细微差别,合理分配时间,以及适应新的测验形式等方面具有丰富的经验,因此常比那些能力相差不多、但缺乏测验经验和技巧的人获得更多的分数。
    (五)练习效应
    任何一个测验在第二次应用时,都会有练习效应而使成绩提高。
    在能力测验方面,练习效果的研究大体获得下列结论:
        1.练习对于智力较高者,效果较为显著。
        2.着重速度的测验,练习效果较明显。
        3.再作同—个测验比作复本的练习效果显著.
        4.两次测验之间的时距愈大,练习效果愈小,相距三个月以上,练习效果可忽略不计。
        5.一般的平均练习效果,约在1/5个标准差以下,但第二次再测后,练习效果即接近于零。
        以上结论只是某些人使用某些测验的研究结果,不一定具普遍意义。
      (六)反应方式
        反应方式是指独立于测验内容的反应倾向。例如,在速度性测验中,有的人“快而不准”,有的人却“宁慢勿错”;在是非题中,有的人有—种“默认反应方式”,即不管内容如何都答“是”,有时甚至会自相矛盾。为了纠正此种误差,应使“是”“非”答案大体相等。
    (七)生理变因
    不但心理因素会影响测验成绩,生病,疲劳、失眠等生理因素也会影响测验成绩而带来误差。能影响测验分数的变因还有许多,实际上任何与测量目的无关的变因都可能引起误差,这里介绍的只是几种主要的,这些变因既能引起随机误差,也能产生系统误差。
    某些情况如计时错误或指导语不当,很明显会产生可变误  差。其它变因,如个人在有关内容方面的知识或技能,通常产生恒定的效果。然而,当两测验施测时距长,在两次测验当中可能产生不同的学习或遗忘效果,这不仅会使分数不稳定,而且还可能是个人的永久改变。测验的标准化就是为了控制这些因素,以减少误差,使测验分数更可信,更有效。
    第五章  测量的信度
    第一节  什么是信度
    一、信度的定义
    信度又叫可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致,否则便不可信。信度只受随机误差影响。随机误差越大,信度越低。因此,信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应,不影响信度。
    在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即,
       
                                                         (5.1)
    式中rxx代表测量的信度,S  代表真分数的变异数,   代表实得分数的变异数,即总变异数。
    根据公式(4.3),信度还可表示为
                                            (5.2)
    该定义有两点要注意:  1)信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。
    任何测验只能包含特定样本的题目,由特定的施测者,对特定的被式,在特定的时间、地点施测,情况不同便会得到不同的分数。信度涉及的主要问题是对测验分数的意义的概化能力,即从一次测量来推论总体(真实分数)能达到何种正确程度。
    根据现代信息论,每组信息可包括一些真正信息(信号)和一些错误的信息(噪音)。为了提供有用的数据,任何测量必须有高的信号噪音比率——即提供更多真正的信息。信号可由真实分数的变异数表示,噪音可由误差分数的变异数表示。
    信噪比与信度有如下关系:
    信号/噪音=                                    (5.3)
    公式(5.3)并不难证明,将 代入上式的右端可得:

    =信号/噪音
    假如一个测验的信度为0.90,则信噪比为0.90/(1—0.90)=9.0即真正变异数对误差变异数的比率为9:1。
    一个测验的信度只要稍微增加一点就会使信噪比大大改变。例如,信度从0.90增为0.91,可使信噪比从9:1,变为10.1:1。因此,即使一个相当可靠的测验也应努力改善其信度。
    二、信度系数
    大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。
    与信度系数有关的一个概念叫信度指数,是实得分数与真分数的相关,这是部分与整体的相关,可用下式表示:

    信度指数的平方就是信度系数,可用下列公式表示,
                                                    (5.4)
    换言之,信度系数是实得分数与真正分数相关的平方。相关系数的平方表示两个变量间共有的变异数比例。因此,信度系数实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如,当rxx =0.90时,我们可以说实得分数中有90%的变异数是来自真正分数的差别,仅有10%是来自测量误差,在极端例子中,如rxx=1.00,则无测量误差,所有的变异都来自真分数,若rxx=0,则所有的变异均反映了测量误差。
    对信度系数也要注意三点,1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。
    信度系数达到多高才可以接受呢?最理想的情况是 rxx=1.00m,但这是办不到的。不过我们可用已有的同类测验作为比较的基准。一般能力与学绩测验的信度系数在0.90以上,有的可以达0.95,至于性格、兴趣、价值观等人格测验的信度系数,通常在0.80到0.85或更高些。当 rxx<0.70时,不能用测验来对个人作评价,也不能在团体间作比较,当 rxx>0.70时,可用于团体间比较;当 rxx>0.85时,可用于鉴别个人。
    由于信度系数总是在特定情况下获得的,因此只有当一个测验在很多情况下都被证实具有较高的信度时,才可以说它是比较可靠的测验。
    三、信度与测验分数的解释
    信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异.
    (一)个人测验分数的误差
    信度仅表明一组测量的实得分数与真分数的符合程度,但并没直接指出个人测验分数的变异量。由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差。在这个假设的分布里,平均数就是这个人的真分数,而标准差则为测量误差大小的指标。这在实际上是行不通的。然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,、以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。
    测量的标准误可用下式求出:
    SE=S
    这里SE为测量的标准误,  为所的分数的标准差,   为测量信度。从式中可以看出,测量的标准差与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。
    测量的标准误实际上是在一组测量分数中误差分布的标准差,可以象其它标准差一样地解释。因此,个人每次测量所得分数(X)有68%的可能性落在真分数(T)加减一个单位标准误(SE)的范围内,有95%的机会落在真分数加减1.96个标准误的范围内。图5—1表明实得分数在真实分数上的回归,以及距回归线一个标准误的平行线。










    根据公式(5.6),知道了一组测量的标准差和信度系数就可以求出测量的标准误。进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。人们一般采用95%的或然率水准,其置信区间为:
    (X-1.96SE)≤T≤(X+1.96SE)                          (5.7)
    这就是说,大约有5%的可能性真正分数落在所得分数±1.96SE的范围内,或有5%的可能性落在这范围之外。这实际上也表明了再测时分数改变的可能范围。
    例如:在一次测验中有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84,将适当的数值代入公式5.6与5.7,并解之:
    SE=5× =2
    T=80±1.96*2=80±3.92=76.08~83.92
    我们可说这些学生的真正分数有95%的可能性落在76与84分之间。即若再测一次,他们的分数低于76、高于84的可能性不超过5%。
    (二)两种测验分数的比较
    来自不同测验的原始分数是无法直接比较的,只有参照同一个团体的平均分数,将它们转换成相同尺度的标准分数,才能进行比较。
    譬如某班期末考试,张生语文数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。为了说明个人在两种测验上表现的优劣,我们可用“差异的标准误”来检验其差异的显著性,常用的公式如下:
    SEd=                                               (5.8)
    式中SEd为差异的标准误,SE1、SE2分别是两组测验分数的标准误,用SE1= 和SE2=  代入公式5.8可得:
    SEd=                                               (5.9)
    这里S表示相同尺度的标准分数之标准差,Txx表示第一种测验的信度系数,ryy表示第二种测验的信度系数。
    在上例中,假定此次语文,数学考试的信度系数分别为0.84和0.91,张生的两个分数转化成T 分数后,其差异的标准误为:SEd= 5
    采取95%的置信区间(即.05显著水平),,则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8,始能认为二者真有差异。因为数学的T分数只比语文高5分,所以差异并不显著。
    用SE估计个人分数的误差要注意三点:1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,为此,我们要选择最适合某一特殊情况的信度估计来解决问题。例如倘若我们对半年内的分数稳定性感兴趣,我们就以六个月为时距施测两次的相关系数作为信度估计,依据此信度系数求出标准误,再用来估计在六个月内分数可能改变多少。2)这个估计假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。上面所计算的SE实际是整个分数范围的平均测量误差指标。如果分数的分布近似正态,而且实得的分数不超过可能的全距,则测量的标准误差在所有分数水平上近似一致。3)测验上所得分数是一个人真正分数的最佳现成估计,但是,由于存在测量误差,所以它并不是个确切的指标。所得分数对真分数估计得如何精确,可以由SE的大小或间接地由测验的信度显示出来。因为在一般情况下,rxx<1.00,SE>0,所以我们必须将测验分数看成范围或带状,而不要看成确切的点。这条带子有多宽将取决于测量标准误的大小,最终取决于信度系数。rxx越小,SE越大,这个范围便越广。若经常将分数想成是一个范围,我们在比较不同被试的分数,或同一个被试在不同测验上的分数时,就可以克服对分数间的微小判别作出过分解释的习惯。4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正能力则可能导致严重错误,因为它没有考虑到系统误差的影响,真分数与真正能力是两个不同的概念。
    回复

    使用道具 举报

    0

    主题

    16

    帖子

    442

    积分

    一般战友

    Rank: 2

    精华
    0
    威望
    442
    K币
    0 元
    注册时间
    2003-12-10
    9
    发表于 2004-4-15 21:48 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    佩服得五体投地!
    狂顶!!!
    回复

    使用道具 举报

    0

    主题

    12

    帖子

    39

    积分

    新手上路

    Rank: 1

    精华
    0
    威望
    39
    K币
    0 元
    注册时间
    2003-11-25
    10
    发表于 2004-4-17 08:47 | 只看该作者

    回复:[分享]郑日昌《心理测量学》湖南版_长篇连载(缺少图片-美中不足啊)

    厉害~佩服~
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册 人人连接登陆

    本版积分规则   

    关闭

    您还剩5次免费下载资料的机会哦~

    扫描二维码下载资料

    使用手机端考研帮,进入扫一扫
    在“我”中打开扫一扫,
    扫描二维码下载资料

    关于我们|商务合作|小黑屋|手机版|联系我们|服务条款|隐私保护|帮学堂| 网站地图|院校地图|漏洞提交|考研帮

    GMT+8, 2026-1-16 19:58 , Processed in 0.128969 second(s), Total 7, Slave 8(Usage:7.75M, Links:[2]1,1_1) queries , Redis On.

    Powered by Discuz!

    © 2001-2017 考研 Inc.

    快速回复 返回顶部 返回列表
    × 关闭