少儿英语测试评价

温柔似野鬼°
571次浏览
2021年02月10日 10:12
最佳经验
本文由作者推荐

-

2021年2月10日发(作者:好时光一起燃)






少儿英语测试评价




测试评价在每一种教与学的过程中都是一个重要的组成部分。


一方面,


“考试是指挥棒”


的说法不可取,不应该让教学围绕考试进行

< p>


(teaching


to


the


tests)


,但另一方面, 我们也承


认,语言测试评价通常与语言教学密切相关,对教学有反馈作用。



设计得当的语言测试评价,


既能帮助学生了解课程 重点以及自己的学习进展,


进而帮助


他们掌握语言,

< p>
又能给学生以成就感,


进而激发他们的学习兴趣;同时,

< br>好的测试评价还能


帮助教师了解自己的教学效果,对教学进行反思,改进教学。< /p>



不过,实际教学中,我们却可以看到,传统的语言测试评价体系 以考试(尤其是笔试)


为唯一手段,


不关心每个学生程度、


兴趣、


学习风格的多样性,


简单地对不同学 生的成绩进


行比较、


排队。


对分数的过 分看重,


对评价的选拔与淘汰作用的过分强调,


使得教师为考而


教,


学生为考而学。


其结果是,


教师的课程内容受到局限,


学生的自主学习能力不但得不到

< p>
发展,反而受到压抑。



正是有鉴于此,新的英语 课程标准提出了与传统的测试评价大相径庭的评价理念:









评价目标由学科知识体系转向学生的综合语言能力;



教学与评价应在共同的教学目标下协调一致、互相促进;



评价手段由单一的考试扩充到包括对学生阶段成绩和发展状态的评价,


在终结性评


价以外引入形成性评价。



本章主要针对形成性评价和终结性评价展开。


对学生的评价,


从评价与教学活动的关系


来看,可以分成形成性评价(


form ative assessment


)和终结性评价(


summative assessment




形成性评价 是在教学活动的进展当中进行,


而终结性评价往往是在一段学习结束后进行。

< p>


种评价提供的信息有很大区别。




第一节



形成性评价



一、形成性评价的概念



在一学期或一 年的学习过程中,


教师可以插进很多测试评价的机会,


对学生的 学习情况


进行评估,


然后利用获得的信息对教学进行有益的改进 。


这种在教学过程中为教师与学生提


供反馈的测试评价就是形成 性评价。


形成性评价与终结性评价形成一种对比,


后者通常是在


一段时期的教学结束后进行,以给试卷或作文打分等形式对已经完成的学习进行评价。< /p>




1


形成性 评价的目的是在教育活动进行当中,


即学生知识、


技能及态度< /p>


“形成”


的过程中,


监控学生知识与技能 的获得。这种进行当中的(


ongoing


)评价提供有关学生 知识与技能获


得情况的关键信息,


可以帮助学生与教师监控记录 学生的学习进展,


还可以帮助教师在制订


教学计划时做到有的放 矢。




二、形成性评价的价值



如果形成性评 价使用得当,


而且对形成性评价的管理是以承认学生中存在


“未 开发的潜


力”


为前提,


那么这种评价可 以显著提高教师的教学和学生的学习收获,


对原来学习有困难


的 学生帮助尤为明显。


在教师反馈给学生的信息能帮助学生更好地学习,

< br>或者是学生自己进


行一种类似的反思活动时,


进行的就是 形成性评价。


形成性评价的这个本质特征决定,


如果

< p>
测试评价的主要目的是支持高质量的学习,那么形成性评价就应该是最重要的测试评价模

< p>
式。




1.


形成性评价对教师教学的帮助



一个完整的教学过程应该包括以下四步:











教师教授学生必要的知识与技能;



学生学习教师教授的知识与技能;



学生掌握所学的内容;



学生能有效地运用所教、所学、所掌握的内容。



如果缺乏及时恰当的评价,


教师心中有数的只有整个过程的第一步。


教师可能认为学生


需要掌握的东西自己都已经教了,

却发现学生并没有学到多少。


只有在学习过程中及时发现


学 生所学内容与教师所教内容之间的差距,


教师与学生才能在为时尚不太晚时加以补救。< /p>



此,需要有系统的形成性评价,以监控与评估学生在获取知识与 技能方面取得的进展。




测试评价可 以有多种不同用途。


好的形成性评价除了对学生的学习外,


对教 师的教学也


能有所帮助:


教学是否有效?学生是否学到了所教的 知识与技能?教的是不是真正重要的内


容?学到的是不是真正的内容?测试评估的是不是 真正重要的内容?定期对学生取得的进


展进行评估,


有助于及时 调整课程设置与计划,


并对学生关注的问题做出适时的响应。


在 学


习关键时段进行的测设评价,


能给教师与学生提供宝贵的发展 性反馈,


帮助他们了解学生是


否在学习上取得了预期的进展。< /p>





教师在了 解了学生的进展与薄弱环节后,


就可以利用这些信息作必要的教学调整。


如重


2


教学生的薄弱环节,


尝试不同的教学方法,


或是提供更多的练习机会。


这些都有助于 学生学


习上取得成功。




2.


形成性评价对学生学习的帮助



形成性评价的一个重要组成部分是教师提供的反馈。


反馈可以帮 助学生了解自己期望达


到的目标与自己当前实际掌握的知识、


理 解或技能之间的差距,


从而引导他们采取必要的行


动以实现目标 。


学生完成测试和家庭作业后,


如果教师的反馈能就存在的问题 提出具体的评


论与具体的改进建议,同时鼓励学生将注意力集中在任务本身而不是简单地 找出正确答案,


这样的反馈对学生帮助最大,


对成绩较差的学生 帮助尤其明显,


因为这种反馈强调只要努力


就能有所提高,


而不是天分低就注定成绩差。


形成性评价打破


“学生将成绩差归因于能力低,


因而对自己感到失望,


所以不 愿意花更多的时间精力继续学习,


成绩差”


这一恶性循环,



持所有的学生都可以进行高水平学习的观点。


尽管形成性评价通常都由教师提供,


但学生也可以通过自 我评估在形成性评价中起重要


作用。研究表明,如果学生理解学习目的和测试评价标准并 有机会反思自己的测试或作业,


他们能取得更大的提高。学习有困难的学生在学会与阅读 和写作任务相关的自我监控策略


后,水平也会提高。



高质量的形成性评价对学生的学习有很大帮助,对学习成绩不好的学生帮助更是明显。

< p>
这种评价是在提高学生总体水平的同时缩小成绩好的学生和成绩差的学生之间的差距。




总的说来,


形成性评价 可以指导将来的课程计划,


开发学生的自主学习能力,


鼓励学生


在现有水平的基础上取得进步。




三、形成性评价的形式与使用



研究表 明,


课堂教学中高质量的形成性评价不多,


大多数教师不太清楚 如何进行这类测


试评价。


多数课堂测试鼓励死记硬背等低层次的 学习;


教师经常强调作业的数量而不是质量。


结果,

< p>
课堂测试对学生学习的影响往往是弊大于利:


对分数重视有余,

< p>
对给学生有用的建议


重视不足;


将学生的成绩排队 ,


导致成绩差的学生认为自己不可能学好。


同时,


由于教师的


课堂测试往往是标准化考试的翻版,导致教师对自己学生的学习情 况缺乏足够的了解。



测试评估可以广泛地定义为教师与学生从 事的一切活动,


只要其目的是得到可以加以诊


断性利用以调整教 与学的信息。


在这种定义下,


测试评估包括教师对学生的观察、


课堂讨论、



3

以及对学生家庭作业与试卷等的分析。


由于形成性评价的目的是了解学生掌握了


(和没有掌


握)


的内容,

< br>以便在教与学的过程中做出相应的改变,


所以在测试评估得到的信息用于调整


教与学以满足学生的需求时,评估就是“形成性”的。


< p>
教师应多利用提问和课堂讨论等方法来扩充学生的知识和提高他们对主题的理解。不


过,


所提问题应该是经过仔细考虑并且学生也需要认真思索的问题,

< p>
而不是简单的事实性问


题;同时,提问后还应留给学生足够的时间做出反应 。客观性试题,如多项选择、填空、简


短回答,


往往强调信息的 获取和记忆,


很难用来测量很多高层次的思考能力以及其他一些重


要的教育目标;


教师提问和课堂讨论则可以要求学生综合已学的知识与技能,


测量他们高层


次的思考能力。



除了这些课堂技巧以外,


如果教师分析学生现在处于学习的哪个阶段,


针对学生的表现


提供具体、


对症的反馈,


并提出提高学习水平的建议,


那么测试与家庭作业也可以用于形成


性评价。测试方面,教师可参考如下建议:









频繁的小测试要比不频繁的大型测试好。



新学的内容应该在学生第一次接触后一个星期左右以内测试。



注意试题的质量,与本、外校教师以及其他专业人员一起收集质量好的试题。

< p>


不管测试评估手段是课堂观察和提问,


还是测验 和作业,


教师都应该经常向学生提供有


关他们学习进展的反馈,


以便学生知道:



1

< br>)


自己是否达到了某个成就水平;


如果没有的话,



2


)学生必须采取什么步骤以达到这一水平 。教师提供的有效反馈包括给学生表述自己理


解的机会,


发掘学 生理解的课堂对话,


以及含有帮助学生提高的机会和如何提高的指导这样


内容的反馈。


给任何学生的反馈都应该是关于学生功课完成的质量,

< p>
加上学生可以如何改进


的建议,而不应该将该学生与其它学生进行比较。< /p>




测试评价提供的信息如果是旨在提高 学习,那么学生是评价信息的“终极使用者”


。要


使形成性评价 信息对学生真正有所帮助,


学生应该理解反馈以便加以利用。


不 过,


要想真正


成功,


学生必须学会自我 评价,


这样他们才能理解自己学习的主要目标,


从而清楚自己需 要


做什么以实现这些目标。形成性评价的形式可以由教师与学生协商确定。



可以利用学生档案选择收集学生的一些作业,


以记 录学生在掌握各项知识与技能方面取


得的进展。


学生档案可以包 括一个学生最好的作业和学生对自己几项作业长短处的评价,



可以包括一些进展中的作业,


这些可以展示学生随着时间推移所取得的进步。

< p>
进行形成性评


价的一个重要依据是学生经过一段时间学习后所取得的进展。



学生档案还可以包括对学生学习情感、


课堂学习行为等进行的评估。


下面的例子摘自


《英

< p>


4


语课程标准解读》




学生课堂学习行为评估量表



1.


对教师提出的问题经常主动回答。



2.


积极参与小组活动,能够同他人合作。



3.


听课时注意力集中,纪律良好。



4.


遇有不清楚的环节能够主动向教师提问。



5.


善于思考,能主动表达自己的不同看法。



1



2



3



4


1



2



3



4


1



2



3



4


1



2



3



4


1



2



3



4


研 究清楚表明,


有效的形成性评价项目涉及的远不止在现有项目中添加一点教师观察和


考试,


而是需要对教学计划的所有主要组成部分进行仔细审查。


显然,


形成性评价与教学实


践密不可分。< /p>


教师需要思考自己的课堂活动、


布置的作业和测试如何对学习目标 起到支持作


用,


并让学生有机会显示自己掌握了哪些内容,


然后教师可以利用这些信息因人施教,


提高


教与学的质量。


因人施教,


不是消极的、


歧视性的分班或分组,


也不是剥夺部分学生的机会,


而是将课 堂测试评价与高质量的课程设置和教学相结合,以保证所有学生都能完成高水平、


有意义 的学习。




第二节



终结性评价



一、终结性评价的概念



终结性评价是 在教育准备活动完成后,


全面评估学生的学习结果。


这种评价试 图在某一


个时间点,


例如一门课结束时,


对学生的学习做一个总结。


终结性评价为确定学生究竟获得


了 哪些知识与技能提供关键信息。




形 成性评价则让教师有机会随着时间的推移、在多种解题环境里监控并指导学生的表


现,< /p>


而终结性评价提供的是某个考生在特定的某一天、


在考试环境下所 表现出的一个瞬态图。


高质量的终结性评价所提供的信息对教师教学的组织和学校教学内 容的制订也有决定性作


用。


要测量学生对知识与技能的掌握程度 ,


需要将一系列学习过程中的形成性评价与学期最


后的终结性评 价结合,以帮助学生取得更大的进步。



终结性评价根据测试用途和考试形式有不同的分类;


设计试卷时需要注意信度、


效度等


要素;此外,听力、口语、写作、词汇、阅读等题型的设计也 各有其特点;如何评分以及如


何分析与解释测试结果也是测试的重要组成部分。本节将就 这些方面一一展开。




5


二、测试的种类



< br>语言测试根据用途的不同可以分成成绩测试、


水平测试、


分级测试、


诊断测试和潜能测


试。




成绩测试(


achievement test


)以教学内容为基础,目的是要衡量学生对授课内容或是教

学大纲要求内容或是教科书及其他资料的掌握程度。


一般的随堂测验、


期中期末测试多属于


这一类测试。



相比之下,水平考试(


proficiency


test


)不针对教学内容,不考虑考生学过什么内容,

也不考虑是怎么学的,


而是测试考生对语言和特定语言用途的掌握,


如考查被测试人是否掌


握进行学术研究所应具备的语言能力。像美国的托福(< /p>


TOEFL,


Test


of


English


as


a


Foreign


Language


)就属于水平测试。



分级测试(


placement test

)是新生入学后进行的全面考查,目的是帮助教师掌握学生的


语言水平,

< p>
以决定教材的难易、


教学进度等问题。


有时还会根 据学生的水平,


将程度相对一


致的学生集中在一起学习,


以做到因材施教。


分级测试需要拉开学生成绩的差距,


所以一般


试题设计得内容比较全面,从易到难的坡度也比较多,以求把学生分数 的档次拉开。



诊断测试(


diagnostic test

< br>)用在课程进展一段时间之后,检验学生到目前为止的学习情


况,


通过评估学生拥有的某一方面的知识,


确定修正错误所需要的知识。

< p>
诊断测试可以考查


单个项目(如被动语态)


,也可 以是综合性的。由于考试只限于近期教学内容,所以考试时


间不长。

诊断测试的目的是为了发现教与学的问题以及学生知识与技能掌握的不足之处,


以< /p>


便因人而异,对症下药,调整教学计划,改进教学。




潜能测试



aptitude tes t



用来预测学生的学习潜力和天赋。


这种测试在我国使用不太多,


在这儿也不多讲,仅举一例。美国的学术潜能测试(


Scholastic Aptitude Test, SA


T


)预测高中


生在大学的学习能力,由于


SA


T


成绩与考生的大学学习成绩相关系数很不错,很多美国大


学在录取招生时都把


SA


T


成绩视作一个重要的判断依据。




三、测试的要素





衡量一次测试的好坏,主要的标准是测试的效度和信度。




1.


效度



效度(


validity


)是看一次考 试是否测试了想要测的项目。例如,早期的托福考试用多


项选择题的形式测试学生的写作 水平,


结果发现学生可能做选择题时对时态、


主谓一致等内



6


容都似乎掌握了,

< br>但到他们真正用英语写作时,


问题就都出来了。


这就是一 个没有测到真正


想测内容的例子。正因为此,从


1987


年起,托福考试单加了一项写作的内容。



提 到效度往往要涉及以下几种类型:


表面效度、


内容效度、


编制效度、


共时效度和预测


效度。

< p>


表面效度



face validity



是指卷子首先看上去得让人觉得合适,


尤其是让考生觉得合适。


表面效度高的测试容易引起考生的兴趣。< /p>




比表面效度更重要的是内容效度(


content valid ity



,这个要基于语言教师或测试者的专

< br>业判断,


他们在自己对语言知识和教学大纲掌握的基础上,


判断考卷中是否应该考查的语言


要素和技能都有所体现。


例如 ,


如果要考查的技能之一是学生的写作技能,


而卷子全部由多< /p>


项选择题组成,可能内容效度就不会太高。




编制效度



construct va lidity



是说一套测试要以一定的语言行为理论和语言学 习理论为


依据。内容效度和编制效度联系非常密切。




共时效度(


concurrent validity


)是将一次测试的结果,同另一次时间相近、公认效度较


高的测试的结果相比较而得到的系数。


例如,


比较在 某年元月先后参加了托福考试和清华大


学英语水平考试的学生两次考试的成绩,如果得分 情况相似,即两组成绩的相关系数较高,


那么清华大学英语水平考试就有较高的共时效度 。




预测效度(


predictive


v alidity


)是将一次测试的结果,同后来的测试结果相比较而得到


的系数。这涉及到测试的预测能力,即测试结果在多大程度上能预测考生未来的学习成就。


类似地,


假设参加清华大学英语水平考试的一些学生一段时间后又考了托福考 试,


如果得分


情况相似,即两组成绩的相关系数较高,那么清华 大学英语水平考试就有较高的预测效度。




2.


信度



信度(


reliability


)是指测试结果的一致性(


consistency



。以水平考试为 例,如果一项


水平考试每年都举行两次,


那同一个学生在准备程 度相似的情况下,


在哪一年或在那一年的


哪一次参加考试,对他


/


她的成绩造成的影响应该可以忽略不计,这项考试的信度才高 。同


时,


从阅卷人因素来看,


同一份卷 子由不同的阅卷人阅卷所得分数大致相同,


或是由同一个


人在不 同时间阅卷所得分数也大致相同,这项考试的阅卷人信度才高。




影响信度的因素很多。


例如,


有的学生上午考试更能发挥水平,


有的学生则下午考试更


能发挥水平,


这样,


同样的考试究竟是在上午举行还 是在下午举行对不同的学生可能就有不


同的影响。


又如,


有的考试需要使用录音机,


如果不同考场使用的录音机放音效果不同,




7


至同 一考场内考生坐的位置离录音机有远有近,都有可能对考生的成绩造成影响。




不过,


影响信度最主要的因素有两条 :


试题的采样和评分。


决定测试信度的一个重要因


素是试题是否有代表性,


覆盖面够不够大。


效度主要 看项目的内容,


信度还要看试题采样的


多少。采样越多,信度越 高。因为客观测试的试题量一般比主观测试大,所以更有代表性,


也更有可能排除各种偶 然因素,


也即信度一般更高。


决定测试信度的另一个重要因素是 阅卷


人因素。


如果同一份卷子由不同阅卷人阅卷所得分数区别较 大,


或是由同一个人在不同时间


阅卷所得分数区别较大,


这项考试的阅卷人信度显然不高。


因为客观测试的评分不太受阅卷


人的影响,


因此信度较高;


而主观测试则由 于评分常常在较大程度上因阅卷人而异,


因此难


以达到较高的信 度。




一次好的测试应该既有较高的 信度又有较高的效度。


效度和信度有着密切的关系,


但又


不能混淆起来。对测试来说,信度是必不可少的,但信度离不开效度,效度起决定性作用。


如果一份试卷信度差,


则必然不可能准确测试出学生对所考查知识和 技能的掌握程度,


因此


效度也差;但一套卷子却有可能完全没有 测出想要测的语言要素和技能(即效度差)


,却有


不错的信度,


不过这样的试卷同样也起不到应起的作用。


归纳起来,


信度差则效度差,


但效


度差不一定信度差。不过 只有信度和效度都不错,测试才能真正起到应起的作用。




四、不同类型测试的设计




阅读理解、语法、词汇、听力、口语和写作的测试各有其特点,下面我们就这几种测试

< p>
题型的设计分别展开讨论。





1.


阅读理解测试的设计












阅读理解题型常考以下几种阅读技能:



(1)


理解文章主题和中心思想



(2)


辨认主题展开的重要细节



(3)


辨认阅读材料中的指代关系



(4)


作结论或进行推论以理解隐含的概念或观点



(5)


理解作者的观点和态度



(6)


略读以获取阅读材料大意



(7)


快速查找特定信息



8



(8)


利用上下文猜测生词和短语的含义



(9)


理解句子内和句子间的上下文逻辑关系,如因果关系、 比较与对照关系、定义、分


类、举例



(10)


理解文章中关键句和难句的含义并译成汉语


< br>阅读理解最常见的测试形式是多项选择题。


其他还有正误判断、

< br>简答、


完成句子、


完成


图表等。



多项选择题是给出一个问题或不完整的句子,


让学生根据阅读文章的内容,


从几个选项


中(通常是四 个)选择最佳选项回答问题或是完成句子。正误判断题是给出几个句子



statements



,让学生根据阅读文章的内容 ,判断句子的内容是对是错。下面对两种题型的


设计分别展开讨论。



多项选择题由三部分构成:题干(

stem



,即问题或是不完整的句子;正确答案(


key




和干扰项 (


distractors



。阅读理 解的设计应注意以下一些问题。




第 一,


每个题目只能有一个正确答案。


有的题目为了难倒学生,< /p>


特意将几个选项设计得


都像正确答案,模棱两可,最后有可能实际 上不止一个正确答案。例如一段文章以


Still, it is


possible to buy low.


结尾,题干是


The last paragraph is most likely to be followed by _______


,< /p>


正确答案和其中一个干扰项分别是:


techniques


of


buying


gold


jewelry



techniques


of


investing in gold jewelry


。从文章内容来看,在这儿猛抠“


buy


”和“


invest in


”的区别意义不


大。




第二,


每个干扰项都应起到干扰作用 ,


不能是学生一眼就可以排除的。


有些选项很荒唐,

< p>
显然不可能是正确答案,


还有些选项很容易根据常识排除,


这些都是出干扰项时应该避免的。


有的题学生不用读原文就能回答,

< p>
这是阅读理解测试中最忌讳的事。


例如,


下面一题 学生不


用读文章就能轻易找出正确答案:








Which of the following is NOT the advantage of the essay test?


A. It can reduce the element of luck.


B. It can test the ability of the students to express their ideas.


C. It may show how deeply a student has thought about the subject tested.


D. Even the same teacher may give different scores for the same answer at different times.


题干问的是以下哪一项不是观点性测试题的优点。学生根据常识也能知道 选项


A



B



C



优点,选项


D


肯定不是优点,所以无法测试学生是否读懂了原文,甚至无法测试学生是否


了解什么是“


essay


test

< p>


。如果要对这一题加以改进,可以在干扰项中加入客观性试题的优



9


点,例如


It is easier to score


或是


It is more reliable


等,



一道题中就算只有一个干扰项可以轻易排除,


那这一道题学生猜对的可能性就会从


25%


上升到


33%


。如果多道题的干扰项都有这个问题,那整套题的信度和效度就都会受到影响。




第三,选项之间要具有可比性。一方面,不能把苹果和桔子做 比较。例如,一道题的题


干是


He had worked there for ___________


,四个选项中两个选项是时间长度(如,


8 years



< br>另两个选项是工资多少(如,


$$8 an hour


)< /p>


。这几个选项之间的可比性就不太好。选项之间要


有可比性还意味 着,


几个选项的长度应该大致相同。


为了正确答案无懈可击,< /p>


有时候试题编


写人员可能会将这个选项设计得格外详细准确,


但如果选项之间长度相差太大,


学生可能会


受到


“提示”



猜出正确答案。


上面一道有关观点性测试题的考题,


也存在这方面的问题





< br>确答案(选项


D


)明显比干扰项长。



第四,题目的措辞应与原文有变化。如果题目(题干和 正确答案)太接近原文的文字,


学生可以照搬原文内容找到答案,


就达不到测试的目的。


题目的措辞应与原文有所不同,



样才能考查学生是否真正读懂了文章。例如:




Over


very


many


years


there


has


been


an


increase


in


the


population


of


towns


in


many


countries, as millions of people have moved from the villages in search of better jobs and facilities,


in the hope of getting a higher standard of living. This development has led to huge expansions of


towns both upwards into the sky and outwards into the surrounding countryside. In spite of all the


efforts


of


governments


and


private


business,


many


areas still


suffer


from


a


serious


shortage


of


housing.



Now, a new idea has been put forward which will utilize areas which have no other obvious


commercial potential.


如果题干是


What is the main advantage of the new idea?



那么与


It will utilize areas which have


no other obvious commercial potential


相比,


It will help relieve the problem of housing shortage


就是一个更好的答案,因为后者可以考察学生对文章是否有一个整体把握。




多项选择题由于评分的客观便捷而受到广泛使用,

< p>
但由于猜答案的可能性和试题设计困


难等因素,


也 由于多项选择题更多地是考查学生的语言接受能力,


而不是语言运用能力,



在这种题型已不再像过去那样风靡。


如果人力充足 ,


应该减少多项选择题的使用,


至少应保


证一定量的主观试题,如简答、完成句子、完成图表等。




与多项选择题类似,


正误判断题的优点是评分简单可靠,


缺点是学生可能猜对正确答案


(猜对的可能性高达

50%



。现在有的考试,如雅思(


IELTS, International English Language



10


Testing Service



,除了“正确”和“错误”以外,又加上了“无法根据文中信息进行判断”


的一个选择,使猜对的可能性从


50%


降到了< /p>


33%


。要求考生读完一篇文章后,判断一些句

< br>子是否与文中提到的信息一致,


还是根据文中出现的信息无法判断正误。


例如,


在一篇有关


美国司法机构的文章后,可能 会出现这样的题:


Do


the


following


statements


agree


with


the


information given in Reading Passage 5?


In boxes 20



23 on your answer sheet write:



YES



NO




NG



if the statement accurately reflects the information in the passage


if the statement contradicts the information


if there is no information about the statement.


20. The V


ice President never votes in the Senate.


21. In the Senate, the Vice President plays a not very important role.


22. Representatives usually serve a shorter term of office than senators.


23. Representatives are younger than senators.





2.


语法的设计




语法测试最常见的形式是多项选择题


(包括用选项完成句子和识别语法错误)


和填空


(包

< p>
不过总的说来,正误判断形式现在的使用还是呈减少的趋势。



括用适当形式填空和选词填空)



< /p>


多项选择题


(用选项完成句子)


的设计应 遵循阅读理解测试多项选择题设计的前三项注


意点,


而且语法测 试多项选择题题中干扰项最重要的参考资料应是学生以往测验和作业中犯


的错误。


依据这样的素材设计的干扰项效果较好,


且与教学有密切联系,


往往比照搬其他试


题对学生的学习和教师的教学有更大帮助。



除此以外,语法部分多项选择题的测试还有一些特殊的要求。



第一,


由于语法部分多项选择题题干的长度往往只有一到两句话 ,


没有上下文语境,



题编写人员心目 中有一个语境,


继而有一个语法考点和一个正确答案,


但有可能 还存在其他


语境的可能性,从而造成正确答案的不唯一性。例如,题干是


Is there _______ chalk in this


room ?


,其中两个选项分别是


some


和< /p>


any


。出题者心中想到的可能是疑问句中用

any


,但却


没想到,如果说话者觉得房间里有粉笔的话, 空格中填


some


是完全合理的。要避免这种情


况发生,试题编写人员可以请其他试题编写人员或教师先试做试题。



第二,


每道题只测一个语法点。


这样既有利于突 出教学重点,


又有利于发现学生的弱点。



11


例如,有的试题可能同时考了时态和词序,就不太合适。例如:



I never knew where _______.


A. had they gone


B. they had gone


C. have they gone


D. they have gone


第三,


除非正是要测的语法知 识,


否则干扰项本身应该语法正确


(如不宜用

< br>a architecture


这样的选项)


。不能因干 扰项设计不佳而让学生能一眼排除。



用多项选择题测试语法知 识的另一种形式是识别一个句子中的四个划线部分哪一部分


有语法错误。


在这种题型的测试中,


三个正确的划线部分就是干扰项,


请参考上面所提到的


干扰项出题要求。


课堂练习和测试中常用的一种题型是填空。一种测试形式是在一段句子中留出一些空,


并给出空格应填词的原形,


要求学生根据上下文用所给词的适当形式填空。

< p>
例如,


用下列括


号中动词的适当形式填空:




All


summer


long


they


_______


(wait)


for


the


harvests with


great


anxiety,


_______ (know)


that


their


lives


and


the future


existence


of


the colony


_______


(depend)


on


the coming


harvest.


Finally the fields _______ (produce) a yield rich beyond expectations. And therefore it _______


(decide) that a day of thanksgiving to God _______ (fix).


填空的另一种测试形式是给学生提供一些词和 一段去掉了一些词的句子,


要求学生从所


提供的词中选词填空,


完成句子。


这种题型要注意的是,


所提 供词的数量应多于空格数,



则最后一空等于不用填。另外,应 注意提供的多余的词(即干扰项)不能用在任何一空,否


则就会有空格有两个答案。例如 ,选择合适的词填入空格:



comparison











ahead












on













regional












consist


study
















weak













in













with



At


a


stroke,


the


geography


of


the car


industry will


have


been


transformed.


Detroit will


no


longer




1




of


two


global


giants,


Ford


and


General


Motors,


and


one




2




car


maker,


Chrysler. In the American market, Chrysler, which has been




3




in passenger cars, will be able


to


draw




4




the


engineering


expertise


that


has


produced


Daimler-


Benz’s


peerless


Mercedes


cars.




In Europe, a merger would have an even


greater significance. Daimler now leaps




5




of


12


its


European


rivals, whose


international


plans


suddenly


seem small


by




6



.



7




Mercedes,


all of the European car makers will now face a strong competitor.



3.


词汇测试的设计





词汇测试是语言测试的重要组成部分,它与多种其他测试题型 的相关性都很明显。



测试词汇最简单的方法是让学生写出英语 单词的汉语意思。


例如,


写出下列词的汉语意

< br>思:




assist ()



establish ()



prove ()



permit ()


这种题型的优点是直截了当,


能直接测出学生是否知道所 考的词汇。


缺点是有些词是多


义词,


而 且答案不能用机器阅卷。


为了避开这些问题而演化出来的一种题型是,

< br>给出一个英


语单词和四个汉语选项,看哪个选项是所给单词的汉语意思。例如:< /p>





assist



a.


蚂蚁




b.


帮助




c.


坚持




d.


组成



以上两种题型的共同点是,


词汇的测试都没有上下文语境。


要有上下文语境,

< br>可以把单


词放到句子中测。


这同样可以有两种题型:


从四到五个选项中选词完成句子或是选词替换句


子中的划线部分。例 如:




1. They have _____ to the files.


A. way




B. means


C. path



D. access


2. Bridges over railroad tracks eliminate danger in crossing.


A. get rid of


B. increase


C. reduce


D. bring about


这类多项选择题的设计也要遵 循阅读理解测试多项选择题设计的前三项注意点。


除此以


外,词 汇部分多项选择题的测试还有一些特殊的要求。



第一,


测词义时,


选择项要比测的词容易。


所测词的 难度一般能说明学生的英语学习程


度,如果选择项太难,很可能超过了学生的英语学习程 度,因而达不到测试的目的。例如,


上面


eliminate< /p>


同义词的选项中如果出现了


expunge


或是


deteriorate


等词,就不太合适。

< p>


第二,


选词替换句子中划线部分的题型,


干扰项放在句子中应该不至于使句子显得荒唐


可笑。例如,下面一题干 扰项


A



B



D


放在句子中意思都很难成立,学生轻易就能用筛选

< p>
法确定正确答案:




He expressed his gratitude to her for her favorable help with the experiment.


A. congratulations




B. sphere


C. thanks


13


D. sympathy

-


-


-


-


-


-


-


-