从“笔尖误差”到“科学公平”——41年前一篇论文如何改变了中国高考

时间：2026-06-11 14:18:01 来源：国际财经网浏览次数：我来说两句() 字号：TT

又是一年高考季，答题卡填涂、选择题作答已是全国考生备考日常。鲜为人知的是，如今高考试卷里举足轻重的选择题答题模式，源自41年前北京师范大学郑日昌教授、张厚粲两位教授的实证研究。

在高考这座“独木桥” 上，一分之差足以改变无数学子的人生轨迹。41年前，北京师范大学郑日昌、张厚粲两位教授发表的一篇论文，首次用翔实数据揭开了高考主观题评分的 “神秘误差”，更直接推动了高考标准化改革、客观题普及与阅卷技术革新，为高考公平筑牢了科学根基。如今，当千万考生奋笔疾书、机器阅卷精准判分时，这段从 “主观裁量” 到 “科学公平” 的改革往事，依然值得被铭记。

1983年，全国尚无统一阅卷标准，主观题占比极高，评分全凭阅卷教师经验与判断。彼时，郑日昌团队开展了一项开创性调研：从北京随机抽取语文、政治、数学、物理每科各 5份考卷，复印后分发到全国 28个省市自治区阅卷组独立评分；同时在某省内，让不同阅卷组、同组不同教师交叉评阅同一份试卷。

调研结果堪称“触目惊心”，1985年《教育研究》刊发的《对高考评分客观性的调查分析》，首次将这些数据公之于众：

地区间差异悬殊：语文卷不同省市评分最大差异达33分，政治卷达 23分，数学、物理卷也有十几分差距。

省内组间、教师间偏差突出：同一省内不同阅卷组，语文卷评分差23分，生物卷差 10.4分；同组两名教师批阅同一篇作文，议论文部分分差可达 10分。

一旦所有题目评分同向偏差，总分误差会被无限放大。彼时，高考按省市内排名录取，不少人认为“省市间误差不影响公平”，但郑日昌团队明确警示：同一水平考生，仅因阅卷地域、教师不同，就可能出现 “甲地落榜、乙地录取” 的不公，这种 “笔尖上的误差”，对寒门学子而言更是难以承受的命运偏差。

这篇论文的发表，犹如一颗“惊雷”，直接推动教育部正视高考评分公平问题，成为中国高考标准化改革的 “导火索”，其影响贯穿 40余年改革历程，重塑了高考评分的公平底色。

该论文核心建议之一，就是增加客观题比重、推行机器阅卷，这一建议迅速被采纳。

1984年，高考首次试点引入选择题；1985年，广东率先在英语、数学两科开展标准化考试，大规模增设选择题、填空题等客观题，开启 “机器阅卷” 时代。

1986-1990年，标准化考试试点从广东扩展至全国 16省份；1991年起，全国所有高考科目全面推行标准化考试，客观题成为试卷核心题型，“填答题卡” 成为一代考生的集体记忆。
除了增加客观题，该论文还提出了“设立专门考试机构，推行标准化测验”、“建立试题库，把命题变成经常性工作”、“改进非客观性题目的命题和评分技巧，尽可能使之标准化、客观化”等建议。

附郑日昌教授、张厚粲教授论文原稿：

对高考评分客观性的调查分析

郑日昌，张厚粲.教育研究，1985(2):26-31

考试作为测量学生学业水平的工具，必须稳定可靠，即考试分数必须反映学生的真实水平，用测量学的术语来说，就是要具有高信度。影响信度的因素是多方面的，考察信度的方法也有很多，本研究仅从评分的客观性方面对我国高考的信度做一调查分析。

一、研究方法

（一）1983年高考评卷之前，从北京市随机抽取语文、政治、数学、物理每科各五份考卷，复印后分发到全国除西藏、台湾外的二十八个省市自治区，请各地区高考阅卷组分头评分。考生成绩仍以北京地区为准。

（二）请×省高考阅卷组，依照上述原则，从所有考试科目中每科抽出五份考卷，复印后由同一科目的各个阅卷组分头评分。又在语文考卷中任意抽出一本（30份考卷），请同—阅卷组中批阅同一题目的两位教师对作文题分别评分。以上考生的成绩，按各组或两位教师给分的平均分计算。

（三）为了深入了解评分中的具体问题，笔者随教育部高考阅卷检查组赴×省实地考察了评分过程，抽看了部分考卷。同时分别召开了各科阅卷教师的座谈会，征求他们对试题的意见，共同分析产生评分误差的原因，得到了许多第一手材料。

（四）将各地评阅过的复印考卷集中起来，逐题登记分数，然后从以下几方面对评分的差异作比较：全国各地区间的评分差异；同一省内各阅卷组间的评分差异；同一阅卷组两个教师评分的差异；各地区和各阅卷组在每～题目上的评分差异。

（五）根据统计结果，把评分差异较大的试题与教育部统一印发的标准答案对照，具体分析造成评分不一致的原因，把定量分析与定性分析结合起来。

二、统计结果

（一）二十八个省市自治区对语文、政治、数学、物理每科各五份考卷评分的差异见表1。

（二）×省各科不同阅卷组对同一份考卷评分的差异见表2（为节省篇幅，每科只列出一份考卷的分数）。

（三）二十八个省市自治区对语文、政治、数学、物理考卷各题目评分的差异见表3、4、5、6（为了节省篇幅，每科只比较一份考卷，除语文外，一般不列小题分）。

（四）X省不同阅卷组对化学、生物、地理、历史、英语五门考卷各题目评分的差异见表7、8、9、10、11（为节省篇幅，每科只比较一份考卷，不列小题分）。

三、讨论分析

高考是我国选拔人才的重要途径，虽然标准化水平还不够高，但通过多年实践已经积累了较为丰富的经验，从命题、施测到评分，有一套严格的组织管理办法，对各种影响测验分数的误差因素尽可能做了控制，多数考卷基本上反映了考生的真实水平。

但是，由于传统考试方法本身的局限，评分要做到完全客观是不可能的，特别是论文式题目，评分误差几乎是不可避免的。从统计结果看，无论是各地区间，还是同一地区各阅卷组间；无论论文题还是简答题、计算题，都在不同程度上存在评分误差。从表1、表2可以看出，评分误差最小的科目是英语，因为大量采用选择题和填空题，五份考卷误差最大的只有1.5分。评分误差最大的科目是语文、政治，原因是考卷中论文题占的比重较大。同一份语文考卷，不同地区评分的差异最高达33分，同一省不同阅卷组评分的差异亦高达23分；政治考卷的评分差异最高也为23分。理科中评分误差较大的是生物，同一考卷在同一省的不同阅卷组间分数相差10.4分（满分50分）。数学、物理考卷不同地区评分差异也高达十几分。

在所有科目中，误差最大的题目莫过于作文。语文试卷第五题第一部分是看图写一篇说明文，满分15分；第二部分是根据图的内容写一篇议论文，满分30分。从表3中我们看到，同一份考卷（E），说明文部分有的给13分，有的给4分，议论文部分有的给26分，有的给8分。在45分的作文中，误差竟然达到27分。同一阅卷组中两位教师对三十份作文的评分（限于篇幅，未将分数全部列出），总的看来比不同地区评分的差异小得多，但也有个别考卷评分差异较大。说明文部分两名教师给分相差5分以上的有八份，差异最高达9分，与地区间的评分差异相同。有一份考卷议论文部分，甲教师给15分，乙教师给25分，相差10分之多。考虑到同一省内评分细则完全相同，二人又在同一阅卷组评阅同一题目，出现如此大的差异，不能不令人惊异。

调查中还发现，不同地区或不同阅卷组对同一份考卷中各题目评分的累加差异普遍大于考卷总分的差异。例如，语文考卷E，政治考卷B、数学考卷A、物理考卷C，总分差异分别为33、23、15、13分，而各题目的分数差异累加起来却分别达到51、38.5、33、19.5分。产生此种情况的原因是多方面的。通过对各地区回收考卷逐题分析比较，我们发现：有的地区对各题目评分普遍偏高或偏低；有的地区在一些题目上给分偏高，在另一些题目上给分偏低；还有的地区在同一题目上，对一些考卷给分偏高，对另一些考卷给分偏低。这样，各题目的分数差异有时便会互相抵消，而使总分差异减小。由于在每份考卷和每个题目上分数差异的方向和大小带有随机性，如果一份考卷碰巧每个题目都得了偏高的分数或每个题目都得了偏低的分数，总分的误差便会很大。高考是依据各科总分决定取舍的，每科都会有少则几分，多则几十分的评分误差，六、七科考卷的误差累积起来有多大是可想而知的。

由于条件限制，在我们的研究中，每科只是随机抽取了五份考卷，没有作更多的比较。因此，不能认为我国高考的评分误差就是像上面所列的那样大，更不能认为每个学生的考卷都有如此大的误差。如果再抽一些考卷，误差可能比这小，也可能比这更大。从我们的研究中虽然不能推论出产生这样大误差的机率有多大，但也不能把这种误差完全看作是个别情况而不加重视。

根据测卷教师在调查会上反映的情况，造成评分误差的原因，主要有以下几方面：

（一）试题本身

有些题目评分不客观是由于题意不清或要求不明确造成的。如地理考卷笫五题最后一问：“西双版纳在发展经济作物方面有哪些有利条件？”标准答案上列的是“不受寒潮影响”，“不受台风影响”，“干季多雾”。均指自然灾害较少，但题目本身并没有限定从哪方面分析。有些阅卷教师认为，对于从气温、地形、交通等方面作分析的，只要言之成理，也应适当给分。又如物理考卷第六（3）题只问“玻璃管的位置是否变化，如何变化”，并没问为什么变化。可是在评分标准中却规定不分析为什么变化不给分。

（二）评分标准

评分标准不明确是产生评分误差的主要原因。如语文考卷第五题议论文部分，虽然分成五个等级评分，但对每个等级的划分失之笼统抽象，阅卷时不易掌握。对于什么是画面的“中心论点”，何为“深刻”，有各种理解。有的认为画面告诉人们“做事要持之以恒”，有的认为画面的主题是“重在调查研究”。学生的答卷五花八门，教师在评分时见仁见智，争论不休。因为阅卷时间紧，不可能做过多的讨论，便只好由个人主观定夺。我们抽取的语文学卷B，该生议论文的题目是“脚踏实地，不可浮躁”。某省给了9分，而另一省却给了27分（几乎满分），相差18分之多；考卷A议论文的题目是“人生在于贡献不在于索取”，有两个省给10分，三个省给0分，通过对答卷仔细分析，发现二者都有一定道理。评分标准规定，“虽能从图画中概括出思想基本正确的中心论点，但泛泛而谈，说理不充分，语病较多”者给7-14分（第四等）：“基本观点有严重错误，思想感情极不健康，文字杂乱，语病很多”者给0--6分（第五等）。有的阅卷教师可能认为，文章的议论与画面毫无联系（对挖井事只字未提，只是不着边际地从雷锋讲到蒋筑英，张海迪，说明人生在于贡献），是把事先准备好的一篇文章不加变化地搬过来，因此给了0分；有的阅卷教师可能认为，文章的基本观点是正确的，思想感情是健康的，文字并不杂乱，语病亦不很多，不能归为五等，因此给了四等的中间分数（10分）。像这样大的评分误差在其他学科虽然不多，但有伸缩性的评分标准却时有所见。如政治第六题的评分标准中说：“本题重点要求回答相对静止的两种情形。如从物质和运动不可分的原理来分析，可根据要点酌情给分。”至于酌什么情，给多少分却没有说明。这种不够严密的评分标准，在理科偶尔也会见到，如物理第四（3）题的参考答案说明，“作圈点在正确位置附近，曲线基本平滑即可”，这里的“附近”，“基本”等用语都使阅卷教师感到难以掌握。

与这种含糊其辞的标准相反，标准定得太死太细也不见得好。如历史第六（2）题“联系十九世纪末期民族危亡的形势，评述康有为从事维新变法的主要活动”，答案共12句话，每句1分，教师在评阅时，少一句扣1分。有些学生论述深刻，言简意明，有独到见解，但与评分标准上的不符，便只能得较低的分数；而有的考卷逻辑混乱，拉拉杂杂，东一句，西一句，只是十二个关键字词点到了，便可能得高分。这种情况在地理、政治等科也存在。我们抽取的政治考卷E第十题，最高给15分（满分），最低给6分，主要原因就是有的阅卷者严格按答案要点给分，有的阅卷者比较灵活造成的。

据阅卷教师反映，有些题目的评分标准定得不够合理。如语文第四（3）题是给一段文言文注标点和翻译，共34个标点，18个句子。评分标准规定：“标点每错一处（引号的前半和后半各算一处）扣一分。应加标点的地方未加标点，不应加的地方误加标点，都扣分，扣完5分为止。翻译每错一句，扣2分，扣完10分为止”。整个题目15分，只要点错5个标点，译错5个词语，尽管整段文字的主要意思已经译出，也与全然不懂或交白卷同等对待，这显然是不公平的。在×省统计了十个考场的300份考卷，有207人得0分，其中多数人对古文还是有一定阅读能力的。当然，也有的阅卷教师不按此标准执行，如我们抽的考卷D，对此题有两个省给0分，一个省给13分，一个省给14分。一段文言文的标点和翻译竟然相差l4分之多（从0分到接近满分），不是亲眼所见，实在令人难以置信。

除了评分标准不客观以外，来自考卷本身的问题也会带来误差。如有的考卷字迹不清，或不按规定步骤答题等，都会给评分造成困难。

（三）阅卷者的主观因素

在评分标准不很客观的情况下，阅卷者的身份、水平和心理状态不同，便可能给出不同的分数。

1.身份

一般说来，大学教师评分偏严，强调科学性；中学教师评分偏宽，强调从中学教学实际出发，为此常常发生争执。例如物理第一（3）题，大学教师根据标准答案，要求保留2—3位有效数字，而中学教师认为题目中并没说明保留几位小数，物理教学大纲中也没要求对学生进行这方面训练。从调查中还发现，多次参加阅卷的教师经验丰富，阅卷速度快，但有时难免疏忽；而初次参加阅卷的教师，虽然业务不熟，但工作较为认真，扣分往往偏严（怕别人说自己水平低看不出错误）。当然，这里所说的只是调查会上部分教师的看法，不一定有普遍性。

2.水平

每年阅卷都需要大量教师，有些学校因各种原因，派出来的并不是有经验的骨干教师。如有的大学中年教师不愿参加评卷（出外讲课或写文章收益更大），由刚毕业的青年教师或实验员、资料员代替。庞大的阅卷队伍，水平参差不齐。有的教师自尊心强，遇有疑难不好意思问人，因而会出现误评。

3.态度

参加阅卷的教师大多数态度是积极的，工作是认真负责的。但也有些教师身体不好，或家中有事，是领导动员来的，后来工作紧张，生活条件差，个别同志不安心工作，评卷时不够认真，常出差错。

4.风格偏好

每个阅卷教师都有自己的风格偏好，有的喜欢辞藻华丽，有的喜欢论述深刻，有的对逻辑严谨，条理分明格外欣赏，有的对卷面整洁，字体秀丽给予加分，所有这些都会造成评分误差。

5.情绪心境

情绪愉快和忧郁，心境平和与激动，头脑清醒与疲倦，睡眠充足与失眠，这些不但影响阅卷的效率，而且会影响评分的客观性。在不同的情绪心境下，给分的宽严标准不同，这种情况是屡见不鲜的。

6.先后效应

据×省的同志反映，每年考完后，各地县迟迟不把卷子向省里集中，原因是根据经验，先评的卷子反复推敲，扣分较严，越到后来标准越宽。这种情况从检查看来并不十分严重，先批与后批的卷子在分数高低上差别不很大。但有一个问题值得注意，阅卷初期，主要强调质量，上边要求严，下边工作细，复查面宽，失误较少。到后期，为了赶进度，个别阅卷组和个别教师对质量有所忽视，评卷误差较大。

7.对比效应

一张考卷在一本考卷中所处的位置也会对教师评分有微妙影响。在连续评了几份满篇错误、文理不通、既脏且乱的考卷后，对一份稍好的考卷就很可能给予偏高的分数。同样的考卷放在几份更高水平的考卷后面，所得分数就可能低些。

（四）合分登分失误

在一般情况下，由题目本身、评分标准和阅卷者主观因素引起的误差毕竟有一定限度，而由合分登分失误造成的误差却可能非常大。

复查中发现，由题目分合成总分错误较少，最易出错的是由小分（或要点分）合成题目分，有的题目要点过多过细，小分单位过小，合分时极易出错。如英语第七题，评分标准规定：“谓语动词形式错误，扣1分。介词、冠词、名词单复数、单词拼写错一个，扣0.25分。本大题扣分不足0.5分者，不予计算；扣0.75分者按0.5分计算”。如此繁琐的规则，给评分、合分增加了许多困难。合分发生的另一种错误，是由小分排列分散引起的，如历史第一题，要填54个空，每个空0.5分，有的在前边，有的在后边，有的在中间，相加时很容易漏掉。历史第六题由三个互不相干的问答题组成，分别为10，12，12分。这三个题完全可以与其他题目直接合成考卷总分，而没有必要把三者先合到一起，再与其他题目分相加。阅卷教师反映，这种自找麻烦，人为增设合分层次的做法，增加了出错的机会。在卷面的排列上如果更合理些，把各题得分集中在同一侧，也会有助于减少合分的差错。

登分错误主要是由数字书写不规范引起的。如复查中曾发现把某科成绩20分错登成76分。

（五）组织管理工作

除阅卷教师或工作人员主观因素外，许多客观因素也是造成评分误差的原因。

考生数量大，阅卷时间紧、任务重，为了提高效率，有些省在阅卷时采取小循环的方法（一个阅卷组评阅整本考卷），并对各阅卷组搞了承包。这种做法的好处是进度快，但质量受到一定影响，在评分的可靠性上不如每组只评一题的大循环法。

高考时值盛夏，天气炎热，阅卷工作十分辛苦，而且在食宿安排上有许多困难。这些生活管理上的问题看起来是小事，但直接影响到阅卷教师和工作人员的情绪，对评分、合分、登分各个环节都会产生影响。

四、几点建议

评分不客观是旧法考试的通病，要解决高考评分的可靠性问题，必须从根本上改革旧的考试方法，实行考试科学化。

（一）设立专门考试机构，推行标准化测验

目前，世界上许多国家都有专门的测验编制和研究机构，标准化测验就是在这种机构主持下，由学科专家和测验专家依据一套系统的科学程序（包括订测验计划、编写题目、试测、题目分析、信度、效度分析等）编制，并按照严格程序使用的测验。所谓标准化，指的是对各种误差的控制过程，包括命题的标准化，施测的标准化，评分计分的标准化，对分数解释的标准化等方面。由于控制了各种条件，可减少无关因素对测验目的的影响，使测量客观、准确、有效。

（二）建立试题库，把命题变成经常性工作

要推行标准化测验，必须建立题库。题目可由测验编制和研究机构的专家拟定，也可向社会广为搜集。无论题目来源于何处，在存入题库前，都必须经过试测和统计分析，以得到需要的各种指标。要设计专门的题卡，正面写题目，背面注明该题测量什么知识技能以及难度、区分度、备选答案的适宜度等统计指标。每张卡片都有编码，以便于提取。前几年高考命题小组的同志曾感叹，各地编的模拟试题把命题的路堵死了，只好往死胡同里钻。如果缝起题库，经过多年积累，每个学科有数千道乃至上万道质量合乎要求的试题，便可根据每次考试的目的，抽取不同性能的题目，组成合乎需要的试卷。这样，就可把命题教师从“死胡同里”解放出来，再也不必每年把几十人隔离两个月了。

（三）尽可能增加客观性题目在高考试卷中的比重，逐步向机器阅卷过渡。

选择题、是非题、匹配题、填空题等能准确评分的题目叫客观题，其中应用最广的是多重选择题。这种题目的优点，一是取样广，对教材代表性好，能促进考生全面复习，避免偶然机遇的影响；二是评分准确迅速，省时省力，并使机器评分成为可能。对于像高考这种大规模的考试来说，客观题不失为一种较为可用的形式，这是提高考试信度的有效方法。根据学科性质和考试目的，有的可以全部采用客观题，有的可以保留少量非客观题目。

对客观性题目可以单独设计答卷纸，使用机器评分、合分。这不但能节省大量人力、物力，还可减少失误。台湾省从1973年开始在大学联招考试中使用计算机阅卷，总共近十万名考生，从当年报名费里扣除一切开支，还结余108万元，并赚到全套的光学阅读机。事后为评分有疑问写信查询的，不过二百人，仅占千分之二。而在此前一年，用人工评分，考生不到九万人，考后有一万多人写信查分，即对分数有怀疑的人占九分之一强。1983年×省二十三万中学毕业生，经过预选有八万六千人参加高考，共抽调2844名大中学教师参加阅卷，加上后勤和保卫人员，总共动员四千多人，投资25万元。倘若加上预考时评分的花费，数额会更惊人。可见，在高考中大量引进客观性题目并采用机器评分，仅从经济效益上看也是值得的。

客观题，特别是选择题在国际上已经使用几十年，发展出了各种变式。有许多原来被认为只有非客观性题目才能测量的能力，用客观题也可以测量了。目前多数学者认为，编制得好的客观题，不但可测量对简单知识的再认和记忆能力，而且可测量对复杂原理的理解和应用能力。更重要的是用这种题目选拔人才的有效性，并不次于传统题目，这一点已经在国内外得到了越来越多的证实。当然，任何一种题目形式都有自己的局限，由于我们对客观题不够熟悉，不大会编，使它的局限性表现得更大些。随着客观题的广泛使用，我们一定能很好地掌握它，使其逐渐发展和完善。

（四）改进非客观性题目的命题和评分技巧，尽可能使之标准化、客观化。

客观题不是万能的，不同的考试目的需要不同的题目形式。论文题、计算题等非客观性题目有自己独特的作用。重要的是如何扬长避短，充分发挥每种题目的效能。对每种题目都应认真加以研究，不断改进其编制和评分技巧。当前，尤其要深入探讨论文题如何评分，把它作为一个攻关项目，努力使这种考试更客观些。

从“笔尖误差”到“科学公平”——41年前一篇论文如何改变了中国高考

请选择您浏览此新闻时的心情

更多图片请查阅高清图集图片推荐