新托福改革样题全解析+托福拼分+考位放出时间明确+口语自动评分SpeechRater

对于托福考试来说,2019年注定是个不平常的年份,在这一年,ETS一次宣布了四大改革方向:

第一、托福成绩单采取MyBest Scores,ETS官方默认对于托福成绩进行“拼分”,直接在成绩单上给出“拼分”后的成绩。2019年8月开始实行。

第二、新托福考试机考进行小幅度改革,删除部分题目,介绍考试时间。2019年8月开始实行。

第三、考位放出时间明确,定为每周三、周五上午10点。已经实行。

第四、托福口语评分全面采用SpeechRater。已经实行。

 

随着2019年7月28日,最后一场4个多小时的托福考试结束,托福考试已经全面进入了3个半小时的新托福时代。今天无老师就来全面梳理一下如上的四大改革方向。

 

第一、MyBest Scores,托福“拼分”。

 

“拼分”简单来说,就是对于曾参加过多次托福考试的考生来说,ETS将列出每次考试单项最高分,并且给出一个最终单项最高分,即每次考试单项最高分之和。你是不是觉得看着还是有点抽象,没问题,无老师来给你举个栗子!

 

“拼分”简单来说,就是对于曾参加过多次托福考试的考生来说,ETS将列出每次考试单项最高分,并且给出一个最终单项最高分,即每次考试单项最高分之和。你是不是觉得看着还是有点抽象,没问题,无老师来给你举个栗子!

 

这是ETS官方给出的例子。

 

 

第1次考试阅读,听力,口语,作文4个单项分别是24、 19、 20、 21,总分是84,

第2次考试阅读,听力,口语,作文4个单项分别是23、 22、 20、 23,总分是86,

第3次考试阅读,听力,口语,作文4个单项分别是23、 22、 21、 22,总分是88,

 

当我们横向比较三次考试的成绩

 

三次考试阅读成绩的横向比较当中,第1次考试阅读最高,我们取第1次考试的阅读成绩24,

三次考试作文成绩的横向比较当中,第2次考试作文最高,我们取第2次考试的作文成绩23,

三次考试的听力和口语成绩横向比较当中,第3次考试的听力22分和口语21分成绩最高,我们取这两次的成绩

 

4个单项,我们都取最高的成绩,然后将分数相加,总成绩就变为了90分。

 

但是实际上这名考生,没有任何一次真实发生的托福考试真正的考到90分,而仅仅是取了三次考试每一次最好的单项成绩,组合出了这个90分,这就是拼分!

 

当然,也可以两次成绩进行拼分,如下图。

 

看到这个计算方式,不知道各位无花果有什么感觉,应该有些无花果已经开心的不行,不行的了!

无老师听到这个消息终于落地的时候,

 

第一个想法,是为咱们各位无花果而高兴,对于某些无花果来说,为了拼搏出一个特定的成绩,已经无数次的刷托福了,美国大学接受这个拼分的话,有些无花果就可以省却了刷托福之苦。

但是,马上第二个想法,就是看见了各位无花果打开了自己的钱袋子,为了自己需要的成绩,不停的继续刷托福。

 

因为原来的情况下,必须单次考试的总分,达到一个特定的成绩才可以,但是对于某些无花果来说,有可能每一次的单项都是100出头,但是不到110,本来如果不能拼分的话,自己也就了却了这个残念,但是现在既然能拼分了,那么就没有什么可说的了,继续刷考试,而且主攻某一个单项,其他的单项也不管了,只要把这个单项刷出一个高分,那么最后就可以拿到一个110的成绩。

 

不过不管怎么说,“拼分”这个事情,对于考生和ETS来说,其实是一个双赢的结果,如果再加上美国大学的话,其实是一个三赢的结果,何乐而不为呢?同理也不需要再给ETS付出任何的费用来单独申请,因为各位无花果拿到的成绩单,就已经同时包含本次的成绩和拼分后的成绩。

 

至于以后托福的成绩单,就长下面这个样子了。

 

拼分部分,放大之后,是这个样子。

左面就是当次考试成绩,右面的MyBest Scores就是“拼分”后的成绩

 

换句话说以后考生每一次拿到的托福成绩单,就都变成了这个样子,成绩单上同时列出拼分后的成绩和本次的成绩,而不需要单独进行申请。

 

我们还应该预见一下,当真正开始美国大学大规模接受拼分之后,将来还会有一个非常重要的影响作用,那就是拼分后的成绩,大家有可能都会水涨船高,现在有可能只有20%的申请者能从兜里摸出来托福100+的成绩,但是弄不好到时候会有40%的申请者,都能拿出好几张拼分后100+的成绩。

 

那么到时候托福考试的高分就成了申请的标配,托福的录取分数线弄不好都会水涨船高。最难申请季会,一个又一个的到来,回头来看看不能拼分的,现在才是最幸福的!

 

但是美国大学接受,MyBest Scores就是“拼分”, 是需要一个过程的,比如说前几天整个加州大学的UC系统,就表示暂时不接受评分,因此“拼分”的实行将会是一个缓慢的过程,在申请的时候,要查大学官网以及给学校秘书发邮件来询问和确认是否接受“拼分”。

 

第二大改革:托福阅读听力和口语,删掉部分题目,缩短考试时长。

 

四大变化

 

第1、 考试时长将缩短30分钟,变为3小时

第2、 阅读文章数不变、阅读加试不变,减少题目数

 

细节性分析:

 

1 没有加试的话,考试时间从原来的60分钟减少到54分钟。

2 有加试的话,考试时间从原来的80分钟减少到72分钟。

3 阅读从原来的每篇14题,减少到每篇10题,大概率插入句子题和summary题不会去掉,那么去掉的就是细节题,单词题,推断题,指代题。在这里请注意,此处所有题型都还有包括单词题,细节题,指代题,推断题,只是减少这些题目的题目数量和所占比例。

 

在ETS给出的改革后的官方样题当中,我们会看到产生了如下的变化。

同样是这一套,TPO31,在未改革之前,他的阅读的题型分布是这样的:

 

第一篇

第二篇

第三篇

改革前总计

改革后总计

变化

 

很明显,本次阅读改革的方向非常明确:

第一、没有题型消失,所有的题型都还在,只是段落主题题很少出现,而指代题已经几乎不出现了,这跟是否改革没有关系。

 

第二、两大题型不变:分别是插入句子题和summary题,这是每篇都一定会遇到的。

 

第三、两大题型大幅减少:分别是单词题和细节题,在这个里面非常明显,单词题会是重灾区,在2019年8月之后,单词题将大幅减少,从原来的占所有题型接近30%,到后来的接近15%,减少的力度是最大的。而细节题也有减少,从原来的18题减为14题,总题目数减少,而细节题本身题目数量,就占了接近半壁江山,而改革后只减少了4道题,说明整体影响并不大。

 

第四、句子简化题减少:原来是大多数情况下,每篇文章都会有句子简化题,但是在改革之后,并不能保证每篇文章都有句子简化题,甚至很有可能三篇文章里面只有一个篇有一个句子简化题。

 

第五、排除列举题和段落主题题:这两个题目看不出趋势,因为本身题目数就很少,而在样题当中也没有太大的变化,因此很显然他们不是减少的重点。

 

但是与此同时还有一些细节,各位无花果可以注意一下:

 

第一、文章长度不变。原来每篇文章大概是700个单词上下,现在每篇文章时间由原来的20分钟减少到现在的18分钟,每篇文章减少2分钟,但是文章总长度不变,从这个角度来看,是要求我们的阅读速度要加快的。

 

第二、题目数减少。从原来的14题检查到现在的10题,从这个角度来看每道题的思考时间又增多。

 

因此在此处做一个总结的话:

 

改革前:3篇文章,每篇文章14道题,每篇文章20分钟,3篇一共60分钟,42道题。考试阅读部分,从60分钟开始倒计时。

如果有阅读加试的话,就再多1篇文章,4篇一共80分钟,56道题,每次考试从80分钟开始倒计时。

 

改革之后,3篇文章,每篇文章10道题,每篇文章18分钟,30道题,3篇文章一共54分钟, 每次考试从54分钟开始倒计时。

如果有阅读加试的话,就再多1篇文章,4篇一共72分钟,46道题,每次考试从72分钟开始倒计时。

 

改革之后插入句子,题和summary题没有变化,单词题大幅度减少,细节题小幅度减少,句子简化题减少,其他题型不明确,但是基本不变。

 

总分30分不变,因为本来就采用扣分制,因此算分方法不变。

 

第3、 听力。Conversation不变,听力题目数不变,减少Lecture数量。

 

1 从原来的4篇,减少为3篇,

2 如果是加试的话,加试的部分是多1个Conversation+1个lecture。

3 听力单篇题目数、和题型没有变化。

 

在听力的这次变化当中,一个非常大的悬念,就是从原来的2个conversation和4个lecture,改为现在的2个conversation和3个lecture,在真正的考试当中,这2个conversation,和3个lecture到底是怎么排列的,是最为引人好奇的。

 

他们是合成一个完整的Section,还是说继续像原来一样分为两个不同的Section,如果分为两个不同的section,到底是前一个section有2个lecture,还是后一个section有2个lecture呢?

 

在本次样题当中给了非常明确的答案:

 

在没有加试的情况下,仍然分为两个section,前一个section是小section,后一个section是大section。

 

第1个小section,由1个conversation和1个lecture.

第2个大section,由1个conversation和2个lecture所组成.

 

如果再出现加试的话,那么就再加1个小section,由1个conversation和1个lecture所组成。

 

因此总结一下:

 

改革之前

 

分为两个section,每个section1个conversation和2个lecture。

每个conversation,5道题,每个Lecture6道题,

因此每个 section1个Conversation和2个Lecture,有17道题,30分钟,

2个section,就是2个Conversation和4个Lecture,有34道题,60分钟,

如果有加试的话,就是再多1个n1个Conversation和2个Lecture,再多17道题,并且再多给30分钟。

 

改革之后

 

分为2个section,第1个是小section,第2个是大section

Conversation和Lecture题目数没变,每个conversation,5道题,每个Lecture6道题,

先考小section,由1个Conversation和1个Lecture所组成。一共是11道题。

后考大section,由1个Conversation和2个Lecture所组成。一共是17道题。

如果再有加试的话,就再多一个小Section,由1个Conversation和1个Lecture所组成。一共是11道题。

 

总分30分不变,因为本来就采用扣分制,因此算分方法不变。

 

第4、 口语。去掉第1题和第5题,口语考试时间从原来的20分钟减少到17分钟。

口语已经很明确的减掉第1题和第5题,那么,国内的知名口语老师竹子老师,就提出了一个非常重要的问题,剩下的2、3、4、6,4个题到底该怎么排列?

 

新的样题出来之后,答案也揭晓出来了,就是口语只是单纯的去掉第1题和第5题,剩下的题目按照原来的顺序进行排列。

 

改革之前:一共20分钟,

 

Task 1:多选1

Task 2: 2选1题

Task 3:校园事务议论题

Task 4:名词解释举例题

Task 5:学生困难解决题

Task 6:知识小结转述题

 

改革之后,一共17分钟,减掉第1题和第5题

 

Task 1: 2选1题

Task 2:校园事务议论题

Task 3:名词解释举例题

Task 4:知识小结转述题

 

总分30分,打分方式,因为是按照学生水平进行评分,因此打分方式不变。

 

而与此同时,很多无花果还特别关心,评分机制的变化。

 

在这里,对于评分机制的变化,无老师为各位无花果解释一下:

 

托福的阅读和听力本来就采取扣分制,而不是按照考生的题目数进行加分。

错前面两个题是扣两分,然后每错一个题扣一分,原来是采取这种扣分方式,现在也仍然采取这种扣分方式,因此阅读和听力这种扣分题的评分方式没有变化。

托福的口语和作文,是对于考生的水平来进行打分,而不是按照考生的题目数进行加分。

口语原来是前面两个题给你一个水平分,中间两个题给你一个水平分,最后两个题再给你一个水平分。这种按照水平打分的方式没有变化,因此口语的评分方式和总分也不会有变化。

作文本身也没有变化,因此不用做过多的解释。

 

第三大变化、考位放出时间明确

 

即日起托福考位,在NEEA官方网站上报名,网址toefl.neea.cn。

考位放出时间固定在,每周三、周五上午10点,各位无花果需要托福考位的时候,就每周三周五上午10点去刷考位就好了。

 

第四、口语自动评分系统SpeechRater

 

10年前的2009年,无老师系统的总结了e-Rater运营机制,今天再来权威的解读一下,托福口语最新的自动人工智能评分系统Speech Rater!

Speech Rater,是在去年2018年第一届中国托福年会首爆,无老师被邀请在本届年会第一排就坐。下面是当时第一手照片。

 

本次无老师的解读,是有目的性的,是直接帮助各位无花果高度浓缩了ETS的官方论文,取其精华,把论述部分全都扔掉,直接把Speech Rater核心拿分点,直接送到各位无花果的面前,听无老师,得托福口语满分,就这么简单!

我们直接忽略这份报告当中前面的22页,因为前面的22页全都是实验细节的剖析,对考生指导意义有限。我们直接从最终的核心实验说起,也就是从23页最核心的内容讲起。

在23页这张表当中,一共列出了整整20条,会影响最终托福口语分数的核心评分标准。

在这20条当中,ETS将其分为两大类,第一大类是Delivery——表达;第二大类是Language use——语言的使用。估计看这两大类的名字,你想直接撞南墙,具体在说什么根本看不懂。没事,继续往下看你就懂了。

 

第一大类Delivery——表达,又分为4个层面

1 Fluency——流畅度

2 Pronunciation——发音

3 Prosody——韵律

4 Rhythm——节奏

第二大类是Language use——语言的使用,分为两个层面

1 Grammar——语法

2 Vocabulary——词汇量

 

其实当各位无花果看到这里的时候,就已经开始有感觉了,相比于刚才的表达和语言使用这两个词,非常显然,流畅度、发音、韵律、节奏以及语法和词汇量,就让各位无花果很容易理解,ETS到底想要点什么了。

 

随着无老师解读的层层深入,很显然,高潮要来了!

 

在这份官方的研究报告当中,ETS非常关键的列出了这里面每一个细项的得分点,与最终总分的相关系数,换句话说,这就意味着这里面每一个得分点,到底多大程度上,会影响最终的得分。

右面这一整排系数相加,它们的总和为1,这也就意味着,在这张表格当中已经列出了,所有最终会影响托福口语得分的每一个影响因素,并且还给出了每一个影响因素的权重。右面给出的权重越高,那么也就会越影响最终的得分,给出的影响权重越低,说明相关性就越低,他们对于最终得分的影响也就越低。

最终在这里,无老师用黄底标出了,所有的影响系数在0.05以上的影响因素。影响系数在0.05以上的,占据了整个表格20项当中的11项,而这里面尤其是第1项Mean silence duration平均沉默时长,影响因素最大,它是所有20项影响因素当中,唯一一项超过的0.1的影响因素,达到了0.119,这就意味着我们在托福口语考试当中,不适当的停顿,其实是最为伤害我们分数的影响因素,而且停顿时间越长,停顿次数越多,就会使我们的分数越底!

 

位居影响因素第二的Score point with the highest word CVA similarity score。影响因素指数达到了0.99,无老师将这段英语,翻译成各位无花果可以理解的中国话,这段话说的意思就是,你使用的单词的相似性,反过来说也就是,你的单词量越大,进行的同意替换越多,他们的分数也就越高;相反的,如果你总用相同的单词,而不进行同意替换,那么你得到的分数就越低。

 

位居第三的影响因素Speaking rate in words per second,影响指数达到了0.97。这个影响因素指的是,你的“语速”。也就是在正常情况下,你的语速越高,你得到的分数也就越高,你说话越慢,你最终得到的分数也就越低。但是请注意,这并不意味着,你要像机关枪一样一刻不停的说,而是应该有正常的句内、以及句子之间的停顿。

 

如上的三条核心影响因素,影响指数相加已经达到了0.315,是最影响我们托福口语得分的3条因素。

 

托福口语本次引入自动评分系统,其实ETS已经蓄谋已久,这从ETS这份官方报告当中就可以看出,其实现在所使用的引擎已经是5.0版本的引擎,而这份引擎的第1版,其实在2008年就已经开发完成。光看这个时间,就让我们对ETS肃然起敬,这本来应该是谷歌这样的公司才应该投入的项目,竟然小小的ETS,这么早就开始做投入和沉淀了。

 

从官方提供的研究报告来看,Speech Rater第1代版本非常的原始,所使用的数据库也非常的小,一共就十几个样本,而且这些样本很多的数据,也不是机器自动分析和读取,而是要人工来进行输入,并且在最早期1.0版本的时候,电脑也只能判断 (pronunciation发音, fluency流畅, vocabulary词汇量, and grammar语法.) 这4个领域,但是到现在的5.0版本,仅大类就分为了6类,毫无疑问,分析的维度也大大的提升。当然在ETS眼中看来,人类的考官做得更多,人类的考官要从如下

Delivery :pronunciation, rhythm, intonation, rate of speech, pause structure, fluidity

Language Use:vocabulary and grammar

Topic Development:content and coherence

3个大领域,10个小领域,分别来进行考量和评分。

 

但是在最新的5.0引擎当中,就像无老师前面所展示的,最新版的引擎已经极为接近于真人阅卷者进行了评分,在ets官方所发布的资料当中,真人评分和机器评分的相关系数已经达到了0.81,换句话说也就是,ETS在告诉大家:我们这套系统已经做得挺好了,敢拿出来给你们看一看了。

 

接下来,我们再来看另外8个重要的影响因素。

很显然在这里排名第4位的影响因素,就是Total acoustic model score for all words with model trained on native data,看了这段生涩的语言,说实话无老师也有点要吐了。这个名词,还真有点不是特别好解释。总而言之,这个其实涉及到ETS在评分过程当中具体的一个流程,也就是在Speech Rater进行评分的时候,其实有一个关键性的步骤,就是让机器来识别,考生本人所说的英语是否是地道的英语,这个主要是从发音和节奏来进行判断,就是当你的口语越接近于地道的发音,那么你的分数越高,反之亦然。这个影响系数达到了0.081,因此也就有了下面第2条影响因素,Total acoustic model score with model trained on nonnative data。

 

如上的4条,是所有的影响系数高于0.07的影响因素,接下来所列出的7条,影响系数全都低于0.07且高于0.05,这也就意味着对于最终分数的影响,没有前面4条影响那么大,但是同时也比较重要。