如何通过阅读提升英语词汇量
中国南北朝时,周兴嗣编写了千字文,它摘自王羲之的书法作品,通篇由1000个不同的汉字组成。仅此一篇文章,儿童启蒙教育中不仅能学会最基础常用的汉字,而且也可以了解到相当多的人文历史知识。
所以我时常想,英语学习过程中,有没有类似的文章可以用来识记单词呢?
然而,英文世界里,似乎并不存在类似《千字文》这样的启蒙读物。
最近,我发现了一个网站,从那里可以下载到海量的开源英文书籍。我自己是有点编程能力的,于是萌生将那些书籍全部下载下来的想法。寄希望从中摘抄到最少的文章段落,可以包含有最多的初高中乃至四六级大纲词汇,分享给有想通过阅读提升词汇量的朋友们。
经过多日的努力,功夫不负有心人,这样的小程序终于面世了!--"学霸训练场"闪亮登场
通过阅读背单词"学霸训练场"推荐
小程序的开发历程
首先做的工作是写了一个爬虫软件,将那个开源英文网站上所有的英文书籍全部扒拉了下来。去重后共有40448部书籍,有《简爱》《呼啸山庄》《悲惨世界》等名著,也有《医护笔记》《国情咨文》等社科、经济、政治类的文稿,真是堪比一个中型的图书馆了。
从开源英文书籍网上下载的数量
因为之前写"学霸训练场"微信小程序,收集并整理了7538个英语大纲词汇表,所以算有了些词汇材料的基础,后面只要关注英文段落的筛选逻辑就可以了。
"学霸训练场"里的大纲词汇表段落筛选逻辑
我们的目标很明确,就是寄希望于在这四万篇英文著作中找到相关的段落,它能满足最少的字数,包含最多的大纲生词量。
首先要考虑的问题是,英文的词汇是有变形的!虽然我手中握有七千多个生词的大纲词汇表,但是它们大多是以原型的方式呈现的,而在英文著作中,表达是有具体的场景的,英文单词通常是以各种时态存在于各个句子中。所以我依然是依靠爬虫技术,在网页词典中获得相关单词的各种时态变形,包括单复数。
英文单词的变形
果然,虽然是七千的基础词汇,各种变形后,词汇量已然超过了2万了。
然后就是英文段落的搜寻逻辑设计了。
预想的是类似《千字文》那样的效果,英文段落内的每一个单词都是唯一的,不重复的。虽然不能用一篇文章来学习所有大纲词汇,但有很多个那样的段落来学习也是不错的方法啊。
所以,逻辑上我遍历了每一篇文章,匹配了每一个段落,使每个段落中大纲词汇的占比是最多的。
虽然是手握着四万本英文资料,而且各个单词的变形都考虑进去了,但是现实并不能按我理想的那样整理出成果。这里很大的原因是英语自身的构词法和语法的限制。中国都上下五千年了,虽然也是海量的词汇,但常用的汉字也就三四千个,足够我们阅读和知识的传播了。但该死的英语却并不能以会26个字母就认为可以阅读了,它的词汇量都大几百万的,在非母语的学习人员眼里里,很难建立词汇间的彼此联系!此时心疼一下。
理想的段落拿不到,那就退一步吧。关注点还是那七千多个大纲词汇,现在的目标是找到相关段落,大纲词汇占有尽可能大的比例,去除重复和变形后,每个段落可以新学三十多个大纲生词即可。
寄希望这样的层级递进方式,实现所有生词的学习。 成果
虽然要求是一再放低的,最终还是离理想的样子存在些差距,但是结果并不算太差。
通过整理,总共挖掘出来150篇英文段落,它包含大纲词汇4763个。也就是,只要我们按段落顺序进行阅读识记,可以确保每个段落新学到三十几个生词加部分大纲外词汇,150篇英文著作摘抄学习完后,妥妥6000+的词汇量。
更重要的信息是:150篇段落中,前60篇段落的字数是少于100个单词的,只有后30几篇的段落是超过300个单词。全部段落的超纲词汇尽力维持在10%以内,最多不超过20%。(超纲词汇未去重统计,有些虽说不是大纲词汇,其实也是很基础,如"a""law"等)
阅读名著摘选,生词不断积累
这150篇摘抄段落来自100多篇不同的著作,包含小说,经济、政治、科技甚至还有菜谱。
如第一篇选摘来自《Upsidonia》,主要是讽刺1872年巴特勒传统的文章。
选摘段共31个单词,而且是31个不同的单词,十分难得啊。
But surely there is nothing very difficult about spending money, if you really set out to do it! In my country rich men buy fine pictures, and things of that sort.
再例如第16篇
Even in ordinary conditions, certain substances called radioactive emit, quite outside any particular reaction, radiations complex indeed, but which pass through fairly thin layers of minerals, impress photographic plates, excite fluorescence, and ionize gases. In these radiations we again find electrons which thus escape spontaneously from radioactive bodies.
它摘抄自《The New Physics and Its Evolution》(新物理学及其发展)。整个段落48个单词,大纲词汇43个,其中17个词汇是前15篇已经接触过的,新大纲生词26个。
这些全部在我的微信小程序"学霸训练场"中有体现。我给大纲词汇均标注了下划线,并且对新接触的生词用蓝色字体显著标识了。
所以建议按提供的选摘顺序,循序渐进地去阅读、理解和记忆。在这里我们不仅仅是6千多的词汇量,还有一些知识,一些视角。
第16篇英文著作摘抄
对于大纲词汇,为了方便学习,我也一并实现了点击查询的功能,可以很方便地查看它的解释,听它的读音,了解它的各种变形。
点击大纲词汇,查看词汇翻译成果共享
英文资料整理的过程,也是我学习和兴趣培养所在。
也很乐意与朋友们共享,所有的150篇英文选摘,可以到我的小程序中去获取。
学霸训练场
"学霸训练场"中还有其它内容,后期还会有更多内容。
期待各位读者前去多多翻腾!
教师的教龄和工龄各怎么计算?教师的教龄和工龄在2006年之前,本没有区别,均指老师进入教育工作岗们之后的工作年年限,然而2006年教师工资进行改革,教师工资由岗位工资薪级工资地方性各种津贴乡补等多部分组成。而
在国企做多少年再辞职合算?逐梦江湖路独家观点以我在国企十几年的经历,建议您毕业后在国企呆三年。因为,国企非常规范,非常注重程序,可以让你形成良好的职业素养。当然,前提是您本身想上进。如果本身是想在国企混日子
没有学历可以去中央美术学院进修吗?应该是没有问题,这个你到官网查询一下,据我了解其它专业或院校都可以去央美进修,每年都会招一批进修学员。应该也会考试,但要求肯定会低很多。只要你有经济实力,国外进修都可以。首先,央美
你觉得福彩3d有规律可寻吗?福彩3D或许有那么一点规律。谁又能真的摸透这规律呢!今天3D327期我就按规律打上一注147,167。多打也无妨。467,578,046。3d开奖是随机性较强,所以无规律可言。然而
假如亚马逊河在中国,中国人是否能修建一座跨亚马逊大桥?为什么?假如亚马逊河在中国,中国人是否能修建一座跨亚马逊大桥,为什么?答案是肯定会修,而且不是修一座,而且很多座。中国的基建和中国制造业突飞猛进,被网友誉为世界基建狂魔。大国工程已经成为中
从明年开始,全国一律取消养老保险补缴,是真的吗?按照现行的退休政策,只要男性达到60周岁女性职工达到50周岁的法定退休年龄,养老保险累计缴纳年限满15年,那么就可以办理退休手续,从次月开始按月领取养老金。之前国家对一次性补缴养老
如果中大奖500万,你愿意捐款吗?能捐多少?会捐给自己的至亲至爱全家族人同乐同富裕吧上阵亲兄弟姐妹们好哪得看捐这笔款的用途了。要是打仗了,我宁可一分不要,全部捐出去。要是往受灾地区捐,我会留点儿,我自己花。要是捐给贫困山区,
我妈买了城乡居民养老保险,新农合不用交了吧?哪样报得多一点呢?不行,城居保只含养老保险一项,并不象社保里含有五险一金,你买的城居保是不能报销医疗保险费用的,所以新农合也得同时购买!城乡居民养老保险只是针对农村户口的养老保险,并不包括医保,新农
农民养老靠儿女,靠得住吗?在今天,提出这问题有点让人感到有点落后。养儿防老,养老靠儿女,传宗接代,这是老传统,不能说不好,但己落后于今天的时代了。三四十年前,计划生育再紧,多少人违反政策,生2个3个,为盼个
如果有可能,退休前,为何要尽量查阅一下职工档案?是的,主要查一下填的表格的出生年份,好多都是当时填表时填早了或者晚了,退休时就会打麻烦,但是不太好查,在职的好说,单位就可以查,下岗失业的就不好查了,要到社保去查,比较耐烦一个人从
在西安一个月4000工资,是什么样的体验?4000工资在西安,比上不足比下有余。游走在笔尖上的舞者想从以下几个方面谈谈对这个问题的个人体会第一,仅靠一个人4000元工资在西安买房面临巨大的经济压力。西安的工资在全国相对来说