范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

从ChatGPT之能谈应试之策

  编者按:
  新课改下,老教师的教学经验还有用吗?应对新高考,真的需要全然摆脱应试"套路"吗?ChatGPT的问世,带给了我们对教育的哪些思考?作为高考过来人、一直关注互联网与教育投资方向的孩子,发来了他的一些认识与感悟,现发于本公众号。愿对此类话题感兴趣的朋友拨冗垂阅,更期盼有机会与各位进一步交流沟通。
  从业七八年时间里,无论是在美元基金还是腾讯,教育数字化的投资机会一直都是我重点关注的方向之一,今天也想借母亲的公众号来聊聊我对ChatGPT的认识,以及由此带来的对应试教育的一些思考,也算是抛砖引玉,希望能有更多教育行业的一线从业者们能够一起探讨这一新生事物会引发教育领域哪些变化。
  首先,我尽可能简单地解释一下ChatGPT为什么有如此强大的能力。
  据悉,ChatGPT的训练数据量超过3000亿个单词,涵盖了维基百科、书籍期刊以及海量被抓取的网页内容,并基于语言生成的训练目标,训练出了一个有着1750亿参数的语言模型来存储这些知识,我们称之为"大模型",你可以把它理解成一个塞进了尽可能多知识且能以语言形式表达出来的智能大脑。为了让这个大脑里的知识能被人类所用,解决各种实际问题,ChatGPT的母公司OpenAI又引入了基于人类反馈的强化学习,可以简单理解为训练这个模型能够更好地理解人类以自然语言下的指令,并生成更详实、公正的答案,同时拒绝其知识范围之外的问题。因此,也就有了今天我们看到的可以写作文、写代码、回答各种问题甚至是陪聊你聊天的ChatGPT。
  或许大家对前几年很流行的拍照搜题还有印象,这种抄作业神器本质上还是搜索引擎的逻辑,也就是去索引库里寻找和照片中题目一致或近似的答题结果,并不能灵活且针对性地给出答案。如果是个新题或者变型题,拍照搜题就两眼一抹黑了。
  但ChatGPT则同时具备了知识和推理两种能力,并且有着非常良好的人机交互界面(对话式),这使得它能够应对各种题目并给出至少看上去合理的答案。甚至ChatGPT背后的大模型在训练数据规模大到一定程度之后,还会发生"涌现"现象(即模型的表现大幅提升),今天我尚不知道这种涌现背后的原因,但或许这也应了古人那句"书读百遍其义自见"吧。
  我也曾试着让ChatGPT写过高考、模考作文,这个在母亲公众号此前的文章中做过分享,在经过一定引导调教之后效果还算可以。感兴趣的朋友可搜索微信公众号"研语灵言"查看"ChatGPT机器人将逼卷文科生?""看ChatGPT写潍坊一模作文有感"等文章
  我还让它做了中、英文的阅读理解题。大家不妨先来看ChatGPT做潍坊高三一模语文题的结果,原题可查看微信公众号"研语灵言"中的"潍坊高三一模考试语文真题及答案解析":
  再来看ChatGPT做2022年高考英语全国卷的结果:
  从测试结果来看,中文阅读理解选择题做的一塌糊涂,英文阅读理解选择题则全对,这一方面可能和ChatGPT本身的训练数据96%是英文语料有关,同时也与中英文考试题本身的难度相关(毕竟我们的英文高考题可能也就是英美小学生的水平),当然,这也与ChatGPT本身的推理能力还不够强有关。
  可这份测试结果引发了我对应试教育的另一个思考。大家可以看到,虽然ChatGPT在回答中文阅读理解选择题时大部分做错了,但也给出了自圆其说的选择原因,或许也不能完全算错,毕竟"一千个读者就有一千个哈姆雷特","理解"这事本无对错,只是变成了试题,那就必须分出个对错了。
  再回到应试教育模式本身,无论是高考还是中考,其本质还是社会资源和阶层划分的一种选拔形式,而且是被几千年中国历史证明且被当下众多人认可的最优解。巴菲特和芒格的学生李录先生,就曾将以科举制为代表的"政治贤能制"称为人类历史上第二伟大发明。这种考试选拔机制,既能相对合理地分配社会资源,又保证一定的阶层流动性,让有学识的人在政治、经济、文化、科学等诸多领域发挥其才能。
  回溯历史,封邦建国的周朝采取的是一种基于血缘传承的社会资源分配机制,如果你是一个穿越者不幸穿越到春秋时期,那在分封制+宗法制的周朝,你只能祈祷自己穿越到了一个贵族家庭的嫡长子身上。而到了战国时期,商鞅变法,以军功爵制打破了以血缘为基础的社会阶层承袭制度,才有了后来的"始皇吞二周而亡诸侯"。但如果你手无缚鸡之力,那穿越到秦国估计军功不一定能捞到,反而容易成为别人的军功。
  再往后,汉代举孝廉,魏晋九品中正,其实依然是在探索更优的选拔机制,一直到隋唐科举制的应运而出,唐太宗才能感慨"天下英雄尽入吾毂中矣",普通读书人也才有机会靠才学脱颖而出,"一日看尽长安花"。此后虽然屡有波折,但考试这种形式一直沿用下来,清末虽废了科举,可中山先生创立民国又讲五权分立,其一便是考试院的设立。及至现代,1977年恢复高考也依然被视作中华民族复兴最重要的一步之一。
  可能也有人会说,考试就公平么?应该说,是最公平的,也是不公平的。
  说其公平是因为它提供了一个社会上升通道,让普通人也能通过读书考试的方式改变个人及家庭的命运。范进同志苦读一生,一招中举便改变了全家的命运,而不是去喊王侯将相宁有种乎,玩走钢丝的买卖。就普通人来说,你我生在何处是"命",能否遇到贵人,能否赶上时代的红利,能否抓到某个机会,那都叫"运"。小的是个人之运,大的是国运,然而只有中考、高考等考试才让许多人有机会逆天改"命"。
  但考试它又不公平,否则黄巢也就不用落第之后写下那首"冲天香阵透长安,满城尽带黄金甲",然后搅得李唐天下大乱了。黄巢这样的诗文才华,以及后来管理数十万人的优秀组织能力,竟然没考中科举,被逼得揭竿而起,一定是考试这种形式哪里出了点问题。
  考试的出发点是分配社会资源、选拔优秀人才,所以选拔性考试的成绩分布必然是有分差的,所有人都加10分,等于都没提分,因为作为人口众多的发展中国家,我们的社会资源有限,中考、高考其实就如一个选拔器、分流器。
  如何判定成绩呢?商鞅说,看砍的人头多少(军功);汉武帝说,看孝不孝顺(举孝廉);曹丕说,看家世品行(九品中正);唐宋明清则看诗文、看八股(科举)。到了现代,考试成绩的判定越来越科学。
  首先我们有丰富的学科设置,让大家尽可能学习更综合的知识;为了让大家学的东西变得可被考查,所以我们有统一的教学大纲、课程标准和教材,以确保所学的内容相对一致;然后考试院的专家们基于大纲或课程标准上不同知识能力点的重要性权重,出各地统一的试题并给出参考答案;最后找优秀的老师集中阅卷评分。这看上去已经很公平了,但问题是,对于很多非严谨推理型的学科,譬如语文,知识是灵活的,阅读和作文的理解也是灵活多元的,可参考答案是相对标准的,这就导致如果我们不按出题人的思路去理解阅读文本或作文题目,并按阅卷人可以接受的形式和答案去作答,那就不能满足参考答案里的得分点,难就难高分。
  人文学科如何建立相对公平的阅卷标准,这是一个千古难题。唐代时就有行卷荐举之风,那首著名的"妆罢低眉问夫婿,画眉深巧入时无?"的诗名就叫《近试上张水部》,是唐人朱庆馀写给水部郎中张籍的行卷之作,以新妇自比,将张籍比作新郎,将主考官比作公婆,借以征求张籍意见,问自己是否符合主考官心意。到了宋代,甚至风气离谱到让米芾感慨"宋人多学权贵书",不仅大家文风上要向考官靠拢,连作答的字迹都要模仿主考官,以至于欧阳修愤而谓之 "奴书"。
  封建科举沿用的八股文,虽然让很多人不屑,但从王安石废诗赋取经义,再到明代逐渐形成严格固定的八股文格式,其一部分出发点就是标准化考试的评分标准,减弱评卷人个人好恶的影响。王安石将经义限定为考试内容,就如同我们今天的教学大纲和统一教材,尽可能把庞杂的知识限定到四书五经这样相对小的范围内,以方便出题考查。而八股文则如同今天被很多人鄙视但又屡试不爽的答题和作文模板、技巧,在相对统一化的条条框框里评价一个人学习能力的好坏,以公平大于个性发展也是没有办法的办法。
  即便是在训练GPT大模型时,OpenAI的40个工作人员也是标注了数万级别的数据,标注好哪些答案是人类一般会选择的回答方式,从而让GPT学习如何更好地理解人类指令,以及什么样的回答更符合人类预期。以至于有人担心说,这40个人的价值标准和好恶会影响ChatGPT回答的价值观。
  换个角度来想,连人工智能都要通过强化学习大量案例的手段来学习人类会出什么样的题,人类会喜欢什么样的答案,肉体凡胎的我们,不更应该去学习和理解出题人的思维方式,以及阅卷人的评判标准么?
  正因如此,我一直鼓励母亲将她三十多年的教学经验总结出来,并以文章的形式输出留存。既然我们的考试评价体系是公平优先,那么就必然要尽可能的将考题和答案都收敛到小范围内,这样阅卷人才能够基于参考答案进行评分。而人文学科老师们总结的一些答题技巧与模板,其实就是从答题人角度出发,来让学生的作答与阅卷人的评分标准对齐,就如同ChatGPT甚至牺牲了一部分上下文学习能力,换取能和人类更好交互的能力,被OpenAI称之为"对齐税"。我们的学生今天去学习那些答题技巧和模板,本质是也是一种面对当下应试模式需交的"对齐税"。
  以我浅显的认知看,首先,应试考查模式短期内依然不会改变,只能是小修小补,我们需坦然面对,答题技巧和模板依然奏效,多拿分改变命运这事不寒碜。
  其次,大量的阅读以及结构化的输出很重要(可查看微信公众号"研语灵言"中"由ChatGPT谈阅读积累"),如同人工智能是基于输入-模型处理-输出的智能体一样,人对于知识的学习和使用也是这样一个闭环,应该有大量针对性地输入和输出,从而让我们的大脑留存下更好应对考试的模型,只输入不输出是无法完成闭环的。(费曼学习法可以了解一下)
  最后,我也非常希望我们的老师、学生们都能积极体验和理解ChatGPT以及其背后的AI大模型,探讨其对教学、学科选择乃至专业选择,甚至人生发展的影响。
  我们真的可能正在见证第四次工业革命的萌芽,这是一个有趣的事情,或许当我们这一代人老了的时候,再一次读到加西亚·马尔克斯在《百年孤独》开篇的那句话,回想起今天我们看到ChatGPT时的样子,也能会心一笑,因为科技的发展或许没有止境,但经典永恒。
  "多年之后,面对行刑队,奥雷良诺·布恩地亚上校将会回想起,他父亲带他去见识冰块的那个遥远的下午。"——加西亚·马尔克斯《百年孤独》

铁了心与俄罗斯对抗,乌克兰要求各平台下架俄罗斯游戏有毒一句话说到底,俄罗斯在各个领域内已经成了人人喊打的角色,只不过这种人人喊打是西方国家和乌克兰强加给俄罗斯的。除去政治经济能源军事等领域内的打压外,乌克兰还要在游戏领域内发起战争。乌赵明微博晒大闸蟹网友暗示Magic5系列要横着走手机中国新闻2月27日3月2日,MWC2023世界移动通信大会将在西班牙巴塞罗那正式举行。目前荣耀CEO赵明人在欧洲,届时将为全球消费者介绍荣耀Magic5系列新机。不过,目前赵明1928年5月日本人拍摄的山东济南老照片,有几张为航拍,比较罕见1928年4月,国民党开始第二次北伐。北伐军势如破竹,很快就攻入了山东省。日本人为了阻止北伐军继续北进,以山东局势混乱保护日本侨民利益为借口,出兵山东,并于1928年5月3日,在山彻底凉透了吗?网友怒喊退钱,但客户端疑似无法登录!22日ofo小黄车已彻底无法登录登上微博热搜引发网友热议前天下午,有网友反映,ofo小黄车客户端已经无法接收到短信验证码,用户无法登录。随后记者分别在ofo苹果和安卓客户端多次测试好消息!中国女排获顶级强援,00后女神开启留洋,将PK朱婷正在集训的中国女排目前有2大好消息!第一个好消息就是00后高颜值女神缪伊雯,已经在意大利的皮内罗洛与球队开启训练。接下来,她有望与留洋的朱婷迎来直接对话。缪伊雯是中国女排新生代进攻四十岁重启初恋,这怎么可能?黄哲从上世纪末的FirstLove到2010年代末的初恋,歌迷听着宇多田光的歌,和生于1983年的她一起成长,一起人到中年。最擅长纯爱疗愈题材的日本影视人,将这一人二曲的音乐大IP还你一个真实的西游记(一)绝大多数人都被86版电视剧西游记一遍一遍的重播给洗脑了,电视剧其实和原著是有很大区别的。我不想刻意去区分原著与电视剧的差别(但完全颠覆原著的区别我还是会写出来),只是把我读西游记原阔太李念惊艳美图以上就是每天给大家分享的娱乐明星写真系列图片集,希望可以帮助到更多爱美的喜欢娱乐明星的兄弟姐妹们。每天分享娱乐时尚小知识,更多更好更精彩的娱乐信息将持续及时发布中,希望喜欢的朋友们布拉德皮特恋上小29岁明星之妻,女方丈夫终于受不了提离婚自从与安吉丽娜朱莉分开后,布拉德皮特虽不停传出绯闻,但就仅限于传闻,并非确定感情的那种。但跟这位珠宝公司副总裁伊内斯德拉蒙,应该是认定彼此了!两人打从去年11月被拍到一起去看Bon给李乃文做配角,却把反派演成暖男,52岁的任帅靠演技熬出头了传媒樱桃派系头条理娱君特约作者,看娱乐热点深度解读,认准理娱君!张颂文出圈后,李乃文也迎来了自己出演的男主角。2023年的影视圈让娱乐圈里低调的扫地僧们迎来春天。但李乃文未必想到的我们的日子连载从思宇与雪花分手,才明白三杯酒意味太深远我们的日子剧照文青源阳阳电视剧我们的日子热播,杨大山坦诚相见,促成思宇与雪花分手。电视剧我们的日子正在热播,这部剧由王雷导演,李小冉,李乃文,周依然,周奇,宋春丽,孙浩等主演。思宇
李勣临终戒言不肖子孙,立即打死,结果还是被孙子害得掘墓砍棺大唐名将李勣一生南征北战,不仅跟随过李世民参加唐朝平定天下的几场关键战役,后来还参加了大唐对突厥吐谷浑以及高句丽等边疆外患的战争,为大唐立下不朽功劳。公元669年,李勣这位唐初名将历史上的今天25司马懿发动政变控制洛阳249年2月5日魏帝曹芳和大将军曹爽中领军曹羲等至高平陵(今河南洛阳东南大石山)去祭扫魏明帝曹睿的陵墓,史称高平陵事件,高平陵之变,高平陵政变。249年2月5深度学习数学基础概率与信息论前言概率论学科定义概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明(statement)的公理。概率论的知识在机器学习和深度遇到外星人,原来要用数学打招呼?当下,电影流浪地球2和电视剧三体正在热播,引起了全民对中国科幻的讨论,畅想随着未来文明的发展,如果有一天人类真的要和外星文明对话,我们可以说些什么。央视总台记者采访作者刘慈欣,并抛如何看待陈戌源给自己打9分?多维评价体系下,这个分数并不离谱如何看待陈戌源给自己打9分?多维评价体系下,这个分数并不离谱文姜诗华地球人都知道,现在的中国足球正处于前所未有的低谷,但是出人意料的是,现任足协主席陈戌源在接受沪媒上观新闻采访时却布隆过滤器误判率数学推导预估要存的数据量为n期望的误判率为PBit数组的大小为mHash函数的个数为k推导过程1)对某一特定bit位在一个元素由某特定hash函数插入时没有被置为1的概率为2)则k个has美国发现M3星团的一颗彗星,以时速20万公里奔向地球,它想干嘛?在阅读此文前,麻烦您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。2021年12月6日,美国宇航局发布的一条消息瞬间让天文相关人士的心提到了嗓子眼,卫星猎人正在为太空战做准备通常间谍卫星是不同国家的军事项目。但似乎商业公司正在干涉军事太空业务。据Wired报道,美国联邦通信委员会(FCC)刚刚提交了文件,其中包含两颗商业情报卫星试射的详细计划。太空初创这是目前已知最大恒星的清晰照片,由双子座南方望远镜拍摄R136a1是目前已知质量最大的恒星,质量预估是太阳的250到320倍。2022年8月18日天文学家利用位于智力8。1米的双子座南方望远镜,拍到了迄今最为清晰的R136a1的单个图积木评测来自大疆的新春礼品!全新大疆积木RobomasterS1自从大疆开始设计积木玩具后,我就觉得这是一件非常有趣的事情,大疆在我个人心中还是很有地位的,包括我自用的包括稳定器,麦克风,运动相机也都是大疆,这一次大疆又带来了一款衍生自家的Ro我测试了AppleMacBookPro14英寸几乎没有抱怨,就是热了点对许多人来说,13英寸MacBookPro不够强大。它只使用M2芯片,这意味着图形部门缺少它。同时,16英寸MacBookPro功能相当强大,但其尺寸可能令人反感。14英寸MacB