范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

谈谈ChatGPT背后的核心技术

  ◎来源|智能化学习与思考
  输入几个简单的关键词,AI能帮你生成一篇短篇小说甚至是专业论文。最近大火的ChatGPT在邮件撰写、文本翻译、代码编写等任务上强大表现,让埃隆·马斯克都声称感受到了AI的"危险"。ChatGPT的计算逻辑来自于一个名为transformer的算法,它来源于2017年的一篇科研论文《Attention is all your need》。原本这篇论文是聚焦在自然语言处理领域,但由于其出色的解释性和计算性能开始广泛地使用在AI各个领域,成为最近几年最流行的AI算法模型,无论是这篇论文还是transformer模型,都是当今AI科技发展的一个缩影。以此为前提,本文分析了这篇论文的核心要点和主要创新初衷。
  缘起
  从Transformer提出到"大规模与训练模型" GPT(Generative Pre-Training)的诞生,再到GPT2的迭代标志Open AI成为营利性公司,以及GPT3和ChatGPT的"出圈";再看产业界,多个重要领域比如生物医疗,智能制造纷纷有以transformer落地的技术产生。在这个浪潮下,我的思考是:
  一是,未来很长一段时间在智能化领域,我们都将经历"科研、算力、基础架构、工程、数据、解决方案"这个循环的快速迭代;流动性、创新性短期不会稳定下来,而是会越来越强。我们很难等到科技封装好,把这些知识全部屏蔽掉,再去打磨产品。未来在竞争中获胜的,将是很好地"解决了产品化和科研及工程创新之间平衡"的团队。我们一般理解的研发实际上是工程,但AI的实践科学属性需要团队更好的接纳这种"流动性"。因此对所有从业者或者感兴趣智能化的小伙伴了解全栈知识成了一个刚需。
  二是,通过对这篇论文的探讨,可以更直观地理解:在科研端发生了什么,以什么样的速度和节奏发生;哪些是里程碑?是科学界的梅西横空出世,带我们发现真理;哪些是微创新?可能方向明确了,但还有很多空间可以拓展;哪些更像炼金术?仍然在摸索,尚需要很长一段时间,或者一直会保持这个状态。
  三是,在AI领域,由于技术原因,更多的论文是开源代码的,一方面,促进了更多人参与进来改进迭代;另一方面,科研跟工程实现无缝连接,一篇论文可以拉动从核心代码到平台,到具体应用很大范围的价值扩散。一篇论文很可能就是一个领域,一条赛道,甚至直接驱动业务价值和客户价值的大幅提升。
  四是, AI技术发展有很多领域(感知,认知,感知又分图像、语音、文字等,认知也可以分出很多层次)之前这些领域的算法逻辑存在很大差别,transformer的出现有一定程度上推动各个领域汇聚的迹象,介绍清楚这篇论文,对把握整体可能有些作用。另外ChatGPT属于现象级应用,大家更有直观感受,未来这类应用的体验提升和更新速度只会更快,理解了其背后的逻辑,更有助于我们把握这个趋势。
  论文介绍
  下面步入正题,开始介绍这篇论文,会涉及一些技术细节及公式,可能还需要仔细看一下(先收藏,留出15-20分钟比较好),相信一旦看进去,你会对AI的理解加深很多。
  总体把握
  这篇论文的结构非常精炼,提出问题,分析问题,解决问题,给出测试数据。顶刊文章讲究言简意赅,有描述,有代码,有结果;其中最核心的是以下这张图,作者团队提出transformer的核心算法结构:
  整篇文章就是围绕这张图来进行解释的,由于篇幅所限,我们聚焦在一条主线上:1.文章想解决主要问题是什么 2.如何解决的 3.从文章提出的解决方案作为一个案例来引发整体思考,因此我们将内容简化,主要关注核心部分。
  这张图表达的内容如果理解了,那基本上你掌握了这篇论文85%的内容,也是最关键的部分。
  《Attention is all your need》在编写时主要是为了考虑NLP任务,是由几个Google的科研人员一起完成的,其中一个背景是Google也在推广自己的并行计算芯片以及AI TensorFlow开发平台。平台主要功能特点是并行计算,这篇文章的算法也是在最大限度的实现并行计算。我们就以一个简单的例子来把这个算法串一遍。
  核心内容
  需求是我们需要训练一个模型,进行中文到英文翻译。
  背景知识:这个需求要把"翻译:我爱你 to I love you"转置成一个y=f(x)问题,x代表中文,y是英文,我们要通过训练得到f(),一旦训练成功f(),就可以实现翻译。大家拼的就是谁的训练方法更准确,更高效,谁的f()更好用。
  之前自然语言处理主要的算法叫RNN(循环神经网络),它主要的实现逻辑是每个"字"计算之后将结果继承给第二个字。算法的弊病是需要大量的串行计算,效率低。而且当遇到比较长的句子时,前面信息很有可能会被稀释掉,造成模型不准确,也就是对于长句子效果会衰减。这是这篇文章致力于要解决的问题,也就是说这篇文章有训练处更好的f()的方法。联想一下ChatGPT可以做论文,感受一下。
  在Transformer里,作者提出了将每个字与句子中所有单词进行计算,算出这个词与每个单词的相关度,从而确定这个词在这个句子里的更准确意义。
  在此处,要开始进入一些技术细节,在开始之前,我们有必要再熟悉一下机器学习领域最核心的一个概念——"向量"。在数字化时代,数学运算最小单位往往是自然数字。但在AI时代,这个最小单元变成了向量。这是数字化时代计算和智能化时代最重要的差别之一。
  举个例子,比如,在银行,判断一个人的信用额度,我们用一个向量来表示
  向量是一组数据的集合,也可以想象成在一个超高维度空间里的一个点。一个具体的信用额度向量,就是在8个特征组成的高维空间的一个点。数据在高维空间将展现更多的数学性质比如线性可分,容易让我们抓住更多隐藏的规律。
  向量的加减乘除是计算机在进行样本训练是最主要的计算逻辑。
  Transformer模型的主要意义就是找到了一个算法,分成三步把一个词逐步定位到了一个高维空间,在这个过程中赋予这个单词比其它算法更优的信息。很多情况下这个高维空间有着不同的意义,一旦这个向量赋予的信息更准确更接近真实情况,后面的机器学习工作就很容易展开。还拿刚才信用额度向量举例子
  这两个向量存在于两个不同的向量空间,主要的区别就是前者多了一个向量特征:"年薪"。可以思考一下如果判断一个人的信用额度,"年薪"是不是一个很重要的影响因子?
  以上例子还是很简单的,只是增加了一个特征值,在transformer里就复杂很多,它是要把多个向量信息通过矩阵加减乘除综合计算,从而赋予一个向量新的含义。
  好,理解了向量的重要性,我们看回transformer的三步走,这三步走分别是:1.编码(Embedding)2. 定位 (Positional encoding)3. 自注意力机制(Self-Attention)。
  举个例子,比如,翻译句子Smart John is singing到中文。
  首先,要对句子每个词进行向量化。
  我们先看"John"这个词,需要先把"John"这个字母排列的表达转换成一个512维度的向量John,这样计算机可以开始认识它。说明John是在这个512维空间的一个点,这是第一步:编码(Embedding)。
  再次,第二步: 定位(Positional encoding),利用以下公式(这是这篇论文的创新)
  微调一个新的高维空间,生成一个新的向量。
  我们不用太担心这个公式,它核心意义是:1.在这个新的向量里面每一位由原来的0和1表示,分别取代成由sin和cos表示,这个目的是可以通过sin和cos的定律,让这个新向量不仅表示John这个单词的意义,还可以表示John在Smart John is singing这个句子的位置信息。如果不理解,可以直接忽略,只要记住第二步是用来在"表达John这个词的向量"中,加入了John在句子中的位置信息。John已经不是一个孤立的词,而是一个具体句子中的一个词,虽然还不知道句子中其他词是什么含义。
  如果第一步计算机理解了什么是John,第二步计算机理解了"* John**"。
  最后,第三步:自注意力机制(Self-Attention),通过一个Attention(Q,K,V)算法,再次把John放到一个新的空间信息里,我们设为
  在这个新向量里,不仅包含了John的含义,John在句子中位置信息,更包含了John和句子中每个单子含义之间的关系和价值信息。我们可以理解,John作为一个词是一个泛指,但Smart John就具体了很多,singing的Smart John就又近了一步。而且Attention (Q,K,V)算法,不是对一个单词周围做计算,是让这个单词跟句子里所有单词做计算。通过计算调整这个单词在空间里的位置。
  这种方法,可以在一个超长句子中发挥优势,而且最关键的是一举突破了时序序列的屏障,以前对于图像和NLP算法的划分,很大程度上是由于NLP有很明显的时序特征,即每个单词和下一个以及在下一个有比较明显的时序关系。但Transformer这种算法打破了这种束缚,它更在意一个单词跟句子中每个单词的价值权重。这是Transformer可以用到everywhere的主要原因。
  计算过程
  具体的计算过程,用翻译句子"我爱你"到"I love you"举例(这句更简单一些)。首先进行向量化并吸收句子位置信息,得到一个句子的初始向量组。
  (由于样本每个句子长短不同,所以每个句子都会是一个512*512的矩阵,如果长度不够就用0来代替。这样在训练时,无论多长的句子,都可以用一个同样规模的矩阵来表示。当然512是超参,可以在训练前调整大小。)
  接着,用每个字的初始向量分别乘以三个随机初始的矩阵WQ ,Wk ,Wv 分别得到三个量Qx,Kx,Vx。下图以"我"举例。
  然后,计算每个单词的attention数值,比如"我"字的attention值就是用"我"字的Q我 分别乘以句子中其他单词的K值,两个矩阵相乘的数学含义就是衡量两个矩阵的相似度。然后通过一个SoftMax转换(大家不用担心如何计算),计算出它跟每个单词的权重,这个权重比例所有加在一起要等于1。再用每个权重乘以相对应的V值。所有乘积相加得到这个Attention值。
  这个attention数值就是除了"我"字自有信息和位置信息以外,成功的得到了这个句子中每个单词的相关度信息。
  大家可以发现,在所有注意力系数的计算逻辑中其实只有每个字的初始矩阵WQ ,Wk ,Wv 是未知数(这三个矩阵是所有文字共享的)。那么我们可以把这个transformer简化成一个关于输入,输出和这个W矩阵的方程:其中X是输入文字信息,Y是翻译信息。
  这里有必要再介绍一下机器学习的基础知识:Transformer算法本质上是一个前馈神经网络模型,它的计算基础逻辑,不去管复杂的隐藏层,就是假设Y=f(x)=wx,(目标还是要算出一个f())然后随机设置一个w0,开始计算这个y=w0x的成本函数,然后再把w0变成w1,计算y=w1x的成本函数,以此类推计算出无数w(不是无数,也会收敛),然后比较哪个w的成本函数最小,就是我们训练出来的f()。那么在transformer里,这三个初始矩阵就是那个w0。
  再回到transformer,在计算Attention之后,每个单词根据语义关系被打入了新的高维空间这就是Self-attention(自注意力机制)。
  但在transformer里,并不是代入了一个空间,而是代入了多个高维空间,叫做多头注意力机制,(文章中没有给出更清晰的理论支持,为什么是多头) 。
  主要原因是在训练时效果很好。这也是AI科研论文的一个特点,常常凭借非常高的科研素养和敏感性,发现一些方向,并且通过测试确实有效,但不一定可以给出很完美的理论支撑。这往往也给后续研究者一些可以进一步完善的空间。
  事实证明,如何提升Attention(Q,K,V)效率是transformer领域迭代最快的部分。之后的Bert算法提出预训练机制成为了主流,后面会做进一步介绍。
  当然,事后我们可以理解是把这个句子中的逻辑关系放到不同的高维空间去训练,目的就是希望抓取更多的信息,这一部分可以更加深刻理解科研人员对空间的应用。
  除了以上内容,还有一些技术点比如Mask机制、layer norm、神经网络激函数饱和区控制等,由于篇幅关系以及属于技术细节就不一一介绍了。
  如果大家理解了多头自注意力机制,基本已经85%掌握了这篇论文的重要内容,也对还在快速扩展影响力的transformer模型有了一个比较直观的认识。
  启发收获
  从理论科研进步的角度看
  一、Transformer打破了时序计算的逻辑,开始快速出圈,多个AI原本比较独立的领域开始在技术上融合。再往里看,Transformer能打破时序很重要一点是并行计算的算力模式给更复杂的计算带来了性价比上的可能性。算力的进一步提高,必将在AI各细分领域带来融合,更基础设施级别的模型,算法仍将不断推出。AI领域在图像,NLP;感知认知领域的专业分工也会慢慢变模糊。
  二、AI科研确实具有一些实验性质。除了核心思想,确实还有很多技术点的解决方向已经明确,但还有很大的提升空间,可以预见围绕transformer周边的微创新会持续加速繁荣。
  三、《Attention is all your need》在业内大名鼎鼎,但你要是细看,会发现很多内容也是拿来主义,比如最重要的Attention(Q,K,V)中Query,Key,Value是互联网推荐系统的标配方法论;整个Transformer算法也是一个大的神经网络,算法是在前人基础上一步一步迭代发展,只是这个迭代速度明显在加快。
  从理论、算法、架构、工程的角度看
  四、AI算法科研领域正经历算法、开源代码、工程、算力的增长飞轮。
  下图是顶级刊物上的学术论文中,开放源代码的论文比例,这个数据在这几年以更快的速度在增长。科研过程与工程过程产生越来越大的交集。开源社区和开源文化本身也在推动算法和工程的快速发展。
  更多人参与,更多领域的人参与进来,进入门槛随着算力成本、AI基础架构和代码、知识分享的开源逐渐降低,科研与工程的边界也变得模糊,这个就像足球运动的规律,除了足球人口增多,天才球员梅西出现的概率也会增大。
  从数据和后续发展的角度看
  五、ChatGPT的成功同大量的数据训练功不可没,但除了简单对话互动或者翻译,大篇幅回答甚至论文级别的答案还是极其缺乏样本数据(算法训练需要的样本数据需要清晰度X和Y)。而且Transformer的算法相比其他算法需要更大的数据量,原因在于它需要起始阶段随机产生三个矩阵,一步一步进行优化。除了Transformer以外,另一个技术Bert也是技术发展非常重要的现象级算法。其核心是一个简化的Transformer,Bert不去做从A翻译到B,它随机遮住X里面的一些单词或句子让算法优化对遮住部分的预测。这种思路使得Bert成为了Transformer预训练最好的搭档。
  如果通过Bert进行预训练,相当于给矩阵加入了先验知识(之前训练逻辑没有给机器任何提示,规则后者基础知识),提高了正式训练时初始矩阵的准确度,极大地提升了之后transformer的计算效率和对数据量的要求。在现实中,举例来说,如果我想训练国家图书馆图书,之前需要每本书的信息和对这本书的解释,或者中文书对应的英文书。但现在我们可以大量只是训练内容,不需要打标签,之后只需要通过transformer对样本数据进行微调。这就给ChatGPT很大的进步空间,而且可以预见,更多这类大模型会雨后春笋一般快速出现。
  六、由于transformer是更高级的神经网络深度学习算法,对数据量有很高要求,这也催生了从小数据如何快速产生大数据的算法,比如GAN对抗网络等。这是AIGC领域的核心技术。解决数据量不足问题,除了更高效率抽象小数据的信息,也多了把小数据补足成大数据的方法,而且这些方法在快速成熟。
  七、我们发现在机器学习算法中有大量的超级参数,比如在transformer里多头机制需要几头N,文字变成向量是512还是更多,学习速率等都需要在训练之前提前设置。由于训练时间长,参数复杂,要想遍历更优秀的计算效果需要非常长的摸索时间。这就催生出AutoML,拿Transformer举例,就要很多个路线进行自动化机器学习;比如贝叶斯计算(找到更优参数配置概率);强化学习思路(贪婪算法在环境不明朗情况下迅速逼近最优);另外还有寻求全新训练网络的方法(transformer,RNN,MLP等联合使用排列组合)等。
  科研发展强调参数化,工业发展强调自动化,这两者看似统一,但在现实实操过程中往往是相当痛苦矛盾的。这也是开篇说的产品化和科研流动性相平衡的一个重要领域。
  关于我们
  「数字经济先锋号」是成都数联产服科技有限公司旗下数字经济研究交流平台。围绕数字产业、数字基建、数字治理、数字生态等数字应用领域,揭示与记录数字经济发展点滴与脉络。
  数联产服是BBD数联铭品集团数字经济智库,产业大数据服务商。数联产服具备全流程大数据治理-分析-决策支撑服务能力,面向各级政府和产业运营机构提供基于大数据的产业经济发展解决方案和综合服务。

贵州适合养老的地方,要数这四座小城呼声最高,你去过几座?贵州是一个神奇的省份,这里生态原始,环境好,奇山异水风景秀美,而且气候宜人,夏天是避暑天堂,冬天也不冷,是国内最适合养老的省份。过去因为交通不便,贵州浑然天成的淳朴与原生态藏在深山世界首位太空游客计划重游太空!82岁的他将带57岁妻子太空蜜月世界首名太空游客现年82岁的美国企业家丹尼斯蒂托12日说,已与美国太空探索技术公司签订合同,日后将与现年57岁的妻子搭乘该企业正在开发中的星船展开环月之旅。航空航天工程师出身的美国博雅视野丨体育与旅游高质量融合的发展路径如今,人们对健康的重视程度越来越高,健身运动逐渐成为潮流,良好的形体塑造令许多年轻人羡慕并积极进行运动。一方面加强自身免疫,另一方面愉悦身心。全民健身意识的增强,为体育休闲运动领域逆袭之旅普通景区做好这几点还怕没客流?在全域旅游时代,没有人会怀疑品牌对于目的地的意义,而打造一个强大的品牌,首先要明白竞争的焦点在哪里,这个焦点并不在地图上,而在于人的心里红利褪去,竞争成为主旋律有需求地方就有市场,黄田印记文朱寿江(火枫一叶)秋分过后,天高气爽。作家天地杂志社邀请部分作者去泾县采风游览。秋天的皖南,山峦叠嶂,层林尽染,白云人家,炊烟袅袅,鸟语花香,风景如画。车至黄田游客中心,导游买好广西贺州八景1。黄姚古镇5A黄姚古镇位于广西昭平县,地处桂林漓江下游,距桂林160公里,素有梦境家园之称。黄姚是有着近千年历史的古镇,发祥于宋朝年间,兴建于明朝万历年间,鼎盛于清朝乾隆年间。由外出旅游该不该和当地的同学打电话?国庆假期刚过,旅游外地时该不该给当地同学打电话又成了热议的话题。有抱怨多年不联系的同学打电话的,也有抱怨外地同学接待不周到的,同学群里承诺的包吃包住包门票没做到。也许是因为现在的8仅0。01的人来过!只对中国人开放的海岛,不输马代的玻璃海只对中国游客开放的海岛仅0。01的人去过从三亚到西沙群岛,乘着邮轮去看海粉色沙滩澄澈海岸七色海珊瑚礁红树林美丽而又富饶的西沙群岛拥有太多美景不过,独特的航线不仅限制国籍对年龄也有特九月汽车销量排行榜出炉,轩逸丢榜首最新九月汽车销量排行榜出炉,轩逸交出头把交椅,特斯拉销量激增,比亚迪在新能源又是霸榜,盘点一些重点上榜车型。第一名特斯拉ModelY随着产能的逐步释放,特斯拉ModelY再次以46美国下狠手!又出芯片法案打压中国,苹果AMD先崩了,没有赢家美国为了阻碍中国科技行业的发展,不惜采用一切措施进行管制,相继制裁了华为公司中兴中科曙光等中国企业,甚至实施芯片禁令,这在一定程度上加剧了全球缺芯。可以说,美国为了阻碍中国科技行业共享wifi是什么项目共享wifi是什么项目,不知道大家对共享经济了解多少,其实共享wifi原理跟共享充电宝差不多,都是跟商家合作,同时呢跟选择的场景也有关系。在现在的生活当中,我们比如到一些酒店,奶茶
探访张家湖畔石象生探访张家湖畔石象生文童正祥张家湖湿地公园沙盘地图上有一处名曰石人石马的地标,其正规的名称应谓石像生。所谓石像生即陵墓甬道旁的石雕群,作为王公大臣陵墓前的仪卫性雕刻,是中国古代雕刻艺新型超导双量子比特处理器问世量子处理器的一部分。(图片来源谢尔盖格努斯科夫俄罗斯国家研究型技术大学)俄罗斯国家研究型技术大学和莫斯科国立鲍曼技术大学成功使用新型超导fluxonium量子比特实现了双量子比特操楼市需求端利好逐步释放,高位上车的存量房贷利率也能降降么?最近一段时间,金融政策持续落地,给房地产行业注入活力,随着需求端利好政策的逐步释放,越来越多城市的首套房贷利率进入3时代。从实际发放的商业性个人住房贷款利率看,2022年10月新发江苏女排未来可期,新三驾马车逐渐成型,联赛成绩或可高看一线20222023赛季中国女排超级联赛E组的比赛继续进行,山东女排与江苏女排再次上演五局大战,结果青春无敌的江苏女排笑到了最后,32战胜山东女排,经过此战,江苏女排不仅赢得了比赛,更我们读所有书,最终的目的都是读到自己我们这一生,始终都在寻找自己,在别人的故事中寻找自己,在读过的书中寻找自己。读到有意思的书你会发现焦躁的心平息下来了,突然有种豁然开朗的安全感,你会发现你百思不得其解的困惑,千百年法院受理广汽菲克破产清算申请,经销商损失恐难以弥补11月30日,广汽集团(601238。SH)公告,长沙市中级人民法院受理了广汽菲克的破产清算申请。此前有超过50名经销商维权,反对广汽菲克在未解决经销商及客户问题前破产清算。然而法预算只有1000元?推荐这3款安卓千元平板,学生党放心入手前言提起平板电脑,很多人一张口就是iPad。但是就连最入门级别的iPad9,价格都在2000元以上,对学生来说并不便宜。而且有一句话是这么说的性能太强,反而更容易坠入娱乐的深渊。如刘强东谈马云刘强东伴随着国家和社会的不断进步,京东会一天比一天光明,而有的人日子会一天比一天黑暗!马云那种见光死的商业模式,社会愈进步,法律愈健全,它的日子愈艰难!我们日子会过得更好!就这个区世界杯的大屏,中国造在卡塔尔狂掷2290亿美元却基本出线无望后,愤怒的球迷扬言要尽快办闭幕式,当然,这由不得球迷说了算。比起输球,也许中东土豪们更看重这届世界杯可以给卡塔尔带来什么。世界杯开幕前就有不新能源补贴和置换补贴即将取消明年换车至少多花2万元由于新能源汽车购置补贴政策将于2022年12月31日终止,目前已经有越来越多的车企公布了自家品牌新能源车型的调价说明。不久前比亚迪已经公布了车型涨价幅度,大众以及其他品牌的产品也都听说它最近很火,于是我买了!中兴AX5400Pro双2。5G路由器评测600多块钱的路由器有什么不一样吗这篇文章其实在我写了又删,删了又写的基础上所保留下来的,在购买这一款中兴AX5400Pro之前,其实我看过了大量的测评视频以及体验文章,这些视频文