不知道大家是否还记得年初刷屏的DALLE2?因为它的爆火,大家开始不约而同的讨论起AI绘画会不会代替设计师的工作,这个话题至今还被人常常提起。最近,OpenAI再放大招,推出的ChatGPT席卷网络,大家又开始讨论内容创作者、技术从业者、甚至HR岗位是否也会被取代! 但事实真的如此吗?GPT真的有如此大的能力吗?今天就和大家一起看看GPT是如何筹谋抢走大家饭碗的。 GPT发展史 GenerativePretrainedTransformer(GPT),即基于互联网可用数据训练的文本生成深度学习模型。要讨论GPT就不得不谈谈他的东家OpenAI,在2016年成立时,公司主要目标包括制造通用机器人和使用自然语言的聊天机器人,如今它的核心宗旨仍是实现安全的通用人工智能(AGI),这也给很多人造成了误解,觉得GPT的未来即是AGI,但是事实真的如此吗? 我们先来一起了解下GPT的发展史! GPT1 众所周知,2018年是自然语言处理(NLP)的预训练模型元年,也是这一年,GPT1诞生了。 GPT1所用的模型结构是TransformerDecoder结构,共12层。 这在当时来说已经是一个很庞大的模型了,但在性能方面还只能用于监督和任务无关的任务。 (TransformerDecoder模型) 常用任务包括:自然语言推理、问答与常识推理、语义相似度识别、分类。 GPT2 时隔一年,一句TooDangerousToRelease和GPT2一起爆红网络,也打响了OpenAI声名显赫之路。 相比起GPT,GPT2并没有对原有的网络进行过多的结构创新与设计,但模型、数据、以及训练模型都增强了很多。 (GPT2模型) 在性能方面,GPT2发现了它真正的强项生成,尤其在阅读摘要、续写编写等方面展示出了强大的天赋。 同样在这一年,OpenAI通过GPT2认识到了ZeroShot的可能性,并搭载着GPT2发布了很多衍生品。 GPT2衍生品之MuseNet MuseNet是OpenAI早期的衍生品,它使用与GPT2相同的通用无监督技术。 GPT2为先前OpenAI提出的一个大规模Transformer模型,训练AI可预测序列中的下一个token,包括音频和文本,用在MuseNet上则是给定一组音符后,要求AI预测后面会出现的音符。 MuseNet可以使用10种不同乐器,按照不同的风格生成出4分钟的音乐;甚至,当MuseNet知道许多不同的风格之后,就能混合生成新的音乐。 举例来说,你输入了肖邦夜曲(ChopinNocturne)的前6个音符后,并要求它生成一段流行乐,再要求其加上钢琴、鼓、bass和吉他的伴奏,这样生成的音乐就完美融合了肖邦和BonJovi两种风格。 GPT3 GPT2的热度仅隔一年,OpenAI就推出来GPT3,虽然在模型上没有创新,只是沿用了更大更强的作风,但通过GPT3我们也可以明确:OpenAI对GPT的迭代已经不在其模型创新性了,而更多则是在实用性,即是否可以完成自然语言处理的绝大部分任务。 在性能方面,GPT3已经能够将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本,甚至模仿已故的各位哲学家的风格了。而且,OpenAI还开放了GPT3API接口,大家可以自行申请白名单来体验GPT3的效果,由此正式开始了GPT的商业化模式。 GTP3衍生品之DALLE DALLE图像生成器是GPT的衍生品,其名字是为了向艺术家萨尔瓦多达利和皮克斯的机器人WALLE致敬。作为红极一时的AI绘画平台,DALLE2能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家、设计师的创造力。 且得益于GPT3强大的模型,DALLE2甚至可以通过AI计算考虑整体构图,当标题文本暗示图像必须包含未明确的特定细节时,DALLE2可以做到自然的把它融入到整幅图片中,这是其它AI绘画工具无法做到的,OpenAI把这样的概念叫做填补空白。 DALLE2的使用方法也非常简单,用户只需输入自己对脑海中画面的描述,还可以上传一张你需要变形的文字,并输入指令,即可获得你想要的图片。这无疑是对没经过专业艺术培养,但想要从事艺术工作、或想要自己尝试设计的兴趣用户带来了很大的益处, 但目前DALLE2整体的算法模型还不够充足,有时自动生成的图片并不能满足我们的设计需求,也偶尔会出现画面不合逻辑的情况。随着GPT算法训练的次数越来越多,相信其生成的图片也会越来越丰富。 GPT3衍生品之ChatGPT ChatGPT是GPT3自然语言生成式模型的最新衍生品,也是继DALLE之后又一个掀起浪潮的产品。它进行自然语言理解和生成,并具有高度的智能化和可训练性,可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题。 ChatGPT能做的远不止此,这也是大家齐呼自己要失业了的原因。下面我们来一起看看ChatGPT的能力。 编写内容 内容创作者作为现在大时代下最常见的工种之一,很多人都表现出自己专属的创造性和不可替代性;各类的热点关键词也是层出不穷,丰富了很多人的休闲时光。 现在,ChatGPT通过算法就可以完成内容输出了! 甚至你还可以在问题后面输入风格要求,这样你就得到了有着著名艺术家、世界首富、著名政治家、甚至美国杀人魔表达风格的内容。 但目前ChatGPT创造的故事性重复度还是较高,这与它的工作原理可能有关系,即把单词和单词之间相关联,并根据初始输入的短语来生成其它跟随的单词。因此,文字工作者也无需担心GPT会取代你的工作。 指出错误 ChatGPT使用预训练微调的工作范式训练了一个初始模型:人类AI训练员提供对话,他们在对话中扮演双方用户和AI助手,AI训练员可以访问模型编写的对话回复,并帮助AI调整回复内容。 编写软件 真正让ChatGPT爆红网络的原因自然是因为其就要取代技术员工作了,据说它可以自己写代码、debug。但其实,ChatGPT自己给出的解释是我可以为用户解决各种技术问题。例如,我可以帮助用户解决编程语言的问题,比如Java、Python、C等。我还可以帮助用户解决操作系统的问题,比如Windows、Linux、MacOS等。此外,我还可以帮助用户解决软件工具的问题,比如Eclipse、VisualStudio、Git等。 还有人在ChatGPT和谷歌上就相同的一个问题就行检索,通过对比发现ChatGPT往往可以给出用户最想要的答案,并且答案呈现的方式也非常直接,为未来搜索引擎提供了新范式,ChatGPT也被认为是最有可能取代谷歌的下一代智能搜索引擎。 正是因为GPT3的衍生出现了很多产品,支持多种行业中的自动完成,你只需输入几个单词就可以完成一个(或更多)段落。因此GPT3被描述为世界上功能最强大的自动完成系统。 那么回到文章开头提到的一个观点:GPT的未来即是AGI。但GPT真的可以和AGI划上等号吗? 预测:GPT4等于AGI吗? 提起AGI很多非技术职业者可能有些模糊,但人工智能这个词相信大家并不陌生,从早年的AlphaGo下围棋赢过最好的人类棋手开始,人工智能打败人类的话题就一直在不断被讨论;因此,当GPT可以代替设计师、编曲家、内容创作者、技术工程师等工作的话题一出来,就立刻赚足了眼球。 其实通过我们刚刚上文的分析,相信大家可以明确,OpenAI推出的GPT衍生品并无法代替任何人的工作,人类通常是擅长融合各类感官信息去创造一个新的内容的,因此我们在进行AGI研究时必须要考虑的是征服基础知识。 AGI至少从一开始就需要一个机器人体来学习类似的东西。 这些计算机不需要驻留在机器人内部,而是可以远程连接,因为电信号比我们神经系统中的电信号要快得多。但是,机器人提供了学习如何堆叠块、移动对象,随时间推移执行一系列动作以及从这些动作的后果中学习的能力。借助视觉,触摸,操纵器等,AGI可以学会以基于文本的系统根本不可能的方式来理解。 而GPT并无此内容的训练,更局限在内容的生成训练上。我们相信随着人类不停的使用反馈训练,GPT生成的内容会越来越丰富且有逻辑性,但利用文字表达出抽象的层次是GPT无法学会的。 总结 虽然GPT不等于人工智能,但前有DALLE2,后有ChatGPT,某种程度上来说确实减少了各类工作者的入门门槛和工作压力;我们相信有AlphaGo在前,更多的人工智能产品会逐渐跟大家见面。 我们可以看到将人工智能引入日常生活将对我们的生活和工作方式产生深远影响;我们也相信,人工智能将用于自动执行日常任务、创建个性化服务以及根据数据做出决策。 鼎道智联专注于打造一款以人为本的操作系统,我们也希望在操作系统中可以给客用户提供更个性化、更智能化的操作体验,期待大家持续关注鼎道生态,并加入我们一起参与更多话题讨论。