(报告出品方作者:华福证券,钱劲宇)Part1AIGC行业介绍及发展趋势 AIGC产业生态迎来爆发期 AIGC最基本的能力是生成内容,包括文本、图像、视频、代码、3D内容或者几种媒介类型转换组合形成的多模态内容。生成算法、预训练模型、多模态等AI技术累积融合,以及深度模型方面的技术创新,共同催生了AIGC的大爆发。AIGC是相对于过去的PGC、UGC、AIUGC而提出的。过去的传统AI偏向于分析能力,基于已有内容;现在的AI基于训练数据和生成算法模型,可以自主生成各种形式的内容和数据。 2022年,AIGC(AIGeneratedContent,人工智能生成内容)爆火出圈。2022年10月,StableDiffusion、DALLE2、Midjourney等可以生成图片的AIGC模型风行一时;2022年12月,OpenAI发布能够回答问题、生成代码、构思剧本和小说的聊天机器人模型ChatGPT,将人机对话推向新高度。 目前,从提供预训练模型的基础设施层公司到专注打造AIGC产品和应用工具的应用层公司,围绕AIGC生长出繁荣的生态,技术创新引发的应用创新浪潮迭起,中国有望凭借领先的AIGC技术赋能各行各业。 AIGC市场规模到2025有望达500亿元 在传统PGC和UGC模式下,内容生成领域存在产能约束和质量约束,PGC受制于人力资源的供给侧限制,UGC虽然降低了PGC的生产门槛,但因用户创作能力和工具功能的局限存在质量约束。AIGC突破内容生成产能和质量约束,应用广泛,市场规模将会大幅扩大。根据《中国AI数字商业产业展望20212025》报告,预测AI数字商业内容的市场规模将从2020年的40亿元,增加到2025年的495亿元。 AIGC产业生态体系呈现上中下三层架构 目前AIGC产业生态体系的雏形已现,呈现上中下三层架构。第一层为上游基础层,是由预训练模型为基础搭建的AIGC技术基础设施层。第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。在预训练的大模型基础上快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署。第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。 AIGC将逐步革新数字内容的生产和艺术的创造 AIGC的社会价值体现为革新数字内容与艺术创造领域,并将辐射到其他领域和行业,孕育新的技术形态和价值模式,甚至会成为通往AGI(通用人工智能Artificialgeneralintelligence)的可能性路径。 AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的AIGC应用都在快速发展,未来AIGC的应用领域将会进一步拓宽。 AIGC落地场景:AI绘画、AI建模、聊天机器人ChatGPT等 2022年被称为AIGC元年,多个AI领域迅速发展,绘画、音乐、新闻创作、主播等诸多行业被重新定义。目前AIGC正在从简单的降本增效(以生成金融体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,文本图像视频的跨模态多模态内容生成正在进展中。已有的落地场景包括AI绘画、AI建模、聊天机器人ChatGPT等。Part2ChatGPT介绍及发展趋势 文本生成式AI:聊天机器人ChatGPT火热来袭 OpenAI:由马斯克、美国创业孵化器YCombinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得蒂尔等硅谷科技大亨于2015年12月创立,主要用于制造通用机器人和使用自然语言的聊天机器人。 2020年5月,OpenAI发布了以Transformer为基础的NLP(自然语言生成)预训练模型GPT3,此前已经历过GPT1、GPT2。 2022年11月30日,OpenAI公司发布聊天机器人模型ChatGPT,ChatGPT对GPT3模型进行微调,并引入RLHF(基于人类反馈的强化学习)方法。只需向ChatGPT文字提出需求,即可让其完成回答问题、书写代码、创作文本等指令,发布一周内用户量超过百万。 ChatGPT可能改变搜索引擎使用方式,挑战谷歌霸主地位 ChatGPT属于AIGC的范畴,能够回答连续性的问题、质疑不正确的假设,甚至拒绝不合理的要求,大幅提高了AI在人机对话时的准确度和可控性,将有望改变人类使用搜索引擎的方式。OpenAI的CEO称AIGC的最终目标是做一个类似于新时代的搜索引擎。目前ChatGPT展示出来的内容输出质量和内容覆盖维度,已经可以直面搜索引擎与问答社区。外媒TheInformation报道显示,微软可能在2023年3月之前将ChatGPT引入自家的搜索引擎Bing,用人工智能来回答一些搜索查询,此举或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。StatCounter数据20202022谷歌全球市场份额超90,ChatGPT出现将挑战谷歌搜索引擎的霸主地位。 微软追加投资,ChatGPT商业化进程加快 微软近日考虑宣布将向OpenAI进行近百亿美元的投资,此前微软分别于2019年和2021年对OpenAI进行投资,若此次投资完成微软将拥有OpenAI49的股权。微软对单个100GPU的收费是3美元时,按照ChatGPT加载模型和文本的速度,生成一个单词的费用约为0。0003美元;而ChatGPT的回复通常至少有30个单词,因此ChatGPT每回复一次,至少花OpenAI1美分。微软既能提供钱,又能提供算力。2023年1月,ChatGPT的活跃用户数或已达1亿,可能是史上增长最快的消费者应用。因访问量过大,OpenAI对ChatGPT进行了大规模限流,包括限制每小时的提问数量,以及高峰时段排队等举措。OpenAI于2023年2月正式推出ChatGPTPlus版本(率先对美国地区用户开放),收费20美元月,Plus版ChatGPT全天可用,无需排队。 依托微软生态,ChatGPT不断拓展应用领域 ChatGPT作为文字模态的AIGC发展潜力大,可以与图形模态的AIGC相结合,打造从文字描述到图片生成的AI辅助工具。依托微软生态:依托于微软的操作系统、office等产品在全球市场份额的优势地位和强大产品生态,ChatGPT更多应用场景有望快速推进。微软CEO表示,微软正迅速推进OpenAI工具的商业化,ChatGPT等工具将整合进微软旗下产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服务、Teams聊天程序等。下游应用场景丰富:ChatGPT的下游应用场景包括代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人(客服、外呼、营销)等。 星星之火可以燎原,ChatGPT有望进一步打开AIGC海量空间 ChatGPT爆火的背后是AIGC生态的逐渐繁荣,随着数字经济与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为新型的内容生产方式,已经在传媒、电商、影视、娱乐等行业取得重大创新进展。2022年,AIGC发展速度惊人,迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续入局,未来随着国内政策环境的优化,虚拟人、人机交互等场景需求旺盛,有望推动AI技术在金融、政府、医疗、工业等领域的加速落地。AIGC有望成为数字内容创新发展的新引擎,为数字经济发展注入全新动能。Part3从NLP到Transformer到GPT NLP的最初发展:传统模型的改进 自然语言处理(NaturalLanguageProcessing,NLP)是一种机器学习技术,使计算机能够解读、处理和理解人类语言。传统模型:循环神经网络(RNN)以及它的改良版本LSTM。 注意力机制(AttentionMechanisms)的引入:针对RNN语言模型中状态S作为上下文这一机制的改进。引入Attention之后,计算第i个词后的状态从单纯的Si变成了S0,S1。。。Si的组合,而具体如何组合,即哪个状态比较重要,也是通过数据拟合出来的。在这样的情况下,模型的表达能力又得到了进一步的提高,它可以理解一些距离较远但是又非常密切的词汇之间的关系,比如说代词和被指代的名词之间的关系。 传统模型的弊端:在RNN中计算当前词后的状态Si主要是通过计算上一个词时的状态Si1迭代出来的,因此它假设了距离较近的词汇之间的关系更密切,而在人类真实的语言中这一假设并不一定成立。 NLP的跨越式发展:Transformer与GPT的提出 Transformer模型的提出:在注意力机制提出后3年后,谷歌发表了著名的AttentionIsAllYouNeed,提出Transformer模型,对自然语言处理有巨大的影响,使NLP的性能再次提升一个台阶。Transformer与原始模型不同的是:Transformer模型中没有RNN,完全基于Attention。在大型数据集上的效果可以完全碾压RNN模型(即使RNN中加入Attention机制)。Transformer的架构使得建立词与词之间的复杂关系成为了可能,显著提高了模型的表达能力。以当前热门预训练模型为例,BERT(仅使用了Transformer的Encoder部分),GPT2、GPT3(使用的是Decoder部分)等,都是基于Transformer模型而构建。 GPT模型的提出:生成式预训练(GenerativePreTraining,GPT)是一种新的训练范式,通过对海量数据的无监督学习来训练语言模型。由于GPT底层借用了表达能力很强的Transformer,互联网经过长时间的发展,海量的无标记的自然语言数据也不再稀缺,所以训练出来的模型对语言有了相当深入地理解。 ChatGPT的诞生:GPT迭代而来的当今最强版本 ChatGPT是由最初的GPT迭代而来:基于文本预训练的GPT1,GPT2,GPT3都是采用的以Transformer为核心结构的模型。2018年发布GPT1模型,其规模和数据量都比较小。2019年发布GPT2模型,使用了更多参数的模型和更多的训练数据,且使用zeroshot设定实现仅通过一次预训练的就能完成多种任务,减少了下游微调的频率。2020年发布GPT3模型,最显著改变的是把模型参数提升到了千亿级,并在代码编写和数学运算等方面也有上佳表现。GPT3的缺陷是存在预训练模型的偏见性,由于预训练模型都是通过海量数据在超大参数量级的模型上训练出来的,其生成的内容无法被保证,会存在包括种族歧视,暴力血腥等危险内容。因此推动了InstructGPT和ChatGPT的诞生,即GPT3。5。 InstructGPT是基于GPT3的微调版本:通过激发模型的理解能力,可以根据人类反馈进行微调,使语言模型与用户对各种任务的意图保持一致,使输出内容的真实性提高且危险性降低。ChatGPT是InstructGPT的兄弟模型,但在数据收集上提高了对话类数据的占比,更多地将提示转换为QA,因此ChatGPT更容易结合上下文,其连续对话能力会更好。 ChatGPT的特点与优势 InstructGPT和ChatGPT,即GPT3。5,采用了GPT3的网络结构,通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。训练任务分为3步:1。根据采集的SFT数据集对GPT3进行有监督的微调(SupervisedFineTune,SFT):了解如何回答查询。2。收集人工标注的对比数据,训练奖励模型(RewordModel,RM):构建用于对查询进行排名的模型。3。使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型:学习人类的说话方式。 GPT3。5的优势:效果更加真实:ChatGPT在GPT3之上进行根据人类反馈的微调,引入了不同的labeler进行提示编写和生成结果排序,这使得训练奖励模型时对更加真实的数据会有更高的奖励。无害性提升:由于指示微调的引入,使语言模型与人类意图保持一致,大大降低危害内容生成的概率。具有更强的Coding能力:基于GPT3制作的API积累了更多的Coding代码,通过Coding相关的大量数据以及人工标注训练出来的GPT3。5模型具备更强大的Coding能力。报告节选: (本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。) 精选报告来源:【未来智库】。链接