一、新闻爆款现象,预计持续吸引眼球 1、惊艳出世 2022121,OpenAI发布了NLP(自然语言识别)新模型ChatGPT,一经面世就引发科技界的巨大关注。该模型是OpenAI基于先前推出的NLP预训练模型GPT3。5之上的衍生产品,利用AzureAI超级计算基础设施、通过有人类反馈的加强学习方法训练而成。ChatGPT,从其名字就可知,这是一个对话式的AI模型(chat在英文中是聊天之意),使用简单,只需向ChatGPT文字提出需求即可。ChatGPT可完成回答问题、书写代码、写诗、写小说等,对完成用户指令的响应度远强于两代前的GPT3。马斯克在推特上评价ChatGPT称:ChatGPT好得惊人。我们离强得可怕的AI不远了。 相比过去的人机对话模型,ChatGPT表现显著更优,能给出更具体的回答,并且可以直接完成详细指令,甚至主动驳回一些危险提问。ChatGPT模型比以往的人机对话模型(例如GPT3等)更强大,例如,其敢于质疑不正确的前提和假设、主动承认错误以及一些无法回答的问题、主动给拒绝不合理的问题、提升了对用户意图的理解以及结果的准确性。与之前的GPT3不过,相比于此前海量学习数据进行训练,ChatGPT中,人对结果的反馈成为了AI学习过程中的一部分。除此之外,ChatGPT甚至会主动驳回一些危险提问,例如:如果提问如何霸凌John,上一代的模型InstructGPT会给出几种方法作为解答,而ChatGPT给出的答案则是霸凌是不对的。 2、搅动风云 2。1美版今日头条buzzfeed跳涨3倍 新媒体网站Buzzfeed基于ChatGPT乃至OpenAI的大光环,咸鱼翻身,股价直接跳涨了三倍!起因仅仅是Buzzfeed宣布将用OpenAI提供的人工智能API甚至不是被一些媒体误传的ChatGPT本身来协助创作一些内容。 BuzzFeed首席执行官乔纳佩雷蒂(JonahPeretti)在一封备忘录中表示:到2023年,你会看到我们会把还在研发阶段的人工智能的内容,转变为我们核心业务的一部分,从而增强Quiz(测验)体验,为我们的头脑创意提供信息,并为我们的受众提供个性化的内容。 相较于常规新闻网站,面向年轻人的Buzzfeed,就是以网络上各种测试知名,包括测测你是迪士尼里的哪位公主,复仇者联盟里的哪位超级英雄最适合做的你的男朋友之类。 而它此次和OpenAI的合作,就将主要应用在这类快餐内容的生产上。具体来说,BuzzFeed将会用OpenAI的人工智能技术,帮助生成网站上相关的测试问题,从而帮助绞尽脑汁的编辑来找到更好的创意。 一位发言人表示,BuzzFeed目前不会使用人工智能来帮助撰写新闻报道。 2。2考试达人 在沃顿商学院的商业管理课程考试中,ChatGPT表现更好,获得了B到B的成绩。沃顿商学院教授克里斯蒂安特维施(ChristianTerwiesch)表示,ChatGPT在回答基本的运营管理和流程分析问题方面做得非常出色,但在处理更高级的提示时表现不佳,并在基础数学方面犯了令人惊讶的错误,有些错误甚至仅仅是小学数学的水平。 2。3公司估值290亿美金 根据华尔街日报1月6报道,爆红的聊天机器人ChatGPT背后的研究实验室OpenAI正在谈判以收购要约的形式出售现有股份,交易对该公司的估值达到290亿美元左右,使其在没有什么收入的情况下成为账面上最值钱的美国初创公司之一,成为AI时代资本定价的标杆事件。 3、GPT4。0或2月面试 生成式预训练模型GPT4预计将于2022年12月至2023年2月发布。 GPT4相比于当前的文本模型会有大幅改进: 图灵测试:此前一些AI模型仅部分能力通过图灵测试,而GPT4有望完全通过图灵测试; 成本下降:通常模型训练成本随着模型规模提升而提升,但GPT4的训练成本或显著低于GPT3,控制在100万美元的范围内,从而降低AI技术的使用门槛。 猜测:GPT4或不再以大取胜,数据在精不在多,依靠提高模型效率和数据质量达成改进。 GPT4的推出对商业应用的潜在影响: 1)模型能够生成更有温度的文字,对应AI客服、AI心理咨询、营销文本等场景; 2)模型能够生成更加专业的文字,对应金融、医学、新闻、工业等垂直行业应用。 二、商业应用潜力无限 1、近日,OpenAI发布了ChatGPT的付费版ChatGPTPro,每月42美元(约285人民币)。 2、ChatGPT或将加入Word、PPT和Excel。微软计划在Word、PowerPoint、Outlook等软件中,悉数加入ChatGPT等AI。 3、微软或将ChatGPT应用于Bing,有望带来搜索引擎革新。据外媒TheInformation报道显示,微软可能会在2023年3月之前在Bing中应用ChatGPT,用人工智能来回答一些搜索查询。若Bing引入ChapGPT,有望以完整句子的形式呈现搜索结果,这一举措或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。 据statcounter,20222023年,谷歌搜索引擎市场占比为92。08,Bing排名第二仅为3。19,考虑到微软与ChatGPT母公司OpenAI已有对话式编程工具Copilot的成果合作案例,将Bing集成ChatGPT预期进展顺利,Bing市场份额提升机会较大。谷歌当前已经开启内部红色警戒,围绕ChatGPT全面调整明年在AI领域的工作,足见ChatGPT类生成式AI对搜索引擎市场的颠覆程度。 相比传统的搜索引擎根据用户提问,从而提供数千万个相关链接索引,ChatGPT直接提供自己的搜索和信息综合的单一答案,让用户省去反复点击链接找寻答案的复杂度。若能过实现落地应用,ChatGPT会面向传统搜索引擎发起挑战。 不过,ChatGPT在搜索引擎领域的应用当前仍具有几大悬而未决的掣肘: 1)真实性无法保证。在学术、科研等严谨的应用场景中,ChatGPT提供的答案并不一定都是正确的。解决ChatGPT输出的真实性将会是一项重大的挑战,由于ChatGPT只提供纯文本,不引用实际网站,目前并没有办法从ChatGPT的输出中分辨真伪,除非用其他来源(如Google)来验证答案。 2)信息的实时性难以保证。搜索引擎的索引其实可以实时更新,也更为方便快捷一些,但对于大型语言模型而言,添加新的内容需要重新训练模型,成本昂贵。据外媒报道,基于GPT3。5,ChatGPT可能至少有1750亿个参数。由于没有可以适合该模型的单个硬件,因此必须将其分解并分布在多个处理器上,例如A100GPU。设置和并行化这些处理器以训练和运行模型既是技术挑战,也是财务挑战。 3)商业模式问题。目前,ChatGPT还处于测试阶段,并没有落地的商业模式。不过此前据TechCrunch估计,拥有100万用户的ChatGPT每天花费100,000美元,每月花费约300万美元。若应用于Bing后经历高频度的搜索查询,商业运营成本极高。 其他: 三、技术原理 ChatGPT的工作原理是使用人类反馈强化学习(RLHF)的训练方法,以最小化无益、失真或偏见的输出。该方法总体上包括三个步骤: 1)有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的prompt列表生成输出的有监督的策略(SupervisedFineTuning,SFT); 2)模拟人类偏好:标注者们对相对大量的SFT模型输出进行投票,创建一个由比较数据组成的新数据集,在此数据集上训练新模型,被称为训练回报模型(RewardModel,RM); 3)近端策略优化(ProximalPolicyOptimization,PPO):RM模型用于进一步调优和改进SFT模型,PPO输出结果是策略模式。 ChatGPT是从GPT3。5系列中的模型进行微调而诞生,此前OpenAI还设计了GPT1、GPT2和GPT3模型。 1)GPT1:无监督学习 2)GPT2:多任务学习 3)GPT3:海量参数 4)ChatGPT:人工标注数据强化学习 深度学习的三要素包括算法、数据和算力,本文主要对算法的演进历程进行了回顾,认为深度学习底层算法被统一为Transformer之后发展放缓;而算法的行业落地应用、大数据的生成与处理、高算力芯片成为重点发展方向。 深度学习时代的开启依托于2011年Relu激活函数被提出、梯度消失问题被大幅缓解,此后深度学习算法和应用的发展均突飞猛进。最初卷积神经网络(CNN)通过对高层次特征的提取和压缩,擅长图像分类等任务;循环神经网络(RNN)通过对时序信息的提取,擅长文字、语音识别和理解等任务。2017年Transformer的提出让深度学习进入了大模型时代、2020年VisionTransformer的提出让深度学习进入了多模态时代。由于Transformer在大数据并行计算方面具备优势,且训练数据增长后对模型精度提升明显,自此各模态和各任务底层算法被统一为Transformer架构。 如OpenAI在多模态主干网络CLIP的基础上引入扩散模型,即训练出能完成语义图像生成和编辑的DALLE2,引发AIGC浪潮;在GPT3模型基础上引入了人类反馈强化学习方法(RLHF),训练出InstructGPT模型,并据此发布了对话机器人ChatGPT,引起了互联网用户的注意。但随着Transformer基本完成底层算法统一之后,整个行业底层算法发展速度开始放缓,静待骨干网络的下一次突破。同时基于Transformer对大数据的需求,催生了无监督学习、高算力芯片的发展。 2020年,Google提出VisionTransformer(ViT)以解决计算机视觉问题,这标志着自然语言处理、计算机视觉两个最重要的深度学习领域实现了底层算法的统一。ViT的核心思想是把图像当作文本处理,即将完整的图像划分为若干各个小块,把各个小块视为词语,把各个小块构成的完整图像视为语句,在此基础之上进行神经网络训练。 2021年1月,OpenAI发布了图像和文本并行的大规模多模态模型CLIP,该模型在超过4亿的图像文本对上进行训练,优点在于使神经网络不仅关注特征之间的空间联系,而且还会关注特征之间的语义联系,使得神经网络对图像的理解能力迈向新高度。 据AlchemyAPI、LambdaLabs估计,不计前期训练成本,GPT3最终训练成本约4601200万美元。EleutherAI(致力于开源大模型的组织)在22年推出的200亿参数GPTNeoX20B中使用96块A100芯片训练了三个月,据TheNextPlatfrom估计,最终一次训练成本大约5366万美元。大模型研发逐渐成为资本和数据密集的业态。美国目前主要大模型包括OpenAI的GPT3、英伟达与微软的MegatronTuringNLG、Meta的OPT等。中国主要大模型包括百度文心Ernie、华为盘古、商汤视觉模型等。今年8月以来,美国限制对华出口A100等高端GPU,或影响中国大模型发展速度。 四、投资机会ChatGPT聊天机器人概念股 大数据训练: 1。海天瑞声:这个公司生成的训练数据主要覆盖智能语言、计算机视觉和自然语言处理三大领域。 2。汉王科技:积极与武汉大学自然语言处理团队合作,该公司是人工智能领域的先行者,是数字产业化的参与方,利用业内领先的文本图像识别、自然语言处理、生物特征识别、智能视频分析、智能人机交互核心底层技术为行业客户的数字化、智能化提供数据要素。 3。科大讯飞:超大规模预训练模型是当前人工智能领域内的一个研究热点,国内外众多知名研究机构例如谷歌、微软、阿里、华为等纷纷跟进。科大讯飞同样针对这项技术在人工智能应用中进行了深入研究与探索。 聊天机器人业务: 1。科大国创:这个公司是做软件开发的,有聊天机器人系统。 2。福石控股:购买了资产快友世科技,AI智能客服平台以5G消息为承载,打造Chatbot平台,为企业客户提供AI智能聊天机器人。 3。高伟达:中国领先的金融信息化软件产品和综合服务提供商之一,在智能客服领域,聊天机器人正广泛应用在一些创新性的银行及泛金融机构。 4。神州数码:Jarvis帮助客户快速搭建自己的聊天机器人。 5。神州泰岳:铲哥发现这个公司有个叫鼎富智能的在线客服产品,主要聚焦人工智能自然语言处理方向,并将该技术结合不同的业务领域进行应用落地,目前不具备计算机视觉相关技术。 6。天源迪科:智能语音对话机器人分为开放领域对话系统和任务型对话系统两大类,天源迪科目前研发的是智能任务型对话系统,面向特定任务,比如银行电话客服,属于特定任务的人机交互,还不满足开放域的人机对话需求,比如人形机器人对话。 7。光云科技:AI技术已经在电商运营的多个领域落地并稳健发展,快麦小智是基于自然语言交互和个性化推荐技术搭建的对话式营销服务一体化智能客服机器人,已与周大福、九阳、宜婴等品牌达成合作。此外,公司参股的杭州实在智能科技有限公司聚焦大规模复杂工序流程的智能决策领域,通过AIRPA技术打造广泛应用于各行业的智能软件机器人,即数字员工,助力银行、保险、电商客户提质、降本、增效 1、NLP语义处理 ChatGPT所基于的自然语言处理是AI的核心课题之一。自然语言处理(NLP,Naturallanguageprocessing)主要包括自然语言理解类任务和自然语言生成类任务,其使得计算机可以理解和反馈自然语言;在NLP发展之前,人类只能通过固定模式的指令来与计算机沟通。自然语言处理(NLP)是研究人与计算机交互中的语义理解问题的技术,解决的是人机交互中听得懂的问题。是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。 当前国内领先的对话交互类AI算法企业主要包括两类: 以语音识别为核心业务的企业,延生到NLP领域,如科大讯飞,从语音识别延生到语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等算法,并在消费者、智慧教育、智慧城市、智慧司法、智能服务、智能汽车、智慧医疗、运营商等领域实现深度应用。 以NLP为核心业务,专注语义识别的企业,如拓尔思。拓尔思是国内最早从事自然语言处理(NLP)研发的企业之一,在语义智能领域具备自主可控的底层技术,可以提供预训练模型和阅读理解等技术成果。 2、人工智能公司 港股商汤W,A股云从科技 3、标注数据集 海天瑞声 4、AI关联 法本信息、华宇软件 其他市面挖票: 补充资料: OpenAI是ChatGPT的源头公司,公司主要历史如下: 2015年,马斯克和SamAltman等人共同创立了OpenAInonprofit,使命为确保通用人工智能(ArtificialGeneralIntelligence,AGI),即一种高度自主且在大多数具有经济价值的工作上超越人类的系统,将为全人类带来福祉。 2018年,由于特斯拉和AI技术的关联越来越深、外界越发担忧特斯拉将运用OpenAI的技术实现系统和产品升级,马斯克于2018年离开OpenAI的董事会,转变为赞助者和顾问。 2019年,在训练模型的高成本压力下,OpenAI划分出有利润上限的盈利性组织OpenAILP。紧随其后,微软宣布为OpenAI注资10亿美元,并获得了将OpenAI部分AI技术商业化、赋能产品的许可,后续微软可能会将OpenAI的技术与搜索引擎、办公软件等相整合。 OpenAI2022年营业收入约8000万美元,且据OpenAI预测,2023、2024年营业收入将分别达到2亿和10亿。(路透社) 目前,OpenAI董事会由董事长兼总裁GregBrockman、首席科学家IlyaSutskever和首席执行官SamAltman等人组成。其中,首席科学家IlyaSutskever是AI领域全球最有影响力的学者之一,文献引用量高达36万,单篇最高引用量12万,主导或参与了AlexNet,AlphaGo,GPT、CLIP、DALLE和Codex的研发。 OpenAI主要投资者包括微软、ReidHoffman’scharitablefoundation和KhoslaVentures。路透社称,微软希望向OpenAI追加投资100亿美元,如谈判达成,微软将持有OpenAI49的股权,OpenAI的非营利性母公司持有2,其余投资者持有剩余49。