达摩院2023十大科技趋势发布,生成式AI多模态预训练大模型
1月11日,达摩院发布《达摩院2023十大科技趋势》,生成式AI、多模态预训练大模型等技术入选。
达摩院认为,AI正在加速奔向通用人工智能。生成式AI将迎来应用大爆发,极大推动数字化内容的生产与创造;多模态预训练大模型将实现图像、文本、音频等的统一知识表示,成为人工智能基础设施。人工智能诞生数十年,人类对通用AI的想象从未如此具体。
趋势解读一:生成式AI
生成式AI使用各种机器学习算法,从数据中学习要素,使机器能够创建全新的数字视频、图像、文本、音频或代码等内容。它创建出的内容与训练数据保持相似,而非复制。它的发展得益于近年来大模型在基础研究尤其是深度学习上的突破,真实数据的积累和计算成本的下降。在过去的这一年,生成式AI将人工智能的价值聚焦到创造二字,这标志着人工智能开始具备定义和呈现新事物的能力。过去一年,生成式AI的进展主要体现在如下领域:
图像生成领域的进展来自扩散模型(Diffusionmodel)的应用,以DALLE2、StableDiffusion为代表。扩散模型是一种从噪声中生成图像的深度学习技术。扩散模型技术的背后,是更精准理解人类语义的预训练模型、以及文本与图像统一表示模型(CLIP)的支撑。它的出现,让图像生成变得更具想象力。
自然语言处理(NLP)领域的进展来自于基于GPT3。5的ChatGPT。这是一种基于互联网可用数据训练的文本生成深度学习模型,用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。得益于文本和代码相结合的预训练大模型的发展,ChatGPT引入了人工标注数据和强化学习(RLHF)来进行持续训练和优化。加入强化学习后,大模型能够理解人类的指令以及背后的含义,根据人类反馈来判断答案的质量,给出可解释的答案,并对于不合适的问题给出合理的回复,形成一个可迭代反馈的闭环。
代码生成领域的进展来自代码生成系统AlphaCode和Copilot。2022年2月,Deepmind推出了AlphaCode。它是一个可以自主编程的系统,在Codeforces举办的编程竞赛中,超过了47的人类工程师。这标志着AI代码生成系统,首次在编程竞赛中,达到了具有竞争力的水平。基于开源代码训练的Copilot开始商业化,作为订阅服务提供给开发者,用户可以通过使用Copilot自动补全代码。Copilot作为一个基于大型语言模型的系统,尽管在多数情况下仍需要人工二次修正,但在简单、重复性的代码生成上,将帮助开发者提升工作效率,并给IDE(集成开发环境)行业带来重大影响。
随着内容创造的爆发式增长,如何做到内容在质量和语义上的可控,成为可控式生成,将是生成式AI面临的主要挑战。在产业化方面,降成本仍是关键挑战。只有像ChatGPT这样的大模型训练成本和推理成本足够低,才有可能规模化推广。此外,数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。
未来三年,生成式AI将步入技术产品化的快车道,在商业模式上会有更多探索,产业生态也会随着应用的普及逐步完善。届时,生成式AI的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式AI落地的主要参与者。基于生成模型的计算基础设施和平台会逐步发展起来,模型变成随手可得的服务,客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展,以辅助人类完成各类创造性工作。
趋势解读二:多模态预训练大模型
基于深度学习的多模态预训练是认知智能快速发展的重要推动力。构建多场景、多任务的预训练大模型将加速模型标准化进程,为人工智能模型成为基础设施创造条件。深度学习模型的不断完善、互联网海量真实数据的积累和生成式预训练的广泛应用,使得人工智能模型在自然语言理解、语音处理、计算机视觉等领域地交叉应用取得显著进展。
2022年,技术上的突出进展来自于BEiT3多模态基础模型,该模型在视觉语言任务处理上具备出色表现,包括视觉问答、图片描述生成和跨模态检索等。BEiT3通过统一的模型框架和骨干网络(backbone)建模,能够更加轻松地完成多模态编码和处理不同的下游任务。另一方面,CLIP(ContrastiveLanguageImagePretraining)的广泛应用也促进了多模态模型的技术发展。CLIP作为基于对比学习的预训练模型,负责从文本特征映射到图像特征,能够指导GAN或扩散模型(DiffusionModel)生成图像。在文生图领域,StableDiffusion也使用了CLIP,它能够通过文本提示调整模型,并借助扩散模型改善图像质量。与此同时,开源极大的促进了多模态的融合和预训练模型的发展。通过开源来降低模型使用门槛,将大模型从一种新兴的AI技术转变为稳健的基础设施,已成为许多大模型开发者的共识。
多模态预训练模型的发展将重塑人工智能商业模式,并为人们的生产生活方式带来积极影响。对个人而言,类似CLIP的多模态模型,将使更多非技术出身的人能够表达自己的创造力,无需再借助工具和编程专业能力。对企业来说,多模态预训练模型将成为企业生产效率提升的关键。商业模式上,具备大数据、算力资源和模型开发能力的科技企业,将会成为模型服务的提供方,帮助企业将基础模型的能力与生产流程融合起来,实现效率和成本最优。
认知智能的发展,不会局限在文本或图像等单一的模态上。未来,如何针对不同模态建立更高效的模型架构和统一的骨干网络,使得大模型能够广泛地支持各种下游任务将成为主要挑战。在此基础上,更多的挑战来自于挖掘不同模态(如图像文本,文本自然语言,视频文本)数据间的相关信息,并巧妙的设计预训练任务,让模型更好的捕捉不同模态信息之间的关联。
语音、视觉和多模态预训练模型将加速人工智能向通用基础模型方向演进。在这个演进过程中,深度学习与强化学习相互促进发展,融合大量行业知识,模型将具备在不断变化的环境中快速适应的灵活性。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。随着技术的不断成熟,大模型在开发成本、易用性、开发周期、性能上会更具优势,给产品化和商业化带来更多可能性。
内容来源:达摩院
《达摩院2023十大科技趋势》报告PDF地址:
https:files。alicdn。comtpsservice9b8b05280c05294f158bdb0dee61f78b。pdf
史上最没品阁揆!苏贞昌朽木为官禽兽食禄,民进党命运危浅文黎子珍台湾九合一选举结束,民进党迎来史无前例惨败,蔡英文在选后当天辞去党主席,而据蔡英文表示苏贞昌则是被慰留,对此资深媒体人陈凝观27日在节目上飙骂苏贞昌,甚至呛三字经,引发在场
快看!这场竞赛太火热人民当家做主制度体系应保证人民依法实行五个民主是什么?下面开始抢答321,开始!五号选手抢答成功请答题近日,火箭军某部组织开展学报告悟思想铸忠诚砺精兵党的二十大精神知识竞赛活动推动
绿色消费热起来来源经济日报没有逾越不了的寒冬,更没有不会到来的春天。12月16日,在天津市西青区大寺镇兴华道,一座新型商业综合体天津西青万达广场隆重开业,这是万达商管集团在天津落地的第7座商业综
哪些外企,对中国经济的贡献最大?最近一段时间,各地政府纷纷包机带企业出海找订单,国家对外资企业的重视度和支持度也越来越高。那么,大家有没有想过一个问题,改革开放40年以来,哪些外资企业对中国经济的贡献最大?12月
CBA第1鱼腩队!0胜18负联盟倒数第一,阿的江加盟也没用啊北京时间12月26日,CBA常规赛继续开打,宁波78121不敌青岛男篮,此役两支都是属于重建当中的队伍,如果说正常情况,本应该是具备一较高低的资本,但是宁波仿佛是输麻了,本土球员看
英超直播C罗离开曼联后,尚未找到下一个新家葡萄牙球星C罗在卡塔尔世界杯期间离开了前东家曼联后,成为一名自由球员但至今仍未找到新家。在最近的一次采访中,意大利传奇教练法比奥卡佩罗批评了C罗是自己把自己带到了这个地步。C罗在世
尼昂哈登很好地将球传给我,我要做的就是投进76人在圣诞大战中119112击败尼克斯。赛后,76人球员乔治尼昂接受了采访。尼昂表示我不懂为什么对方要蹲坑防守,我可能在大学后就没见过这样的防守方式了。他们用两个人去防詹姆斯(哈
詹姆斯空砍38分,无奈独行侠集体发威,湖人遭遇4连败早些结束的比赛,独行侠主场迎战洛杉矶湖人队,不仅仅是老一代前锋詹姆斯和新一代前锋东契奇的对决,更多的是传承,近期东契奇状态火热带队2连胜,目前排在西部第八,而缺少浓眉的湖人,防守进
现如今的春晚还有什么可看的!这些年来,每逢春节最让我们全家头疼的就是春晚了,打开电视每个台都转播,一点儿都没有兴趣看下去!也只能连电视都关掉!就为了图个清净!曾经的春晚是那么期盼,全家聚在一起每个节目都不落下
1976年她的墓葬出土,证明不是神话人物,而是真实存在的头条创作挑战赛古今多少事,都付笑谈中!滚滚长江向东流,多少英雄豪杰像翻飞的浪花般消逝。什么是与非成功与失败,到头来都是一场空。只有青山依然存在,太阳依然日升日落。翻阅史书,我们可以
基迪替代小波特!火箭雷霆酝酿5换2交易,斯通愿意送出2首轮?詹姆斯哈登注定是这个联盟中不一样的存在,据名记Woj报道,他正在严肃考虑在休赛期重返休斯顿的计划。此前,哈登分别效力过雷霆火箭篮网76人四支球队,直到现在他在交易过程中所产生的附加