OpenAI又一颗重磅炸弹赋予AI艺术创造力
OpenAI再次投下一颗重磅炸弹。
本月初,曾于去年夏季推出高人气语言模型GPT-3的OpenAI研究小组再次公布一套名为DALL-E的全新AI模型。虽然它在热度上不及GPT-3,但却很可能对AI的未来发展拥有更加深远的影响。
简而言之,DALL-E能够将文本描述作为输入,据此生成原始图像输出。(DALL-E这一名称,源自对超现实主义艺术家萨尔瓦多·达利及皮克斯工作室创造的可爱机器人形象WALL-E的致敬。)
例如,当输入"五角形绿色时钟"、"火球"或者"建筑物墙面上的蓝色南瓜壁画"之后,DALL-E即可生成令人震惊的准确视觉效果。
在要求生成"建筑物墙面上的蓝色南瓜壁画"后,OpenAI的全新深度学习模型DALL-E能够生成以上原始图像
DALL-E为什么意义重大?
首先,它预示着一种所谓"多模AI"的全新AI范式的出现。这种范式似乎代表着人工智能的未来面貌。以DALL-E为例,多模AI系统能够对多种信息模式进行解释、合成与翻译,由此把情境、语言与图像映射起来。虽然DALL-E并不是第一套多模AI方案,但却拥有迄今为止最令人惊叹的实际效果。
OpenAI联合创始人Ilya Sutskever总结道,"这个世界不仅由文字 构成。人类在表达之余,还会诉诸视觉。视觉元素非常重要。"
目前存在的大部分AI系统只能处理一种数据类型。以自然语言处理模型(NLP模型,例如GPT-3)只能处理文本;计算机视觉模型(例如人脸识别系统)只能处理图像。但人脑所表现出的智能明显适应性更强,所能处理的信息也更为灵活。
人类能够不断从五种感官处接收并整合信息——我们也正是通过视觉、听觉、触觉、嗅觉与味觉的结合理解周遭世界。以此为基础,我们又以语音、文本、肢体表达、面部表情与音乐等多种形式将信息传递回这个丰富多彩的世界。
通过将自然语言理解与视觉表示生成的能力结合起来(也就是将「阅读」与「视觉」相结合),DALL-E再次证明多模AI中蕴藏的巨大潜力。
这还仅仅只是开始。在之后的几个月乃至几年中,新的AI系统有望将音频、视频、语音、图像、书面文本、触觉以及其他要素无缝衔接起来。随着AI学会以越来越复杂的方式将多种信息结合起来,其理解世界并产生新颖洞见的能力也将迎来爆发式增长。
DALL-E还有另一层,或者说更为根本的重要意义:人类越来越无法否认人工智能中蕴含的巨大创造力。
DALL-E生成的图像远超人类的想象力范畴。这绝不只是对互联网上的现成图像进行简单修改——相反,这些是前所未有的效果图,其中的巧妙性与独创性足以令艺术家们为之赞叹。事实上,就连DALL-E的创造者们往往也理解不了其生成原理。
下面来看DALL-E的几幅作品。首先是"一碗拉面表情符号",接下来的一幅是"牛油果组成的企鹅"。如果这些成果来自人类设计师,我们无疑会将其视为实实在在的创作产物。既然如此,我们还有理由否定或者拒绝DALL-E吗?
DALL-E根据"一碗拉面表情符号"输出的图像
DALL-E根据"牛油果组成的企鹅"生成的图像
凭借这种强大的创造力,DALL-E足以在产品设计、时尚以及建筑等领域证明AI技术的现实意义。不久之后,人类设计师也许会习惯使用DALL-E等AI系统作为构思助手甚至是灵感来源。
举个例子,在要求设计"甜甜圈风格的扶手椅"时,DALL-E带来了种种富有构图的选择。当然,它的设计与外观还颇具水准。不难想象,未来一定会有家具设计师反复使用DALL-E以探索模型输出,调整输入文本进行设计迭代,最终将AI元素引入自己的作品当中。从汽车到灯具、从珠宝到房屋,类似的创意过程将适用于众多产品。
DALL-E根据"甜甜圈风格的扶手椅"生成的输出图像
当然,DALL-E还远非完美,它所生成的图像也并不总能准确表现输入文本:例如,它经常会在颜色、数量或空间关系方面犯错误。
OpenAI公开发布的DALL-E工作示例已经由CLIP神经网络进行排序与筛选。对于每项文本输入,筛选后系统将仅显示512个样本中置信度最高前32个样本。换句话说,DALL-E实际生成的图像更多,只是其中大部分效果不佳。
综上所述,DALL-E的创造能力令人惊讶,而这项技术本身也仍在快速迭代当中。
与AI技术的其他重大发展一样,DALL-E再次让我们想起一个古老的问题:机器的智能水平是否越来越接近人类?
一方面,DALL-E的诞生激发起关于超级智能技术的夸张表述。但在另一方面,以著名深度学习评论家Gary Marcus为代表的怀疑论者,则认为DALL-E并没有给AI技术的发展带来任何切实推动。
Marcus的观点值得认真对待。深度学习(包括为DALL-E、GPT-3提供基础的前沿transformer架构)在智能概念建模方面仍然存在着严重的局限性。
但从某种意义上讲,这场争论其实偏离了真正的重点。无论OpenAI的新模型是否代表着迈向"人工通用智能"的下一步,也无论深度学习能否真正带来与人类拥有同等认知水平的机器智能成果,DALL-E本身仍然具备非凡的新能力——这已经成为不争的事实。
DALL-E及其后续方案有望在人与机器间的创造关系中带来新的可能性,并由此衍生出巨大的经济价值,为新一波创新型初创企业及产品奠定基础。
面对无限的可能,我们只需要充满期待。
4月19日机智号无人机火星首飞人类首次外星大气层动力飞行北京时间4月19日,机智号无人机成功在火星完成首飞,是人类首次在地球以外的大气层内完成动力飞行。首飞计划曾因软件问题于4月12日4月14日进行了两次推迟。北京时间4月19日15时3
从NASA的百亿登月计划,反思近几年我们层出不穷的智商税项目前言昨天大家的朋友圈里都在发立扫把的游戏,微博也上热搜了,据说是NASA说由于地球受太阳引力的关系,2月10日对物体的引力最小,是一年中唯一可以让扫把站起来的日子。后来NASA官方
与异性朋友做过的那些可耻的是我是小琉璃啊,今天来给大家分享一下我在儿时的一些事吧1。我们相识在四年级上册,她不是转校生,但是,在此之前,我对她的记忆是完全空白的。不是我记忆不好,只是她真的十分内向,内向到,让
新证据为恐龙灭绝原因调查结案一份新研究说,可以断定恐龙的灭绝是6,600万年前一颗小行星撞上地球导致的。研究估计,在撞击后长达20年间,地球上75的生物逐渐饿死灭绝,其中包括恐龙。关于导致恐龙灭绝原因的说法有
澳洲留学生新学期开学实录这周墨尔本的学校已经全部开学啦!又是可以好好学习争做H1的新学期啦!(拒绝)墨尔本疫情日增两位数,封城断断续续说好的线下课好像又要泡汤了的确,第二学期开学有点难澳洲留学生开学状态实
澳洲vs新西兰两国央行对房地产热潮的不同取态尽管悉尼大都会区的新冠封锁措施将延长到至少本月底,但澳大利亚央行联邦储备银行(RBA)决定仍旧保持当前利率和经济刺激计划不变。现金利率目标仍然保持在0。1,债券购买将继续保持在每周
那些还在澳洲的留学生,现在都怎么样了?这两年,想来澳洲的留学生来不了,想回去的留学生又不敢回。那些现在还在澳洲的留学生,现在都怎么样了?Part1当初为什么选择留在澳洲?八月无凡恼墨大IT已毕业因为很幸运,毕业之后顺利
悉尼示威者登上头版头条,被捕后其律师称之为澳洲大白痴目前,新州警方已经追查并起诉了63名参与周六CBD非法抗议活动的示威者。一夜之间35人被捕,16人周日出庭。其中一名出现在周日电讯报头版头条的示威者被自己的律师称为澳大利亚最大的白
在澳洲怎么可以成为奥运选手?根据澳大利亚奥委会公布的信息,入选奥运代表队须满足若干要求,运动员须是澳大利亚公民。双重国籍的运动员,若以一个国籍身份参加奥运或其它国际赛事,非特殊情况不得代表另一个国家参赛。在澳
悉尼大学校长对中国留学生市场有信心据悉尼大学校长MarkScott说,没有迹象表明中国学生被正式警告不要就读悉尼大学,他仍然相信来自中国的学生将继续来八校联盟(G8)成员大学留学。然而在周二对悉尼委员会的简报中,S
新州10月14解封路线曝光,悉尼海滩人山人海且未戴口罩据每日邮报报道,10月14日,数百万悉尼人将重获自由他们在遵守了3个多月的严格居家隔离令后,将能重返酒吧。周一上午,据2GB的BenFordham透露,根据新的公共卫生法令,接种了