AIGC火了,VC正在催FA推案子
文丨刘燕秋
来源丨投中网
我输入的关键词是:冬日海面,鲸鱼,甜甜圈,c4d渲染,装饰管线。
十分钟后,群里的机器人给我发过来一张色彩瑰丽且颇具想象力的图片:鲸鱼从冬日微微冒烟的海面浮出,棕褐色的甜甜圈似海里巨大的岩石。
作为一个带有猎奇心理的试用者,我很满意。
老实说,我发出的指令只是一些我喜欢的东西构成的词汇,我并没有想过这些组合在一起会是什么样子,但仅靠文字描述,AI就帮我具体地描绘了一个理想世界。
这是最近火爆的AIGC概念的一次生动应用。
所谓AIGC(AIgeneratedcontent),按照中金7月发布的研究,指的是一种通过AI技术来自动或辅助生成内容的生产方式。通过输入指令,人类让AI去完成冗杂的代码、绘图、建模等任务,从而生成内容。
红杉美国的两位合伙人最近也在一篇题为《GenerativeAI:ACreativeNewWorld》的文章里写道:机器开始尝试创造有意义和美丽的东西,这个新类别被称为生成式AI(GenerativeAI),这意味着机器正在生成新的东西,而不是分析已经存在的东西。
人人都能成为创作者,过去我们一再使用类似的话语,表达技术演进给内容生产带来的变革。如果说短视频一类工具的出现降低了表达的门槛,那么AI工具的应用无疑让这句话更为贴近现实,其商业前景同样广阔。中关村大数据产业联盟发布的《中国AI数字商业展望20212025》报告预测,到2025年,中国AI数字商业核心支柱产业链规模将达到1853亿元,其中AI数字商业内容产业规模将达到495亿元。
海外,人工智能艺术家和艺术品迅速涌现。谷歌、微软、Meta等科技公司扎堆AI绘画,DiscoDiffusion、DALLE2、StableDiffusion、Midjourney、MakeAScene、NUWA等平台正在重新定义设计的想象力。
国内也已经暗流汹涌。在今年7月的百度世界大会上,AI用时1秒就复原了《富春山居图》残卷,应用的正是百度开发的飞桨和文心大模型技术。以TIAMAT为首的一些脱胎于中文环境的生成式AI生成内容平台也转入爆发式增长。
每一波小趋势的出现无一例外总能牵动投资人的情绪。今年七八月份开始,这个赛道慢慢火起来了,从9月份到现在,铺天盖地到处都是AIGC。有从业者向我透露。
海外的AIGC赛道已经跑出了独角兽。10月18日,StableDiffusion背后的StabilityAI宣布获得1。01亿美元来自Coatue和光速的投资,投后估值攀升至10亿美元。
我了解到的消息是:一个还在内测阶段的AI生成内容平台已经被十余家美元基金围猎;不少VC都在催FA给他们推类似的项目;一些原来业务更ToB的公司也推出了面向C端的产品,比如,9月底,AI模特图片解决商ZMO推出用文字驱动Photoshop的新产品,这家公司已经拿到高瓴、金沙江和GGV的钱。
AI在细分领域的应用一直是DCM关注的主题,在DCM的Portfolio里不仅有弘玑Cyclone这种RPAAI公司,还有专注在AI药物研发的星药科技,AI工业视觉的阿丘科技等,快手中也大量应用了AI推荐机制。大概在去年年底,我们关注到国外的技术进展和代表性的内容生产公司,开始密切关注用户端的内容生成工具。DCM投资人告诉我。上周,生成式AI平台TIAMAT宣布完成数百万美元天使轮融资,DCM也是本轮的投资方。
那么,还是要回到一个关键问题,AI生成绘画为什么在2022年火了?
一个随之而来的老生常谈的问题是,文字工作者之后,这回该轮到插画师失业了吗?01
简单来说,这波AI绘画产品的流行背后是关键技术的突破,转折发生在去年年底到今年年初。
TIAMAT创始人青柑告诉我,团队从去年下半年开始一直在做CV和NLP相关的东西。过去业内已经开发了很多生成图像的技术模型,但当时在全球技术社区里,大家的统一认知是,接下来会是Diffusion模型的未来。
这个模型有何特别之处?
过去在AI领域,NLP涉及到的是自然语言处理,可能应用在自动续写小说、剧本等领域,而图形领域主要研究的是CV、CG、视觉识别或者自动驾驶。但图形是一种模态,文字是另一种模态,两个模态之间的互相理解和应用是难以跨越的技术难题。
此前应用较多的是由OpenAI提出的CLIP模型,这个模型使用已经标注好的文字图像训练数据,一方面对文字进行模型训练,同时对图像进行另一个模型的训练,不断调整两个模型内部参数,使得文字特征值和图像特征值能让对应的文字图像确认匹配。
但这个在2021年上半年提出的模型一直没有很好的落地应用场景,直到2021年下半年结合了Diffusion模型。事实上,学界早就提出了Diffusion模型,只是过去没有人把它应用在文本到图像之间的网络。
现在,这道技术上的门槛被迈了过去。CLIPDiffusion模型不仅可以支持从文字直接生成图像,而且图像的水准已经成熟到可以在商业场景落地,于是,正如我们看到的,大量AI绘图应用扎堆出现。
这是Diffusion模型主导的时代,它构成市面上所有AI生成图像的底层技术,但每一个公司可以在上面开发出自己的框架和模型,因此生成的图像质量也各不相同。这就好比Diffusion是若干砖头,大家都在拿它搭房子,但搭出的房子五花八门。今年初率先走红的AI绘画平台DiscoDiffusion是第一个基于CLIPDiffusion模型的产品,开源的StableDiffusion则是很多人眼中目前市面最强产品。
更好的模型,更多的数据,更多的算力,在《GenerativeAI:ACreativeNewWorld》中,红杉的两位合伙人对生成式AI流行的原因进行了更全面地概括。
他们总结了这一领域经历的四波浪潮:
第一波浪潮:小模型(SmallModels)占主导地位(2015年前)
第二波浪潮:规模竞赛(2015年至今)
第三波浪潮:更好、更快和更便宜(2022)
算力变得更便宜,新技术如扩散模型(DiffusionModels),降低了训练和运行所需的成本。
第四波浪潮:杀手级应用出现(现在)
正如移动设备通过GPS、摄像头和网络连接等新功能释放了新类型的应用程序一样,我们预计这些大型模型将激发生成式AI应用程序的新浪潮。就像十年前移动互联网被一些杀手级应用打开了市场一样,我们预计生成式AI的杀手级应用程序也会出现,比赛开始了。他们预判。02
去年年底,TIAMAT开始在各社交平台发布图片,同时向粉丝征集名字。TIAMAT就是投票出来的结果。这个名字的含义是,古巴比伦神话中的创世神,象征用自然语言驱动生成内容,并以此创造一个世界TIAMAT创始人青柑说到。
竞争激烈,已经有人将AI绘图的涌现比作众神之战,那么,谁是这个行业里真正的神?
今年8月,国外博主Eliso比较了DALLE2、StableDiffusion和Midjourney三个AI图像生成程序。他发现,DALLE2生成的图像通常能最大限度地遵循提示;StableDiffusion对某些提示效果更好,而对另一些提示效果更差,但可以通过修改更精确的描述以使其正常工作;Midjourney风格非常独特,但有时与输入的关键词不符。他的结论是:如果你只想使用这些AI中的任何一个,最好的选择是Midjourney。如果不想付费使用,最好的选择是StableDiffusion,只需要申请就能免费使用。
这当然是一个主观的结论。从用户的角度,UI、易用性、使用成本以及对关键词的理解程度等都是可比较的维度,逐一审视,当下的软件在不同应用场景下都各有其优缺点。
从专业的层面,决定一个AI图像生成产品形态的有三个维度。
其一是模型,这需要应用大量数据训练,这是一个花费高昂的过程。
国外,谷歌、Meta、微软等大厂都是AI内容生成的积极探索者,国内的互联网公司中,百度已经上线了中文版的AI绘画工具文心一格,拥有海量数据的大厂在这一赛道会有先发优势吗?
在青柑看来,国内大厂在模型上有一些进展,但在语义理解方面未必有海外成熟。这跟数据息息相关,用于训练的模型数据必须非常干净,必须是有效的、匹配的、可增强的数据。具体来说,光有图片不行,一张图片旁边必须配一句对图像精准的描述才算合格。从这个层面说,大厂如果没有提前收集、整理数据,那么跟创业公司几乎是在同一起跑线上。可能会有一些数据积累的优势,但也需要花费时间和成本校对那些数据。
每个公司都有自己数据接入的方式,但从结果上看就是,谁能更快速地获得更多有效数据,谁的壁垒就会越来越高。
其二是工具,这涉及到如何使用模型,比如在交互方式上,是用文本去调动图像生成还是图像加文本调动图像生成?
其三是社区,海外的平台一般都会配套创作者社区,因为谁在使用工具是一件很重要的事情。搭建在Discord上的Midjourney拥有超过百万人的社区,Midjourney创始人曾在采访中这样描述社区的重要性:社区内有数百万人在制作图像,每个人都在互相模仿,产生新的美学。它们不是AI美学,而是新的有趣的人类美学。
社区不仅是激发创作灵感的地方,在很大程度上也影响着AI生成图片的风格。我们可以在社区里观察到,用户每天在发什么样的图,生成什么样的图,将图片用于什么样的场景中,再不断根据反馈来调整模型。青柑告诉我。
和海外产品相比,TIAMAT目前的技术壁垒体现在对中文语义的理解上。生成图像的本质还是创造内容,内容就会有其生长和使用的文化土壤。如果你想用AI绘图复现心里的《桃花源记》,不管在积累的数据还是自然语言理解方面,海外的平台都并不能很好地达成这些目的。
比起英文,中文在自然语言理解的难度会陡然提高,如何消除歧义,更好地理解和表达中文语境,同时破解更复杂含蓄的意境,是TIAMAT团队最近想突破的难题。03
像所有新技术一样,在令人惊叹的同时,AI绘画从诞生之初就伴随争议。其中一个争议,是版权及伦理问题。
为规避版权争议,TIAMAT和Midjourney都谨慎地在素材库中使用无版权的图片。但有熟悉这些工具的博主称,目前市面上所有AI工具生成的图片,即使付费,都只是理论上可商用,仍存在一定风险,风险主要来源于描述词会引来画风抄袭的争议。设计师努力创造一种特定的风格,但如果他们的作品被AI当做素材,会发生什么?
这种担忧并非多虑。《麻省理工技术评论》9月发布了一篇文章:数字艺术家GregRutkowski因为看到他的绘画风格被AI图像生成平台复制而不安,指向的正是刚发布不久的StableDiffusion生成式AI从网上抓取数据来训练自己的模型,有时会未经在世艺术家允许就收集他们的艺术作品。类似的声音已经在国内出现,画师九度乐最近在微博上抨击了这一现象,难道以后发图要打上满屏的水印了吗谁也不想自己辛苦半个月磨出来的图被AI拿去当素材库了。
但从法律的层面,认定构成侵权行为并非易事。有熟悉相关法律的人士告诉我,所谓的画风更偏重主观感受上的归类,认定侵权先要明确权利,同时主张被侵权一方要承担主要的举证责任,和文字相比,构成更复杂的图片需要提供更充分翔实的证据支持。AI的学习模式类似于一个‘运动员的集训’,配比数以百万计的‘如果’,才有可能出现期待的‘那么’或者‘结果’。不是因果论,是结果论。
从伦理上讲,如果想将在世艺术家的作品用作素材,最好的做法是获取其授权,但因为AI绘画仍处于发展早期,这样的实践还不太多。
那个更具普世性的争议是,AI取代人工会不会构成对从业者的威胁?
8月,一幅由Midjourney自动生成的画作《太空歌剧院》在美国的一个美术竞赛中获得了一等奖,但因该作品由AI绘图工具完成,引发不少艺术家的指责。我无意围绕相关争议再展开讨论。AI生成图像之于构图创造力就像摄影之于绘画,把摄影作品和油画作品放在一起比较,这本身就不够合理。
但我们关心AI绘画的未来走向以及技术嬗变对人类带来的长期影响。这并非杞人忧天,已经有给AI打杂的精修插画师工种诞生了。就我个人的体验而言,AI绘画的质量、甚至其创造力和想象力都不一定比人类画师差,只是从工具的角度,现阶段AI对人类需求的理解还不够准确,生成的图像并不能完全匹配提示词。
这当然与技术的发展阶段有关。李彦宏曾判断AIGC将走过三个发展阶段:
第一个阶段是助手阶段,AIGC用来辅助人类进行内容生产;
第二个阶段是协作阶段,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
第三个阶段是原创阶段,AIGC将独立完成内容创作。
我的出发点肯定不是做一个东西把自己的兴趣爱好替代掉,对吧?青柑毕业于中科院上海科技大学,学的是计算机专业,但她在中学时代是个美术生,差点就去参加艺考。
她更喜欢跟我谈论人机比的说法,会思考未来在不同的行业里,人和机器的比例会是什么样。以Excel表格为例,过去是人来绘制表格并计算,现在人只要输入数据,其他的工作Excel都能代劳。在她眼中,内容生产行业正在发生类似的事情,只是人机比例不同,Excel让人的比例降得很低,但在内容生产领域,人仍然占据更高的比例。
AI内容生成平台的目的,是将人从机械劳动中解脱出来,释放人的创作想象力。目前,TIAMAT排队内测的用户在2万左右,C端用户覆盖设计师群体、游戏和影视从业者以及部分技术从业者。在ToB端,时下央视网、《时尚芭莎》、《嘉人》发布的一系列主视觉均出自TIAMAT,TIAMAT也已经和知名IP版权方、头部游戏厂商等深度合作,提供概念设计、场景设计等,也能提供更潮流的营销方案和广告图像,同时也可以接入电商行业的工作流,帮助其提高效率和质量。
另一个关键的问题是,毕加索之所以是毕加索,是因为绘画理念的革新,AI可以做到这一点吗?它能输出真正的艺术家作品,还是只能生产仿品?
TIAMAT现在每天生成的图像大概有十几万张,和人类学习绘画的过程类似,我们观察到,当把很多流派融合起来的时候,AI会创造一个新的流派。这是青柑给我的答案。大胆预测,一方面,未来的艺术史中可能会出现AI流派。另一方面,AI生成的图像也会反向影响人类的审美,当我们越来越多地在生活中看到由AI生成的诡谲繁复的图像,人对美的定义也会渐渐变化。
前两天她还被TIAMAT生成的图像惊艳到。当时她输入的关键词是,人工智能预言的未来,生成的图像里,一个人站在繁复的像代码块堆叠起的历史长河里,似在凝望着未来。04
回到开头的那张图,我不会画画,但我给AI输入了指令,最终的作品算是我的创作吗?
我很心虚。
但青柑认为,答案是不容置疑的。人的主观性一定是第一步,人先有一个想法,然后映射到真实世界里,AI只不过是中间的映射器。
生成式AI经由数据集模仿人类的想象力,数亿张图片的容量比个体记忆的容量要大得多。它们是出色的数据挖掘者,但至少在现阶段,它们仍然缺乏意识。
在DCM投资人George眼中,人类拥有自由意志,并乐于借助工具来表达和诠释,AI生成内容平台就是人类发明的一种新的内容生产工具。人类文明发展的轨迹就是不断通过技术的演变,发明新的工具,然后用新的工具去跟世界连接,人和人之间互相连接,所以我们认为,AI生成内容是一个结构性的变革,是一种科学和艺术、人和机器的耦合。
如果去想象其未来,TIAMAT这样的平台有可能发展成综合的AI内容创作平台。大家一开始都是通过prompt(在机器中输入关键词)的方式,书写一种人机耦合的语言来生产内容,但将来可以用的内容媒介会越来越多,人们在生产内容之后还会存储并回来搜索,在这个过程中产生更多反馈机制。
从百度的搜索机制,到头条的推荐机制,到现在更新方式的prompt,是不是能通过它去引领一个新的内容生产创作的范式呢?George抛出了一个面向未来的问题。
图片界的今日头条这是我看到的某AI绘图平台写在BP上的定位。
无论如何,技术还在不断迭代。Makeascene已经支持上传简单的草图来生成图像;StableDiffusion很可能在一年之内就能在智能手机上运行;一些模型已经开始着手动态视频生成,比如,YouTube上的创作者DoodleChaos最近使用DiscoDiffusionV5。2Turbo制作了一段完整的音乐视频。在百度世界大会上,李彦宏预言,未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。
也许,prompt一下的时代离我们并不遥远。
科莫多巨蜥的毒液到底有多可怕?2009年,一名31岁的渔民安瓦尔,在印尼科莫多岛上采摘水果,结果不小心从水果树上掉了下来,刚好踩到了一只巨型蜥蜴,蜥蜴瞬间就朝他扑了过去,咬住了他的腿,之后又咬住了他的手臂,身体
武汉未来的房价会涨到100000元平米吗?这个问题的答案是肯定的!以目前的趋势,未来武汉房价必然达到10万的水平,只是时间长短的问题。2010年至2017年,短短七年间,武汉的房价已经翻了3番,目前,武汉部分高端楼盘如洞庭
兰州青白石片区,中央公园怎么样?兰州北拓的黄金区域,目前基础交通还跟不上建设需要,交通滞后可能会成为十四五期间兰州青白石片区发展的的最大障碍!不过就兰州地理位置和城区格局而言,青白石片区是离主城区最近的待开发区域
农民为什么不在国家统计失业范围之内?中国有四个儿子,大儿子叫工人,二儿子叫子弟兵,三儿子叫公务员,四儿子叫农民,所以四儿子就没有纳入统计失业包括养老金范围,因为四儿子有金山银山还有三分地。农民有土地,这是农民可以赖以
农村成立社区是什么意思?很多农村驻有村委会办公室,同时也驻有社区管理委员会办公室,特别是在城市郊区的农村和街道的农村都同时设立了村委会和社区管理委员会,很多人弄不明白是怎么回事。那农村成立社区是什么意思呢
农村里的剩男,为何一剩再剩呢?到底是什么原因?男女比例失调。计划生育只要一个孩子时,受封建思想影响,都拚命要男孩,等他们长大了,很难找到媳妇。一,农村姑娘远嫁,二,女孩见少,三,彩礼高,四,剩男挣钱少。我就一大龄剩男!个人亲身
抖音付费直播试水,看直播要给钱了?我们应该如何思考?使劲收,最好是家人们看的话,一分钟100块钱。毕竟粉丝听话的很。毕竟人设都设计好了打PK,卖货摆错价格,怒亏2个亿回馈粉丝。没事就怼工厂,怼员工反正就是赔钱回馈粉丝。赔完还得补交税
马上就要退休了,退休工资才3650元太少了,怎么办?3600不少了。我企业工龄32年,退休时退休金只有2200,涨了这么多年还不到3000。知足常乐吧!如果身体不好,这些钱也够生活了,如果身体还可以,就找一些力所能及的工作,打打工补
南宁五象新区未来的发展潜力很大吗?五象新区无法成为国家级新区!!!目前看来,五象新区的潜力也就这样了。我们对比一下贵阳的贵安新区,贵安新区的面积是1700平方公里,由贵阳市的郊区和安顺市合并得来。是全国第8个国家级
如果把三峡大坝加高10米,截留更多的洪水,可行吗?我国的三峡大坝,作为当今世界上最大的水利枢纽工程,位于湖北省宜昌市上游,距下游葛洲坝水电站38公里,三峡大坝全长2309米高185米,呈梯形形状,集发电旅游航运调控洪水于一身。三峡
大家有经历过亲人去世吗?是怎样走出痛苦和想念的?2018年9月1日下午3点8分,我的妻子在医院里停止了呼吸。她的眼睛没有闭上,我流着泪,帮她合上了双眼。我永远失去了我最亲近的爱人,孩子永远的失去了妈妈。一位好妻子,好女儿,好姑妈