童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

独家GPT4、Midjourney之外,谭平创业团队要造一个

2月6日 鬼神氏投稿
  前段时间,OpenAI发布了文生图模型DALLE3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:
  可以看到,DALLE3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。
  但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。
  类似的问题其实不仅存在于DALLE3等二维图像生成模型。当生成维度提升到三维时,问题变得更加突出:生成的动物可能会有多张脸、多个头或脸部凹陷而非凸起。这些在人类看起来属于常识的东西,模型似乎没有学到。
  在香港科技大学电子与计算机工程系教授谭平看来,这些问题之所以存在,是因为现有的基础模型并没有充分地在3D维度上去理解真实世界。
  AI最终需要解决真实世界的问题,那就必须要和物理世界发生联系。而我们这个物理世界是3D的,所以自然而然,AI必须理解3D,从而理解物理世界。谭平指出。
  作为在计算机视觉、计算机图形学领域工作了20多年的资深学者,谭平一直认为,3D是人类视觉认知世界的基础,因此3D信息对于模型准确理解真实世界非常关键。它和之前被大量利用的文字信息互为补充,是一个亟待挖掘的富矿。如果能够创建一个3D基础模型,有效地挖掘这个富矿,AI有望从语言走向物理,从字面走向现实,成为真正的、对真实世界有着深刻理解的通用模型。
  谭平的GoogleScholar主页,其论文被引量达到了五位数。
  基于这一理念,他所创立的AI科技公司光影焕像(LightIllusions)已经实现了一些基础技术上的突破:包括更准确的3D重建和更优秀的文生3D效果。
  这些成果不仅可以应用于游戏、影视制作等行业,还会对XR、具身智能等领域产生重要影响。
  不过,由于3D数据严重匮乏,这件事做起来并不容易。为了了解该公司背后的技术以及这些技术可能创造的社会价值,机器之心与谭平博士展开了深入对谈。
  3D基础模型:AI走向现实的必由之路
  为什么要构建一个3D基础模型?在回答这个问题时,谭平选择从大规模预训练模型的本质开始讲起。
  他表示,预训练模型本质上是在学习数据中的统计规律,希望从数据中发掘出各种对象之间的关联性,也就是知识。人类上千年文明沉淀下来的文字就蕴含了丰富的知识,比如逻辑、文学、历史、政治这些抽象的知识,所以能够训练出GPT4这类优秀的大型语言模型。
  但是,真实世界还有很多要素是难以被准确描述的,或因为司空见惯很少被描述,包括空间结构、几何形状、3D运动、接触变形等等。
  由于文字存在这些局限,大家买房都需要看户型图,甚至通过VR看房来了解房间的空间结构,而不是光看文字描述;而设计师也需要给用户寄送3D样品才能让对方准确理解新产品的外观。谭平举例说。
  所以,谭平认为,要实现通用人工智能(AGI),我们需要两种类型的基础模型:一种是今天大家熟知的大语言模型(LLM),另一种则是视觉模型。两种模型学到的是不同类型的知识,互为补充。
  不过,当前的一些视觉模型(比如Midjourney)多是利用2D图像来训练的,因为这类数据数量庞大,模型可以从中学到不同物体所具备的特征以及特征之间的关联,具有很强的泛化性。但美中不足的是,这些数据终究只记录了真实世界的一个侧面,或者说投影,会严重影响模型的学习效率,出现前面提到的多头、多脸等问题。而如果将模型对数据的理解上升到3D维度,很多问题就会迎刃而解。
  自然界里面其实也是这个样子。所有的处于食物链顶端的物种,比如说灵长类和所有的猛禽、猛兽都是双眼朝前的,因为只有双眼朝前才有所谓的双目视觉,才能更好地感知三维信息。谭平类比说。
  因此,他们希望构建一个3D基础模型,来让机器更深刻地理解真实世界,并以此为基础改造世界。从技术上来讲,这个模型要能够帮助机器感知3D物体、3D环境,理解形状、距离、空间位置关系等要素。同时,它还要有预判能力,预判这个3D世界将如何随时间演化,推演可能发生的事件。比如,家庭服务机器人需要知道花瓶掉落地面可能会摔坏,自动驾驶汽车需要知道墙拐角后面可能会有车或人。谭平举例说。
  3D基础模型是一个非常宏大的目标,是让AI从语言走向物理,从字面走向现实的必由之路。一旦实现这个目标,机器就可以构建一个真实世界的虚拟数字复刻,在这个数字复刻中模拟、仿真各种可能性,并通过机器人技术最终改造真实世界。这是谭平带领的光影焕像希望达到的最终愿景。
  在技术路线上,谭平认为,3D基础模型也将采用和文本、图像一致的生成式预训练方式。因为生成模型采用自监督学习来训练神经网络,可以非常有效地处理海量训练数据。不过,在此之前,他们必须解决一个问题:如何在3D数据极度匮乏的情况下训练3D生成模型。
  3D数据:表达真实世界的稀缺富矿
  预训练模型的本质是从数据中提炼知识。从这个角度来看,我们可以从两个维度来考察数据的价值:一个是数据中知识的丰富度,另一个是数据的规模。作为真实世界的一种高度精确的表达方式,3D数据毫无疑问具有很高的知识丰富度,就像经济价值极高的富矿。但从数据规模上来看,3D数据是极度稀缺的,因为这类数据通常是由艺术家们手工制作的,或者用专业的设备扫描而来,不像文字、图像那样在互联网上随处可见。
  为了让我们直观地了解3D数据的稀缺程度,谭平给出了一组数字:著名文生图模型StableDiffusion使用了一个包含50亿个图像文本对的数据集(LAION5B)进行训练;但相比之下,当前最大的3D数据集ObjaverseXL数据量仅达千万级,而且其中还包含很多质量参差不齐的数据,清洗后实际可用的数据完全没有办法和文字图像进行类比。在这种情况下,如果只用3D原生数据去做训练,模型很容易过拟合,泛化性能会受到影响,能处理的任务非常有限。
  3D生成模型泛化能力不足的例子。在这几个例子中,模型分别被要求生成骑着火箭的柯基、背着双肩包的猪和弹吉他的松鼠,结果模型漏掉了一些元素。
  3D数据本来就在一个比2D数据更高维的空间,很可能需要更多的数据才能训练好模型。所以目前的数据是极为不足的。这是一个全行业的挑战,很难在短期内解决。谭平介绍说。
  为了应对这一问题,很多研究会选择基于2D数据来训练生成模型。比如一种常见的路线是先用2D生成模型生成一张2D图像,再用这张生成的图像去优化一个3D模型,然后重复这一过程,直到3D模型渲染的图像和生成模型产生的2D图像变得一致。这种方式的好处是训练数据易得,生成模型泛化能力强;局限性在于,由于2D生成模型学到的3D先验知识不够全面(比如缺乏关于相机视点的信息和物体的姿态、几何结构知识),生成的3D结果会出现多视角不一致等问题(如下图中的几何结构错乱)。
  因此,光影焕像的目标是在3D数据稀缺的客观条件下,同时使生成模型的泛化能力、生成效果达到可落地水平。要突破这一目标,对3D数据的认知是破局关键之所在。
  光影焕像技术路线:用好3D数据
  2D数据数量丰富,训练出的生成模型泛化能力强;3D数据知识丰富度高,训练出的生成模型更懂3D世界。因此,光影焕像在打造3D模型时首创了基于多源数据的模型融合训练策略,把2D、3D数据都充分利用了起来,重点提升了3D数据的利用效率。
  我们以一个熊的生成任务为例。单纯基于2D图像训练的模型经常会生成多视角不一致的图像(如下图)。
  所谓的多视角不一致可以从两个方面来理解:几何不一致(如多个头)和外观不一致(如多张脸)。在一项相关研究中,光影焕像发现,大多数的多视角不一致问题源于几何结构的错位。即在将2D结果提升到3D世界时,由于2D生成模型仅学会了和视角无关的先验知识(颜色、纹理等在不同视角下都相同的信息),导致多视角不一致性问题。因此他们把主要目标定为通过改进2D生成模型,使其能够产生3D一致的几何结构,同时保持模型的通用性。
  为了实现这一目标,团队提出了一种方法,即先用2D图像训练扩散模型,然后再用3D数据去对2D扩散模型进行对齐(align),使2D扩散模型具备视角感知能力,并生成规范坐标映射(CCM),从而在2D到3D的提升过程中与3D几何结构对齐。利用这一方法,光影焕像仅使用相对少量的3D数据,就能获得更强的结果,多视角不一致问题得到大大缓解。
  而且,这样训练出的模型还保持了强大的泛化能力,支持更多样的创意(与仅基于3D数据训练的模型相比)。
  不同模型文生3D效果。最右为光影焕像的模型生成效果。
  当然,除了文生3D之外,利用2D图像重建3D物体也是一个常见的方向。光影焕像的团队近期研发了一款通过手机拍照实现高质量三维重建的软件,这背后离不开更准确的相机姿态估计。
  我们团队过去有多年的三维视觉的技术积累,对于相机姿态求解更有经验,可以处理更复杂的数据。谭平介绍说。
  这些基础技术突破为光影焕像未来打造强大的3D基础模型打下了基础。
  谭平:3D基础模型刚刚起步
  先解决技术问题才能加速拐点的到来
  虽然是一家以技术起家的公司,但从谭平目前透露的信息来看,光影焕像并不崇尚闭门造车的做事方式,而是已经按照存量市场和增量市场的划分,展开了商业化落地的探索。
  在存量市场上,3D视觉在游戏、影视制作、物体场景三维重建等ToB领域有着广阔的应用场景。这些领域需要消耗大量的3D资产,但资产的制作周期却很长,成本也很高,严重拖累了产品的迭代更新速度,这是谭平观察到的现象。
  不同于依赖专业人士制作3D资产,目前海外的一些公司(比如Minecraft、Roblox等游戏公司)采取开放策略,让用户自己快速制作3D内容,极大地挖掘了玩家的创意,提升了游戏的可玩性。但目前用户创建的内容质量都比较粗糙。我们的3D基础模型有机会实现更高质量的内容创建。谭平介绍说。
  从目前公布的技术进展中,我们也能看到光影焕像在这方面所做的努力。比如,他们的文生3D技术其实支持多种生成类型(模型、纹理、空间布局)和多种三维数据表达(经典网格模型、NeRF等)。这意味着,他们的模型更容易集成到现有的渲染引擎、接到不同的应用中去。相比而言,今天很多文生3D的模型都是基于NeRF表达来设计的,这样可能就没办法直接应用于游戏等应用,而光影焕像的模型就更为灵活。
  在以XR、具身智能等前沿技术驱动的增量市场上,光影焕像同样大有可为。
  比如,在研发3D生成模型过程中,他们发现,生成模型可以增强机器的泛化能力,帮助机器处理从未遇到过的场景问题:给定一个未知物体的图像,生成模型可以生成出这个物体适合被机械手抓取的点,然后结合三维坐标的深度信息形成稳定的抓取位置,控制机器人去抓取过去从未见过的物体,极大地提高了机器的通用抓取能力。
  当然,这只是3D生成模型应用于机器人研究的一个例子。在更广阔的具身智能领域,许多任务(如物体的姿态估计、操作序列生成)都需要在3D空间中来完成,也都可以受益于3D基础模型的发展。我们相信下一代消费级的计算终端终将到来,服务性机器人也终将会走到千家万户,3D基础模型所带来的能力可以帮助这些智能设备理解真实物理世界,从而更好地完成各种任务。谭平展望说。
  不过,需要承认的一点是,现在的3D基础模型尚不成熟,可能处于ChatGPT1。0的水平。但是,我们还是可以明显看到技术的拐点。按照团队当前的研发规划,光影焕像有望在23年内达到生产级别的可用性。因此,谭平认为,现在的重心应该是解决底层的技术问题,所有的短期商业化策略都应该是为技术的迭代和公司实现自我造血服务的,真正的商业化爆发时间点将在技术成熟之后。
  为此,他组建了一支精悍的技术团队。团队成员大都来自于互联网大厂,包括阿里、字节、美团等。他们在三维视觉领域都有多年的研发经验,也取得了很好的成绩,例如2019年KITTIDepthCompletionBenchmark第一名、2020年MultiviewStereoBenchmark第一名、2022年KITTINYUDepthEstimationBenchmark第一名等。他们研发出的一些底层技术也被外界广泛应用,比如在2022年CVPR的ImageMatchingChallenge中,前6名有一半的团队采用了他们提出的用于图像匹配的网络QTA。
  对于公司所选的这个方向,身为创始人的谭平有着坚定的信念。20多年前,他被射影几何的优雅、简洁以及3D视觉理论的严谨、深邃所吸引,走进了这个领域。后来在企业工作的经历让他认识到,虽然3D很难,但是应用很丰富,不论是自动驾驶、机器人还是ARVR,各种应用都需要让机器理解真实物理世界,都离不开3D视觉。这坚定了他深耕3D这个方向的信心。
  我非常笃定,在退休之前,我做的工作肯定只会是三维视觉,肯定都是跟自动驾驶、机器人、ARVR眼镜相关的东西,除了这个我可能什么都不想碰。谭平曾对学生说。
  目前,谭平带领的这支创业团队已经得到了不少投资人的青睐。种子轮领投方清智资本合伙人张煜表示:
  目前,光影焕像在3D基础模型方向的工作正在稳步推进,我们期待他们早日实现下一个突破。
  (举报)
投诉 评论

GPT4超豪华套餐上线,全新32K模型遭泄密!文件上传分析,【新智元导读】ChatGPT重磅级更新又来了!这次,直接可以读取PDF文件,而且不用选择模型,就能自动识别需要的功能。另外,有网友爆料称,GPT4正在训练全新32k模型copi……大模型浪潮澎湃,带给普通人哪些价值?新世纪的头个十年,朴树的《NEWBOY》在大街小巷回响,互联网在国内野蛮生长,枝繁叶茂出了以三大门户网站为首的互联网企业。彼时国际奥委会主席萨马兰奇宣布“BEIJING”成为2……超5亿人“上头”,“抖快号”和“爱优腾”再战微短剧“天,看了一下午土狗短剧太上头了”“只有我一个人在追这么土的小短剧吗?”“一口气狂追三部虐恋短剧,根本停不下来”几年间,人们对微短剧的态度悄然改变,曾被疯狂群……只需5分钟,教你自测小红书笔记是否限流大促节点了,整个小红书平台的笔记增速非常快,品牌营销预算投入的也非常大,对小红书的自然流量的挤占是比较明显的,所以最近这段时间小红书的流量竞争也自然非常大,很多博主反应自己的笔……ChatGPT、Llama2等大模型,能推算出你的隐私数据!ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据,就能推算出你的住址、年龄、性别、职业、收入等隐私数据。瑞士联邦理工学院通过搜集并手工标注了包……18亿潜在用户的“小众”交友App,到底有多赚根据皮尤研究中心统计数据,目前全球存在超过18亿穆斯林,约占全球总人口的23。而根据伊斯兰教法,跨宗教的婚姻不被鼓励,穆斯林男性可以与信仰基督教或犹太教的非穆斯林女性结婚……英伟达被曝开发ARM架构PC芯片,手握x86的英特尔坚称:A上周,在英特尔第三季度财报的电话会议上,CEOPatGelsinger谈到x86与ARM的竞争格局时,向投资者保证:“ARM和Windows客户端替代产品在PC业务中一直处于微……网易两款顶级IP联手王炸,续写万物皆可蛋仔的故事Z世代登上社会舞台以后,公共文化领域愈发充满了活力。尤其是在游戏这一满足年轻群体精神娱乐消费需求的品类带动下,公共泛文化场域开拓出了一幅崭新的文化图景。这种情况形成的背后是,游……苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x102习惯了StableDiffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion模型,还是苹果做的。在生成式AI时代,扩散模型已经成为图像、……独家GPT4、Midjourney之外,谭平创业团队要造一个前段时间,OpenAI发布了文生图模型DALLE3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:可以看到,DAL……全球首款3nm芯片塞进电脑,苹果M3炸翻全场!128GB巨量【新智元导读】史上最短苹果发布会上,M3芯片家族震撼亮相了!在它们的加持下,MacBookPro、iMac纷纷升级成性能猛兽。史上最短苹果发布会ScaryFast,刚刚结……日本乒乓球选手福原爱宣布将直播带货:28号陪大家过早年快科技1月27日消息,近日,日本乒乓球选手福原爱宣布将直播带货,她在社交账号发视频配文称28号我陪大家过个早年。”在预告视频中,她提到自己从小学开始就跟着中国教练在中国训……
2019超级产品SuperProduct,与Apple、Fo汽车大王亨利福特在《超级产品的本质:汽车大王亨利福特自传》一书中,详细讲述了人类历史上最伟大的超级产品之一“福特T型车”从构想到狂销全球的全过程。一个世纪以后,福特的信徒史蒂夫……不追风、不蹭热点,Airbnb靠什么撑起民宿半边天?说好人的故事,创造和启发灵感,建设与回馈到社区,靠着这三点营销攻心策略,Airbnb(爱彼迎)撑起了当前民宿市场的半边天。你对旅游感兴趣吗?你了解爱彼迎吗?为什么爱……内容创业赛道分野,2018紧,2019更紧面临2018年互联网寒冬,内容创业行业的日子也不那么好过,众多内容创业者该如何在新的一年里寻找到突破口?5!内容行业真正赚钱的只有5。这是马东在一次采访中给出的数字……关于产品市场契合点PMF的12个问题全解读(下)产品市场契合点(PMF)概念由AndyRachleff开发和命名。PMF概念的提出,是Rachleff基于对开创性风险投资家和红杉资本创始人DonValentine的……2018互联网江湖的“进与退”:退场还是进击都是艰难选择2018年很快要结束了,很多人说这一年是水逆的一年,因为大家过的都不怎么舒畅。股市堵的这口气,一整年都没怎么顺过来,还要遭受各种洪水猛兽的添堵,P2P倒闭潮、区块链割韭菜……四个问题,带你看懂微信“好看”本篇文章将从四个方面入手,来深入分析微信更新后的“好看”功能。这几天一直在体验。“好看”已经成了我的第二个朋友圈。不管你是否体验过,下面用这四个问题来带你看懂“好看”:……Shopify是如何运用占领关键词策略?放眼全球电商世界,Shopify是不可忽视的强大存在。那它是如何做到开发一系列免费工具,来占领关键词的策略。本篇重点:开发一系列免费工具,占领关键词的策略“百……从“五代十国”走向“宋辽相持”,2019音乐流媒体市场前瞻回看2018年的音乐市场,可谓是精彩非常。展望2019年,音乐市场的下一个征程又会是哪里呢?2018年的音乐流媒体市场,精彩程度一点不比往年差,可以说行业中不管哪一阵营都……微信7。0更新看一看优,即刻视频劣视频和文字有着不同的意义,虽然我们更愿意接受视频,但是文字是不可或缺的,只看视频可什么都记不住。你知道吗?每天成长1,一年可以进步37。8倍。如果要做套路,请高级一……WiFi万能钥匙VS腾讯WIFI管家:元老未老还是新秀更贵?WiFi万能钥匙与腾讯WiFi管家谁更胜一筹呢?为了更加直观的得到答案,我们将从用户、功能性、产品体验与市场四个层面做对比。何以解忧?唯有暴富。除了暴富外,网……短视频2018:快手为什么输,腾讯凭什么追,头条的天花板在哪今年的短视频领域竞争异常激烈,但局面却是,各路玩家纷纷眼看着抖音和快手的数据以超高的速度增长,却连入局的机会都很难拥有,或是入场后直接被out。今年的短视频领域,抖音和快……2019热点营销宝典出炉!运营人市场人借势做增长必备!转眼间又到2018年的尾巴,“增长”概念兴起的这一年,你为了实现增长而蹭热点、借势推广,又把血槽掏空了多少次?其实,对于运营人和市场人来说,早做规划,形成一定的章法套路,……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界