AI大模型下一站文生视频还有多远？

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

AI大模型下一站文生视频还有多远？

　　2023年1月12日晚上，OpenAI首席执行官SamAltman身着灰色毛衣、蓝色牛仔裤、扎染运动鞋，出现在旧金山Salesforce大楼46层的一个房间。房间里挤满了投资人、记者和技术人员，因为人多，大家只能站着。在这个以风险投资为重点的活动上，SamAltman透露两个重要信息：一是OpenAI正在测试一个更强大的模型GPT4，预计很快发布；二是该公司正在开发一种可以根据文本描述生成视频的系统。
　　关于这两个重磅信息，前者已尘埃落地，GTP4模型在3月15日推出，其性能之强大令人惊叹；后者尚未解开面纱，有可能成为该公司的又一枚引爆业界的核弹。
　　关于AIGC，即文字生成文本、图像、音频、视频的难度，其排序始终是文本静态图像声音视频。小冰公司CEO李笛这样说。
　　Meta文生视频
　　去年下半年开始，谷歌、Meta以及一些创业公司相继发布了文本生成视频的系统，但这些系统效果并不理想，所以业界依然对于OpenAI公司的文生视频充满期待，因为OpenAI已经制造了现象级产品ChatGPT。
　　3月22日阿里达摩院在AI模型社区魔搭（ModelScope）悄悄放出文本生成视频大模型，在开源模型平台低调对外测试；3月16日，百度发布文心一言也提供文字生成视频功能。
　　文字生成视频正在成为全球新一轮AIGC竞赛的新焦点。
　　文生视频赛道渐热
　　达摩院上线文生视频模型对外测试版后，笔者在3月24日进入魔塔社区，在社区的模型库找到文本生成视频大模型英文通用领域，进行体验。输入一个猫咪吃饺子，出来一段视频，是一只灰黑的猫来回甩动头认真吃白色饺子；输入两只猫与一个女孩跳舞，出现的视频为一只灰黑猫与一个猫头人身粉衣女孩跳舞。
　　达摩院文字生成视频模型生成的例图
　　目前这个模型还不支持中文输入，从体验效果来看，生成的视频长度约为24秒，等待时间从20多秒到多于1分钟不等，应该说，目前模型具备了文本生成视频的基本能力，但视频画面的真实度、清晰度以及长度等方面还有待提升。
　　就在阿里达摩院推出文生视频大模型之前的一周，百度发布了其大语言模型，具备文字生成文本、图像、视频的功能，其中被网友们关注的焦点之一是文生图和文生视频的功能。
　　应该说，文字生成视频国外早于国内进行尝试。去年10月Meta公布了文生视频工具MakeAVideo，这个工具可以把文字生成视频，也可以将静态图片生成连续图片，然后将这些图片连接成一段视频。尽管MakeAVideo尚显生涩，但还是引起业界骚动。
　　谷歌文生视频工具Phenaki
　　在Meta公布MakeAVideo后一周，谷歌公司CEOSundarPichai亲自发布了该公司的两个文生视频工具ImagenVideo与Phenaki，前者主打视频品质，后者主要挑战视频长度。目前，ImagenVideo可以生成1280x768分辨率、每秒24帧的高清晰片段，而Phenaki可以实现有故事、有长度，它生成任意时间长度的视频能力来源于其新编解码器CViViT。
　　另一个坐不住的公司是StabilityAI，该公司因为文生图像的开源平台StableDiffusion而出名，StableDiffusion创始人兼CEOEmad立刻宣布即将发布一个比MakeAVideo更好的模型，而且是大家都能用的那种。
　　大家都能用是杀手锏，ChatGPT的成功关键就是将人工智能从天上带到了人间，人人都可以用。
　　2023年2月6日，Runway发布Gen1模型，这个模型可以通过应用文本提示或者参考图像所指定的任意风格，将现有视频转换为新视频。今年的奥斯卡将7项大奖颁给了《瞬息全宇宙》，在影片的制作过程中，就采用了这家公司的技术。
　　Runway公司的Gen1还没内测完，3月21日该公司又发布了Gen2，更专注于从零开始生成视频。
　　谷歌另一文生视频工具ImagenVideo，能够生成1280768分辨率、每秒24帧的高清视频片段
　　最近，谷歌文生图AI绘画模型Imagen论文的四位核心作者宣布离职，将创立一家新的文生视频公司，虽然公司名称暂未对外公布，但文生视频的方向已经清清清楚楚。
　　文生视频，赛道已经开始变热。
　　文生视频为何难？
　　APUS公司技术负责人张旭认为，视频本质上是一帧一帧的图像连续播放而成，目前文本生成图像的技术已相对成熟，所以文字生成视频在原理上是可行的，而且业界已经有不少文生视频的系统出现。但要从目前只能生成简单动画和短视频，实现更复杂、更任意长度的高质量视频，依然有两个方面的问题要解决。
　　一方面要解决AI生成的图像没有闪烁感、更连贯；另一方面需要解决时间效率与算力资源问题。目前将文本生成图像，在高端GPU上，每张图像渲染的时间大约为几秒到十几秒，视频如果按照每秒30帧计算，那么一秒钟的视频就需要几分钟的渲染时间，大大限制其适用场景。这需要硬件技术和算法共同进化解决。张旭说。
　　文字生成视频要实现所写即所得，快速生成，并实现丝滑连贯依然有巨大挑战。
　　人工智能创业公司天壤智能创始人薛贵荣将文生视频的挑战总结为五个维度。一是质量可控性有待提高。目前生成图像只是一帧画面，而生成视频则要求生成的内容具有高度一致性，如人物的形象、语言、动作、声音都要保持高度统一。二是形象的生动性、丰富度、真实性需持续提升。三是算力挑战巨大，成本耗费高。更高的分辨率意味着更清晰、精细的呈现和更多信息的变化控制。越生动、越高清，真实感越强的视频，计算量也就越大。四是模型的复杂度和参数规模挑战。能够生成视频的AI模型至少是千亿以上的参数模型。五是信任和安全、成本、版权等也面临很大的挑战。
　　业内一位专家提及目前文本生成视频产品的主要短板，首先是质量依然有很大的提升空间，尤其是复杂场景下的表现。与此同时处理速度，特别是在大规模文本数据处理时的速度仍然是挑战。再者是模型或应用在可控性和定制性方面也还有待提高。还有一点是数据隐私和安全性问题也需要解决。
　　文生图技术演进
　　李笛认为，文本生成视频当前主要短板是可控性。生成的质量不稳定，需要调整的时候不容易调整，这导致它可以用来Demo（演示），但很难实际落地。所以从这个角度看，文生视频应用空间远没有文生文本大，而且难度与成本也要高得多。
　　李笛同时表示，一个文生视频的优劣决定要素是算法，而算法唯一可量化的就是参数规模。但恰恰是这个参数规模，它并不能反映模型真正的质量。有的模型很大但效果很差，有的模型参数不大但效果很好，有的模型参数规模比GPT3。5大10倍，但效果远远不如它。目前大模型并没有可以用来评估优劣的指标体系。李笛说。
　　薛贵荣认为，需要从时间和空间两个维度评价文字生成视频模型和应用。从时间维度看，AI要基于对文字的理解生成对应风格的视频内容。如何理解文字及背后延伸的含义，决定了内容的关联性是否足够强、故事情节和文化情感的变化是否合理。时间上的逻辑性越强，越会讲故事，生成的视频质量越高。从空间的维度看，模型能否真实、自然地生成每一帧画面，画面逻辑是否合理、细微之处是否平顺、光滑，画面结构是否符合现实物理世界的规律，决定了生成内容的可用性。
　　文生图技术框架
　　OpenAI能否成功生视频？
　　刚离职正进行AI大模型创业的前阿里副总裁贾扬清认为，ChatGPT的成功关键要素之一，是很好地设定了产品的边界。ChatGPT为什么能够比其他的类似的聊天机器人更加不让人讨厌？除了技术能力超群之外，还和产品边界的定义非常相关。ChatGPT的定位是轻量级的‘Chat’，所以它就算回答出错，也不像其他的产品那样让人讨厌，反而变成一种有趣的谈资。同时，极简的界面让人非常容易上手，‘没事聊两句’也是一个不彰显科技产品距离感的体验。他说。
　　可怕的不是ChatGPT不犯错，而是像人一样犯错。美国国家工程院外籍院士、北京智源人工智能研究院理事长张宏江最近在一场主题为《大模型发展机会与挑战》的演讲中表示：为什么人们如此热衷听ChatGPT一本正经地胡说八道？不是它聪明到不犯错，而是它聪明到犯的错误跟人特别像，人性的一面若隐若现地显露出来。
　　张宏江认为，ChatGPT是技术工程化与产品化的典范，除了数据、算力与算法构筑起强势技术壁垒，海量语料、海量会话与海量用户，都成为其至关重要的成功因素。它是数据与模型双轮驱动，赢家通吃的代表。
　　微软中国公司首席技术官韦青说，古人有一句话叫圣人畏因，凡人畏果，有了理念、信仰、追求，才能产生结果。ChatGPT的下层有两类支柱。一方面是因为大语言模型，赖以沉淀人类所有的知识，或者是能够被它学习到的所有知识的机制。是TransformerRNNCNNLSTM，是用数学的方式，表征物理世界和人类知识与行为的特征。另一方面，OpenAI也是由人构成，这群人有一个共同的理想，坚信做这件事是对的，是有用的，这些人有科学修养，又有工程实现能力，又对语言学、计算机科学的第一性原理有深刻理解。
　　每一件事情的发生，人们往往看到了果，但凡事都有原因。北京智源人工智能研究院健康计算研究中心技术负责人黄文灏在硅谷与ChatGPT团队交流后认为，首先，OpenAI的三个领军人物，包括CEOSam、联合创始人兼首席科学家Ilyia、总裁Greg都是非常偏执的人，Sam在公司里没有股份，Ilyia只拿研究经费，Greg来公司前就财务自由，这三个人都对这个世界有比较强烈的主张，整个机构有信仰和方向感、有定力。
　　其次是坚信能把AI做成产品而非技术。我跟OpenAI的人聊，大家都很坚信AGI很快会到来。方法论是坚持暴力美学和系统主义，文化是把AI做成产品，而不是技术，他们一直在持续迭代产品。黄文灏说。
　　最后是OpenAI有强大的资源支持。目前OpenAI有近3万张GPU，他们随便写一个程序就用2000张卡，ChatGPT每月运行成本接近1亿美元。他们为数据投入大量资金，2022年算力和数据花费为4亿多美元。
　　鉴于这样的因，人们有理由期待OpenAI能在文生视频上生成令人惊艳的果。而据黄文灏透露：OpenAI的GPT4去年已经训练完，4。5差不多准备好了，GPT5应该正在做。
　　最近，OpenAI发表了一篇论文，从论文中有专家分析出GPT5的一些蛛丝马迹。一是模型规模，可能会达到1万亿甚至数10万亿的参数规模。这种庞大的模型将拥有更加深入的语言理解和更加精准的语言生成能力，能够更好地模拟人类的语言行为。二是语言理解能力，未来的GPT5则有望在这方面得到重大突破，实现对更加复杂、抽象、逻辑性强的语言任务的理解和产生。三是多模态融合。目前的GPT模型主要是以自然语言为输入，输出也是自然语言。但未来的GPT5有望将多模态信息（如图像、声音、视频等）融合到模型中，实现更加全面的语言理解和产生。这将使模型在人机交互、虚拟现实、智能家居等领域的应用更加广泛。四是更加高效的推理和训练。五是更加人性化的交互方式。GPT4主要是通过命令行或API进行交互，未来的GPT5有望实现更加人性化的交互方式，如语音交互、手势交互、图形界面等，让普通用户也能够方便地使用这种技术。
　　ChatGPT背后的大模型，需要怎样的芯片？
　　没有百亿参数的大模型，不敢奢谈ChatGPT
　　作者丨特约撰稿李佳师
　　编辑丨邱江勇
　　美编丨马利亚监制丨连晓东

今日NBA有7场比赛，让我们来看个乐呵1月11日，NBA共有7场比赛，看看有哪些值得我们关注和了解的。1开拓者114108逆转战胜篮网，取得两连胜，篮网则遭遇近7场比赛的第5场失利。开拓者双枪利拉德麦克勒姆不在，篮网哈刘思彤长相酷似李冰冰，演萧十一郎出道，和吴奇隆感情颇深刘思彤这个名字知道的人大概很少吧，但说起她演的影视剧作品算起来也很经典了，比如电视剧萧十一郎中的连城瑾一角，其实当时这部剧中的女演员可都是被称为绝世美女的人，比如作为主角的朱茵，以三马谁最有钱！三马指的是哪三个人？三马谁最有钱？大家对于这个这个问题想必都是十分好奇的，毕竟豪富的资产大家都感兴趣么，但是也有一些朋友并不知道三马指的是哪三个人，今天小编就带大家一起来了解一下。首先我们先来看看三马2022年，真有金融危机吗？在头条看世界前阵子，马斯克预言会发生金融危机，他说预测宏观经济是具有挑战性的，我的直觉是大衰退会在2022年春季或夏季左右，但不迟于2023年。作为世界首富，这番言论一出，是挺震惊34岁释小龙大方晒近照，疑似转行做高尔夫运动员，神情没落显凄凉2022年1月11日，释小龙在社交圈发文新年第一场，4年170场后，人生第一个HOLEINONE（一杆进洞），同时晒出了一组自己打高尔夫的近照。画面中，释小龙身穿白色的短袖，搭配黑3年追踪3个冰球少年，揭秘冰上运动从小众冷门到爬藤捷径一场千人冰上艺术节一部历时3年的冰球纪录片，让汇佳学校成了这个冬天北京最火的地标。1月7日，距离冬奥会开幕还有50天，一部名为冰上时刻的纪录电影在全国院线上映，片中的主演之一曲瑞晨女明星同框后，谁的颜值高显而易见，美是真服刘亦菲杨幂和宋茜又同框了在第16届华语青年电影周荣誉颁奖典礼上两人单独看都是美，毕竟颜值在那里但一同框，谁的美你最看好以照片输出的结果来看，杨幂的美更胜一筹，站在那里不笑也是精致的，而宋大话西游2新神兽兰亭即将投放，外型设定类似男版画中仙每天一期大话，期期都有精彩，大家好，我是你们熟悉的小苏。又快到了一年一度的元旦假期，每年这个时候大话西游2都会开放相关的节日任务，今年也不例外。不过，自从六艺神兽投放以来，都会借着巴西巨石坍塌砸中观光船，已致10死32伤，目击者回忆惊魂瞬间1月8日，巴西东南部著名的旅游村Capitolio附近的峡谷中，一处瀑布附近发生巨石坍塌。（巨大的岩壁正在倒下。）1月9日，救援人员从湖中又找到了三具尸体，在这场造成超过32名游客地表水从哪儿来？地下水可以分为哪几类？地表水的概念有广义和狭义之分。广义的地表水指地球表面的一切水体，包括海洋冰川湖泊沼泽以及地下一定深度的水体，生物水和大气水不属于地表水。狭义的地表水专指地球陆地表面暴露出来的水体，NREL启动为期两年的计算建模项目，研究风对光热发电结构的影响外媒消息近期美国国家可再生能源实验室（NREL）和能源部（DOE）太阳能技术办公室（SETO）启动了为期两年，将深入研究大气风况的测量以及它们如何影响聚光太阳能（CSP）集热器项目

<<<<<<－>>>>>>

时尚先生盛典张雨绮状态差，郭采洁发型翻车，龚俊王子异撞衫时尚先生的25周年盛典，是一场以男明星为主的时尚活动，出席的女明星没有很多。先来看为数不多的女明星在这场男明星的战场里发挥得怎么样吧。景甜出场的时候挺让人惊艳的，毕竟红毯的直播镜头王者荣耀张良电竞皮肤即将上线，程咬金新皮肤曝光hello大家好，我是小白君王者荣耀正式服将于明晚开始进行新赛季更新，届时排位模式会关闭，6号新赛季将如期而至，王者荣耀段位将重新继承。目前，新段位继承已经公布，与上个赛季没有区别新世界NewWorld免费领取时光之轮幻化皮肤大家好，我是阿布。今天为大家带来一个新世界免费领取活动幻化的教程。为庆祝时间之轮第一季大结局，亚马逊将发布特别主题的TwitchDrops。观看新世界直播，这样就可以开始赚取皮肤。初见惊艳不已，再见路人甲乙！这12个明星颜值成谜，这脸怎么了？大家有没有发现，娱乐圈里有很多美女，最初我们是被她们惊艳过的，可是后来的她们颜值不断下跌，到后来的泯然众人矣，曾经的惊艳渐渐退去，让人唏嘘不已。今天，我们一起来聊一聊那些年我们追过法师顶级意识教学，两分钟让你明白什么是节奏！超多干货你们在玩中路的时候会不会遇到一个问题，那就是为什么已经很努力的吃兵线了，但是经济还是几乎垫底，已经很努力的在支援了，但是还是被喷乱带节奏，被对面中路蹲到不太敢吃兵线，自己却只能在塔众女星开年红毯！宋祖儿气质大变景甜美过超模，吴谨言撑不起礼服时尚先生红毯也邀请了不少女星，开年红毯秀女星们争奇斗艳，看谁的造型惊艳四座？一起来看宋祖儿景甜张雨绮宋轶等明星的造型，个个都很有个性，变化最大的要数宋祖儿了吧！宋祖儿是98年的人，美媒建议勇士3换1伍德，火箭获得华怀斯曼首轮签，两队有望双赢因为伤病与人员流转连续缺席两个赛季之后，勇士队在本赛季强势回归，球队从上个赛季的鱼腩，一口气反弹为联盟最大的争冠热门，高居联盟第一的位置。并且在赛季已经打了将近一半赛程的情况下，依潘晓婷微笑出镜！39岁仍气质优雅，两大奥运冠军陪伴左右新年伊始，台球女皇潘晓婷出席了跑步活动，她C位出镜，始终面带笑容，虽然还有一个多月就年满40岁了，但潘晓婷依然气质优雅。活动现场，两位奥运冠军徐莉佳和钟天使陪伴左右，一袭黑衣的潘晓快收藏！国乒2022年外战安排陆续出炉两大赛最重要，日韩是大敌一转眼，2021年成为了过去，2022年已然到来。对于中国乒乓球队而言，去年的确是异常忙碌，因为大家遇到了有史以来第一次奥运会与单项世乒赛在同年举办的情况，备战任务相当繁重，尽管最初见惊艳不已，再见路人甲乙！这12个明星颜值成谜，这脸怎么了？大家有没有发现，娱乐圈里有很多美女，最初我们是被她们惊艳过的，可是后来的她们颜值不断下跌，到后来的泯然众人矣，曾经的惊艳渐渐退去，让人唏嘘不已。今天，我们一起来聊一聊那些年我们追过法师顶级意识教学，两分钟让你明白什么是节奏！超多干货你们在玩中路的时候会不会遇到一个问题，那就是为什么已经很努力的吃兵线了，但是经济还是几乎垫底，已经很努力的在支援了，但是还是被喷乱带节奏，被对面中路蹲到不太敢吃兵线，自己却只能在塔

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网