写好剧本直接出片！Google发布首个讲故事的视频生成模型

　　编辑：LRS  【新智元导读】刚做完画家，普通人又能当导演了？
　　基于文本的图像生成模型 效果惊艳，可以说是时下讨论最火热的AI研究领域了，内行外行都能看个热闹。
　　那要是让照片动起来 ，效果是不是更赛博朋克 了？
　　最近Google投稿ICLR 2023的一篇论文在生成模型界又掀起波澜，除了让照片动起来，文中提出的Phenaki模型还可以在文本描述中添加剧情 ，让视频内容更丰富。
　　论文链接：https://openreview.net/forum?id=vOEXS39nOF
　　比如输入文本：
　　A photorealistic teddy bear is swimming in the ocean at San Francisco.
　　一只逼真的泰迪熊在旧金山的大海里游泳。
　　The teddy bear goes under water.
　　泰迪熊进入水中。
　　The teddy bear keeps swimming under the water with colorful fishes.
　　泰迪熊在水中不断地游动，旁边有五颜六色的鱼
　　A panda bear is swimming under water.
　　一只大熊猫在水底游泳
　　如果说前面还算合理，看到最后泰迪熊变身大熊猫 ，实在绷不住了。
　　这反转 放短视频平台上不得几百万点赞，豆瓣评分都得9.9，扣0.1分怕你骄傲。
　　再来一个例子，依然能完美还原剧本 。 Side view of an astronaut is walking through a puddle on mars
　　宇航员在火星上走过水坑的侧影
　　The astronaut is dancing on mars
　　宇航员在火星上跳舞
　　The astronaut walks his dog on mars
　　宇航员在火星上带着他的狗散步
　　The astronaut and his dog watch fireworks
　　宇航员和他的狗观看烟花
　　一人一狗，外太空，看的有点感动怎么回事。
　　相比文本引导的图像生成模型来说，生成视频的计算成本更高 ，高质量的文本-视频训练数据也要少的多 ，并且输入的视频长度参差不齐 等问题，从文本中直接生成视频更困难。
　　为了解决这些问题，Phenaki 引入了一个学习视频表示的新模型，将视频压缩后用离散tokens进行表征，tokenizer在时间维度上使用因果注意力（causal attention）来处理不同长度的视频，然后使用一个预训练的双向掩码Transformer模型对文本进行编码直接生成视频。
　　为了解决数据问题，研究人员提出一种联合训练方法，使用大量的文本-图像语料以及少量的文本-视频语料实现更好的泛化性能。
　　与之前的视频生成方法相比，Phenaki支持任意领域的文本故事，剧情可以随时间变化且能够生成任意长度的视频。
　　这也是第一次有论文研究从时间可变的文本提示中生成视频 ，并且文中提出的视频编码器/解码器在空间和时间上的质量均优于其他模型。
　　从文本到视频
　　从本质上讲，虽然视频就是一个图像序列，但生成一个长且连贯的视频却并不容易。
　　图像领域不缺训练数据 ，比如LAION-5B, FFT4B等数据集都包括数十亿的文本-图像数据对，而文本-视频数据集如WebVid则只有大约一千万个视频，远远不够支撑开放领域的视频生成。
　　从计算力上来看 ，训练和推理图像生成模型已经快把GPU的性能榨干了，是否能挤出计算空间留给视频生成解码器也是一个要解决的问题。
　　文本引导的视频生成任务还有一个难点，一小段文本 对于图片生成来说可能足够描述细节 ，但对于一个长视频来说远远不够 ，并且视频包括上下文，即下一个片段的生成需要以当前片段作为条件，随着时间的推移，故事逐渐展开。
　　理想情况下，视频生成模型必须能够生成任意长度的视频，同时有能力将某一时刻的生成帧以当前时刻的文本提示作为条件，这些文本提示会随时间步变化。
　　这种能力可以将视频与会动的图像明确区分开来，并为艺术、设计和内容创作等现实世界创造性应用开辟道路。
　　在此之前，基于故事的有条件视频生成（story based conditional video generation）是一块从未被探索过的领域，这就是第一篇朝该目标迈出的论文。
　　想要用传统的深度学习方法，即直接从数据中学习视频生成是不可能的，因为没有基于故事的数据集可以学习。
　　为了实现这一目标，研究人员为Phenaki模型设计了两个组件 ，一个编码器-解码器模型 用来把视频压缩成离散的embeddings，以及一个Transformer模型 ，把文本embeddings翻译成视频tokens，其中文本向量由预训练模型T5X进行编码。
　　1、编码器-解码器视频模型：C-VIVIT
　　这个模块要解决的主要问题是如何获得视频的压缩表征，之前关于文本转视频的工作要么对每帧图像进行编码，但对视频长度有限制；要么使用固定长度的视频编码器，无法生成可变长度的视频。
　　C-ViViT是ViViT的因果变体，专门为视频生成任务调整了模型架构，可以在时间和空间维度上压缩视频，同时在时间维度上保持自回归，从而允许自回归地生成任意长度的视频。
　　首先在空间和时间Transformer中删除[CLS]标记，然后对所有由空间编码器计算的空间token使用时间Transfomrer，与ViViT中对[CLS]标记的单一时间Transformer的运行不同。
　　最重要的是，ViViT编码器需要一个固定长度的视频输入，因为它在时间上采用的是all-to-all注意力。将其替换为因果注意力之后，C-ViViT编码器就会变成自回归，并允许输入帧的数量可变。
　　2、使用双向Transformers从文本中生成视频
　　可以把文本到视频的任务看作是sequence-to-sequence的问题，以预测输入的文本向量对应的视频tokens
　　大部分的seq-to-seq模型都使用自回归Transformer，根据编码的文本特征按照顺序预测图像或视频tokens，即采样时间与序列长度成线性关系，对于长视频的生成来说是不可接受的。
　　Phenaki采用掩码双向Transformer，通过一个小且固定的采样步骤来减少采样时间，而无需考虑不同的视频序列长度，双向Transfomrer可以同时预测不同的视频tokens
　　在每个训练步骤，首先从0到1中随机选择一个掩码比率，并根据视频长度随机地用特殊标记[MASK]替换一部分token
　　然后根据给定的文本向量和未掩码的视频tokens，通过最小化掩码token的交叉熵损失来学习模型参数。
　　在推理过程中，首先将所有的视频tokens标记为特殊词[MASK]，然后在每个推理步骤中，根据文本向量和未掩码的（要预测的）视频tokens，平行地预测所有被掩码（未知）的视频token
　　在每个采样步骤中，选择一个预测token的比例，其余的tokens在下一步中将被重新掩码和重新预测。
　　对于长视频的推理和自回归生成，使用事前训练（classifier-free）的引导来控制生成和文本条件之间的一致性。
　　一旦生成了第一个视频，就可以通过使用C-ViViT对最后一个视频中的最后K个生成的帧进行编码，自动递归地推理出其他帧。
　　用C-ViViT编码器计算出的token初始化MaskGIT，并继续生成以文本输入为条件的剩余视频标记。
　　在视频推理过程中，文本条件可以是相同的，也可以是不同的，这也使得该模型能够在之前和当前文本条件的视觉内容之间动态地创建视觉过渡，有效地生成一个由输入文本描述的视觉故事。
　　最终，研究人员在1500万8FPS的文本-视频对，5000万个文本-图像对，以及4亿混合语料库LAION-400M上进行训练，最终Phenaki模型参数量为18亿。
　　batch size为512的情况下训练了100万步，用时不到5天，其中80%的训练数据来自视频数据集。
　　在视觉的定性评价上，可以看到模型对视频中的人物和背景动态的控制程度都很高，并且外观和视频的风格也可以通过文本提示来调整（例如，普通视频、卡通或铅笔画）
　　在定量比较上，Phenaki在zero-shot设置下实现了和其他模型相当的生成质量。
　　在考虑训练数据的影响时，可以发现在只用视频训练的模型和用更多的图像数据训练的模型之间存在着性能上的权衡。
　　参考资料：
　　https://phenaki.video/

乞丐毛发与洗发水首先，有多少乞丐可以好好洗头？有多少乞丐可以用洗发水好好洗头？前一段在头条上看到一篇文章，某博主掉头发严重，换过很多洗发水都没用。后来，他严格控制洗头的频率，并不再使用洗发水，偶尔最新洗发水名单曝光！你的洗发水是王者还是垃圾？选对洗发水我真的太爱了以前洗头，每次都要掉一大把下水道地漏经常堵我一直以为我是脱发发质尝试换了很多洗发水头发依旧隔一天就油了大品牌蜂花，美国的海飞丝，法国的清扬都试过治不了我的头皮阿的江一剑下天山，新掌门三人入北疆！二人转不停止，谁都不好使遥记三年前，阿导归故里。彼时南疆喜来北疆乐，天山昆仑两相贺！但是正所谓好景不长，转瞬已然三年。如若单纯从战绩而言，新疆广汇真的是体会到了什么叫做每下愈况。对此阿的江指导也一直大惑不爸爸打人事件没有什么反转不反转，法律说了算光看这个视频，一巴掌把孩子扇到地上，爷爷气愤开始推搡，接着就是互推拿起凳子砸。结局就是孩子软组织挫伤，老人也受伤。这个该交给法律，一切按照法律途径走起，毫无悬念。起因就是孩子在幼儿巴巴多斯唯一的黑人发达国家，歌坛天后蕾哈娜故乡头条创作挑战赛在世界上就有一个黑人建立的小国，是全球唯一的黑人发达国家，不过却并不位于非洲，它就是位于大西洋之中的一个小小岛国巴巴多斯。巴巴多斯共和国，位于东加勒比海小安的列斯群岛桂林从异乡变成了我的故乡十年前热合曼一家人及朋友在桂林市七星公园游玩时的留影。（记者苏展翻拍）今年10月，热合曼（左五）及他的家人在店门口拍全家福。红彤彤的横幅上的话，也是新疆大叔扎根桂林多年的心声。记者干了一碗恒河水和干了一碗黄河长江水有啥区别？那干净又卫生的古老神秘恒河水，最近又有新故事了干了一碗恒河水，然后近日，日本一名网红到印度后，打算深度体验印度文化，于是她就跟本地人一起到恒河中沐浴。只见她将全身都浸没在恒河水里，今夜，煮一壶乡愁，与故乡的画卷对饮郝有花（图片来自网络）我在初冬的梦里醒来随笔写下的执着，化成一串串珍珠在流年里打破季节的声音，时间的轮换我对着一堵黄土墙悄悄地触摸你残留的余温无可奈何，我在你温柔的目光里再也看不见50岁的我，建议三四十岁的女人多用这4种护肤品，用和不用差距大很多女人都觉得护肤品用得越多越好，但其实我们皮肤的吸收能力有限，涂了护肤品在脸上一层又一层，反而不利于皮肤吸收和恢复。到了50岁，我才发现护肤品应该尽量简单而不是复杂，三四十岁的时光电实测100电量干到趴窝！合创Z03续航这么实在？作为新世代年轻人的代步车，合创Z03在设计空间以及配置上的表现我觉得都做得不错，而且在广汽的技术加持下，这款车还配备了号称安全系数颇高的弹匣电池。当然了，除了安全之外，新能源电动车王者荣耀11。12五款皮肤返场，全新皮肤上架，七周年击败免费得王者荣耀将在11月12日晚上8点举行共创之夜，并在当天上线四大活动前来助阵，其中包括五款限定皮肤返场阿古朵新皮肤上架捞宝箱抽永久内测皮肤七周年击败特效免费得。下面一起来看看具体内容

<<<<<<－>>>>>>

迎大运盛会赏世遗美景向健康奔赴2023成都双遗马拉松在都江堰开赛消费日报网讯（记者冯举殷忠波）3月26日上午，时值成都第31届世界大学生夏季运动会倒计时124天，2023成都双遗马拉松于都江堰凤凰体育场鸣枪起跑。发令声响，三大世界遗产赛道让3万季后赛抢七战拿45分有多难？历史仅6人做到，乔科无缘，詹姆斯2次前言如果要问NBA最为刺激的比赛是什么，那么所有球迷都会告诉你是季后赛抢七大战，无论系列赛的两队实力和战绩的差距如何，一旦拖入到了抢七战，哪支球队能够打出更为出色的状态，便是赢的那追梦希望勇士首轮打国王德雷蒙德格林在播客中表示，他希望季后赛首轮打国王。如果最终排名就跟现在一样，我一点都不会生气。我们会在首轮打国王。不是因为我觉得国王是弱队，而是因为客场旅行会轻松很多。勇士和国王同热刺官宣孔蒂下课孔蒂下课3月27日，英超热刺俱乐部发布公告我们在此宣布，主教练安东尼奥孔蒂与俱乐部协商达成一致后已经离开。克里斯蒂安斯泰利尼将作为代理主教练在本赛季余下的时间里带队，瑞恩梅森将出任首家倒闭的共享单车，重庆悟空单车创始人真当做公益了，300多万赔进去，一千多辆单车不见踪影，你怎么看？可以从四个方面来讲第一运营维护悟空单车采用的机械锁，一个最大的问题是，记住密码就可以永久使用，然后私有化。这样投入市场后就分散了，很难找回，单车召回要耗费大量人力。第二资金链断裂，无锡哪座山适合周末去攀登？最适合的肯定是惠山，还盘点了其他几座山，选择离你家最近的爬吧哇，闭眼幻想一下，在这个季节，选一座山攀登，穿上运动鞋，戴上太阳帽，背上水壶，也许能让你从不同的视角领略到锡城的自然风光移动千兆宽带怎么样？我家里一直在用移动的宽带，并没有传说中的不稳定，移动宽带从200M提升到1000M，之所以感觉速率提升不大，可能存在以下几点原因。1。升级后，是很多用户共享运营商的带宽，在忙时和闲芯片困局！是任正非这样企业家太少，还是解雇倪光南酿成的恶果？光南只是司马南搞乱ZG的玩具，当然光南个人也无任何造芯片的技术。任正非只中国企业努力的代表，正在努力和能否造芯片那真是两回事，还要千千万万的人共同努力。主要是任正非这样真正的企业家如何找出5G的真龙头？以下为个人观点，仅为个人思考。国内5G的龙头无疑是华为，可是华为没有上市，没有办法投资啊，所以只能在上市公司中找一些有业绩支撑，有技术支持的，或者原材料龙头股票。在上市公司里面，我西藏竞技马术队获2022年全国马术三项赛锦标赛团体冠军来源西藏日报3月25日至27日，由中国马术协会主办的2022年全国马术三项赛锦标赛在陕西省西安市秦汉国际马术中心完赛。西藏竞技马术队派出边巴次仁格桑平措旦增罗旦和旦增平措4名运动员她夺世乒女单冠军却被国家队放弃，嫁日本人亚运战胜邓亚萍夺冠时光倒流到1994年10月，第12届日本广岛亚运会，在女单比赛中，她越打越疯。先是战胜了中国队二号种子乔红。接着女单决赛中，她毫不手软，结果又以3比1战胜了大魔王邓亚萍，原本是中国