三言财经10月7日消息,10月6日,Google宣布ImagenVideo人工智能系统可以根据简短文本内容生成视频片段。 Google称,ImagenVideo是朝着具有高度可控性和世界知识的系统迈出的一步,包括生成镜头的能力在一系列艺术风格中。 据介绍,ImagenVideo奠基于Google的Imagen文本生成图像人工智能系统上,采用串联扩散模型来产生高分辨率的视频。先通过自然语言处理预训练模型T5嵌入用户所输入的文本后,由一个基本的视频扩散模型以每秒3帧的速度产生一个解度析为2448的16帧图片,之后再利用多个TSR与SSR模型,最终产生每秒24帧,总长128帧且分辨率高达1280768的5。3秒视频。