|
Post by account_disabled on Jan 26, 2024 22:17:39 GMT -5
广告 至于训练数据,谷歌没有透露从哪里获取输入 Lumiere 的视频,只是写道:“我们在包含 3000 万个视频及其文本标题的数据集上训练我们的 T2V [文本到视频] 模型。” [原文如此] 视频为 80 帧、16 fps(5 秒)。基础模型在 128×128 下训练。” 显示 Lumiere AI 模型组件的框图,由 Google 提供。 放大/ Google 提供的显示 Lumiere AI 模型组件的框图。 人工智能生成的视频仍处于原始状态,但其质量在过去两年中不断提高。2022 年 10 月,我们报道了 Google 第一个公开发布的图像合成模型 Image Video。它可以以每秒 24 帧的速度从书面消息生成 1280×768 的短视频剪辑,但结果并不总是一致。在此之前,Meta推出了其AI视频生成器Make-A-Video。去年 6 月,Runway 的 Gen2 视频合成模型能够根据短信创建两秒的视频剪辑,推动了超现实模仿广告的创作。11 月,我们介绍了稳定视频扩散,它可以从静止图像生成短片。 人工智能公司经常用可爱的动物来演示视频生成器,因为目前很难生成连贯的、不变形的人类,特别是因为我们作为人类(你是人类,对吧?),是注意到人体任何缺陷或它们如何变化的专家。移动。看看人工智能生成的威尔·史密斯吃意大利面就知道了。 从谷歌的例子来看(我们自己没有使用过),Lumiere 的表现似乎优于其他人工智能视频生成模型。但由于谷歌倾向于对其人工智能研究模型保密,我们不确定公众何时(如果有的话)有机会亲自尝试。 一如既往,每当我们看到文本到视频的合成模型变得更加强大时,我们都会情不自禁地思考对我们的互联网社会的未来影响,这个社会的 电话号码数据库 重点是共享媒体工件,以及“真实模型”视频通常代表摄像机捕获的真实情况中的真实对象。未来的视频合成工具比 Lumiere 更强大,将度赝品变得非常容易。 为此,在卢米埃尔论文的“社会影响”部分,研究人员写道:“我们这项工作的主要目标是让新手用户能够以创造性和灵活的方式生成视觉内容。[原文如此]但是,使用我们的技术创建虚假或有害内容时存在滥用风险,我们认为开发和应用工具来检测偏见和恶意用例以确保安全和公平使用至关重要。”周二,谷歌发布了 Lumiere,这是一款人工智能视频生成器,在随附的预印本中将其称为“用于生成真实视频的时空扩散模型”。 但我们不要自欺欺人了:他在制作滑旱冰、开车或弹钢琴等荒谬场景中可爱动物的视频方面做得非常出色。当然,它可以做更多的事情,但它可能是有史以来最先进的文本到动物的人工智能视频生成器。 据谷歌称,Lumiere 使用一种独特的架构一次性生成视频的整个持续时间。或者,正如该公司所说,“我们引入了时空 U-Net 架构,可以通过模型中的一次传递一次性输出视频的整个时间持续时间。“这与合成远程数据的现有视频模型形成鲜明对比。” 关键帧之后是时间超分辨率,这种方法本质上使得全局时间一致性难以实现。” 简单来说,谷歌的技术旨在同时处理空间(事物在视频中的位置)和时间(事物在视频中如何移动和变化)的方面。因此,您可以通过一个无缝过程从头到尾创建整个视频,而不是通过将许多小部分或框架组合在一起来制作视频。 谷歌发布的文章“Lumiere:视频生成的时空扩散模型”随附的官方宣传视频。 Lumiere 还可以执行许多派对技巧,谷歌演示页面上的示例对此进行了很好的描述。
|
|