准备好踏入纯粹想象的世界吧,因为 Google Genie 已经到来,让您的梦想成为虚拟现实!
上周,OpenAI 以其先进的视频生成工具让我们所有人着迷, 索拉艾,现在谷歌突破性的人工智能模型将简单的图像转变为完全可玩的虚拟环境。
是的,您现在可以制作一个 整个 2D 平台游戏 只需轻轻一抖手腕(或至少轻触键盘)。
蒂姆·洛克塔舍尔,开放式团队负责人 谷歌深度思维,用以下文字宣布了 Google Genie on X 的诞生:
我真的很高兴能透露什么 @GoogleDeepMind的开放式结局团队已达 。 我们介绍精灵 ,一个专门根据互联网视频训练的基础世界模型,可以在给定图像提示的情况下生成无数种动作可控的 2D 世界。 pic.twitter.com/TnQ8uv81wc
— 蒂姆·罗克塔舍尔 (@_rockt) 2024 年 2 月 26 日
什么是谷歌精灵?
传统的游戏设计通常需要复杂的编码技能。 有了Google Genie,技术门槛就大大降低了。 人工智能处理将您的想法转化为可玩的虚拟环境的复杂过程,让您专注于创造的纯粹乐趣。
Google Genie 处于人工智能技术的最前沿,被归类为“基础世界模型”。
这意味着它已经接受过大量互联网视频数据集的训练,尤其是那些展示游戏玩法的视频。 通过这次培训,Genie 对环境如何运作以及玩家通常如何与环境互动有了深入的了解。
将 Google Genie 视为您的个人游戏开发助手。 您需要做的就是提供一个起点,这可以是:
- 一个 图像
- A 书面描述
- A 简单的手绘草图
然后,Google Genie 会接受您的输入并利用其创造力来构建一个独特的、完全可玩的虚拟空间。
这里真正的魔力在于 Google Genie 学会了创造 无需特定游戏说明的可控虚拟世界。 它分析视频以了解环境的基本规则以及玩家可以与之交互的内容。 值得注意的是,即使在全新的人工智能生成的世界中,这也可以实现一致的控制方案。
谷歌 DeepMind 的魔力
谷歌深度思维 它所做的几乎所有事情都让我们感到震惊,Google Genie 也不例外。
谷歌精灵的大脑是建立在一种特殊类型的变压器上的,称为 时空 (ST) 变压器。 与专为文本设计的常规 Transformer 不同,ST Transformer 专门针对理解视频进行了调整。 他们关注每个单独帧内发生的事情(空间注意力),以及随着时间的推移,多个帧之间的情况如何变化(时间注意力)。 这使得它们能够更好地处理运动图像中的复杂模式。
视频由大量像素组成,这对于模型来说可能需要处理大量像素。 精灵 使用视频分词器来压缩那些像素填充的帧 分解成更小、更容易处理的块,称为令牌。 可以把它想象成将整部电影翻译成一系列关键符号。 这种简化使得整个视频生成过程更加流畅和快速。
LAM 就像 Google Genie 中的侦探。 它观看视频并试图找出帧之间发生的未说出口的动作。 这很重要,因为如果您想控制生成的视频的播放方式,您需要了解驱动它的操作。 由于互联网上的视频没有动作标签,LAM 必须学会自己解决这些问题。
这 动力学模型 是 Google Genie 视频制作能力的核心。 它从 LAM 获取视频标记和计算出的动作,并使用它们来预测视频的下一帧应该是什么样子。 这就像有一个水晶球,可以根据到目前为止发生的事情以及您想要采取的行动向您展示电影中的下一步。
VQ-VAE 是一种帮助 Google Genie 组织信息的奇特技术。 这有点像为视频分词器和 LAM 提供一个特殊的密码本,将事物转换为更小、更易于管理的片段。 这使得学习和表示视频中的复杂模式更加高效。
以下是 Google Genie 工作流程的摘要:
- 潜在动作推断:
- 编码器:接收视频序列。 它生成与帧之间发生的动作相关的连续表示
- 解码器:该组件仅用于训练。 它使用先前的帧和编码器产生的潜在动作来预测实际的下一帧。 这有助于训练 LAM 生成有意义的动作表示
- VQ-VAE:预测的潜在动作被量化为一小组离散代码。 这确保了有限的动作词汇,使生成过程中的人类控制更容易
- 视频标记化:
- 基于 ST-Transformer 的视频分词器 (ST-ViViT):在标记化阶段合并空间和时间信息。 与仅空间标记器相比,这提高了视频生成质量
- 动力学建模:
- MaskGIT 变压器:Genie 使用 MaskGIT 架构的仅解码器变体
- 输入:在每一步,它都会接收之前的视频令牌和相应的潜在动作
- 输出:预测代表下一帧的标记
- 训练:使用交叉熵损失进行训练,将预测标记与视频中的真实标记对齐。 在训练时使用掩蔽以提高鲁棒性
- 推理:
- 初始化:用户提供一个初始图像帧,该图像被标记化
- 动作选择:用户从 LAM 阶段学到的离散词汇中选择所需的操作
- 预言:动态模型根据初始帧标记和所选动作生成下一帧的标记
- 解码:视频标记器的解码器将预测的标记转换回视频帧
- 自回归:重复该过程,新生成的帧和新的用户指定的动作成为下一个预测的输入
想了解更多吗? 这是 Google Genie 的研究论文。
如何使用谷歌精灵
尽管 Google Genie 尚未可供公众使用,您可以找到更多信息并 官方网站上精彩的演示。 请注意:这项技术有可能从根本上改变我们创建和体验游戏的方式!
构建游戏的未来
虽然仍处于早期阶段,但 Google Genie 展示了人工智能驱动的创造力的惊人力量。 它模糊了我们想象的世界和我们所玩的世界之间的界限,暗示着未来分享你的游戏就像分享照片一样简单。
然而,仍有一些挑战需要克服。 现在, Genie 擅长 2D 平台游戏,但扩展到复杂的 3D 世界仍然很困难。
此外,生成的游戏 有相对简单的控制; 未来的研究可能会集中在更精细的控制和复杂的机制上。
作为一个生成模型,无论好坏,Genie 都会令人惊讶——找到方法 引导生成过程朝着创作者的意图发展 是一个活跃的研究领域。
特色图片来源: 奥列格·加穆林斯基/Pixabay。