我今年见过的最疯狂的人工智能发展是微软的 VASA-1 技术。该公司开发的人工智能模型可以将带有音频文件的单个人物图像转换为该人说话的动态视频。虽然 VASA-1 尚未作为商业产品提供,但演示令人惊叹。它可能永远不会,因为人们很容易滥用这种人工智能工具。
VASA-1 于 4 月中旬亮相。现在,差不多两个月后,谷歌 Deepmind 推出了一项类似的人工智能技术。它没有商业名称,谷歌将其描述为视频转音频 (V2A) 技术。这也意味着它不是一款你可以亲自尝试的商业人工智能产品。
V2A 可让您通过单个文本提示生成音频以匹配无声视频片段。Google 的演示令人惊叹。
正如谷歌在博客中解释的那样,视频转音频工具“使同步视听生成成为可能”。谷歌提供了大量示例来展示 V2A 技术。下面列出了其中一些示例,并附上了谷歌用于生成视频音频的提示。
音频提示:电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声
谷歌表示:“V2A 将视频像素与自然语言文本提示相结合,为屏幕上的操作生成丰富的音景。”并指出 V2A 可以与 Veo 配对。这是谷歌在 I/O 2024 上推出的视频生成模型。Veo 是 OpenAI 的 Sora 和其他类似产品的直接竞争对手。