Meta预览全新生成式AI工具：文字指令驱动视频与图像创作

近日，Meta公司预览了两项全新的生成式人工智能项目，它们将最终赋能Facebook和Instagram用户，仅通过文字指令即可生成视频，并支持在流程中对图像进行定制化编辑。这些工具预计将带来一系列有价值的应用场景。

这两个项目均基于Meta的“Emu”人工智能研究项目，该项目致力于探索利用生成式AI指令进行视觉内容创作的新方法。

首个工具名为“Emu Video”，它允许用户基于文本提示创建短视频片段。这个新的文生视频模型利用了Meta的Emu图像生成模型，能够响应纯文本、纯图像或图文结合的输入，以生成高质量视频。

Meta解释道：“这是一个用于视频生成任务的统一架构，可以响应多种输入：仅文本、仅图像，以及文本和图像结合。我们将过程分为两步：首先，根据文本提示生成图像；然后，根据文本和生成的图像共同生成视频。这种‘因子分解’或分步的视频生成方法使我们能够高效地训练视频生成模型。”

这意味着，品牌方将能够基于产品照片和文字描述来创建视频片段，从而开启一系列全新的创意可能性。Emu Video能够生成512×512分辨率、时长为4秒、每秒16帧的视频，其效果相比Meta去年预览的文生视频流程有了显著提升。

在人工评估中，新模型在生成质量上相比之前的工作获得了96%参与者的偏爱，在忠实于文本提示方面获得了85%的偏爱。此外，同一模型还能根据文本提示“动画化”用户提供的图像，其表现再次大幅超越了现有技术水平。

值得注意的是，每个视频片段的左下角都有一个微小的水印，这是Meta新的“AI生成”标签。Meta正在开发一系列工具来标识AI生成的内容，包括在合成内容中嵌入数字水印。虽然许多水印仍可被编辑去除，但在视频片段中操作将更为困难。

Meta推出的第二个新工具是“Emu Edit”，它将使用户能够根据指令对视觉内容进行定制化、精细化的编辑。

这个新模型能够通过文本指令进行自由形式的编辑。Emu Edit会精确遵循指令，并确保只编辑输入图像中指定的元素，而与指令无关的区域则保持不变。

该项目最有趣的一点在于，它基于对话式指令工作。用户无需手动标出想要编辑的图像部分（例如饮料杯），只需要求系统编辑该元素，系统便能理解你所指的视觉部分。这对于编辑AI生成的视觉内容，以及根据确切需求创建更多定制化变体，可能是一个巨大的帮助。

这两个项目的潜力是巨大的，它们可能为内容创作者和品牌方提供大量以全新方式运用生成式AI的可能性。Meta尚未透露这些新工具何时会在其应用程序中上线，但两者似乎都即将到来，并将以多种方式开启新的创意机遇。

推荐文章