图像生成
、
视频生成
、整合
语音合成
的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。
本文的文章结构。
图像生成
图像生成
技术是指使用 AI 模型生成图像的技术,这些 AI 模型的训练使用了静态图像。
将生成的图像用作素材
短片《Planets and Robots》中使用了数字剪贴画来将生成的 AI 图像动画化,其中的配音也是使用 LLM 基于脚本生成的。
-
现有动画师就很容易上手使用
-
可用于生成背景图
-
生成结果没有多少「新意」
-
需要动画师协调处理素材和动画
-
Stable Diffusion(SD,运行在本地计算机上)或这些在线应用:Craiyon
-
Invokeai (使用了 SD)
-
Enfugue (使用了 SD)
-
SkyBox AI—— 能生成适用于 VR 的 360 度场景图
-
在 Blender 中使用的 ComfyUI 节点
-
Krita 上的 Stable Diffusion
-
Krita 上的 ComfyUI—— 界面简单易用,对艺术家友好
-
MidJourney
-
Runway
-
DALL・E 2
-
Adobe 的 FireFly
逐帧生成图像
参数
来配置它们,还可以将它们运行在本地计算机上。相较之下,MidJourney 工具的模型没有公开,而且主要是为
图像生成
设计的,因此无法用来生成逐帧动画。
动画也可能使用 Stable WarpFusion 来制作,这其中涉及到图像转图像的工作流程,通过一些扭变(置换)将底层的视频输入变成动画。视频作者:Sagans。
参数
调配来生成动画:
-
参数
插值
(变形)
参数
插值
,以得到过渡动画。这里的
参数
可能包括任何与模型相关的设定,比如文本 prompt 本身或底层的种子(隐空间游走)。
prompt 编辑法,即通过逐渐改变
权重
来创建动画过渡。这里使用了 Depth ControlNet 来保持手部整体形状的一致性。
-
图像到图像(I2I)反馈循环
参数
和种子变化时也可以生成看起来相似的帧序列。这个过程通常由 Deforum 中的「去噪强度」或「强度
调度
」来控制。起始帧可以是已有的图片。
调度
器)。
使用一张起始图像,然后使用一个稍有不同的 prompt,使其逐帧变化成其它形态。
-
2D 或 3D 变换(基于 I2I 循环)
想必你已经看过这种无限放大的动画。它的视觉效果如此之棒,是因为其使用了 SD 来持续构建新细节。
-
实验性、运动合成、混合等技术
图像修复
和变形技术搭配使用、采用多个处理步骤或甚至捕获模型训练过程的快照等先进技术。举个例子,Deforum 有很多可供用户调控的地方。
使用 SD-CN Animation 制作,其使用了一种在生成帧之间产生幻觉运动的独特方法。起始图像只是作为起点,没有其它用途。
-
混合(风格化)—— 混合视频源或 / 和按条件处理(ControlNets)
Deforum 搭配 ControlNet 条件化处理的混合模式,左图是原视频。遮掩和背景模糊是分开执行的,与这项技术无关。
-
光流变形(使用视频输入在 I2I 循环上执行)
Deforum 的混合模式支持这种技术搭配各种设置使用。为了得到闪动更少的结果,也会增加 cadence,使得变形的效果更好。遮掩和背景模糊是分开执行的,与这项技术无关。
-
3D 衍变
有一个广泛应用的工具也使用了该技术,其可简化并自动化用 Blender 生成直接适用于 ControlNet 的角色图像的过程。在这个示例中,ControlNet 使用手部骨架来生成 openpose、深度和法线贴图图像,最终得到最右侧的 SD 结果。(openpose 最终被舍弃了,因为事实证明它不适用于只有手部的情况。)
参数
可以调整动画的生成结果(就像模块化的音频制作)。它要么可以通过关键帧进行「
调度
」并使用 Parseq 这样的工具绘制图形,要么可以与音频和音乐关联,得到许多随音频变化的动画。只需如此,你就能使用 Stable Diffusion 帮你跳舞了。
-
全新且不断演变的美学风格,这是这种媒体形式特有的。
-
在概念上与传统的动画技术有共同点。
-
最容易定制化、最实用且易于指导。
-
模块化、分层的方法。
-
往往会有闪动问题,有时候会显得很混乱。
-
技术方面要考虑的东西很多,难以平衡考虑,要想成为高手必须经历陡峭的
学习曲线
。
-
如果没有性能卓越的本地硬件(英伟达 GPU),就会很不方便。
-
用于
参数
插值
动画(travel)的小脚本:步骤(https://github.com/vladmandic/sd-extension-steps-animation) 、prompt(https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel )、种子(https://github.com/yownas/seed_travel)。
-
Deforum—— 能够满足各种动画 SD 需求的最佳工房,整合了上面大多数技术。
-
Parseq—— 用于 Deforum 的常用视觉
参数
排序工具。
-
Deforum timeline helper—— 另一款
参数
可视化和
调度
工具。
-
Deforumation—— 用于实时控制 Deforum
参数
的 GUI,支持反应性调整和控制。
-
TemporalKit—— 采用了 EBsynth 的一些原则,可与 SD 搭配使用实现一致的视频风格化。
-
SD-CN Animation—— 这多少还是个实验性工具,支持一些混合风格化工作流程,也支持有趣的光流运动合成(这会导致运动抖动)。
-
TemporalNet——ControlNet 模型可以用在 Deforum 等其它工作流程中,目标是提升时间一致性。Python 笔记本(需要在 Google Colab 或
Jupyter
上运行)。
-
Stable WarpFusion —— 实验性的代码工具包,目标是执行高级的视频风格化和动画。与 Deforum 有很多一样的功能。
-
用于 Blender 的 Dream Textures
-
Stabiliy AI 的 Blender 插件
-
看起来像用于 Blender 的 Openpose 的角色骨架 —— 可在 Blender 之外使用 ControlNet
-
用于虚幻引擎 5 的 Unreal Diffusion
-
用于 After Effects 的 After-Diffusion(目前还在开发中)
-
用于 TouchDesigner 的 A1111 或 ComfyUI API—— 如果你知道如何操作,那么这可用于执行动画等各种任务
-
Stability AI 的动画 API
-
Kaiber 的 Flipbook 模式 —— 按照描述,基于 Deforum 代码
-
用于 After Effects 的 Diffusae
视频生成
技术
视频生成
AI 模型,另外可以在
神经网络
层面上使用时间压缩来增强。
视频生成
模型
图像生成
上取得的进展并不会同等比例地在
视频生成
方面重现,因为
视频生成
的难度要大得多。
Paul Trillo 使用 Runway 的 Gen-2,仅通过图像和文本 prompt 让 AI 生成的视频。
一步到位的工具(文本转视频):使用文本 prompt 生成全新的视频片段
图像生成
那样),就可能将其用于直播表演或生成任何超现实和风格化的内容。但从实践角度看,为了训练视频模型,收集多样化和足够大的数据集要难得多,因此仅靠文本来设定生成条件,很难用这些模型实现利基(niche)的美学风格。
Kyle Wiggers 做的动画生成测试,使用了 Runway 的 Gen-2
变形:使用文本 prompt,再根据已有的图像或视频进行进一步的条件化处理
-
图像到
视频生成
视频生成
工具都能让你以图像为条件生成视频。其做法可以是完全从你指定的图像开始生成,也可以将指定图像用作语义信息、构图和颜色的粗略参考。
这里生成的每一段视频都是使用一张唱片封面作为起始图像,作者:Stable Reel
-
视频到
视频生成
图像生成
模型中的图像到图像过程,也有可能将输入视频的信息嵌入到视频模型中,再加上文本 prompt,让其生成(去噪)输出。
图像生成
过程一样,这个过程受去噪强度控制。
如果运气好并且有合适的 prompt,你也可以输入视频来「启发」模型重新想象源视频中的运动,并以完全不同的形式将其呈现出来。使用 webui txt2vid 中的 Zeroscope 完成,使用了 vid2vid 模式。
-
这类技术具有最大的可能性,并且会随时间不断改进。
-
在专业动画知识方面没有进入门槛。
-
相比于逐帧的技术,这类技术的结果往往更加平滑,通常也更为一致。
-
对于「变形」工作流程而言,这可能是比逐帧方法更简单直接的方法。
-
得到的结果通常显得离奇怪异,一看就是 AI 生成的,而且这种情况比静态图像严重多了。在涉及人的仿真实影像方面尤其明显。
-
计算成本高。相比于图像 AI,更难以在本地硬件上运行。
-
存在视频时长短和上下文短等限制(目前而言)。
-
Stable Video (SVD)—— 来自 StabilityAI 的开源视频扩散模型。目前很多托管式应用和工具都在快速部署实现该模型。
-
SVD ComfyUI 实现
-
SVD 时间 ControlNet
-
MotionCtrl—— 经过增强,允许在各种视频模型中控制目标运动和摄像机轨迹。
-
Emu Video——Meta 的
视频生成
模型的预览演示。
-
A1111 webui 的文本转视频插件,可搭配以下模型使用(如果你的硬件足够):
-
VideoCrafter
-
Zeroscope
-
用于 Blender 的 Pallaidium—— 一个多功能工具包,包含跨图像、视频甚至音频领域的生成功能。
-
此外,你还能在 Hugging face space 上找到一些免费演示。
-
Runway 的 Gen2
-
Kaiber 的 Motion 模式
-
Pika labs(受限 beta 版)
使用运动压缩增强的图像模型
-
可以受益于现有图像扩散模型的进展。
-
可以通过去噪或使用 ControlNet 用视频来进行条件化处理。
-
处理抽象、流运动效果很好。
-
难以为人物或不常见的物体产生复杂、连贯一致的运动,反而常出现变形问题。
-
和视频原生模型一样,计算成本高。相比于图像 AI,更难以在本地硬件上运行。
-
受限于较短的上下文窗口(目前而言),但也有一些人正在实验解决方案。
-
用于 AnimateDiff 的 A1111 webui 插件
-
ComfyUI 中 AnimateDiff 实现
-
VisionCrafter—— 一个用于 AnimateDiff 实现等项目的 GUI 工具
-
用于 SD XL:Hotshot-XL
-
多功能实现:Enfugue
-
目前好像没有
整合
语音合成
的人脸动画
语音合成
工具的组合方法。
图像生成
AI 制作的,但也可以使用任何带有人脸的图像。语音是根据
文本生成
的,并根据所选任务的音色进行了条件化处理。然后再使用另一个工具(或工具包中的某个模型)合成与音频唇形同步的人脸动画 —— 通常只生成图像中脸部和头部区域的运动。使用预训练的数字化身也能让身体动起来。
在发布热门的 Belenciaga 视频之前,作者 demonflyingfox 就已经发布了一篇分步教程:https://youtu.be/rDp_8lPUbWY?si=BWNKe7-KTJpCrNjF
-
可用于轻松制作迷因动图。
-
…… 呃,有喜剧效果?
-
通常看起来不自然。我还想不出这能有什么实际用途。
-
过于依赖付费应用提供的闭源人脸动画工具。
-
即使你使用自己的录像来训练数字化身,得到的结果也过于呆板,动态效果很差。
-
ElevenLabs—— 有使用次数限制,但次数似乎每个月都会刷新。
-
A1111 WebUI 的 Wav2Lip 插件 —— 用于生成唇形同步动画的工具。看起来仅限于嘴部区域。
语音合成
):
-
D-ID
-
Heygen
-
Synesthesia
生成三维的人物运动
Nikita 的充满天才巧思的元
人工智能
电影预告片,其中将 AI 的运动学习过程展现成了一部滑稽幽默的有趣短片。
-
能整合进现有的 3D 动画制作流程中,可减少重复性任务,有望成为动画老手的好帮手。
-
能很好地处理物理效果和重量。
-
在未来的视频游戏中实现动态的人物动画?
-
似乎受限于人类形态的双足式人物。
-
还需要其它工具辅助。只是 3D 动画制作流程的一个组件。你需要知道接下来该做什么。
-
训练过程通常基于人类运动数据,这意味着到目前为止这些工具只能实现基于真实物理效果的运动,无法实现风格化或卡通中的运动机制。
-
Mootion
-
Omni Animation
-
Cascadeur—— 动画制作助理,可以根据最小化的输入创建平滑的、基于物理机制的动画和姿势。可控性高,可能会成为未来一个主力工具。
-
ComfyUI 中的 MDM、MotionDiffuse 和 ReMoDiffuse 实现。
-
免费工具的付费套餐会提供更多功能,使用限制也更少。
LLM 驱动的工具
语言模型
(LLM)在编程任务上表现出色,尤其是经过微调之后,那么我们就可以在制作动画的软件中让其编程和编写脚本。这就意味着按照常规工作流程制作动画时,能让 AI 从头到尾一直辅助。极端情况下,AI 能帮你完成一切工作,同时还能为后端流程分配适当的任务。
-
潜力 —— 最终突破创意工作者面临的任何技术障碍。
-
可用作创意软件的助理,消除繁琐重复的任务,帮你深度挖掘文档内容。
-
如果 AI 能帮你创造一切,那么成为创意工作者还有什么意义?
-
目前,LLM 只能运行在强大的远程计算机上,通常是按 token 数收费或采用订阅制。
-
Blender Chat Companion——(类似于 Blender Copilot)Blender 中的一个 ChatGPT 实现,专用于处理适当的任务。使用了 ChatGPT API,这需要付费。
-
Genmo—— 承诺会实现「创意通用智能」,采用了多步过程并且全都可以通过聊天界面控制。
-
Blender Copilot——(类似于 Blender Chat Companion)Blender 中的一个 ChatGPT 实现,专用于处理适当的任务。使用了 ChatGPT API,这需要付费。
聊天机器人
,这是由皮克斯最初创建的标准,用以统一和简化动画电影制作中的 3D 数据交换和并行化。目前没有更多相关消息了,但英伟达似乎很欢迎这项标准并在推动其成为各种 3D 内容的标准,而不只是电影。
原文链接:https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html#id_generative_video_models
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...