Stable Audio

2年前发布 4,898 0 4

Stability AI 推出的Stable Audio,这是一款用于 AI 制作的音频生成工具

收录时间：

2024-03-10

Stable Audio

Stability AI 是一家专注于开源 AI 模型的创业公司，其旗下的 Stable Diffusion 是如今最好的图片生成AI之一（另一个是midjourney）。
获取方式在文末⬇

最近，Stability AI 又推出了 Stable Audio，这是一款用于 AI 制作的音频生成工具，它可以让用户通过简单的 Web 界面使用 AI 技术生成原创音乐和音效。

Stable Audio 的原理是什么呢？
它是基于一种名为潜在扩散模型（latent diffusion model）的深度学习技术，这种技术可以将文本输入转化为音频输出，同时保持高质量和低延迟。

潜在扩散模型的核心思想是将音频信号从一个高维空间（例如 44.1 kHz 的采样率）映射到一个低维空间（例如 64 x 64 的潜在空间），然后通过一个随机过程逐步恢复原始信号，同时加入文本信息作为条件。

这样，就可以实现从文本到音频的生成，而不需要大量的数据和计算资源。

Stable Audio 的优势是什么呢？
首先，它可以生成多种类型和风格的音频内容，包括音乐、语音、环境声、特效等。用户只需要输入一些描述性的文字，就可以得到相应的音频输出。例如，用户可以输入“快乐的钢琴曲”、“女性说英语”、“下雨声”、“爆炸声”等等。

其次，它可以实现实时的音频生成，无需等待长时间的渲染过程。Stability AI 宣称，Stable Audio 模型可以在一秒内渲染出 95 秒的立体声音频，并且只需要一个 NVIDIA A100 GPU。

第三，它是一个开源的项目，任何人都可以免费使用和修改。Stability AI 希望通过开源的方式促进 AI 领域的创新和发展，并让更多人享受到 AI 技术带来的便利和乐趣。

暂无评论

暂无评论...