Stability AI 是一家专注于开源 AI 模型的创业公司,其旗下的 Stable Diffusion 是如今最好的图片生成AI之一(另一个是midjourney)。
获取方式在文末⬇
最近,Stability AI 又推出了 Stable Audio,这是一款用于 AI 制作的音频生成工具,它可以让用户通过简单的 Web 界面使用 AI 技术生成原创音乐和音效。
Stable Audio 的原理是什么呢?
它是基于一种名为潜在扩散模型(latent diffusion model)的深度学习技术,这种技术可以将文本输入转化为音频输出,同时保持高质量和低延迟。
潜在扩散模型的核心思想是将音频信号从一个高维空间(例如 44.1 kHz 的采样率)映射到一个低维空间(例如 64 x 64 的潜在空间),然后通过一个随机过程逐步恢复原始信号,同时加入文本信息作为条件。
这样,就可以实现从文本到音频的生成,而不需要大量的数据和计算资源。
Stable Audio 的优势是什么呢?
首先,它可以生成多种类型和风格的音频内容,包括音乐、语音、环境声、特效等。用户只需要输入一些描述性的文字,就可以得到相应的音频输出。例如,用户可以输入“快乐的钢琴曲”、“女性说英语”、“下雨声”、“爆炸声”等等。
其次,它可以实现实时的音频生成,无需等待长时间的渲染过程。Stability AI 宣称,Stable Audio 模型可以在一秒内渲染出 95 秒的立体声音频,并且只需要一个 NVIDIA A100 GPU。
第三,它是一个开源的项目,任何人都可以免费使用和修改。Stability AI 希望通过开源的方式促进 AI 领域的创新和发展,并让更多人享受到 AI 技术带来的便利和乐趣。