Stability AI推出Stable audio的文本到音频生成人工智能平台

IEEE电气电子工程师 2023-09-20 2006

描述

Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司，它推出了一个名为Stable audio的文本到音频生成人工智能平台。

Stable Audio使用扩散模型，与该公司更受欢迎的图像平台Stable diffusion的AI模型相同，但使用音频而非图像进行训练。用户可以使用它为任何项目生成歌曲或背景音频。

音频扩散模型倾向于生成固定长度的音频，这对音乐制作来说很糟糕，因为歌曲的长度可能不同。Stability AI的新平台允许用户发出不同长度的声音，要求公司对音乐进行训练，并在歌曲的开始和结束时间周围添加文本元数据。

同时，它可以实现实时的音频生成，无需等待长时间的渲染过程。Stability AI 宣称，Stable Audio 模型可以在一秒内渲染出 95 秒的立体声音频，并且只需要一个 NVIDIA A100 GPU。

并且，Stable Audio是一个开源的项目，任何人都可以免费使用和修改。Stability AI 希望通过开源的方式促进 AI 领域的创新和发展，并让更多人享受到 AI 技术带来的便利和乐趣。

该公司在一份声明中表示：“Stable Audio代表了Stability AI生成音频研究实验室Harmonai的尖端音频生成研究。我们会继续改进我们的模型架构、数据集和训练程序，以提高输出质量、可控性、推理速度和输出长度。”

文本到音频的生成并不是什么新鲜事，因为生成人工智能领域的其他大牌一直在玩弄这个概念。Meta于8月发布了AudioCraft，这是一套生成的人工智能模型，有助于根据提示创建听起来自然的ERM、声音和音乐。到目前为止，它只提供给研究人员和一些音频专业人士。谷歌的MusicLM也可以让人们产生声音，但只对研究人员开放。

审核编辑：彭菁

打开APP阅读更多精彩内容