Stability AI是一家主要以人工智能生成的视觉效果而闻名的公司,它推出了一个名为Stable audio的文本到音频生成人工智能平台。
Stable Audio使用扩散模型,与该公司更受欢迎的图像平台Stable diffusion的AI模型相同,但使用音频而非图像进行训练。用户可以使用它为任何项目生成歌曲或背景音频。
音频扩散模型倾向于生成固定长度的音频,这对音乐制作来说很糟糕,因为歌曲的长度可能不同。Stability AI的新平台允许用户发出不同长度的声音,要求公司对音乐进行训练,并在歌曲的开始和结束时间周围添加文本元数据。
同时,它可以实现实时的音频生成,无需等待长时间的渲染过程。Stability AI 宣称,Stable Audio 模型可以在一秒内渲染出 95 秒的立体声音频,并且只需要一个 NVIDIA A100 GPU。
并且,Stable Audio是一个开源的项目,任何人都可以免费使用和修改。Stability AI 希望通过开源的方式促进 AI 领域的创新和发展,并让更多人享受到 AI 技术带来的便利和乐趣。
该公司在一份声明中表示:“Stable Audio代表了Stability AI生成音频研究实验室Harmonai的尖端音频生成研究。我们会继续改进我们的模型架构、数据集和训练程序,以提高输出质量、可控性、推理速度和输出长度。”
文本到音频的生成并不是什么新鲜事,因为生成人工智能领域的其他大牌一直在玩弄这个概念。Meta于8月发布了AudioCraft,这是一套生成的人工智能模型,有助于根据提示创建听起来自然的ERM、声音和音乐。到目前为止,它只提供给研究人员和一些音频专业人士。谷歌的MusicLM也可以让人们产生声音,但只对研究人员开放。
审核编辑:彭菁
全部0条评论
快来发表一下你的评论吧 !