AI算法5秒钟就能克隆你的声音

描述

今天,给大家介绍一个算法。

AI 算法 5 秒钟,就能克隆你的声音,你信吗?

听听这段音频,猜猜看是 AI 合成音,还是真人录音?

答案是:AI 合成。

这个人的原始声音在这里:

你给这个 AI 克隆声音的算法打几分?

录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音。

突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!

兄弟们,我做的对吗?

MockingBird这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是:

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下:

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)

synthesis 模块将文本转换成梅尔频谱(mel-spectrogram)

vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

具体的算法原理,大家可以先看论文:

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊,这个算法怎么玩。

项目地址:https://github.com/babysor/MockingBird

有深度学习基础的话,这个应该不难。

就是部署环境,分四步:

Anaconda 配置 Pytorch 开发环境

根据项目 requirements.txt 安装第三方库依赖

下载权重文件

下载训练集,这个几十G,有点大

具体的配置方法,直接看这里:

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后,就可以运行代码了。

有两种模式可以启动,Web 模式和工具箱模式。

在项目根目录运行:

python web.py

即可开启 Web ,打开地址 http://localhost:8080 就能操作了。

这个界面比较简陋,建议使用工具箱模式。

python demo_toolbox.py -d 《datasets_root》

datasets_root就是下载好的数据集的地址。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分