您好,欢迎来到12图资源库!分享精神,快乐你我!我们只是素材的搬运工!!
  • 首 页
  • 当前位置:首页 > 开发 > WEB开发 >
    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐
    时间:2021-08-31 12:21 来源:网络整理 作者:网络 浏览:收藏 挑错 推荐 打印

    大家应该都知道声响克隆技术,深刻的来说就是借助深度学习算法,可以完全模拟某团体的声响,而且由机器分解的语音连心情都可以完美表达出来,基本可以以假乱真,只需不见面,你基本就察觉不出来向你收回声响的知识一个机器。

    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐

    语音克隆最大的创新之一是增加创立语音所需的原始数据量。过去,该系统需求数十甚至数百小时的音频。但是,明天猿妹要和大家分享的这个工具5秒钟就可以克隆成功,这个工具名叫——MockingBird。

    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐

    MockingBird曾经登上Github热榜,播种3.5K的Star,累贾掷唰 303(Github地址:https://github.com/babysor/MockingBird)

    MockingBird具有如下特性:

    支持普通话并运用多种中文数据集停止测试

    适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060

    支持 Windows + Linux

    仅运用新训练的分解器(synthesizer)就有良好效果,复用预训练的编码器/声码器

    MockingBird如何运用

    MockingBird的安装要求如下:

    首先,MockingBird需求Python 3.7 或更高版本

    安装 PyTorch

    安装 ffmpeg。

    运转pip install -r requirements.txt 来安装剩余的必要包。

    安装 webrtcvad 用 pip install webrtcvad-wheels。

    接着,你需求运用数据集训练分解器:

    下载 数据集并解压:确保您可以拜访 train 文件夹中的一切音频文件(如.wav)

    运用音频和梅尔频谱图停止预处置:python synthesizer_preprocess_audio.py 可以传入参数 --dataset {dataset} 支持 adatatang_200zh, magicdata, aishell3

    预处置嵌入:python synthesizer_preprocess_embeds.py /SV2TTS/synthesizer

    训练分解器:python synthesizer_train.py mandarin /SV2TTS/synthesizer

    当你在训练文件夹 synthesizer/saved_models/ 中看到留意线显示和损失满足您的需求时,请转到下一步。

    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐

    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐

    运用预先训练好的分解器,假设没有设备或许不想渐渐调试,可以运用网友贡献的模型。

    五秒内克隆你的声响,并生成任何内容,这个开源工具细思极恐

    训练声码器

    预处置数据: python vocoder_preprocess.py

    训练声码器: python vocoder_train.py mandarin

    启开工具箱

    然后你可以尝试运用工具箱:python demo_toolbox.py -d<datasets_root>

    (责任编辑:admin)