Hello~o,朋友们~
欢迎回到AI趣闻屋。
最近AI孙燕姿翻唱“杀疯了”!
就有粉丝私信趣闻屋:AI翻唱的原理是个啥?
好问题~ 安排![机智]
趣闻屋各种社区逛了一圈,寻到个AI翻唱界的技术大佬,还有个整合包。
贼牛批!(大佬是哪个?抱歉,大佬禁止他人在公共平台宣传)
那就默默地享用其技术成果吧,哈哈~[小鼓掌]
下载安装后,趣闻屋做了个Ladygaga翻唱《少年》片段,大家听听看像不像:
怎样?[机智]
趣闻屋不懂音乐,也不懂Ladygaga,模型是在开源网址上别人训练好的。
话不多说,进入正题
分享AI翻唱的制作流程
准备工作准备5个工具,1个可选:
1. so-vits-svc
地址请 Github 搜 so-vits-svc 。
目前项目已经停止维护。但很多大佬创建它的分支并进行升级,依旧值得信赖。
so-vits-svc 的作用是提取音频语音特征,保存音调和语调,实现音色复刻,从而实现歌曲翻唱。
2.UVR5
UVR5 是一个分离歌曲人声和伴奏的工具。
地址:
https://github.com/Anjok07/ultimatevocalremovergui
因为AI语音克隆需要清晰的纯人声,不能存在伴奏、混音等背景音,所以这款分离工具就很必要。
3.Audio Slicer
地址:
https://github.com/flutydeer/audio-slicer
音频切片工具,是为训练语音模型而准备的。
因为歌曲人声和伴奏分离后,人声的分段里会存在无声的片段,不处理的话会增加训练时长。
4.Adobe Audition 或者其他音频合成软件
人声复刻完成后,需要跟之前分离的伴奏再次合并,才能成为一首完整的歌曲。
5.(可选) SadTalker
地址:
https://github.com/OpenTalker/SadTalker
SadTalker 是一款人声口型生成工具,将图片根据音频生成合适的口型视频,模拟人说话。
整合包Github 搜索 so-vits-svc4.0-tts-package 即可找到。
为啥不放链接?
请参考文章开头~
安装趣闻屋用的大佬整合包
下载下来后,把【新版整合包】的文件名改成英文,请随意~
解压它:
运行 【启动webui.bat】:
就是这个界面了:
全中文解释,一看便懂。
模型下载和存放目录下载地址:
https://huggingface.co/models?search=so-vits-svc-4.0
随便选一个自己喜欢的:
然后选择【Files and versions】标签,选择Ladygaga文件夹:
文件夹里至少会有两个文件,G_开头的文件和config文件,然后点击右边的下载按钮进行下载
注意:两个文件都要下载!
pth模型存放目录
主目录下...\logs\44k目录:
config配置文件存放目录
主目录下...\configs目录:
OK!
重启weiui!
UVR5分离音乐准备好一段歌曲。
安装好UVR5后打开:
选择歌曲进行分离,得到 Instrumental 和 Vocals 字段的两个文件:
Instrumental 是伴奏,Vocals 是人声。
使用打开webui:
在模型选择里选择刚才下载的模型,配置文件里选择刚才下载的配置文件,点击【加载模型】:
大概10秒左右,显示模型加载成功。
把 Vocals 上传到webui:
参数设定里,暂只需要考虑【变调】,其他的默认即可。
变调:男声转女声,或者女声转男声,需要调整。如果音色相近,则不需要调整,视情况而定。值越低,声音越低沉
点击【音频转换】:
完成后会提示:Success
测试好后,点击右边的三个点,选择下载即可:
完成!
训练Audio Slicer 解压后找到 【slicer-gui.exe】:
双击打开:
训练的资源,需要2-3个小时的音频总时长,越多越好,最好能覆盖整个音域的声音。
切片出来的声音:
放到主目录的 dataset_raw 文件夹下,可以有多个角色:
打开webui:
依次选择即可,训练时间很长。
有大佬说,2060显卡,训练2个小时的音频用了24小时。
同学们可以去租个GPU来耍,这样不会心疼自己的显卡~[灵光一闪]
最后AI语音克隆这个圈子。
趣闻屋在找资料的过程中,看到最多的,是法律法规展示和免责声明。
趣闻屋也在这里表示:技术是把双刃剑,请大家不要拿去做有违法律的事情。
分享只为学习。
感谢小伙伴们的阅读,喜欢点赞、关注。
古德拜!让我们下期见~
电梯:
AI绘画软件安装教程
AI绘画,文生图详解
AI绘画,图生图详解
AI绘画,SD精美模型推荐和提升出图质量技巧
,