What's Changed
- 新增14个模型
- 拆分webUI.py至webUI文件夹,细分函数和UI代码
- 增加全局logger,实时保存日志文件(保存的级别为DEBUG)至log文件夹(以“日期-时间.log”格式存储,默认上限为100个日志文件,超过会自动删除)
- models文件夹已重命名为modules,并重新整理项目文件夹(新增inference和,train,utils,scripts等文件夹)
- 重写WebUI整合包加密
- 将MSST推理和VR推理改写,并且现在推理支持自定义选择需要导出什么音轨(可多选)
- 开始分离按钮从两个修改为一个,会跟随你选择是“输入音频”还是“输入文件夹”自动变化
- 去除vr推理的normalization选项,并且修改输出的wav格式质量为44.1khz,32bit
- 预设流程大更改:
- 预设将单独保存至presets文件夹下,一个预设一个json。备份的预设保存至presets_backup
- 制作预设流程变化至如下:支持选择那个音轨作为下一模型的输入,以及哪些音轨直接保存至输出目录
- 新增“撤销上一步选项”
- 管理预设中删除手动触发备份的选项,但每次删除预设时,都会自动进行备份删除的预设
- 修复了批量音频输入处理时,会出现尝试删除TEMP_PATH的BUG(其实不影响使用)
- 修复安装完成软件后,直接使用预设流程(从未使用过msst分离而直接使用预设流程)时,无法正确使用gpu_id的bug
- 新增“extra_output_dir”选项,类行为bool,当此选项勾选后,预设中间过程中产生的次级输出将会保存至输出目录下的“extra_output”文件夹中,否则,产生的次级输出将直接保存至输出文件夹,无另外的嵌套文件夹
- 新增预设版本,在预设json中会标记一个预设版本,不满足版本的预设无法使用。也就是说,1.6老版本的预设在1.7新版本全部没用,需要重新制作!
- 小工具"音频格式转换"新增更多输出格式选项
- Ensenble模式中,修复了音频文件名称带有空格导致输出时报错的BUG
- MSST训练页面新增"选择输出的评估指标"(多选)和"选择调度器使用的评估指标"(单选)可选参数如下
- 验证页面也新增了“选择输出的评估指标”(多选),选项和上面相同
- 重新排版训练页面的UI和验证页面的UI
- 去除vr推理界面的“debug模式”,在设置中新增全局调试模式: 向开发者反馈问题时请开启。(该选项支持热切换)
- 设置页面新增“选择webUI主题”,目前有三种主题(蓝色,粉色,蓝色且带有Miku图片)。主题文件存放在tools/themes文件夹内,可以自制json格式的主题进行加载哦!
- 启动器新增取消快速编辑的模式以防止不必要的影响。由此带来的影响是每次启动都会强制管理员运行(弹一个管理员运行确认窗口)。如果不想管理员启动,或者说启动exe被杀毒软件删了,1.7版本起,我们在软件根目录提供了一个go-webui.bat,其实现的功能和启动exe一模一样,可以直接用这个bat启动
- 由于WebUI组件已封装成.pyd,故去除了启动exe程序的VMProtect保护,现在启动速度更快了
- API相关:重写msst_cli和vr_cli,如果需要使用,可以在scripts文件夹内找到,具体的使用介绍和方法请阅读docs\inference.md文档。输出目录可以是str或dict。输入可以是音频或Numpy数组。
- 修改webui_config.json中的部分保存值。现在整个webui中的输入/输出文件夹将共用同一个值。意思是,当你在某处选择好输出文件夹后,第二次启动时,所有的输出文件夹都会默认更改为你上一次的输出文件夹
- 修改webui_config.json中的部分保存值的类型
- 优化项目Github页面的README说明
- 修改MSST WebUI的icon
- 修复了仅读取.ckpt, .pt文件来判断模型,会导致如果错误的将模型放置到类别文件夹中(例如single_stem_models放到了vocal_models文件夹里)会导致虽然可以读取,但是无法加载使用模型的bug
- 修改模型下载链接至同一个仓库而非多个仓库,便于后续维护
- 云端webui默认所有模型可用,缺什么下载什么。同时输入和输出目录(input和results)用户不可更改,防止一些小白乱改导致无法正确运行
- 更新整合包内的ffmpeg版本至2024.9.30版本
- 修复了因数值类型错误导致预设流程中UVR模型无法使用的bug
- 新增GUI模型管理器:
- 由@阿狸不吃隼舞 使用PySide6开发模型管理器,效果如下(在windows11系统下有云母,透明效果):
- WebUI的安装模型页面增加了“一键启动模型下载管理器”的按钮
- exe启动方式也将新增至项目根目录内
- 修复在Linux下会出现
RuntimeError: Cannot re-initialize CUDA in forked subprocess
的问题 - 更新webUI中安装模型页面。现在,选择模型之后,会显示该模型的基本信息,是否已经安装,以及sha256校验
- 自动下载模型后,添加sha256校验。
- 修复了使用小工具“SOME人声转MIDI”时,出现包导入错误的问题。
- 修复了1.7 preview1-3版本中apollo模型无法使用的问题
- roformer模型增加use_reentrant=False,可以略微降低显存占用
- 训练/验证增加多卡验证以加速,bleedless和fullness支持GPU。增加自动重采样以适应模型支持的采样率。
-设置页面增加“修改输出音频格式”,可以自定义不同输出格式的音质了!此页面支持用户自定义修改MSST/VR推理后输出音频的质量。输出音频的采样率, 声道数与模型支持的参数有关, 无法更改。修改完成后点击保存设置即可生效。 - 将use_tts移动至模型设置里,并且新增chunk_size参数,所有参数都是越小越快,但数值不能乱填。
- 增加对单声道模型推理的支持
- 将部分模型的默认batchsize值设置为1,overlap值设置为4,以防止某些低端显卡爆显存
- 整合云端webui启动到webui.py中,setup部分独立至webui/setup.py中
- 新增合奏模式页面,允许用户从原始音频合奏和从分离后的音频合奏
- 从原始音频合奏需要上传至少一个音频文件, 然后选择多个模型先进行分离处理, 然后将这些处理结果根据选择的合奏模式进行合奏。从分离结果合奏需要上传至少两个音频文件, 这些音频文件是使用不同的模型分离同一段音频的结果。因此, 上传的所有音频长度应该相同。
- 新增scripts文件夹,内含6个cli命令行脚本
- 完善了docs及一些文档
- 其他一些更新
Notes
在安装完成后,软件根目录内一共有3个exe文件及一个bat文件:
webui.exe
: webui启动程序(需要管理员权限),也是桌面快捷方式指向的启动文件。更新完成后的第一次务必使用此exe以管理员方式运行,进行初始化webui_no_admin.exe
: webui启动程序(无需管理员权限),如果担心权限过高,可以使用此exe,无需管理员权限运行webui。但如果运行过程中出现权限不足的问题,还是需要使用上面的带管理员权限的exeDownloadManager.exe
: GUI页面的模型管理器,提供下载,删除,管理模型。可以直接双击exe启动,也可以从webui的安装模型页面启动。注意:更新完新版本后,必须先启动一遍webui进行更新,才能直接双击此exe打开go-webui.bat
: 如果你的两个webui启动exe被windows defender或其他杀毒软件误删了,你可以使用此bat启动webui