基于 LongCat-AudioDiT 的 Web UI 增强版,提供开箱即用的可视化界面,支持文本转语音、零样本语音克隆、音频/视频切分和 Whisper 语音识别。
| 功能 | 原版 | Web 增强版 |
|---|---|---|
| Web 可视化界面 | 无 | FastAPI + 现代深色 UI |
| 长文本批量生成 | 无 | 自动切分长文本,逐句生成,可合并导出 |
| 音频/视频切分 | 无 | 上传 MP3/MP4,自动切分为参考音频段 |
| Whisper 语音识别 | 无 | 集成 OpenAI Whisper,自动识别参考音频文本 |
| Whisper 模型选择 | 无 | 支持 tiny/base/small/medium/large/turbo |
| 跨平台支持 | 仅 CUDA/CPU | macOS MPS + Windows CUDA + CPU 自动检测 |
| 本地模型管理 | HuggingFace 远程 | 本地 model/ 目录,多模型切换 |
| 智能输出命名 | 手动指定文件名 | 根据合成文本自动命名 |
| 参考音频库 | 无 | references/ 目录统一管理,UI 可预览 |
| 项目结构优化 | 扁平结构 | backend/ + web/ + audiodit/ 分层架构 |
| 平台 | 加速设备 | 精度 | 说明 |
|---|---|---|---|
| macOS (Apple Silicon) | MPS | float32 | M1/M2/M3/M4 均可,MPS 不完整支持 fp16,VAE 保持 float32 运行 |
| Windows / Linux (NVIDIA) | CUDA | float16 | 推荐,自动启用 fp16 加速,推理速度更快、显存占用更低 |
| CPU | — | float32 | 任意平台回退,速度较慢,适合测试 |
项目会自动检测硬件并选择最佳设备(CUDA > MPS > CPU),无需手动配置。
macOS (Apple Silicon)
git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web
pip install -r requirements.txt
pip install openai-whisper # 可选:语音识别功能macOS 上 PyTorch 默认包含 MPS 支持,直接
pip install torch即可。
Windows (NVIDIA CUDA)
git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web
# 先安装 CUDA 版 PyTorch(以 CUDA 12.4 为例,根据你的 CUDA 版本调整)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install openai-whisper # 可选:语音识别功能
⚠️ 音频切分功能依赖 ffmpeg,Windows 需要额外安装:winget install ffmpeg或从 ffmpeg.org 下载并加入系统 PATH。macOS 可通过
brew install ffmpeg安装。
将模型文件放入 model/ 目录:
model/
└── 1B/
├── config.json
└── model.safetensors
模型下载:LongCat-AudioDiT-1B | LongCat-AudioDiT-3.5B
python -m web.app访问 http://localhost:7860 即可使用。
# 文本转语音
python -m backend.inference --text "你好,世界" --model_dir model/1B
# 语音克隆
python -m backend.inference \
--text "要合成的文本" \
--prompt_text "参考音频对应的文本" \
--prompt_audio references/ref_01.wav \
--model_dir model/1B \
--guidance_method apg
# 批量推理
python -m backend.batch_inference \
--lst /path/to/meta.lst \
--output_dir /path/to/output \
--model_dir model/1B输入文本,选择模型和引导参数,一键生成语音。
从参考音频库选择或上传音频,克隆目标音色。支持 APG 自适应投影引导(推荐)。
输入一段长文本,程序自动按标点切分为多个句子,逐句生成语音。生成完成后可逐段试听,也可一键合并导出为完整音频文件(可调节段间静音间隔)。支持 TTS 和语音克隆两种模式。
上传 MP3/MP4 文件,设定起始时间、段长和段数,自动切分为 24kHz WAV 参考音频。
集成 OpenAI Whisper,可选 6 种模型大小(tiny ~ large),自动识别参考音频中的文本内容,回填到文本框中。
LongCat-AudioDiT-Web/
├── audiodit/ # 核心模型模块
│ ├── __init__.py
│ ├── configuration_audiodit.py
│ └── modeling_audiodit.py
├── backend/ # 推理后端
│ ├── inference.py # 单条推理
│ ├── batch_inference.py # 批量推理
│ └── utils.py # 工具函数
├── web/ # Web UI
│ ├── app.py # FastAPI 后端
│ └── static/
│ ├── index.html
│ ├── style.css
│ └── app.js
├── model/ # 本地模型(需自行下载)
├── output/ # 生成音频
├── references/ # 参考音频库
├── assets/ # 静态资源
├── requirements.txt
├── QUICKSTART.md # 中文详细文档
└── LICENSE
LongCat-AudioDiT 是美团 LongCat 团队开源的 SOTA 扩散式 TTS 模型,直接在波形潜空间操作,仅需 Wav-VAE + DiT 扩散主干。
- SOTA 零样本语音克隆:SIM 得分 0.818(Seed-ZH),超越 Seed-TTS
- 极简流水线:无需 Mel 频谱图等中间表示
- 双语支持:中文 + 英文
- 1B / 3.5B 两种模型规模
MIT License. See LICENSE.
- LongCat-AudioDiT — 美团 LongCat 团队
- OpenAI Whisper — 语音识别

