LongCat-AudioDiT-Web

基于 LongCat-AudioDiT 的 Web UI 增强版，提供开箱即用的可视化界面，支持文本转语音、零样本语音克隆、音频/视频切分和 Whisper 语音识别。

Web UI 预览

相比原版的增强

功能	原版	Web 增强版
Web 可视化界面	无	FastAPI + 现代深色 UI
长文本批量生成	无	自动切分长文本，逐句生成，可合并导出
音频/视频切分	无	上传 MP3/MP4，自动切分为参考音频段
Whisper 语音识别	无	集成 OpenAI Whisper，自动识别参考音频文本
Whisper 模型选择	无	支持 tiny/base/small/medium/large/turbo
跨平台支持	仅 CUDA/CPU	macOS MPS + Windows CUDA + CPU 自动检测
本地模型管理	HuggingFace 远程	本地 model/ 目录，多模型切换
智能输出命名	手动指定文件名	根据合成文本自动命名
参考音频库	无	references/ 目录统一管理，UI 可预览
项目结构优化	扁平结构	backend/ + web/ + audiodit/ 分层架构

快速开始

平台支持

平台	加速设备	精度	说明
macOS (Apple Silicon)	MPS	float32	M1/M2/M3/M4 均可，MPS 不完整支持 fp16，VAE 保持 float32 运行
Windows / Linux (NVIDIA)	CUDA	float16	推荐，自动启用 fp16 加速，推理速度更快、显存占用更低
CPU	—	float32	任意平台回退，速度较慢，适合测试

项目会自动检测硬件并选择最佳设备（CUDA > MPS > CPU），无需手动配置。

1. 安装依赖

macOS (Apple Silicon)

git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web
pip install -r requirements.txt
pip install openai-whisper  # 可选：语音识别功能

macOS 上 PyTorch 默认包含 MPS 支持，直接 pip install torch 即可。

Windows (NVIDIA CUDA)

git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web

# 先安装 CUDA 版 PyTorch（以 CUDA 12.4 为例，根据你的 CUDA 版本调整）
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124

pip install -r requirements.txt
pip install openai-whisper  # 可选：语音识别功能

⚠️ 音频切分功能依赖 ffmpeg，Windows 需要额外安装：
winget install ffmpeg
或从 ffmpeg.org 下载并加入系统 PATH。macOS 可通过 brew install ffmpeg 安装。

2. 准备模型

将模型文件放入 model/ 目录：

model/
└── 1B/
    ├── config.json
    └── model.safetensors

模型下载：LongCat-AudioDiT-1B | LongCat-AudioDiT-3.5B

3. 启动 Web UI

python -m web.app

访问 http://localhost:7860 即可使用。

4. 命令行推理（可选）

# 文本转语音
python -m backend.inference --text "你好，世界" --model_dir model/1B

# 语音克隆
python -m backend.inference \
    --text "要合成的文本" \
    --prompt_text "参考音频对应的文本" \
    --prompt_audio references/ref_01.wav \
    --model_dir model/1B \
    --guidance_method apg

# 批量推理
python -m backend.batch_inference \
    --lst /path/to/meta.lst \
    --output_dir /path/to/output \
    --model_dir model/1B

Web UI 功能

文本转语音

输入文本，选择模型和引导参数，一键生成语音。

语音克隆

从参考音频库选择或上传音频，克隆目标音色。支持 APG 自适应投影引导（推荐）。

长文本批量生成

输入一段长文本，程序自动按标点切分为多个句子，逐句生成语音。生成完成后可逐段试听，也可一键合并导出为完整音频文件（可调节段间静音间隔）。支持 TTS 和语音克隆两种模式。

音频/视频切分

上传 MP3/MP4 文件，设定起始时间、段长和段数，自动切分为 24kHz WAV 参考音频。

Whisper 语音识别

集成 OpenAI Whisper，可选 6 种模型大小（tiny ~ large），自动识别参考音频中的文本内容，回填到文本框中。

项目结构

LongCat-AudioDiT-Web/
├── audiodit/                 # 核心模型模块
│   ├── __init__.py
│   ├── configuration_audiodit.py
│   └── modeling_audiodit.py
├── backend/                  # 推理后端
│   ├── inference.py           # 单条推理
│   ├── batch_inference.py     # 批量推理
│   └── utils.py               # 工具函数
├── web/                      # Web UI
│   ├── app.py                 # FastAPI 后端
│   └── static/
│       ├── index.html
│       ├── style.css
│       └── app.js
├── model/                    # 本地模型（需自行下载）
├── output/                   # 生成音频
├── references/               # 参考音频库
├── assets/                   # 静态资源
├── requirements.txt
├── QUICKSTART.md             # 中文详细文档
└── LICENSE

关于 LongCat-AudioDiT

LongCat-AudioDiT 是美团 LongCat 团队开源的 SOTA 扩散式 TTS 模型，直接在波形潜空间操作，仅需 Wav-VAE + DiT 扩散主干。

SOTA 零样本语音克隆：SIM 得分 0.818（Seed-ZH），超越 Seed-TTS
极简流水线：无需 Mel 频谱图等中间表示
双语支持：中文 + 英文
1B / 3.5B 两种模型规模

更多技术细节见原始论文和上游仓库。

License

MIT License. See LICENSE.

Acknowledgments

LongCat-AudioDiT — 美团 LongCat 团队
OpenAI Whisper — 语音识别

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LongCat-AudioDiT-Web

Web UI 预览

相比原版的增强

快速开始

平台支持

1. 安装依赖

2. 准备模型

3. 启动 Web UI

4. 命令行推理（可选）

Web UI 功能

文本转语音

语音克隆

长文本批量生成

音频/视频切分

Whisper 语音识别

项目结构

关于 LongCat-AudioDiT

License

Acknowledgments

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
assets		assets
audiodit		audiodit
backend		backend
web		web
.gitignore		.gitignore
LICENSE		LICENSE
LongCat-AudioDiT.pdf		LongCat-AudioDiT.pdf
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

LongCat-AudioDiT-Web

Web UI 预览

相比原版的增强

快速开始

平台支持

1. 安装依赖

2. 准备模型

3. 启动 Web UI

4. 命令行推理（可选）

Web UI 功能

文本转语音

语音克隆

长文本批量生成

音频/视频切分

Whisper 语音识别

项目结构

关于 LongCat-AudioDiT

License

Acknowledgments

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages