Skip to content

HildaM/LongCat-AudioDiT-Web

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LongCat-AudioDiT-Web

LongCat-AudioDiT

基于 LongCat-AudioDiTWeb UI 增强版,提供开箱即用的可视化界面,支持文本转语音、零样本语音克隆、音频/视频切分和 Whisper 语音识别。

Web UI 预览

Web UI

相比原版的增强

功能 原版 Web 增强版
Web 可视化界面 FastAPI + 现代深色 UI
长文本批量生成 自动切分长文本,逐句生成,可合并导出
音频/视频切分 上传 MP3/MP4,自动切分为参考音频段
Whisper 语音识别 集成 OpenAI Whisper,自动识别参考音频文本
Whisper 模型选择 支持 tiny/base/small/medium/large/turbo
跨平台支持 仅 CUDA/CPU macOS MPS + Windows CUDA + CPU 自动检测
本地模型管理 HuggingFace 远程 本地 model/ 目录,多模型切换
智能输出命名 手动指定文件名 根据合成文本自动命名
参考音频库 references/ 目录统一管理,UI 可预览
项目结构优化 扁平结构 backend/ + web/ + audiodit/ 分层架构

快速开始

平台支持

平台 加速设备 精度 说明
macOS (Apple Silicon) MPS float32 M1/M2/M3/M4 均可,MPS 不完整支持 fp16,VAE 保持 float32 运行
Windows / Linux (NVIDIA) CUDA float16 推荐,自动启用 fp16 加速,推理速度更快、显存占用更低
CPU float32 任意平台回退,速度较慢,适合测试

项目会自动检测硬件并选择最佳设备(CUDA > MPS > CPU),无需手动配置。

1. 安装依赖

macOS (Apple Silicon)

git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web
pip install -r requirements.txt
pip install openai-whisper  # 可选:语音识别功能

macOS 上 PyTorch 默认包含 MPS 支持,直接 pip install torch 即可。

Windows (NVIDIA CUDA)

git clone [email protected]:HildaM/LongCat-AudioDiT-Web.git
cd LongCat-AudioDiT-Web

# 先安装 CUDA 版 PyTorch(以 CUDA 12.4 为例,根据你的 CUDA 版本调整)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124

pip install -r requirements.txt
pip install openai-whisper  # 可选:语音识别功能

⚠️ 音频切分功能依赖 ffmpeg,Windows 需要额外安装:

winget install ffmpeg

或从 ffmpeg.org 下载并加入系统 PATH。macOS 可通过 brew install ffmpeg 安装。

2. 准备模型

将模型文件放入 model/ 目录:

model/
└── 1B/
    ├── config.json
    └── model.safetensors

模型下载:LongCat-AudioDiT-1B | LongCat-AudioDiT-3.5B

3. 启动 Web UI

python -m web.app

访问 http://localhost:7860 即可使用。

4. 命令行推理(可选)

# 文本转语音
python -m backend.inference --text "你好,世界" --model_dir model/1B

# 语音克隆
python -m backend.inference \
    --text "要合成的文本" \
    --prompt_text "参考音频对应的文本" \
    --prompt_audio references/ref_01.wav \
    --model_dir model/1B \
    --guidance_method apg

# 批量推理
python -m backend.batch_inference \
    --lst /path/to/meta.lst \
    --output_dir /path/to/output \
    --model_dir model/1B

Web UI 功能

文本转语音

输入文本,选择模型和引导参数,一键生成语音。

语音克隆

从参考音频库选择或上传音频,克隆目标音色。支持 APG 自适应投影引导(推荐)。

长文本批量生成

输入一段长文本,程序自动按标点切分为多个句子,逐句生成语音。生成完成后可逐段试听,也可一键合并导出为完整音频文件(可调节段间静音间隔)。支持 TTS 和语音克隆两种模式。

音频/视频切分

上传 MP3/MP4 文件,设定起始时间、段长和段数,自动切分为 24kHz WAV 参考音频。

Whisper 语音识别

集成 OpenAI Whisper,可选 6 种模型大小(tiny ~ large),自动识别参考音频中的文本内容,回填到文本框中。

项目结构

LongCat-AudioDiT-Web/
├── audiodit/                 # 核心模型模块
│   ├── __init__.py
│   ├── configuration_audiodit.py
│   └── modeling_audiodit.py
├── backend/                  # 推理后端
│   ├── inference.py           # 单条推理
│   ├── batch_inference.py     # 批量推理
│   └── utils.py               # 工具函数
├── web/                      # Web UI
│   ├── app.py                 # FastAPI 后端
│   └── static/
│       ├── index.html
│       ├── style.css
│       └── app.js
├── model/                    # 本地模型(需自行下载)
├── output/                   # 生成音频
├── references/               # 参考音频库
├── assets/                   # 静态资源
├── requirements.txt
├── QUICKSTART.md             # 中文详细文档
└── LICENSE

关于 LongCat-AudioDiT

LongCat-AudioDiT 是美团 LongCat 团队开源的 SOTA 扩散式 TTS 模型,直接在波形潜空间操作,仅需 Wav-VAE + DiT 扩散主干。

  • SOTA 零样本语音克隆:SIM 得分 0.818(Seed-ZH),超越 Seed-TTS
  • 极简流水线:无需 Mel 频谱图等中间表示
  • 双语支持:中文 + 英文
  • 1B / 3.5B 两种模型规模

Architecture

更多技术细节见 原始论文上游仓库

License

MIT License. See LICENSE.

Acknowledgments

About

LongCat-AudioDiT 网页版本 | Web UI for LongCat-AudioDiT — SOTA diffusion TTS with zero-shot voice cloning, audio splitting, and Whisper ASR integration. Supports CUDA / MPS / CPU.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors