🎤 语音转文本工具 (Speech-to-Text Tool)

基于 OpenAI Whisper 的智能语音识别工具 | 支持 GPU 加速 | 中文语音转文字

📖 项目简介

这是一个功能强大的语音转文本（Speech-to-Text）工具，基于 OpenAI 开源的 Whisper 模型，可以将 MP3、WAV 等音频文件快速准确地转换为文本文件。支持简体中文语音识别，并提供 NVIDIA CUDA GPU 加速功能，转换速度可提升 10-50 倍。

🔑 关键词

语音识别 语音转文字 ASR 自动语音识别 Whisper 中文语音识别 音频转文本 MP3转文字 WAV转文字 GPU加速 CUDA 语音转录 speech-to-text speech recognition Chinese ASR

✨ 功能特点

🎵 多格式支持：支持 MP3、WAV、M4A、FLAC、OGG 等多种音频格式
🇨🇳 中文识别：使用 OpenAI Whisper 模型，专为简体中文语音识别优化
⚡ GPU 加速：自动检测并使用 NVIDIA CUDA GPU，速度提升 10-50 倍
🎯 多模型选择：提供 5 种模型大小（tiny/base/small/medium/large），平衡速度和精度
🖥️ 图形界面：简洁易用的 Tkinter GUI，实时显示 GPU 状态和转换进度
💾 自动保存：转换完成后自动保存为 UTF-8 编码的简体中文 TXT 文件
🔄 模型缓存：智能缓存已加载的模型，避免重复加载，提升效率

安装依赖

CPU版本（基础）

pip install -r requirements.txt

GPU版本（推荐，速度更快）

如需使用NVIDIA CUDA GPU加速，请安装CUDA版本的PyTorch：

访问 PyTorch官网查看适合您CUDA版本的安装命令

例如 CUDA 11.8：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install openai-whisper

例如 CUDA 12.1：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install openai-whisper

注意：

首次运行时会自动下载Whisper模型，可能需要几分钟时间
程序会自动检测GPU，如果检测到CUDA GPU会自动使用GPU加速
GPU版本需要NVIDIA显卡和CUDA驱动支持

🚀 快速开始

系统要求

Python: 3.8 或更高版本
操作系统: Windows / Linux / macOS
磁盘空间:
- tiny 模型：约 75 MB
- base 模型：约 150 MB（推荐）
- small 模型：约 500 MB
- medium 模型：约 1.5 GB
- large 模型：约 3 GB
GPU（可选但推荐）: NVIDIA 显卡 + CUDA 驱动（速度提升 10-50 倍）

安装步骤

1. 克隆仓库

git clone https://github.com/yourusername/ICodeStar-speech2text.git
cd ICodeStar-speech2text

2. 安装依赖

CPU 版本（基础）：

pip install -r requirements.txt

GPU 版本（推荐，速度更快）：

如需使用 NVIDIA CUDA GPU 加速，请先安装 CUDA 版本的 PyTorch：

访问 PyTorch 官网查看适合您 CUDA 版本的安装命令

例如 CUDA 11.8：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install openai-whisper

例如 CUDA 12.1：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install openai-whisper

使用方法

运行程序：
```
python speechtotext.py
```
程序启动后会显示 GPU 状态：
- ✓ 已检测到 CUDA GPU：将使用 GPU 加速（速度快）
- ⚠ 未检测到 CUDA GPU：将使用 CPU（速度较慢）
选择音频文件：点击"选择音频文件"按钮，选择要转换的 MP3、WAV 或其他音频文件
选择模型大小（可选）：
- tiny：最快，精度较低（适合快速预览）
- base：较快，精度中等（推荐，平衡速度和精度）
- small：中等，精度较好
- medium：较慢，精度好
- large：最慢，精度最高（适合高质量要求）
开始转换：点击"转换为文本"按钮开始转换
查看结果：转换完成后，简体中文文本文件会自动保存到音频文件同目录下

📝 使用说明

模型选择建议

模型	速度	精度	适用场景	模型大小
tiny	⚡⚡⚡⚡⚡	⭐⭐	快速预览、测试	~75 MB
base	⚡⚡⚡⚡	⭐⭐⭐	日常使用（推荐）	~150 MB
small	⚡⚡⚡	⭐⭐⭐⭐	高质量转录	~500 MB
medium	⚡⚡	⭐⭐⭐⭐⭐	专业转录	~1.5 GB
large	⚡	⭐⭐⭐⭐⭐	最高精度	~3 GB

性能对比

CPU 模式：base 模型处理 1 分钟音频约需 30-60 秒
GPU 模式：base 模型处理 1 分钟音频约需 1-3 秒（速度提升 10-50 倍）

⚠️ 注意事项

GPU 加速：如果检测到 NVIDIA CUDA GPU，程序会自动使用 GPU 加速，转换速度可提升 10-50 倍
简体中文输出：程序默认输出简体中文，通过 language="zh" 和 initial_prompt 确保识别结果符合中文习惯
首次下载：首次使用某个模型时需要从网络下载，请确保网络连接正常
模型选择：模型越大，识别精度越高，但处理速度越慢。建议使用 base 或 small 模型，在速度和精度之间取得平衡
GPU 版本：GPU 版本需要安装 CUDA 版本的 PyTorch，详见安装说明
文件编码：输出文件使用 UTF-8 编码，支持所有中文字符

🛠️ 技术栈

语音识别引擎: OpenAI Whisper
深度学习框架: PyTorch (支持 CUDA)
GUI 框架: Tkinter (Python 标准库)
编程语言: Python 3.8+

📂 项目结构

ICodeStar-speech2text/
├── speechtotext.py      # 主程序文件
├── requirements.txt     # 依赖包列表
├── README.md           # 中文说明文档
├── README_EN.md        # 英文说明文档
└── doc/
    └── 修改说明.md     # 开发文档

🤝 贡献

欢迎提交 Issue 和 Pull Request！

📄 许可证

本项目采用 MIT 许可证。详见 LICENSE 文件。

⭐ Star History

如果这个项目对您有帮助，请给个 Star ⭐ 支持一下！

🔗 相关链接

Made with ❤️ by ICodeStar

如果觉得有用，请给个 ⭐ Star！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🎤 语音转文本工具 (Speech-to-Text Tool)

📖 项目简介

🔑 关键词

✨ 功能特点

安装依赖

CPU版本（基础）

GPU版本（推荐，速度更快）

🚀 快速开始

系统要求

安装步骤

1. 克隆仓库

2. 安装依赖

使用方法

📝 使用说明

模型选择建议

性能对比

⚠️ 注意事项

🛠️ 技术栈

📂 项目结构

🤝 贡献

📄 许可证

⭐ Star History

🔗 相关链接

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
doc		doc
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
requirements.txt		requirements.txt
speechtotext.py		speechtotext.py

Folders and files

Latest commit

History

Repository files navigation

🎤 语音转文本工具 (Speech-to-Text Tool)

📖 项目简介

🔑 关键词

✨ 功能特点

安装依赖

CPU版本（基础）

GPU版本（推荐，速度更快）

🚀 快速开始

系统要求

安装步骤

1. 克隆仓库

2. 安装依赖

使用方法

📝 使用说明

模型选择建议

性能对比

⚠️ 注意事项

🛠️ 技术栈

📂 项目结构

🤝 贡献

📄 许可证

⭐ Star History

🔗 相关链接

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages