daocha · daocha · Mar 30, 2026 · Mar 30, 2026 · Mar 30, 2026 · Mar 30, 2026
diff --git a/README.de.md b/README.de.md
@@ -38,7 +38,7 @@
   - ✅ Telegram zum Steuern von Codex / Copilot CLI verwenden
   - ✅ Antworten und geänderte Dateien bequem in Code-Blöcken prüfen
   - ✅ Folgefragen während eines laufenden Agentenlaufs in die Queue stellen
-  - ✅ Unterstützt Text- und Bildeingaben
+  - ✅ Akzeptiert ✏️ Text-, 🌄 Bild- und 🎙️ Sprachnachrichten sowie Audiodateien
 
    ## 🔁 Nahtlos zwischen Geräten und Sessions wechseln
 
@@ -99,6 +99,7 @@ Vor dem Start des Servers brauchst du:
 - Lokal installiertes Codex CLI und/oder Copilot CLI
 - [Codex CLI Installation](https://developers.openai.com/codex/cli)
 - [Copilot CLI Installation](https://github.com/features/copilot/cli)
+- [Optional] Whisper, ffmpeg
    </td>
    </tr>
 </table>
@@ -126,7 +127,7 @@ cd coding-agent-telegram
 ./startup.sh
 ```
 
-### Bot-Server starten
+### 🌐 Bot-Server starten
 ##### Beim ersten Start legt die App die Env-Datei an und sagt dir, welche Felder du ausfüllen musst.
 ##### Nach dem Bearbeiten der Env-Datei starte erneut:
 ```bash
@@ -137,6 +138,32 @@ coding-agent-telegram
 ./startup.sh
 ```
 
+## 🎙️ [Optional] Speech-to-Text-Funktion: lokale OpenAI-Whisper-Voraussetzungen vorbereiten
+
+Damit aktivierst du optional lokale Whisper-basierte Sprach-zu-Text-Unterstützung für Telegram-Sprachnotizen. Audiodateien sind auf maximal `20 MB` begrenzt.
+
+```bash
+# wenn du per pip oder per Einzeiler install.sh installiert hast
+coding-agent-telegram-stt-install
+
+# wenn du aus einem geklonten Repository startest
+./install-stt.sh
+```
+
+Empfohlene Env-Einstellungen:
+
+```text
+ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
+OPENAI_WHISPER_MODEL=base
+OPENAI_WHISPER_TIMEOUT_SECONDS=120
+```
+
+Hinweise:
+
+- Whisper lädt das ausgewählte Modell beim ersten Aufruf automatisch nach `~/.cache/whisper` herunter.
+- Wenn du `OPENAI_WHISPER_MODEL=turbo` wählst, ist es wahrscheinlicher, dass die erste Sprachnachricht das Zeitlimit erreicht, während `large-v3-turbo.pt` noch heruntergeladen wird.
+- Nach der Transkription einer Sprachnachricht sendet der Bot das erkannte Transkript zuerst zurück an Telegram und gibt es danach an den Agenten weiter. So lassen sich Erkennungsfehler leichter prüfen.
+
 ## 🔑 Telegram-Einrichtung
 
 ### Bot-Token holen
@@ -175,6 +202,7 @@ Der Bot akzeptiert derzeit:
 
 - Textnachrichten
 - Fotos
+- Sprachnachrichten und Audiodateien, wenn `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` gesetzt ist und die lokalen Whisper-Voraussetzungen installiert sind
 - Codex und Copilot unterstützen aktuell nur Text und Bilder, kein Video.
 
 ## 🤖 Telegram-Befehle
@@ -329,6 +357,18 @@ Der Bot akzeptiert derzeit:
     <td width="250"><code>ENABLE_SECRET_SCRUB_FILTER</code></td>
     <td>Tokens, Schlüssel, <code>.env</code>-Werte, Zertifikate und ähnliche geheime Ausgaben vor dem Senden an Telegram unkenntlich machen. Standard: <code>true</code> (dringend empfohlen).</td>
   </tr>
+  <tr>
+    <td width="250"><code>ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT</code></td>
+    <td>Standard: <code>false</code>. Wenn <code>true</code>, werden Audionachrichten und Sprachdateien erkannt. Das System prüft die Voraussetzungen für benötigte Binärdateien oder Bibliotheken und fordert bei Bedarf zur Installation auf.</td>
+  </tr>
+  <tr>
+    <td width="250"><code>OPENAI_WHISPER_MODEL</code></td>
+    <td>Modell für Whisper STT. Standard: <code>base</code><br />Verfügbare Modelle: <code>tiny</code> ca. <code>72 MB</code>, <code>base</code> ca. <code>139 MB</code>, <code>large-v3-turbo</code> ca. <code>1.5 GB</code><br />Modelle werden bei der ersten Sprachnachricht automatisch heruntergeladen. Empfehlung: <code>base</code> für den allgemeinen Einsatz. Für bessere Genauigkeit und Qualität kannst du <code>turbo</code> ausprobieren.</td>
+  </tr>
+  <tr>
+    <td width="250"><code>OPENAI_WHISPER_TIMEOUT_SECONDS</code></td>
+    <td>Standard: <code>120</code>. Zeitlimit für den STT-Prozess. Normalerweise ist die Verarbeitung schnell genug. Wenn du jedoch <code>turbo</code> wählst, kann der erste Download je nach Internetgeschwindigkeit das Zeitlimit überschreiten.</td>
+  </tr>
   <tr>
     <td width="250"><code>SNAPSHOT_INCLUDE_PATH_GLOBS</code></td>
     <td>Passende Pfade in Diffs immer einschließen. Beispiel: <code>.github/*,.profile.test,.profile.prod</code></td>

diff --git a/README.fr.md b/README.fr.md
@@ -38,7 +38,7 @@
   - ✅ Utiliser Telegram pour piloter Codex / Copilot CLI
   - ✅ Révision facile des réponses et des fichiers modifiés dans des blocs de code
   - ✅ Les messages de suivi peuvent être mis en file d’attente pendant qu’un agent travaille
-  - ✅ Prend en charge le texte et les images
+  - ✅ Accepte les messages ✏️ texte, 🌄 image et 🎙️ vocaux ainsi que les fichiers audio
 
    ## 🔁 Changement fluide entre appareils et sessions
 
@@ -99,6 +99,7 @@ Avant de démarrer le serveur, assurez-vous d’avoir :
 - Codex CLI et/ou Copilot CLI installés localement
 - [Installation Codex CLI](https://developers.openai.com/codex/cli)
 - [Installation Copilot CLI](https://github.com/features/copilot/cli)
+- [Optionnel] Whisper, ffmpeg
    </td>
    </tr>
 </table>
@@ -126,7 +127,7 @@ cd coding-agent-telegram
 ./startup.sh
 ```
 
-### Démarrer le serveur du bot
+### 🌐 Démarrer le serveur du bot
 ##### Au premier lancement, l’application crée le fichier env et vous indique quels champs remplir.
 ##### Après avoir mis à jour le fichier env, relancez :
 ```bash
@@ -137,6 +138,32 @@ coding-agent-telegram
 ./startup.sh
 ```
 
+## 🎙️ [Optionnel] Fonction Speech-to-Text : préparer les prérequis locaux OpenAI-Whisper
+
+Cela active la transcription locale optionnelle des notes vocales Telegram avec Whisper. Les fichiers audio sont limités à `20 MB` maximum.
+
+```bash
+# si vous avez installé avec pip ou avec l’install.sh en une ligne
+coding-agent-telegram-stt-install
+
+# si vous utilisez un dépôt cloné
+./install-stt.sh
+```
+
+Réglages env recommandés :
+
+```text
+ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
+OPENAI_WHISPER_MODEL=base
+OPENAI_WHISPER_TIMEOUT_SECONDS=120
+```
+
+Remarques :
+
+- Whisper télécharge automatiquement le modèle sélectionné lors du premier usage dans `~/.cache/whisper`.
+- Si vous choisissez `OPENAI_WHISPER_MODEL=turbo`, la première transcription vocale a davantage de chances d’atteindre le délai pendant que `large-v3-turbo.pt` est encore en cours de téléchargement.
+- Après transcription d’un message vocal, le bot renvoie d’abord le texte reconnu dans Telegram avant de l’envoyer à l’agent. Cela aide à diagnostiquer les erreurs de reconnaissance.
+
 ## 🔑 Configuration Telegram
 
 ### Obtenir un Bot Token
@@ -171,6 +198,13 @@ Remarques :
 
 ## 📨 Types de messages pris en charge
 
+Le bot accepte actuellement :
+
+- les messages texte
+- les photos
+- les messages vocaux et les fichiers audio quand `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` et que les prérequis locaux de Whisper sont installés
+- Codex et Copilot prennent actuellement en charge uniquement le texte et les images, pas la vidéo
+
 ## 🤖 Commandes Telegram
 
 <table>

diff --git a/README.ja.md b/README.ja.md
@@ -38,7 +38,7 @@
   - ✅ Telegram で Codex / Copilot CLI を操作できる
   - ✅ エージェントの回答や変更ファイルをコードブロックで確認しやすい
   - ✅ エージェント実行中でも追加入力をキューに積める
-  - ✅ テキストと画像入力に対応
+  - ✅ ✏️ テキスト、🌄 画像、🎙️ 音声メッセージ、および音声ファイルに対応
 
    ## 🔁 デバイス/セッションをシームレスに切り替え
 
@@ -99,6 +99,7 @@ curl -fsSL https://raw.githubusercontent.com/daocha/coding-agent-telegram/main/i
 - ローカルにインストール済みの Codex CLI または Copilot CLI
 - [Codex CLI インストール](https://developers.openai.com/codex/cli)
 - [Copilot CLI インストール](https://github.com/features/copilot/cli)
+- [任意] Whisper、ffmpeg
    </td>
    </tr>
 </table>
@@ -126,7 +127,7 @@ cd coding-agent-telegram
 ./startup.sh
 ```
 
-### Bot サーバーを起動
+### 🌐 Bot サーバーを起動
 ##### 初回起動時にアプリが env ファイルを作成し、入力すべき項目を案内します。
 ##### env ファイルを更新したら、次を再実行してください:
 ```bash
@@ -137,6 +138,32 @@ coding-agent-telegram
 ./startup.sh
 ```
 
+## 🎙️ [任意] Speech-to-Text 機能: ローカル OpenAI-Whisper の前提条件を準備
+
+これにより、Telegram のボイスノートに対するローカル Whisper ベースの音声文字起こしを任意で有効にできます。音声ファイルは最大 `20 MB` に制限されます。
+
+```bash
+# pip または one-liner install.sh でインストールした場合
+coding-agent-telegram-stt-install
+
+# クローンしたリポジトリから使う場合
+./install-stt.sh
+```
+
+推奨される env 設定:
+
+```text
+ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
+OPENAI_WHISPER_MODEL=base
+OPENAI_WHISPER_TIMEOUT_SECONDS=120
+```
+
+メモ:
+
+- Whisper は選択したモデルを初回利用時に `~/.cache/whisper` へ自動ダウンロードします。
+- `OPENAI_WHISPER_MODEL=turbo` を選ぶと、`large-v3-turbo.pt` のダウンロード中に最初の音声文字起こしがタイムアウトしやすくなります。
+- 音声メッセージを文字起こしした後、ボットはまず認識したテキストを Telegram に返し、その後でエージェントへ渡します。これにより認識ミスを確認しやすくなります。
+
 ## 🔑 Telegram セットアップ
 
 ### Bot Token を取得
@@ -171,6 +198,13 @@ https://api.telegram.org/bot<BOT_TOKEN>/getUpdates
 
 ## 📨 対応メッセージタイプ
 
+このボットが現在受け付けるもの:
+
+- テキストメッセージ
+- 写真
+- `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` が設定され、ローカル Whisper の前提条件がインストールされている場合の音声メッセージと音声ファイル
+- Codex と Copilot は現在、テキストと画像のみをサポートしており、動画はサポートしていません
+
 ## 🤖 Telegram コマンド
 
 <table>

diff --git a/README.ko.md b/README.ko.md
@@ -38,7 +38,7 @@
   - ✅ Telegram 으로 Codex / Copilot CLI 를 제어
   - ✅ 에이전트 응답과 변경 파일을 코드 블록으로 쉽게 검토
   - ✅ 에이전트가 작업 중일 때도 후속 질문을 큐에 저장
-  - ✅ 텍스트와 이미지 입력 지원
+  - ✅ ✏️ 텍스트, 🌄 이미지, 🎙️ 음성 메시지와 오디오 파일 지원
 
    ## 🔁 기기/세션 간 자연스러운 전환
 
@@ -99,6 +99,7 @@ curl -fsSL https://raw.githubusercontent.com/daocha/coding-agent-telegram/main/i
 - 로컬에 설치된 Codex CLI 및/또는 Copilot CLI
 - [Codex CLI 설치](https://developers.openai.com/codex/cli)
 - [Copilot CLI 설치](https://github.com/features/copilot/cli)
+- [선택 사항] Whisper, ffmpeg
    </td>
    </tr>
 </table>
@@ -126,7 +127,7 @@ cd coding-agent-telegram
 ./startup.sh
 ```
 
-### Bot 서버 시작
+### 🌐 Bot 서버 시작
 ##### 첫 실행 시 앱이 env 파일을 만들고 어떤 항목을 채워야 하는지 알려줍니다.
 ##### env 파일을 수정한 뒤 다시 실행하세요:
 ```bash
@@ -137,6 +138,32 @@ coding-agent-telegram
 ./startup.sh
 ```
 
+## 🎙️ [선택 사항] Speech-to-Text 기능: 로컬 OpenAI-Whisper 전제 조건 준비
+
+이 기능을 사용하면 Telegram 음성 노트에 대해 로컬 Whisper 기반 음성-텍스트 기능을 선택적으로 활성화할 수 있습니다. 오디오 파일은 최대 `20 MB` 까지만 지원됩니다.
+
+```bash
+# pip 으로 설치한 경우
+coding-agent-telegram-stt-install
+
+# 클론한 저장소에서 실행하는 경우
+./install-stt.sh
+```
+
+권장 env 설정:
+
+```text
+ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
+OPENAI_WHISPER_MODEL=base
+OPENAI_WHISPER_TIMEOUT_SECONDS=120
+```
+
+참고:
+
+- Whisper 는 선택한 모델을 처음 사용할 때 `~/.cache/whisper` 로 자동 다운로드합니다.
+- `OPENAI_WHISPER_MODEL=turbo` 를 선택하면 `large-v3-turbo.pt` 를 다운로드하는 동안 첫 음성 전사가 시간 초과에 걸릴 가능성이 더 높습니다.
+- 음성 메시지를 전사한 뒤 봇은 먼저 인식된 텍스트를 Telegram 에 다시 보여주고, 그 다음 에이전트에 전달합니다. 그래서 인식 오류를 확인하기 쉽습니다.
+
 ## 🔑 Telegram 설정
 
 ### Bot Token 받기
@@ -171,6 +198,13 @@ https://api.telegram.org/bot<BOT_TOKEN>/getUpdates
 
 ## 📨 지원되는 메시지 유형
 
+현재 이 봇이 받는 메시지:
+
+- 텍스트 메시지
+- 사진
+- `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` 로 설정되어 있고 로컬 Whisper 전제 조건이 설치된 경우의 음성 메시지와 오디오 파일
+- Codex 와 Copilot 은 현재 텍스트와 이미지만 지원하며, 비디오는 지원하지 않습니다
+
 ## 🤖 Telegram 명령어
 
 <table>