Skip to content
Closed
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
44 changes: 42 additions & 2 deletions README.de.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,7 +38,7 @@
- ✅ Telegram zum Steuern von Codex / Copilot CLI verwenden
- ✅ Antworten und geänderte Dateien bequem in Code-Blöcken prüfen
- ✅ Folgefragen während eines laufenden Agentenlaufs in die Queue stellen
- ✅ Unterstützt Text- und Bildeingaben
- ✅ Akzeptiert ✏️ Text-, 🌄 Bild- und 🎙️ Sprachnachrichten sowie Audiodateien

## 🔁 Nahtlos zwischen Geräten und Sessions wechseln

Expand Down Expand Up @@ -99,6 +99,7 @@ Vor dem Start des Servers brauchst du:
- Lokal installiertes Codex CLI und/oder Copilot CLI
- [Codex CLI Installation](https://developers.openai.com/codex/cli)
- [Copilot CLI Installation](https://github.com/features/copilot/cli)
- [Optional] Whisper, ffmpeg
</td>
</tr>
</table>
Expand Down Expand Up @@ -126,7 +127,7 @@ cd coding-agent-telegram
./startup.sh
```

### Bot-Server starten
### 🌐 Bot-Server starten
##### Beim ersten Start legt die App die Env-Datei an und sagt dir, welche Felder du ausfüllen musst.
##### Nach dem Bearbeiten der Env-Datei starte erneut:
```bash
Expand All @@ -137,6 +138,32 @@ coding-agent-telegram
./startup.sh
```

## 🎙️ [Optional] Speech-to-Text-Funktion: lokale OpenAI-Whisper-Voraussetzungen vorbereiten

Damit aktivierst du optional lokale Whisper-basierte Sprach-zu-Text-Unterstützung für Telegram-Sprachnotizen. Audiodateien sind auf maximal `20 MB` begrenzt.

```bash
# wenn du per pip oder per Einzeiler install.sh installiert hast
coding-agent-telegram-stt-install

# wenn du aus einem geklonten Repository startest
./install-stt.sh
```

Empfohlene Env-Einstellungen:

```text
ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
OPENAI_WHISPER_MODEL=base
OPENAI_WHISPER_TIMEOUT_SECONDS=120
```

Hinweise:

- Whisper lädt das ausgewählte Modell beim ersten Aufruf automatisch nach `~/.cache/whisper` herunter.
- Wenn du `OPENAI_WHISPER_MODEL=turbo` wählst, ist es wahrscheinlicher, dass die erste Sprachnachricht das Zeitlimit erreicht, während `large-v3-turbo.pt` noch heruntergeladen wird.
- Nach der Transkription einer Sprachnachricht sendet der Bot das erkannte Transkript zuerst zurück an Telegram und gibt es danach an den Agenten weiter. So lassen sich Erkennungsfehler leichter prüfen.

## 🔑 Telegram-Einrichtung

### Bot-Token holen
Expand Down Expand Up @@ -175,6 +202,7 @@ Der Bot akzeptiert derzeit:

- Textnachrichten
- Fotos
- Sprachnachrichten und Audiodateien, wenn `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` gesetzt ist und die lokalen Whisper-Voraussetzungen installiert sind
- Codex und Copilot unterstützen aktuell nur Text und Bilder, kein Video.

## 🤖 Telegram-Befehle
Expand Down Expand Up @@ -329,6 +357,18 @@ Der Bot akzeptiert derzeit:
<td width="250"><code>ENABLE_SECRET_SCRUB_FILTER</code></td>
<td>Tokens, Schlüssel, <code>.env</code>-Werte, Zertifikate und ähnliche geheime Ausgaben vor dem Senden an Telegram unkenntlich machen. Standard: <code>true</code> (dringend empfohlen).</td>
</tr>
<tr>
<td width="250"><code>ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT</code></td>
<td>Standard: <code>false</code>. Wenn <code>true</code>, werden Audionachrichten und Sprachdateien erkannt. Das System prüft die Voraussetzungen für benötigte Binärdateien oder Bibliotheken und fordert bei Bedarf zur Installation auf.</td>
</tr>
<tr>
<td width="250"><code>OPENAI_WHISPER_MODEL</code></td>
<td>Modell für Whisper STT. Standard: <code>base</code><br />Verfügbare Modelle: <code>tiny</code> ca. <code>72 MB</code>, <code>base</code> ca. <code>139 MB</code>, <code>large-v3-turbo</code> ca. <code>1.5 GB</code><br />Modelle werden bei der ersten Sprachnachricht automatisch heruntergeladen. Empfehlung: <code>base</code> für den allgemeinen Einsatz. Für bessere Genauigkeit und Qualität kannst du <code>turbo</code> ausprobieren.</td>
</tr>
<tr>
<td width="250"><code>OPENAI_WHISPER_TIMEOUT_SECONDS</code></td>
<td>Standard: <code>120</code>. Zeitlimit für den STT-Prozess. Normalerweise ist die Verarbeitung schnell genug. Wenn du jedoch <code>turbo</code> wählst, kann der erste Download je nach Internetgeschwindigkeit das Zeitlimit überschreiten.</td>
</tr>
<tr>
<td width="250"><code>SNAPSHOT_INCLUDE_PATH_GLOBS</code></td>
<td>Passende Pfade in Diffs immer einschließen. Beispiel: <code>.github/*,.profile.test,.profile.prod</code></td>
Expand Down
38 changes: 36 additions & 2 deletions README.fr.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,7 +38,7 @@
- ✅ Utiliser Telegram pour piloter Codex / Copilot CLI
- ✅ Révision facile des réponses et des fichiers modifiés dans des blocs de code
- ✅ Les messages de suivi peuvent être mis en file d’attente pendant qu’un agent travaille
- ✅ Prend en charge le texte et les images
- ✅ Accepte les messages ✏️ texte, 🌄 image et 🎙️ vocaux ainsi que les fichiers audio

## 🔁 Changement fluide entre appareils et sessions

Expand Down Expand Up @@ -99,6 +99,7 @@ Avant de démarrer le serveur, assurez-vous d’avoir :
- Codex CLI et/ou Copilot CLI installés localement
- [Installation Codex CLI](https://developers.openai.com/codex/cli)
- [Installation Copilot CLI](https://github.com/features/copilot/cli)
- [Optionnel] Whisper, ffmpeg
</td>
</tr>
</table>
Expand Down Expand Up @@ -126,7 +127,7 @@ cd coding-agent-telegram
./startup.sh
```

### Démarrer le serveur du bot
### 🌐 Démarrer le serveur du bot
##### Au premier lancement, l’application crée le fichier env et vous indique quels champs remplir.
##### Après avoir mis à jour le fichier env, relancez :
```bash
Expand All @@ -137,6 +138,32 @@ coding-agent-telegram
./startup.sh
```

## 🎙️ [Optionnel] Fonction Speech-to-Text : préparer les prérequis locaux OpenAI-Whisper

Cela active la transcription locale optionnelle des notes vocales Telegram avec Whisper. Les fichiers audio sont limités à `20 MB` maximum.

```bash
# si vous avez installé avec pip ou avec l’install.sh en une ligne
coding-agent-telegram-stt-install

# si vous utilisez un dépôt cloné
./install-stt.sh
```

Réglages env recommandés :

```text
ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
OPENAI_WHISPER_MODEL=base
OPENAI_WHISPER_TIMEOUT_SECONDS=120
```

Remarques :

- Whisper télécharge automatiquement le modèle sélectionné lors du premier usage dans `~/.cache/whisper`.
- Si vous choisissez `OPENAI_WHISPER_MODEL=turbo`, la première transcription vocale a davantage de chances d’atteindre le délai pendant que `large-v3-turbo.pt` est encore en cours de téléchargement.
- Après transcription d’un message vocal, le bot renvoie d’abord le texte reconnu dans Telegram avant de l’envoyer à l’agent. Cela aide à diagnostiquer les erreurs de reconnaissance.

## 🔑 Configuration Telegram

### Obtenir un Bot Token
Expand Down Expand Up @@ -171,6 +198,13 @@ Remarques :

## 📨 Types de messages pris en charge

Le bot accepte actuellement :

- les messages texte
- les photos
- les messages vocaux et les fichiers audio quand `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` et que les prérequis locaux de Whisper sont installés
- Codex et Copilot prennent actuellement en charge uniquement le texte et les images, pas la vidéo

## 🤖 Commandes Telegram

<table>
Expand Down
38 changes: 36 additions & 2 deletions README.ja.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,7 +38,7 @@
- ✅ Telegram で Codex / Copilot CLI を操作できる
- ✅ エージェントの回答や変更ファイルをコードブロックで確認しやすい
- ✅ エージェント実行中でも追加入力をキューに積める
- ✅ テキストと画像入力に対応
- ✅ ✏️ テキスト、🌄 画像、🎙️ 音声メッセージ、および音声ファイルに対応

## 🔁 デバイス/セッションをシームレスに切り替え

Expand Down Expand Up @@ -99,6 +99,7 @@ curl -fsSL https://raw.githubusercontent.com/daocha/coding-agent-telegram/main/i
- ローカルにインストール済みの Codex CLI または Copilot CLI
- [Codex CLI インストール](https://developers.openai.com/codex/cli)
- [Copilot CLI インストール](https://github.com/features/copilot/cli)
- [任意] Whisper、ffmpeg
</td>
</tr>
</table>
Expand Down Expand Up @@ -126,7 +127,7 @@ cd coding-agent-telegram
./startup.sh
```

### Bot サーバーを起動
### 🌐 Bot サーバーを起動
##### 初回起動時にアプリが env ファイルを作成し、入力すべき項目を案内します。
##### env ファイルを更新したら、次を再実行してください:
```bash
Expand All @@ -137,6 +138,32 @@ coding-agent-telegram
./startup.sh
```

## 🎙️ [任意] Speech-to-Text 機能: ローカル OpenAI-Whisper の前提条件を準備

これにより、Telegram のボイスノートに対するローカル Whisper ベースの音声文字起こしを任意で有効にできます。音声ファイルは最大 `20 MB` に制限されます。

```bash
# pip または one-liner install.sh でインストールした場合
coding-agent-telegram-stt-install

# クローンしたリポジトリから使う場合
./install-stt.sh
```

推奨される env 設定:

```text
ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
OPENAI_WHISPER_MODEL=base
OPENAI_WHISPER_TIMEOUT_SECONDS=120
```

メモ:

- Whisper は選択したモデルを初回利用時に `~/.cache/whisper` へ自動ダウンロードします。
- `OPENAI_WHISPER_MODEL=turbo` を選ぶと、`large-v3-turbo.pt` のダウンロード中に最初の音声文字起こしがタイムアウトしやすくなります。
- 音声メッセージを文字起こしした後、ボットはまず認識したテキストを Telegram に返し、その後でエージェントへ渡します。これにより認識ミスを確認しやすくなります。

## 🔑 Telegram セットアップ

### Bot Token を取得
Expand Down Expand Up @@ -171,6 +198,13 @@ https://api.telegram.org/bot<BOT_TOKEN>/getUpdates

## 📨 対応メッセージタイプ

このボットが現在受け付けるもの:

- テキストメッセージ
- 写真
- `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` が設定され、ローカル Whisper の前提条件がインストールされている場合の音声メッセージと音声ファイル
- Codex と Copilot は現在、テキストと画像のみをサポートしており、動画はサポートしていません

## 🤖 Telegram コマンド

<table>
Expand Down
38 changes: 36 additions & 2 deletions README.ko.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,7 +38,7 @@
- ✅ Telegram 으로 Codex / Copilot CLI 를 제어
- ✅ 에이전트 응답과 변경 파일을 코드 블록으로 쉽게 검토
- ✅ 에이전트가 작업 중일 때도 후속 질문을 큐에 저장
- ✅ 텍스트와 이미지 입력 지원
- ✅ ✏️ 텍스트, 🌄 이미지, 🎙️ 음성 메시지와 오디오 파일 지원

## 🔁 기기/세션 간 자연스러운 전환

Expand Down Expand Up @@ -99,6 +99,7 @@ curl -fsSL https://raw.githubusercontent.com/daocha/coding-agent-telegram/main/i
- 로컬에 설치된 Codex CLI 및/또는 Copilot CLI
- [Codex CLI 설치](https://developers.openai.com/codex/cli)
- [Copilot CLI 설치](https://github.com/features/copilot/cli)
- [선택 사항] Whisper, ffmpeg
</td>
</tr>
</table>
Expand Down Expand Up @@ -126,7 +127,7 @@ cd coding-agent-telegram
./startup.sh
```

### Bot 서버 시작
### 🌐 Bot 서버 시작
##### 첫 실행 시 앱이 env 파일을 만들고 어떤 항목을 채워야 하는지 알려줍니다.
##### env 파일을 수정한 뒤 다시 실행하세요:
```bash
Expand All @@ -137,6 +138,32 @@ coding-agent-telegram
./startup.sh
```

## 🎙️ [선택 사항] Speech-to-Text 기능: 로컬 OpenAI-Whisper 전제 조건 준비

이 기능을 사용하면 Telegram 음성 노트에 대해 로컬 Whisper 기반 음성-텍스트 기능을 선택적으로 활성화할 수 있습니다. 오디오 파일은 최대 `20 MB` 까지만 지원됩니다.

```bash
# pip 으로 설치한 경우
coding-agent-telegram-stt-install

# 클론한 저장소에서 실행하는 경우
./install-stt.sh
```

권장 env 설정:

```text
ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true
OPENAI_WHISPER_MODEL=base
OPENAI_WHISPER_TIMEOUT_SECONDS=120
```

참고:

- Whisper 는 선택한 모델을 처음 사용할 때 `~/.cache/whisper` 로 자동 다운로드합니다.
- `OPENAI_WHISPER_MODEL=turbo` 를 선택하면 `large-v3-turbo.pt` 를 다운로드하는 동안 첫 음성 전사가 시간 초과에 걸릴 가능성이 더 높습니다.
- 음성 메시지를 전사한 뒤 봇은 먼저 인식된 텍스트를 Telegram 에 다시 보여주고, 그 다음 에이전트에 전달합니다. 그래서 인식 오류를 확인하기 쉽습니다.

## 🔑 Telegram 설정

### Bot Token 받기
Expand Down Expand Up @@ -171,6 +198,13 @@ https://api.telegram.org/bot<BOT_TOKEN>/getUpdates

## 📨 지원되는 메시지 유형

현재 이 봇이 받는 메시지:

- 텍스트 메시지
- 사진
- `ENABLE_OPENAI_WHISPER_SPEECH_TO_TEXT=true` 로 설정되어 있고 로컬 Whisper 전제 조건이 설치된 경우의 음성 메시지와 오디오 파일
- Codex 와 Copilot 은 현재 텍스트와 이미지만 지원하며, 비디오는 지원하지 않습니다

## 🤖 Telegram 명령어

<table>
Expand Down
Loading
Loading