-
Notifications
You must be signed in to change notification settings - Fork 5
Data Privacy
При использовании облачных LLM провайдеров (Anthropic Claude, Google Gemini, OpenAI, DeepSeek, Kimi, OpenRouter и любых других) все данные, отправляемые в запросах, покидают вашу инфраструктуру и передаются третьим лицам.
Это касается:
- Системных промптов (инструкции секретаря, персоны, бизнес-логика)
- RAG-контекста (фрагменты из вашей базы знаний, подставляемые в промпт)
- Датасетов из подключённых источников (товары WooCommerce, сделки amoCRM, документы Knowledge Base)
- Сообщений пользователей и ответов ассистента
- Метаданных (имена, телефоны, email из CRM-контактов, если они попали в контекст)
Клиент спрашивает: "Сколько стоит iPhone 16?"
│
▼
RAG ищет в вашей базе товаров
│
▼
Находит: "iPhone 16 Pro Max, 256GB, 149 990 ₸, в наличии 12 шт., склад Алматы"
│
▼
Формируется промпт = системная инструкция + найденный контекст + вопрос клиента
│
▼
Весь промпт отправляется в Cloud LLM (Anthropic, Google, OpenAI...)
│
▼
Провайдер видит: ваш промпт, цены, остатки, адрес склада
При большом трафике и разнообразных вопросах клиентов, облачный провайдер со временем получит практически всю вашу базу данных, потому что:
- Каждый запрос содержит фрагмент данных — RAG подставляет релевантные документы в промпт
- Разные вопросы раскрывают разные части базы — вопрос про iPhone покажет одни товары, вопрос про Samsung — другие
- Промпты содержат бизнес-логику — как отвечать, какие скидки предлагать, как обрабатывать возражения
- CRM-данные попадают в контекст — имена менеджеров, статусы сделок, контакты клиентов
Через тысячи запросов провайдер фактически получит:
- Полный каталог товаров с ценами и остатками
- Вашу воронку продаж и скрипты обработки
- Контактные данные клиентов
- Уникальные know-how вашего бизнеса
Каждый провайдер имеет свою политику:
| Провайдер | Использует данные для обучения | Хранение запросов | Политика |
|---|---|---|---|
| Anthropic | Нет (по умолчанию через API) | До 30 дней | Usage Policy |
| Google Gemini | Зависит от тарифа | Варьируется | Terms |
| OpenAI | Нет (через API) | До 30 дней | API Data Usage |
| DeepSeek | Неизвестно | Неизвестно | Юрисдикция КНР |
| OpenRouter | Зависит от sub-провайдера | Варьируется | Агрегатор, разные правила |
Даже если провайдер не использует данные для обучения:
- Запросы хранятся для модерации и отладки (обычно 30 дней)
- Сотрудники компании могут получить доступ к логам
- Данные подчиняются юрисдикции страны провайдера
- Утечки и взломы облачных сервисов случаются
| Данные | Передаётся? | Комментарий |
|---|---|---|
| Системный промпт | Да | Отправляется с каждым запросом |
| Сообщение пользователя | Да | Текст вопроса клиента |
| RAG-контекст | Да | Фрагменты из базы знаний, подставленные в промпт |
| История диалога | Да | Предыдущие сообщения для поддержания контекста |
| Ответ ассистента | Да | Генерируется на стороне провайдера |
| База данных целиком | Нет | Но постепенно раскрывается через RAG-фрагменты |
| Пароли и JWT-токены | Нет | Не включаются в промпты |
| Голосовые данные (TTS) | Нет* | TTS работает локально (XTTS/Piper), кроме случаев облачного TTS |
| Данные | Передаётся? | Комментарий |
|---|---|---|
| Системный промпт | Нет | Обрабатывается на вашем сервере |
| Сообщение пользователя | Нет | Не покидает вашу инфраструктуру |
| RAG-контекст | Нет | Поиск и подстановка — всё локально |
| База знаний | Нет | Хранится и индексируется на вашем сервере |
| Датасеты fine-tuning | Нет | Обучение LoRA — на вашем GPU |
| Голосовые данные | Нет | XTTS/Piper/OpenVoice — всё локально |
Особый случай: bridge использует Claude Code CLI, который отправляет данные в Anthropic. Если bridge используется как LLM backend, к нему применяются те же риски, что и к обычным Cloud LLM.
-
Используйте только локальные LLM (
LLM_BACKEND=vllm) — данные не покидают сервер -
Используйте локальные embeddings (
DEPLOYMENT_MODE=full+sentence-transformers) — даже семантический поиск RAG не уходит в облако - Используйте локальный TTS (XTTS v2, Piper) — голосовые данные остаются у вас
- Отключите облачных провайдеров — удалите или деактивируйте Cloud LLM providers
- Не используйте Claude Code bridge как основной backend для чувствительных данных
Если вам нужны облачные модели для части задач:
- Разделяйте по каналам — Telegram/WhatsApp боты с конфиденциальными данными направляйте на локальный LLM, а общий чат — на облачный
-
Контролируйте RAG — в настройках бота/виджета выберите
rag_mode: noneдля каналов, работающих через облачный LLM - Используйте отдельные коллекции — не подключайте коллекции с конфиденциальными документами к каналам с облачным backend
- Минимизируйте промпты — не включайте в системные промпты коммерческие тайны, если backend облачный
- Мониторьте использование — вкладка Usage покажет, какие каналы и провайдеры обрабатывают запросы
- Рассмотрите on-premise развёртывание с локальными моделями (vLLM + GPU сервер)
- Используйте VPN/прокси для изоляции сетевого трафика
- Включите аудит для отслеживания всех запросов к LLM
- Проведите оценку рисков перед подключением конфиденциальных датасетов
| Режим | Конфиденциальность | Кто видит данные |
|---|---|---|
| Локальный LLM (vLLM) | Полная | Только вы |
| Локальный LLM + локальные embeddings | Максимальная | Только вы |
| Cloud LLM без RAG | Частичная | Провайдер видит промпты и диалоги |
| Cloud LLM + RAG | Минимальная | Провайдер постепенно получает всю базу знаний |
| Claude Code Bridge | Частичная | Anthropic видит все запросы через CLI |
Истинная приватность возможна только при использовании полностью локальных моделей. Если ваши данные — конкурентное преимущество (уникальные базы товаров, know-how, клиентская база), используйте DEPLOYMENT_MODE=full с LLM_BACKEND=vllm и локальными embeddings.
← Cloud-LLM-Providers | RBAC →