Skip to content

Data Privacy

shaerware edited this page Feb 26, 2026 · 1 revision

Data Privacy (Конфиденциальность данных)

Важное предупреждение

При использовании облачных LLM провайдеров (Anthropic Claude, Google Gemini, OpenAI, DeepSeek, Kimi, OpenRouter и любых других) все данные, отправляемые в запросах, покидают вашу инфраструктуру и передаются третьим лицам.

Это касается:

  • Системных промптов (инструкции секретаря, персоны, бизнес-логика)
  • RAG-контекста (фрагменты из вашей базы знаний, подставляемые в промпт)
  • Датасетов из подключённых источников (товары WooCommerce, сделки amoCRM, документы Knowledge Base)
  • Сообщений пользователей и ответов ассистента
  • Метаданных (имена, телефоны, email из CRM-контактов, если они попали в контекст)

Как облачные провайдеры получают ваши данные

Механизм утечки через RAG

Клиент спрашивает: "Сколько стоит iPhone 16?"
        │
        ▼
RAG ищет в вашей базе товаров
        │
        ▼
Находит: "iPhone 16 Pro Max, 256GB, 149 990 ₸, в наличии 12 шт., склад Алматы"
        │
        ▼
Формируется промпт = системная инструкция + найденный контекст + вопрос клиента
        │
        ▼
Весь промпт отправляется в Cloud LLM (Anthropic, Google, OpenAI...)
        │
        ▼
Провайдер видит: ваш промпт, цены, остатки, адрес склада

Накопительный эффект

При большом трафике и разнообразных вопросах клиентов, облачный провайдер со временем получит практически всю вашу базу данных, потому что:

  1. Каждый запрос содержит фрагмент данных — RAG подставляет релевантные документы в промпт
  2. Разные вопросы раскрывают разные части базы — вопрос про iPhone покажет одни товары, вопрос про Samsung — другие
  3. Промпты содержат бизнес-логику — как отвечать, какие скидки предлагать, как обрабатывать возражения
  4. CRM-данные попадают в контекст — имена менеджеров, статусы сделок, контакты клиентов

Через тысячи запросов провайдер фактически получит:

  • Полный каталог товаров с ценами и остатками
  • Вашу воронку продаж и скрипты обработки
  • Контактные данные клиентов
  • Уникальные know-how вашего бизнеса

Что провайдеры делают с данными

Каждый провайдер имеет свою политику:

Провайдер Использует данные для обучения Хранение запросов Политика
Anthropic Нет (по умолчанию через API) До 30 дней Usage Policy
Google Gemini Зависит от тарифа Варьируется Terms
OpenAI Нет (через API) До 30 дней API Data Usage
DeepSeek Неизвестно Неизвестно Юрисдикция КНР
OpenRouter Зависит от sub-провайдера Варьируется Агрегатор, разные правила

Даже если провайдер не использует данные для обучения:

  • Запросы хранятся для модерации и отладки (обычно 30 дней)
  • Сотрудники компании могут получить доступ к логам
  • Данные подчиняются юрисдикции страны провайдера
  • Утечки и взломы облачных сервисов случаются

Что видит провайдер в разных режимах

Cloud LLM (Gemini, Claude, OpenAI и др.)

Данные Передаётся? Комментарий
Системный промпт Да Отправляется с каждым запросом
Сообщение пользователя Да Текст вопроса клиента
RAG-контекст Да Фрагменты из базы знаний, подставленные в промпт
История диалога Да Предыдущие сообщения для поддержания контекста
Ответ ассистента Да Генерируется на стороне провайдера
База данных целиком Нет Но постепенно раскрывается через RAG-фрагменты
Пароли и JWT-токены Нет Не включаются в промпты
Голосовые данные (TTS) Нет* TTS работает локально (XTTS/Piper), кроме случаев облачного TTS

Локальный LLM (vLLM + Qwen/Llama/DeepSeek)

Данные Передаётся? Комментарий
Системный промпт Нет Обрабатывается на вашем сервере
Сообщение пользователя Нет Не покидает вашу инфраструктуру
RAG-контекст Нет Поиск и подстановка — всё локально
База знаний Нет Хранится и индексируется на вашем сервере
Датасеты fine-tuning Нет Обучение LoRA — на вашем GPU
Голосовые данные Нет XTTS/Piper/OpenVoice — всё локально

CLI-OpenAI Bridge (Claude Code)

Особый случай: bridge использует Claude Code CLI, который отправляет данные в Anthropic. Если bridge используется как LLM backend, к нему применяются те же риски, что и к обычным Cloud LLM.

Рекомендации по защите данных

Для максимальной конфиденциальности

  1. Используйте только локальные LLM (LLM_BACKEND=vllm) — данные не покидают сервер
  2. Используйте локальные embeddings (DEPLOYMENT_MODE=full + sentence-transformers) — даже семантический поиск RAG не уходит в облако
  3. Используйте локальный TTS (XTTS v2, Piper) — голосовые данные остаются у вас
  4. Отключите облачных провайдеров — удалите или деактивируйте Cloud LLM providers
  5. Не используйте Claude Code bridge как основной backend для чувствительных данных

Для гибридного использования

Если вам нужны облачные модели для части задач:

  1. Разделяйте по каналам — Telegram/WhatsApp боты с конфиденциальными данными направляйте на локальный LLM, а общий чат — на облачный
  2. Контролируйте RAG — в настройках бота/виджета выберите rag_mode: none для каналов, работающих через облачный LLM
  3. Используйте отдельные коллекции — не подключайте коллекции с конфиденциальными документами к каналам с облачным backend
  4. Минимизируйте промпты — не включайте в системные промпты коммерческие тайны, если backend облачный
  5. Мониторьте использование — вкладка Usage покажет, какие каналы и провайдеры обрабатывают запросы

Для enterprise-сценариев

  • Рассмотрите on-premise развёртывание с локальными моделями (vLLM + GPU сервер)
  • Используйте VPN/прокси для изоляции сетевого трафика
  • Включите аудит для отслеживания всех запросов к LLM
  • Проведите оценку рисков перед подключением конфиденциальных датасетов

Итог

Режим Конфиденциальность Кто видит данные
Локальный LLM (vLLM) Полная Только вы
Локальный LLM + локальные embeddings Максимальная Только вы
Cloud LLM без RAG Частичная Провайдер видит промпты и диалоги
Cloud LLM + RAG Минимальная Провайдер постепенно получает всю базу знаний
Claude Code Bridge Частичная Anthropic видит все запросы через CLI

Истинная приватность возможна только при использовании полностью локальных моделей. Если ваши данные — конкурентное преимущество (уникальные базы товаров, know-how, клиентская база), используйте DEPLOYMENT_MODE=full с LLM_BACKEND=vllm и локальными embeddings.


Cloud-LLM-Providers | RBAC

Clone this wiki locally