RU
EN

SRE AI Copilot

AI-копилот инцидентов в Kubernetes, которому можно доверить прод — потому что «применять ли фикс» решает детерминированный policy-engine, а не LLM.

О проекте

Гибрид: детерминированный Knowledge Graph + LLM-пайплайн за policy-gate. Обогащение алертов, RCA и controlled remediation в Kubernetes. Спроектирован честным к своим слепым зонам — система помечает, чего она не знает, вместо того чтобы выдавать догадки за факты.

Безопасность прежде всего

Главный страх «AI сам трогает прод» снят архитектурно: можно ли запускать kubectl-write считается детерминированно (8 risk-axes → policy-engine), а не берётся из ответа модели. Dry-run по умолчанию, approvals, anti-replay, savepoint-изоляция.

Самокорректирующийся Knowledge Graph

Граф зависимостей кластера из нескольких источников (топология, деплои, события, метрики, логи) с anomaly-detection и integrity-watchdog'ом, который ловит дрейф качества данных сам. Масштабируется на тысячи сервисов.

Честность по умолчанию

Сигналы помечены по достоверности (is_proxy), известные слепые зоны задокументированы в самом ответе. Система не выдаёт «зелёное», когда у неё просто нет данных — редкий, но решающий для доверия признак.

Как это работает

Конвейер инцидента — 6 ступеней. Честно: что уже live, а что включается с LLM-флагом.

1 · Ingestlive

AlertManager webhook → HMAC + anti-replay + dedup.

2 · Enrich (KG)live

Граф добавляет контекст: деплои, blast radius, pod-события, логи, ingress 5xx/p95.

3 · Reason (LLM)за флагом

Гипотез-агенты строят версии из контекста; critic ранжирует и режет слабые.

4 · Respondlive +LLM

Один Discord-эмбед: факты + подсказка root-cause; с LLM — связный narrative.

5 · Remediateopt-in

Предложить/применить kubectl-фикс за детерминированным policy-gate + approval.

6 · Self-watchlive

7 self-health-чеков /30мин, включая integrity-watchdog графа.

Как выглядит вывод

Синтетический пример critical-эмбеда в Discord (данные вымышленные).

🔴 Critical · checkout-service · prod
🎯 Likely cause
deploy #482 4 min before — p95 +180%, 5xx 0.6 rps at api.example.com/checkout
🌐 Endpoint health (ingress-derived)
5xx 0.6 rps · p95 920 ms
💥 Blast radius
3 svc → orders-service, cart-service, payments-gateway · 1 URL
🩺 Pod events
CrashLoopBackOff ×7 (OOMKilled)
🔧 Suggested action
kubectl rollout undo deploy/checkout-service   [⚙️ Apply — dry-run ✓, risk: medium]

Почему это безопасно для прода

Главный страх «AI сам трогает прод» снят архитектурно — решение принимает не модель:

Сырой алертер против копайлота

Raw alerterSRE AI Copilot
Контексттолько сработавшее правило+ деплои, зависимости, логи, ingress RED
Первопричинакопаешь самранжированная гипотеза с evidence
Blast radiusнеизвестенкого зацепит — посчитано
Действиевручнуюпредложенный фикс за policy-gate
Довериедетерминированный гейт, approval, dry-run
1600+ tests multi-source KG 8-axis policy gate MCP tools (SRE + client-dev) honest blind-spot tagging
GitHub →