SRE AI Copilot

О проекте

Гибрид: детерминированный Knowledge Graph + LLM-пайплайн за policy-gate. Обогащение алертов, RCA и controlled remediation в Kubernetes. Спроектирован честным к своим слепым зонам — система помечает, чего она не знает, вместо того чтобы выдавать догадки за факты.

Безопасность прежде всего

Главный страх «AI сам трогает прод» снят архитектурно: можно ли запускать kubectl-write считается детерминированно (8 risk-axes → policy-engine), а не берётся из ответа модели. Dry-run по умолчанию, approvals, anti-replay, savepoint-изоляция.

The core fear — “the AI touches prod on its own” — is removed by design: whether a kubectl write may run is computed deterministically (8 risk axes → policy engine), not taken from the model’s answer. Dry-run by default, approvals, anti-replay, savepoint isolation.

Самокорректирующийся Knowledge Graph

Граф зависимостей кластера из нескольких источников (топология, деплои, события, метрики, логи) с anomaly-detection и integrity-watchdog'ом, который ловит дрейф качества данных сам. Масштабируется на тысячи сервисов.

Честность по умолчанию

Сигналы помечены по достоверности (is_proxy), известные слепые зоны задокументированы в самом ответе. Система не выдаёт «зелёное», когда у неё просто нет данных — редкий, но решающий для доверия признак.

Signals are tagged by confidence (is_proxy); known blind spots are documented in the response itself. It won’t report “green” when it simply has no data — a rare but decisive trait for trust.

Как это работает

Конвейер инцидента — 6 ступеней. Честно: что уже live, а что включается с LLM-флагом.

1 · Ingestlive

AlertManager webhook → HMAC + anti-replay + dedup.

2 · Enrich (KG)live

Граф добавляет контекст: деплои, blast radius, pod-события, логи, ingress 5xx/p95.

3 · Reason (LLM)за флагом

Гипотез-агенты строят версии из контекста; critic ранжирует и режет слабые.

4 · Respondlive +LLM

Один Discord-эмбед: факты + подсказка root-cause; с LLM — связный narrative.

5 · Remediateopt-in

Предложить/применить kubectl-фикс за детерминированным policy-gate + approval.

6 · Self-watchlive

7 self-health-чеков /30мин, включая integrity-watchdog графа.

Как выглядит выводWhat the output looks like

Синтетический пример critical-эмбеда в Discord (данные вымышленные).

🔴 Critical · checkout-service · prod

🎯 Likely cause

deploy #482 4 min before — p95 +180%, 5xx 0.6 rps at api.example.com/checkout

🌐 Endpoint health (ingress-derived)

5xx 0.6 rps · p95 920 ms

💥 Blast radius

3 svc → orders-service, cart-service, payments-gateway · 1 URL

🩺 Pod events

CrashLoopBackOff ×7 (OOMKilled)

🔧 Suggested action

kubectl rollout undo deploy/checkout-service [⚙️ Apply — dry-run ✓, risk: medium]

Почему это безопасно для прода

Главный страх «AI сам трогает прод» снят архитектурно — решение принимает не модель:

Детерминированный policy-gate: можно ли запускать kubectl-write считается из структурного intent'а по 8 risk-axes, а не берётся из ответа LLM (его risk — лишь advisory).
Dry-run по умолчанию + approval: реальный apply только после --dry-run=server и явного подтверждения кнопкой (risk ≤ medium).
TOCTOU-подпись intent + anti-replay + savepoint-изоляция + полный OTEL-аудит каждого действия.
Default = advisory: из коробки copilot не зовёт kubectl вообще — анализирует и пишет в Discord.

Сырой алертер против копайлотаRaw alerter vs. the copilot

	Raw alerter	SRE AI Copilot
Контекст	только сработавшее правило	+ деплои, зависимости, логи, ingress RED
Первопричина	копаешь сам	ранжированная гипотеза с evidence
Blast radius	неизвестен	кого зацепит — посчитано
Действие	вручную	предложенный фикс за policy-gate
Доверие	—	детерминированный гейт, approval, dry-run

	Raw alerter	SRE AI Copilot
Context	just the firing rule	+ deploys, dependencies, logs, ingress RED
Root cause	you dig	ranked hypothesis with evidence
Blast radius	unknown	who's affected — computed
Action	manual	suggested fix behind a policy gate
Trust	—	deterministic gate, approval, dry-run

1600+ tests multi-source KG 8-axis policy gate MCP tools (SRE + client-dev) honest blind-spot tagging

GitHub →

SRE AI Copilot

О проекте

About the Project

Безопасность прежде всего

Safety-first remediation

Самокорректирующийся Knowledge Graph

Self-correcting Knowledge Graph

Честность по умолчанию

Honest by design

Как это работает

How it works

Как выглядит выводWhat the output looks like

Почему это безопасно для прода

Why it's safe next to prod

Сырой алертер против копайлотаRaw alerter vs. the copilot