Спочатку факти, потім гіпотези
На старті не треба одразу шукати “винну” причину. Краще зафіксувати:
- коли почалося;
- який симптом видно;
- кого зачепило;
- що змінювалося перед інцидентом;
- які сигнали вже перевірені;
- хто зараз відповідає за рішення.
Це зменшує хаос і допомагає не бігати між випадковими гіпотезами.
Перевірки мають бути безпечними
У перші хвилини краще робити дії, які не змінюють стан системи: дивитися логи, healthcheck, графіки, останній deploy, статус залежних сервісів. Restart, data fix, manual migration rollback або видалення черги - це вже дії з ризиком.
AI корисний тут як фільтр: що можна перевірити без шкоди, а що краще не чіпати без підтвердження.
Комунікація теж частина інциденту
Навіть якщо причина ще невідома, команді потрібен короткий статус:
- що бачимо;
- кого зачепило;
- що перевіряємо;
- коли буде наступне оновлення.
Це краще, ніж мовчання або довге пояснення без фактів.
Пакет підказок
Скопіюйте цей запит у перші хвилини інциденту:
Допоможи організувати перші 15 хвилин технічного інциденту без паніки і небезпечних здогадок.
Контекст:
- Що помітили: [симптом, alert, скарга користувача, графік]
- Коли почалося: [час або приблизний проміжок]
- Що зачеплено: [сервіс, сторінка, API, job, інтеграція]
- Масштаб впливу: [усі користувачі / частина / один клієнт / невідомо]
- Останні зміни: [deploy, config, dependency, infra, data migration]
- Що вже перевірено: [логи, метрики, healthcheck, rollback status]
- Чого не можна робити без підтвердження: [delete, restart, migration rollback, data edits]
Побудуй план:
1. Які факти треба зафіксувати зараз.
2. Які недеструктивні перевірки виконати першими.
3. Як оцінити вплив на користувачів.
4. Що написати в короткому status update.
5. Коли готувати rollback або escalation.
6. Яких дій уникати, поки причина не зрозуміла.
Формат відповіді:
- Current facts
- Impact estimate
- Safe checks
- Status update draft
- Rollback/escalation trigger
- Do not do yet
Коротко
У перші 15 хвилин інциденту головна ціль - не героїчно вгадати причину, а зменшити хаос і не збільшити шкоду.
AI може допомогти, якщо просити не “виправи все”, а “організуй факти, безпечні перевірки, статус і умови для rollback або escalation”.
Короткий чеклист
- Зафіксувати час початку і симптоми.
- Оцінити, кого зачепило.
- Перевіряти спочатку безпечні сигнали: healthcheck, логи, метрики.
- Не робити руйнівних дій без підтвердження.
- Написати короткий status update.
- Підготувати rollback або escalation trigger.
Пакет підказок: перші 15 хвилин інциденту
Допоможи організувати перші 15 хвилин технічного інциденту без паніки і небезпечних здогадок. Контекст: - Що помітили: [симптом, alert, скарга користувача, графік] - Коли почалося: [час або приблизний проміжок] - Що зачеплено: [сервіс, сторінка, API, job, інтеграція] - Масштаб впливу: [усі користувачі / частина / один клієнт / невідомо] - Останні зміни: [deploy, config, dependency, infra, data migration] - Що вже перевірено: [логи, метрики, healthcheck, rollback status] - Чого не можна робити без підтвердження: [delete, restart, migration rollback, data edits] Побудуй план: 1. Які факти треба зафіксувати зараз. 2. Які недеструктивні перевірки виконати першими. 3. Як оцінити вплив на користувачів. 4. Що написати в короткому status update. 5. Коли готувати rollback або escalation. 6. Яких дій уникати, поки причина не зрозуміла. Формат відповіді: - Current facts - Impact estimate - Safe checks - Status update draft - Rollback/escalation trigger - Do not do yet