Внедрение системы поиска аномалий на основе ML для оптимизации нагрузки
Компания развивала онлайн-сервис с высокой нагрузкой и распределенной архитектурой.
Регулярно возникала паразитная нагрузка на серверы, связанная с аномальным поведением клиентов-ботов, парсеров конкурентов и злоупотребления API. Ручной мониторинг и алерты не позволяли вовремя выявлять причины.
Цель — автоматизировать обнаружение аномалий в телеметрии и логах, чтобы:
- Снизить паразитную нагрузку на инфраструктуру
- Улучшить доступность сервиса
- Сократить время реакции на инциденты
Ключевые метрики:
- Снижение нагрузки на серверы — –11%
- Снижение количества ручных инцидентов — 50%
- Среднее время обнаружения аномалии — 15 минут → 2 минут
В роли продуктового менеджера и инициатора проекта я:
- Сформулировал задачу и критерии эффективности
- Организовал пилот с командой разработчиков и аналитиков
- Выбрал подходящие алгоритмы (набор моделей + правила)
- Обеспечил внедрение и передачу в эксплуатацию
Решения и действия:
- Собрали исторические данные по метрикам и логам за [период] и провели кластеризацию поведения
- Использовали Isolation Forest с дополнительными ручными правилами
- Внедрили систему автоматического уведомления в случае отклонений от "нормального" поведения
Клиент
Цифровая платформа
Даты реализации
2023-2024
Категория
ИИ и машинное обучение