Центр мониторинга и реагирования (SOC) играет важнейшую роль в защите активов и репутации организации. Его сотрудники обнаруживают и анализируют киберугрозы, а также своевременно и эффективно реагируют на них. Кроме того, центр мониторинга и реагирования предоставляет дополнительные возможности: мониторинг уязвимостей, отслеживание активов, сбор данных об угрозах, активный поиск угроз, управление журналами и др. – все это помогает повысить общий уровень безопасности. Это означает, что SOC является одним из ключевым звеньев, обеспечивающих устойчивость организации к кибератакам – вот почему очень важно проводить оценку его эффективности. Эффективный и успешный центр мониторинга и реагирования должен быть способен оправдать затраты перед руководством организации и продемонстрировать свою ценность.
Принципы успеха
Успех бизнеса определяется не только выручкой и прибылью. Большую роль играют два основных принципа:
- Ведение бизнес-деятельности с ориентацией на желаемые результаты.
- Непрерывные улучшения путем реализации новых идей или инициативы, направленные на достижение общих целей бизнеса.
Эти же принципы можно применить к любой организации, с функционирующим SOC, выполняющей функции CERT или выступающий провайдером услуг по информационной безопасности. Итак, как нам понять, что услуги, предоставляемые центром мониторинга и реагирования, соответствуют ожиданиям клиентов? Как убедиться, что SOC регулярно работает над повышением своей эффективности? Для этого необходимо оценить внутренние процессы и сервисы SOC. Оценка эффективности процессов и сервисов позволяет организациям прогнозировать результаты прилагаемых усилий, определять основные проблемы, влияющие на оказания услуг, и предоставлять руководству SOC возможность принимать информированные решения о повышении эффективности.
Оценка операционных задач
Итак, как повседневные задачи могут обеспечить оптимальную эффективность предоставляемых SOC сервисов для бизнеса или клиентов (если речь идет о MSSP)? Для оценки используются метрики, показатели уровня обслуживания (SLI) и ключевые показатели эффективности (KPI). Метрики служат для количественного измерения, KPI определяют приемлемые значения ключевых метрик при оценке эффективности отдельных внутренних процессов, а SLI определяют измеренные значения результатов обслуживания (то есть реальные цифры производительности сервиса), привязанных к соглашению об уровне обслуживания (SLA). Если значение метрики попадает в диапазон заданного KPI, процесс работает нормально. Выход за пределы диапазона указывает на сниженную эффективность процесса или возможную проблему.
В таблице ниже представлены типы и назначение метрик, которые обычно используются в центрах мониторинга и реагирования:
Важно понимать, что не для всех метрик необходимо устанавливать значения KPI. Некоторые из них, например метрики мониторинга, просто информируют о чем-то. Они предоставляют ценную информацию о функциональных компонентах деятельности центров мониторинга и реагирования, а их основное предназначение – помогать прогнозировать проблемы, которые могут снизить эффективность работы.
Ниже мы рассмотрим несколько конкретных примеров.
Пример 1: отслеживание ошибочных вердиктов аналитиков
Процесс | Название метрики | Тип | Описание метрики | Целевое значение |
Процесс мониторинга безопасности | Ошибочные вердикты | KPI (внутренний) | % оповещений, неправильно отсортированных аналитиком SOC | 5% |
В этом примере оценивается отдельный аспект процесса мониторинга безопасности, а именно точность вердиктов аналитика SOC. Эта метрика помогает определить проблемные области, способные повлиять на результаты мониторинга безопасности. Следует отметить, что она относится к внутренним KPI, и руководитель SOC установил для нее целевое значение 5% (целевое значение часто устанавливается исходя из текущих уровней зрелости). Если процентное количество ошибочных вердиктов превышает заданное целевое значение, это может означать, что аналитик должен улучшить свои навыки сортировки оповещений. Таким образом, метрика предоставляет ценную информацию руководителю центра мониторинга и реагирования.
Пример 2: измерение очереди сортировки оповещений
Процесс | Название метрики | Тип | Описание метрики | Целевое значение |
Процесс мониторинга безопасности | Очередь сортировки оповещений | Метрика мониторинга | Количество оповещений, ожидающих сортировки | Динамическое. |
В этом примере оценивается другой элемент процесса мониторинга безопасности – очередь сортировки оповещений. Эта метрика может предоставить информацию о рабочей нагрузке на аналитиков SOC. Важно отметить, что она используется для мониторинга, а целевое значение не фиксировано, оно может меняться. Если очередь входящих оповещений увеличивается, это указывает на увеличение нагрузки на аналитиков. Руководитель центра мониторинга и реагирования может использовать эту информацию, чтобы внести необходимые корректировки.
Пример 3: измерение времени для выявления инцидентов
Сервис | Название метрики | Тип | Описание метрики | Целевое значение |
Сервис мониторинга безопасности | Время для обнаружения | SLI | Время, необходимое для обнаружения критического инцидента | 30 минут |
В этом примере оценивается эффективность сервиса мониторинга безопасности. Для этого измеряется время, необходимое для выявления критического инцидента. Эта метрика может предоставить сведения об эффективности сервиса мониторинга безопасности внутренним и внешним потребителям сервиса. Важно отметить, что она относится к показателям уровня обслуживания (SLI), и для нее установлено целевое значение 30 минут. Оно зафиксировано в соглашении об уровне обслуживания (SLA), заключенное с потребителем сервиса. Если время для обнаружения превышает целевое значение (т.е. если SLI > SLA), это указывает на нарушение SLA.
Оценка операционных задач центра мониторинга и реагирования может быть сопряжена с рядом трудностей: могут отсутствовать необходимые данные или их может быть недостаточно, для сбора метрик может потребоваться слишком много времени и т. д. Поэтому важно выбирать подходящие метрики (об этом мы поговорим в конце статьи) и использовать подходящие инструменты и технологии для сбора, автоматической обработки, визуализации и представления данных в отчетах.
Измерение улучшений
Еще один важный элемент общего успеха центра мониторинга и реагирования – непрерывные улучшения. Руководство SOC должно разработать программу, предоставляющую тимлидам и рядовым сотрудникам возможность создавать и предлагать идеи по улучшениям. Обычно руководители и старшие специалисты оценивают идеи, собранные в разных подразделениях центра мониторинга и реагирования, чтобы определить их реализуемость и возможное влияние на достижение целей SOC. На основе отобранных идей разрабатываются инициативы, для которых определяются подходящие метрики и желаемый исход. Затем результаты собирают и оценивают их эффективность. Цель разработки инициатив через управление идеями – мотивировать сотрудников и непрерывно совершенствовать процессы и операции центра мониторинга и реагирования. Как правило, инициативами, направленными на решение технических вопросов и устранение проблем эффективности, занимаются руководство SOC и старшие специалисты.
Ниже представлена общая схема непрерывных улучшений:
Как и при оценке операционных задач, метрики остаются основным параметром для оценки эффективности и отслеживания прогресса непрерывных улучшений.
На практике непрерывным улучшениям часто препятствуют три распространенных фактора:
- В мире IT широко известен принцип «работает, не трогай», который часто распространяется и на операционные отделы. Поэтому многие центры мониторинга и реагирования в первую очередь уделяют внимание текущим задачам, а изменения внедряют только для устранения проблем, а не для совершенствования процессов. Эта нелюбовь к переменам затрудняет внедрение улучшений.
- Отсутствие налаженных процессов по сбору идей приводит к тому, что часть предложений не доходит до руководства SOC и как следствие не внедряется.
- Отсутствие инструментов для отслеживания прогресса: недостаточно просто генерировать и обсуждать идеи, для их реализации требуются механизмы тщательного отслеживания прогресса и измерения фактического влияния.
Пример: инициатива по улучшению качества вердиктов аналитиков
Вернемся к первому примеру в разделе «Оценка операционных задач». Давайте предположим, что за последний месяц было выявлено 12% ошибочных вердиктов – очевидно, что пора вмешаться. Руководство решает провести для аналитиков дополнительный тренинг, чтобы снизить этот показатель до целевых 5%. Затем необходимо в течение определенного периода отслеживать эффективность инициативы, чтобы понять, было ли достигнуто целевое значение. Важно отметить, что используется та же метрика «Ошибочные вердикты», но ее текущее значение теперь используется для оценки прогресса в направлении целевых 5%. Как только будут отмечены значительные улучшения, целевое значение можно скорректировать, чтобы способствовать дальнейшему развитию навыков сортировки у аналитиков.
Определение и приоритизация метрик
Как правило, центры мониторинга и реагирования используют метрики для измерения эффективности операционных задач и оценки улучшений. Однако часто не удается понять, помогают ли используемые метрики принимать решения или демонстрировать результаты потребителям сервисов SOC. Поиск значимых показателей – трудная задача. Мы часто рекомендуем руководителям SOC анализировать конкретные цели и задачи для определения возможных метрик. Еще один проверенный подход – система GQM (Goal – Question – Metric; цель – вопрос – метрика), включающая структурированную методологию для разработки метрик, соответствующих целям организации. В этой системе сначала определяются конкретные измеримые цели, затем на их основе задаются вопросы и определяются метрики для измерения прогресса на пути к достижению целей. Таким образом анализ GQM обеспечивает прямую связь полученных показателей с целями и задачами центра мониторинга и реагирования.
Давайте продемонстрируем этот подход на примере. Если центр мониторинга и реагирования выполняет роль CERT для финансовых организаций, в его рабочие задачи могут входить реагирование на инциденты в финансовой отрасли, отслеживание и регистрация угроз финансовой отрасли, консультирование сторонних команд и т. п. Определив основные цели CERT, мы можем перейти к выбору метрик, которые напрямую влияют на результаты его работы для клиентов.
Пример: определение метрик
Цель | Вопрос | Метрика |
Своевременное информирование организаций финансовой отрасли об угрозах | Как определить, сколько времени потребуется CERT для оповещения финансовых организаций? Какое минимальный временной порог оповещения можно считать целесообразным? Какой порог можно обеспечить без негативного влияния на качество? |
Время оповещения финансовой отрасли после обнаружения угрозы |
Аналогичным образом определяются метрики рабочих задач, которые позволяют отслеживать и измерять процессы CERT для финансовых организаций. Возникает также проблема приоритизации метрик, так как не все они одинаково важны. При выборе метрик первостепенное значение имеет их качество. Поэтому рекомендуется ограничить количество метрик, чтобы сузить направленность и повысить эффективность их использования. Метрики, напрямую влияющие на цели CERT, имеют преимущество перед метриками, влияющими на операционные задачи, так как итоговую оценку эффективности проводят потребители услуг.
При разработке метрик стоит учитывать ряд факторов:
- Они должны опираться на основные цели и операционные задачи.
- Метрики должны помогать в принятии решений.
- Их цель и ценность должны быть очевидны как для внутренних сотрудников, так и для внешних потребителей услуг и сервисов.
- Метрики должны быть реалистичными с точки зрения сбора данных, точности собираемых данных и удобства отчетности.
- В идеале сбор и анализ метрик должны происходить автоматически, чтобы можно было максимально быстро их визуализировать.
Также, для учета вышеприведенных факторов можно руководствоваться критериями модели SMART (Specific, Measurable, Achievable, Relevant, Time-based; конкретность, измеримость, достижимость, актуальность и привязанность ко времени) для управления метриками.
Еще одна важная метрика эффективности любого SOC, который хочет оперативно реагировать на атаки, — это умения его команды. Мониторинг — это прежде всего сервис, а он в первую очередь опирается на талантливых сотрудников. Если вы умеете выявлять индикаторы компрометации, можете вести проактивный поиск следов кибератак, а также имеете опыт изучения инцидентов с анализом сетевого и хостового трафика, то добро пожаловать к нам в «Лабораторию Касперского» на позицию старшего SOC-аналитика. Мы знаем, что ждет российские SOC в 2023-м году, и уже приготовили к этому свою команду.
Подходы к определению метрик для измерения эффективности SOC