Фраза дня: План по ликвидации последствий катастрофы
План аварийного восстановления (disaster recovery plan - DRP) - это документированный структурированный подход, который описывает, как организация может быстро возобновить работу после незапланированного инцидента. DRP является неотъемлемой частью плана обеспечения непрерывности бизнеса. Он применяется к тем аспектам организации, которые зависят от функционирующей ИТ-инфраструктуры. DRP направлен на то, чтобы помочь организации решить проблему потери данных и восстановить функциональность системы, чтобы она могла работать после инцидента, даже если она работает на минимальном уровне.
Пошаговый план состоит из мер предосторожности, направленных на минимизацию последствий аварии, чтобы организация могла продолжить работу или быстро возобновить выполнение критически важных функций. Как правило, планирование аварийного восстановления включает анализ бизнес-процессов и требований к непрерывности. Перед созданием подробного плана организация часто выполняет анализ воздействия на бизнес ( business impact analysis - BIA) и анализ рисков (risk analyses - RA) и устанавливает цели восстановления.
Поскольку киберпреступность и нарушения безопасности становятся все более изощренными, организации важно определить свои стратегии восстановления и защиты данных. Возможность быстро обрабатывать инциденты может сократить время простоя и минимизировать как финансовый, так и репутационный ущерб. Кроме того, DRP позволяет организациям гарантировать соответствие всем требованиям, а также дает четкий план восстановления.
Некоторые типы стихийных бедствий, которые могут планироваться организациями, включают:
- Сбой приложения
- Сбой связи
- Авария в центре обработки данных
- Строительная катастрофа
- Катастрофа в кампусе
- Общегородская катастрофа
- Региональная катастрофа
- Национальная катастрофа
- Многонациональная катастрофа
Рекомендации по плану восстановления
Стратегия аварийного восстановления должна начинаться на бизнес-уровне и определять, какие приложения наиболее важны для работы организации. Целевое время восстановления (RTO) описывает целевое время, в течение которого бизнес-приложение может не работать, обычно измеряется в часах, минутах или секундах. Целевая точка восстановления (RPO) описывает возраст файлов, которые необходимо восстановить из хранилища резервных копий для возобновления нормальной работы.
Стратегии восстановления определяют планы организации по реагированию на инцидент, а планы аварийного восстановления описывают, как организация должна реагировать. Планы восстановления основаны на стратегиях восстановления.
При определении стратегии восстановления организации должны учитывать такие вопросы, как:
- Бюджет
- Страховое покрытие
- Ресурсы - люди и материальные средства
- Позиция менеджмента по рискам
- Технология
- Данные
- Поставщики
- Требования соответствия
Утверждение руководством стратегии восстановления важно. Все стратегии должны соответствовать целям организации. После разработки и утверждения стратегий аварийного восстановления их можно преобразовать в планы аварийного восстановления.
Типы планов аварийного восстановления
DRP могут быть специально адаптированы для данной среды. Некоторые планы, ориентированные на окружающую среду, включают:
- План виртуализированного аварийного восстановления. Виртуализация дает возможность реализовать аварийное восстановление более эффективным и простым способом. Виртуализированная среда может запускать новые экземпляры виртуальных машин (ВМ) за считанные минуты и обеспечивать восстановление приложений за счет высокой доступности. Тестирование также может быть проще, но план должен включать возможность проверки того, что приложения могут запускаться в режиме аварийного восстановления и возвращаться к нормальной работе в пределах RPO и RTO.
- План аварийного восстановления сети. Разработка плана восстановления сети усложняется по мере увеличения сложности сети. Важно подробно описать пошаговую процедуру восстановления, правильно ее протестировать и постоянно обновлять. Данные в этом плане будут специфичными для сети, например, с точки зрения ее производительности и сетевого персонала.
- План аварийного восстановления в облаке - аварийное восстановление в облаке может варьироваться от резервного копирования файлов в облаке до полной репликации. Облачное аварийное восстановление может быть экономичным по пространству, времени и затратам, но поддержание плана аварийного восстановления требует надлежащего управления. Менеджер должен знать расположение физических и виртуальных серверов. План должен учитывать безопасность, которая является распространенной проблемой в облаке, которую можно решить с помощью тестирования.
- План аварийного восстановления центра обработки данных - этот тип плана ориентирован исключительно на объект и инфраструктуру центра обработки данных. Оценка операционного риска - ключевой элемент DRP центра обработки данных. Он анализирует ключевые компоненты, такие как расположение здания, системы питания и защиты, безопасность и офисные помещения. План должен учитывать широкий спектр возможных сценариев.
Объем и цели планирования аварийного восстановления
План аварийного восстановления может варьироваться от базового до всеобъемлющего. Некоторые DRP могут содержать до 100 страниц.
Бюджеты аварийного восстановления могут сильно различаться и колебаться с течением времени. Организации могут воспользоваться бесплатными ресурсами, такими как онлайн-шаблоны DRP. Некоторые организации, такие как Business Continuity Institute и Disaster Recovery Institute International, также предоставляют бесплатную информацию и интерактивные статьи с практическими рекомендациями.
Контрольный список плана аварийного восстановления включает определение критических ИТ-систем и сетей, определение приоритетов RTO и описание шагов, необходимых для перезапуска, перенастройки и восстановления систем и сетей. План должен как минимум минимизировать любое негативное влияние на бизнес-операции. Сотрудники должны знать основные действия в экстренных случаях в случае непредвиденного происшествия.
Расстояние - важный, но часто упускаемый из виду элемент процесса DRP. Сайт аварийного восстановления, расположенный рядом с основным центром обработки данных, может показаться идеальным с точки зрения стоимости, удобства, пропускной способности и тестирования, но сбои сильно различаются по масштабу. Серьезное региональное событие может разрушить основной центр обработки данных и его площадку аварийного восстановления, если они расположены слишком близко друг к другу.
Как составить план аварийного восстановления
Процесс планирования аварийного восстановления включает в себя больше, чем просто написание документа. Перед написанием DRP анализ рисков и анализ воздействия на бизнес могут помочь определить, на чем сосредоточить ресурсы в процессе планирования аварийного восстановления. BIA определяет последствия разрушительных событий и является отправной точкой для определения риска в контексте аварийного восстановления. Он также генерирует RTO и RPO. RA выявляет угрозы и уязвимости, которые могут нарушить работу систем и процессов, указанных в BIA. RA оценивает вероятность разрушительного события и определяет его потенциальную серьезность.
Контрольный список DRP должен включать следующие шаги:
- установление диапазона или объема необходимого лечения и деятельности - объема выздоровления;
- сбор соответствующих документов по сетевой инфраструктуре;
- выявление наиболее серьезных угроз и уязвимостей, а также наиболее важных активов;
- обзор истории незапланированных инцидентов и отключений и способов их устранения;
- определение текущих стратегий аварийного восстановления;
- определение группы реагирования на инциденты;
- наличие у руководства обзора и утверждения DRP;
- тестирование плана;
- обновление плана; а также
- внедрение DRP-аудита.
Планы аварийного восстановления - это живые документы. Вовлечение сотрудников - от руководства до начального уровня - помогает повысить ценность плана.
Другой компонент DRP - план коммуникации. Эта стратегия должна подробно описывать, как будет обрабатываться как внутренняя, так и внешняя антикризисная коммуникация. Внутренняя связь включает в себя оповещения, которые можно отправлять по электронной почте, через служебные системы оповещения, голосовые или текстовые сообщения на мобильные устройства. Примеры внутренней коммуникации включают инструкции по эвакуации из здания и встречи в точках сбора, обновленную информацию о развитии ситуации и уведомления о том, когда можно безопасно вернуться в здание.
Внешние коммуникации еще более важны для плана обеспечения непрерывности бизнеса и включают инструкции о том, как уведомить членов семьи в случае травмы или смерти; как информировать и обновлять ключевых клиентов и заинтересованные стороны о статусе стихийного бедствия; и как обсуждать бедствия со СМИ.
Шаблон плана аварийного восстановления
Организация может начать DRP со сводки жизненно важных шагов и списка важных контактов, чтобы самая важная информация была быстро и легко доступна.
В плане должны быть определены роли и обязанности членов группы аварийного восстановления и изложены критерии для запуска плана в действие. Затем в плане следует подробно указать действия по реагированию на инциденты и восстановлению.
Другие важные элементы шаблона плана аварийного восстановления включают:
- заявление о намерениях и заявление о политике аварийного восстановления;
- планировать цели;
- инструменты аутентификации, такие как пароли;
- географические риски и факторы;
- советы по работе со СМИ;
- финансовая и юридическая информация и действия; а также
- история изменений плана.
Тестирование вашего плана аварийного восстановления
DRP подтверждаются посредством тестирования, которое выявляет недостатки и предоставляет возможности для устранения проблем до того, как произойдет авария. Тестирование может предоставить доказательство того, что план эффективен и достигает целевых значений RPO и RTO. Поскольку ИТ-системы и технологии постоянно меняются, тестирование аварийного восстановления также помогает обеспечить актуальность плана аварийного восстановления.
Причины отказа от тестирования DRP включают бюджетные ограничения, ограничения ресурсов или отсутствие одобрения руководства. Тестирование аварийного восстановления требует времени, ресурсов и планирования. Это также может быть рискованно, если в тесте используются данные в реальном времени.
Тестирование аварийного восстановления может различаться по сложности. При рассмотрении плана подробное обсуждение DRP ищет недостающие элементы и несоответствия. В настольном тесте участники шаг за шагом проходят через план действий, чтобы продемонстрировать, знают ли члены группы аварийного восстановления свои обязанности в чрезвычайной ситуации. В имитационном тесте используются такие ресурсы, как сайты восстановления и системы резервного копирования, что по сути является полномасштабным тестом без фактического аварийного переключения.
План управления инцидентами и план аварийного восстановления
План управления инцидентами (IMP) - или план реагирования на инциденты - также должен быть включен в план аварийного восстановления; вместе они создают комплексную стратегию защиты данных. Цель обоих планов - минимизировать влияние неожиданного инцидента, восстановиться после него и как можно быстрее вернуть организацию к нормальному производственному уровню. Однако планы управления инцидентами и планы аварийного восстановления - это не одно и то же.
Основное различие между планом управления инцидентами и DRP заключается в их основных целях. План управления инцидентами направлен на защиту конфиденциальных данных во время события и определяет объем действий, которые необходимо предпринять во время инцидента, включая конкретные роли и обязанности группы реагирования на инциденты. Напротив, DRP фокусируется на определении целей восстановления и шагов, которые необходимо предпринять, чтобы вернуть организацию в рабочее состояние после возникновения инцидента.