Оценить:
 Рейтинг: 0

Эксплуатация ЦОД. Практическое руководство

Год написания книги
2023
Теги
<< 1 2 3 4 5 6 ... 11 >>
На страницу:
2 из 11
Настройки чтения
Размер шрифта
Высота строк
Поля

Отметим, что описанная ниже модель эксплуатации даст результат только в случае реального осмысления принципов, описанных в этой книге, адаптации их под ваши процессы и самостоятельного внедрения с каждодневным использованием. В этом случае вы получите самоподдерживающуюся экосистему процессов и документации, позволяющую сохранять информированность сотрудников и качество процессов на уровне, позволяющем пройти любой аудит без предварительной подготовки.

В случае же разового точечного внедрения данной системы с целью пройти конкретный аудит вы, конечно же, достигнете временного результата, но все ваши усилия будут напрасны в долгосрочной перспективе, и каждый новый аудит будет вызывать страх и авральные приготовления как руководства, так и рядового персонала.

Мы также не рекомендуем заказывать услуги по созданию документации службы эксплуатации «под ключ». Это внедрение приведет к аналогичному временному результату. Без участия персонала – как руководящего звена, так и рядовых дежурных сотрудников – это все не будет работать. Важно платить деньги не за готовые формальные документы, а за качественное обучение вашего персонала, который сам уже потом применит полученные знания и создаст все требуемые процессы и инструкции, возможно, даже где-то улучшив предложенную концепцию.

Также следует бороться с формальным подходом к процессам со стороны дежурных инженеров ЦОД. Чаще всего он выражается в некачественном ведении отчетности, недостаточном контроле за работой подрядчиков, заполнении чек-листов не в процессе выполнения задачи, а задним числом (например, обход объекта без чек-листа и заполнение его потом). Руководству требуется вести непрерывный контроль, разъяснительную работу, мотивирование и выборочные проверки качества выполнения процедур дежурными, иначе все усилия руководителей могут быть перечеркнуты отношением сотрудников. А лучшим стимулом является собственный пример. Одновременно надо оценивать внедряемые процедуры и документы на предмет минимизации всего того, что требуется заполнять или отправлять в виде отчета. Новые процессы и документы должны упрощать работу руководителей и сотрудников, а не усложнять ее.

Виды ЦОД

Согласно ГОСТ Р 58811–2020, п. 3.1.13, «Центр обработки данных; ЦОД: Специализированный объект, представляющий собой связанную систему ИТ-инфраструктуры и инженерной инфраструктуры, оборудование и части которых размещены в здании или помещении, подключенном к внешним сетям, как инженерным, так и телекоммуникационным».

С точки зрения процессов под центрами обработки данных (ЦОД) мы будем подразумевать такие ИТ-площадки, которые достигли некоторого объема и зрелости процессов внутри организации, позволяющих организовывать эксплуатацию инженерной инфраструктуры отдельно от ИТ-инфраструктуры. В противном случае, когда поддержкой инженерной инфраструктуры ЦОД по старой памяти продолжает заниматься команда ИТ-отдела, это малоэффективно.

Наилучшее решение здесь – использование услуг колокации.

Колокация, колокейшн (от англ. colocation, сокращенно colo) – услуга, состоящая в том, что провайдер услуги размещает оборудование клиента в своем дата-центре, подключает его к электричеству, обеспечивает обслуживание и подключение к каналам связи с высокой пропускной способностью[4 - https://ru.wikipedia.org/wiki/Колокация, с изменениями.].

Данная услуга востребована, так как для поддержания инженерной инфраструктуры ЦОД неспециализированной ИТ-компании потребуется достаточно большое количество непрофильных для нее процессов и специалистов, таких как электрики, механики и т. д.

По построению инфраструктуры и организации эксплуатации ЦОД условно можно разделить на три категории:

• Корпоративные ЦОД. Для внутренних ИТ-нужд организаций.

• Гиперскейл-ЦОД[5 - От англ. hyperscale, букв. «сверхмасштабные»; обладающие весьма значительными площадями и ресурсами по сравнению с другими центрами обработки данных и имеющие возможность сравнительно быстрого наращивания площадей и ресурсов. Часто также называются «гипермасштабируемые ЦОД».], дата-центры крупных интернет-компаний, мировых лидеров ИТ-индустрии.

• Колокейшн-провайдер ЦОД[6 - От англ. colocation provider, букв. «поставщик услуг совместного размещения». Часто можно встретить также названия «многопользовательский ЦОД» в русскоязычной среде и multi-tenant data center (MTDC) в англоязычной среде.]. Коммерческие дата-центры.

Корпоративные ЦОД в большинстве случаев относительно просты по уровню резервирования и обслуживания. Круг решаемых задач очевиден и формулируется заранее, что позволяет выбрать, например, однотипное оборудование с низкими требованиями к параметрам окружающей среды. У таких ЦОД лишь один внутренний клиент, с которым достаточно просто договориться об остановке ЦОД для проведения каких-либо работ. Естественно, есть корпоративные ЦОД, отказ которых может быть видимым для всех, и к таким ЦОД предъявляются самые жесткие требования по инженерной структуре и бесперебойной работе. Но обычно это характерно лишь для достаточно крупных организаций, а в остальных случаях корпоративный ЦОД – просто «серверная комната».

Гиперскейл-ЦОД – гипермасштабируемые ЦОД, зачастую имеют меньшее резервирование компонентов инженерной инфраструктуры, так как падение ЦОД может быть компенсировано другими ЦОД этой же организации, что значительно удешевляет строительство ЦОД при мощности в сотни мегаватт. Такие ЦОД могут позволить себе использовать специально заказанное у вендора ИТ- и телеком-оборудование, способное работать в гораздо более широких температурных диапазонах с очень низкими запросами к внешней среде (например, нормальная температура эксплуатации до +40 °C без требований к уровню влажности), позволяя упростить системы охлаждения и требования к ним.

Колокейшн-провайдеры – компании, предоставляющие места в своих ЦОД для коммерческих клиентов. Тут применяются наиболее жесткие требования по беспрерывной работе и температурно-влажностным режимам по причине того, что диапазон размещаемого оборудования может быть очень широк по своим эксплуатационным параметрам и ЦОД должен соответствовать самым жестким требованиям. Для колокейшн-провайдеров характерны дополнительные специфические аспекты, которые требуют четкой регламентации, например наличие службы физической безопасности и отдела поддержки клиентов.

Соответствие сертификационным стандартам и действующим нормам

Для ЦОД, особенно коммерческих, важно соответствие международным стандартам. В данном случае мы будем говорить только о тех стандартах или частях стандартов, которые относятся к службе эксплуатации ЦОД, не затрагивая аспекты строительства инфраструктуры, безопасности и т. д. Даже если вы не проходите официальную сертификацию, существуют еще и внутренние аудиты от клиентов ЦОД или внутренних служб, которые должны удостоверять, что эксплуатация выстроена правильно. Таким образом, целесообразно оценивать свою деятельность именно по существующим стандартам.

Для этого мы рассмотрим основные зарубежные и отечественные стандарты и нормативные документы, регламентирующие операционную деятельность ЦОД.

Uptime Institute Tier Standard: Topology (TS: T)

Стандарт американской консалтинговой компании Uptime Institute знаменит тем, что именно в нем излагается разработанная компанией и ставшая широко известной по всему миру классификация ЦОД по четырем уровням надежности (Tier), многократно повторенная позже в других стандартах.

Поскольку мы по ходу изложения будем упоминать эти уровни, напомним читателю об их сути и принципиальных отличиях.

• Tier I предполагает наличие базового набора элементов, позволяющего ЦОД выполнять свои функции;

• Tier II подразумевает наличие резервирования активных компонентов инфраструктуры (ДГУ, ИБП, чилеры, внутренние блоки системы кондиционирования и пр.);

• Tier III определяется такой топологией, которая позволяет проводить плановое обслуживание систем и любых их компонентов без прерывания работы ЦОД;

• Tier IV обеспечивает работоспособность ЦОД при любом единичном отказе в любой точке инфраструктуры.

С точки зрения эксплуатации ЦОД, Tier I и Tier II предполагают вынужденные остановки ЦОД на обслуживание, в то время как Tier III и Tier IV позволяют выполнять все необходимые работы по обслуживанию ЦОД без прерывания сервисов. Это обстоятельство, наряду со сравнительной простотой реализации ЦОД уровня Tier III по сравнению с Tier IV, обуславливает широкое распространение ЦОД уровня Tier III как в России, так и за рубежом.

Однако данный стандарт, излагая классификацию и принципы реализации ЦОД всех четырех уровней, никак не затрагивает подходы к эксплуатации и техническому обслуживанию ЦОД. Они описаны в другом стандарте Uptime Institute, о котором мы говорим далее.

Uptime Institute Tier Standard: Operational Sustainability (TS: OS)

На наш взгляд, это наиболее полный по содержанию документ, в общих принципах описывающий все аспекты эксплуатации ЦОД. Стандарт состоит из трех разделов: 1) Management and Operations («Управление и эксплуатация»); 2) Building Characteristics («Характеристики здания»); 3) Site Location («Место расположения здания»).

Первый раздел затрагивает следующие категории:

• подбор персонала и организация работ;

• обслуживание;

• обучение;

• планирование, координация и управление;

• условия эксплуатации.

Выполнение только первого раздела дает аттестацию Management and Operations (M&O), проводимую Uptime Institute. Второй и третий разделы требуются для прохождения полноценной сертификации Operational Sustainability («Эксплуатационная устойчивость») как завершающей части еще двух сертификаций: Design Documentation («Проектная документация») и Constructed Facility («Построенный объект»).

Второй раздел стандарта – Building Characteristics – также содержит требования к приемо-сдаточным испытаниям оборудования, что является неочевидным с точки зрения регламентирования этого требования. Наличие раздела Site Location также вызывает вопросы, так как на этапе оценки эксплуатационной устойчивости уже поздно оценивать само здание, хотя и можно учесть существующие риски природного, техногенного и антропогенного характера.

В данном стандарте не рассматриваются вопросы безопасности труда, пожарной защиты и физической безопасности.

Причина отсутствия регламента пожарных систем и безопасности труда у Uptime Institute достаточно логична – слишком много внутренних регуляторных документов внутри каждой страны для создания единого стандарта. По физической безопасности, вероятно, и так есть значительное количество других, профильных регламентирующих стандартов.

Можно утверждать, что при выполнении требований первой части стандарта (Management & Operations) в полном объеме большая часть документов, описанных в этой книге, будет у вас готова в той или иной степени автоматически.

Следует также отметить, что стандарт описан достаточно общими понятиями, и это затрудняет его внедрение без специальной подготовки и консультаций, получения примеров и наработок из внешних источников.

EN50600 Information Technology – Data Centre Facilities and Infrastructures

Это группа стандартов от СENELEC[7 - Comitе Europеen de Normalisation Еlectrotechnique (фр.) – Европейский комитет по стандартизации в электротехнике.] – Европейского комитета электротехнической стандартизации. EN в наименовании стандарта обозначает Europ?ische Normung (нем. «европейские нормы»). Тексты стандартов EN50600 рассматривают различные аспекты построения и эксплуатации ЦОД; непосредственно к эксплуатации в EN50600 относится часть 3–1, называемая Management and Operational Information.

Помимо вопросов, связанных с организацией эксплуатации и общих с предыдущим стандартом, в EN50600–3–1 немалое внимание уделено вопросам построения инфраструктуры, а значительная часть стандарта посвящена оценкам энергоэффективности (в соответствии с «зеленой» европейской повесткой) и содержит много информации по расчетам различных видов энергоэффективности, из которых нам традиционно знаком только PUE (Power Usage Effectiveness). В этом же стандарте мы можем увидеть расчеты не только PUE или WUE (Water Usage Effectiveness[8 - Эффективность утилизации воды (англ.).]), но и экзотические для нас REF (Renewable Energy Factor[9 - Фактор использования возобновляемой энергии (англ.).]) или CUE (Carbon Usage Effectiveness[10 - Эффективность утилизации углерода (англ.).]).

В отличие от Uptime Institute, этот стандарт достаточно подробно рассматривает системы физической безопасности и организацию противопожарных систем.

В целом документ можно иметь под рукой как дополнительный чек-лист для самопроверки при подготовке эксплуатации ЦОД, так как здесь отражено то, что должно быть сделано, но не даются ответы на вопрос «как?».

ANSI/BICSI 002–2019 Data Center Design and Implementation Best Practices

Это стандарт, выпущенный в США профессиональной ассоциацией BICSI (The Building Industry Consulting Service International Inc., Международная консалтинговая служба в строительной отрасли) и аккредитованный Американским национальным институтом по стандартизации (ANSI).
<< 1 2 3 4 5 6 ... 11 >>
На страницу:
2 из 11