По сравнению с моноблочными системами модульные ИБП отличаются более легкой масштабируемостью, минимальным временем восстановления после аварии. Такие системы оптимальны для наращивания мощности ЦОД до любых пределов с минимальными затратами.
Выбор аккумуляторных батарей
Зачастую приходится сталкиваться с проектировщиками, которые указывают в проекте минимальное время автономной работы от аккумуляторов ИБП 5 минут. Как показывает практика, этого времени недостаточно в силу ряда причин:
1. Как правило, минимальное время рассчитывается для новых ИБП, что подразумевает использование новых аккумуляторов. Однако со временем емкость батарей падает, количество батарей в линейке уменьшается, что приводит время автономии в нашем примере почти к нулевому значению.
2. Может случиться, что ДГУ в момент запуска в силу ряда причин дадут сбой и для их перезапуска потребуется больше времени, чем ожидалось. В этом случае емкости батарейного массива просто не хватит до выхода ДГУ на рабочий режим.
В связи с этим мы рекомендуем не пренебрегать временем автономной работы и в ТЗ указывать его на уровне 10–15 минут в конце жизненного цикла батарей.
Так, согласно стандарту ANSI/TIA-942-B в редакции 2017 г., рекомендуемое минимальное время автономной работы в конце жизненного цикла батарей составляет 10 минут для любого уровня надежности ЦОД.
Фрагмент ANSI/TIA-942-B в редакции 2017 г. Время автономии в конце жизненного цикла
В некоторых встречающихся в интернете неофициальных переводах стандарта на русский язык не говорится о времени автономии в конце жизненного цикла (см. фрагмент таблицы ниже), что, на наш взгляд, очень серьезное упущение, в корне меняющее подход к проектированию. В этой связи предлагаем вам опираться на оригинальный англоязычный текст стандарта.
Пример неофициального перевода стандарта
Отказ от использования локальных устройств бесперебойного электропитания в пользу централизованных ИБП
Пожарные и охранные системы традиционно имеют свои блоки питания с небольшими батареями, а для рабочих мест операторов зачастую используются локальные ИБП. Таких элементов может быть очень много, и они распределены по всей территории ЦОД, доставляя службе эксплуатации массу хлопот как при проведении ТО батарей, так и при устранении аварий. Чтобы избежать этих сложностей, достаточно подключить блоки питания к системе бесперебойного электроснабжения ЦОД, тем самым избавившись от сотен точек обслуживания и потенциальных отказов. Стоит заметить, что в данном случае возникает риск отключения подключенных систем при пропадании питания от ИБП; для минимизации этого риска можно подключать щиты пожарной сигнализации и охранных систем к двум независимым линиям ИБП.
Удобство обслуживания и эксплуатации оборудования
От качественного выбора оборудования зависят простота и удобство монтажных работ и дальнейшая эксплуатация этого оборудования. К данному вопросу надо подходить очень осторожно.
Например, в некоторых моделях модульных ИБП известных брендов внутренняя компоновка элементов выполнена таким образом, что во время эксплуатации при переключениях оборудования приходится нагибаться практически до самого пола, чтобы отключить или включить вводной автомат.
Аналогично и с силовыми модулями. Вот еще пример: при компоновке силовых модулей в верхней части ИБП замена верхних модулей становится невозможной силами дежурной смены. Ведь модуль надо будет поднять на уровень выше 2 м при массе до 50 кг. Во-первых, это неудобно, а во-вторых, один работник просто не сможет этого сделать. К тому же центр тяжести такого оборудования будет расположен высоко, что скажется на устойчивости оборудования.
А если в одиночку силовой модуль не заменить, значит, такие модульные ИБП теряют часть своих преимуществ.
Помимо качественного выбора оборудования, хотелось бы сказать о его однотипности. К такому оборудованию можно отнести, например, ИБП, аккумуляторы, кондиционеры и т. д. Использование однотипного оборудования способно во многом облегчить жизнь службе эксплуатации: это и взаимозаменяемость узлов и компонентов, и сокращение расходов на проведение ТО, уменьшение склада ЗИП, упрощение повседневных манипуляций, уменьшение количества необходимых инструкций и сопутствующей документации. Однако у применения однотипного оборудования существует и обратная сторона, которая потенциально может повышать риски для ЦОД. Прежде всего это проблемы, возникающие при прекращении производства и поддержки вендором того или иного оборудования. В такой ситуации придется заменить весь парк используемого однотипного оборудования; серьезной проблемой может стать необходимость получения запчастей и расходных материалов. Кроме того, период пандемии 2020–2021 гг. и в особенности внешнеполитические события 2022 г., повлекшие разрушение цепочек поставок оборудования, продемонстрировали рациональные стороны использования разнородного оборудования для тех или иных задач. Довольно любопытной в этом контексте является рекомендация стандарта ANSI/BICSI-002–2019 по использованию в ЦОД (по крайней мере высокого уровня готовности) именно разнородного оборудования различных производителей. Несмотря на усложнение процессов обслуживания и эксплуатации, это позволяет застраховаться от рисков, вызываемых применением однородного оборудования.
Какую из этих стратегий выбрать – решать вам. Мы в свое время остановились на использовании однотипного оборудования, но с полным осознанием возможных рисков такой стратегии.
Резервирование систем
При проектировании, построении и дальнейшей эксплуатации ЦОД очень важную роль играет резервирование оборудования. Резервирование является ключевым фактором в обеспечении надежности систем и дает возможность непрерывной эксплуатации ЦОД при проведении необходимых работ по техническому обслуживанию оборудования. Поскольку мы будем часто обращаться к этому понятию по мере изложения, давайте рассмотрим подробнее, что такое резервирование и каковы те схемы резервирования, которые применяются при построении инженерных систем.
ГОСТ Р 27.102–2021 «Надежность в технике. Надежность объекта. Термины и определения» формулирует термин «резервирование» как «способ обеспечения надежности объекта за счет использования дополнительных средств и/или возможностей сверх минимально необходимых для выполнения требуемых функций». Как следует из определения, резервирование предполагает избыточность компонентов системы, позволяющую использовать эти избыточные компоненты при отказе какого-либо базового компонента без прерывания работы системы в целом. Таким образом, базовая модель резервирования может описываться формулой N + R, где N[30 - В разных трактовках – от англ. need, necessary или normal.] обозначает число элементов, необходимых для нормальной работы, а R[31 - От англ. redundant.] – число дополнительных избыточных компонентов. Такое резервирование часто называют резервированием на уровне компонентов. Простейшей и наиболее распространенной схемой резервирования[32 - Такая популярность обусловлена простотой реализации и ее сравнительно невысокой стоимостью.] является N + 1, однако встречаются варианты N + 2 или с большим числом элементов R.
Несмотря на очевидную простоту и эффективность резервирования по схеме N + R, ее не всегда бывает достаточно для обеспечения необходимого уровня надежности. Существуют системы, где, несмотря на избыточность отдельных компонентов, сохраняются единые точки отказа, являющиеся уязвимым местом системы в целом. В качестве примера можно привести систему бесперебойного электропитания из нескольких ИБП с общим байпасом. Для устранения рисков выхода таких систем из строя применяют резервирование более высокого уровня – не на уровне компонентов, а на уровне систем. На практике это означает установку двух (или более) идентичных взаиморезервирующих систем, а само резервирование в таком случае обозначают формулой ХN, где N – система из N компонентов, а Х – число таких систем. Наиболее частой схемой резервирования такого рода является 2N, где устанавливаются две идентичные системы. Такая схема резервирования является сравнительно дорогой (фактически необходимо приобрести удвоенное количество оборудования), однако именно она позволяет обеспечить для ИТ-нагрузки два независимых ввода питания и/или контура охлаждения, что необходимо для безостановочной работы ИТ-оборудования и, следовательно, непрерывной работы сервисов, предоставляемых ЦОД.
Зачастую используется комбинация двух оговоренных выше схем резервирования – и на уровне систем, и на уровне компонентов. В этом случае формула приобретает вид X(N + R). Сравнительно популярной схемой такого рода является 2(N + 1), широко применявшаяся в первом десятилетии XXI в.; сегодня ее можно встретить все реже, что обусловлено высокой стоимостью ее реализации.
Выше мы отметили, что резервирование XN (обычно 2N) позволяет обеспечить для нагрузки независимые линии электропитания. Данное преимущество имеет обратную сторону в виде удвоенной стоимости системы электропитания. Для сохранения возможности обеспечения двух независимых линий электропитания нагрузки и при этом снижения вложений в систему электропитания в последние годы все чаще используются дробные схемы резервирования, которые можно выразить в формате (X/Y)N. В этом случае X означает число установленных элементов в системе, а Y – число групп нагрузок, подключенных к каждому из элементов. Иными словами, суть построения таких систем заключается в сегментировании нагрузки и применении элементов меньшей мощности, нежели в случае резервирования 2N. Поясним это на примере систем ИБП на схемах ниже.
Отношение мощности ИБП к мощности нагрузки можно понимать как коэффициент загрузки оборудования. Чем меньше это соотношение, тем эффективнее загрузка. То есть при резервировании 2N загрузка оборудования составляет 50 %, при резервировании (3/2)N – 66,7 %, а при резервировании (4/3)N – 75 %.
Как можно заметить, во всех приведенных случаях каждая группа нагрузок получает электропитание от двух независимых линий, однако при этом уровень затрат на систему электропитания снижается за счет установки менее мощных (и, следовательно, более дешевых) устройств и понижения общего уровня установленной мощности системы электропитания.
При построении систем с дробным уровнем резервирования усложняется система кабельной разводки, увеличивается объем необходимых материалов и работ. Также схемы, отражающие работу подобных систем, менее наглядны для персонала и трудны для понимания, что увеличивает риск человеческой ошибки. Однако стоимость систем при низких уровнях дробного резервирования все равно сравнительно невелика. Предел рациональности при построении систем с дробным резервированием достигается на уровне (6/5)N; более сложные уровни резервирования перестают быть привлекательными как в силу значительного усложнения систем, так и в силу потери экономических преимуществ.
Рис. 3. Резервирование 2N
Рис. 4. Резервирование (3/2)N
Рис. 5. Резервирование (4/3) N
Оценка текущего уровня процессов службы эксплуатации. Чек-лист для проверки ЦОД
Как руководителю определить текущий уровень процессов службы эксплуатации своего предприятия? Каким образом можно оценить состояние службы эксплуатации ЦОД для потенциального размещения своего оборудования? Во втором случае мы говорим исключительно об оценке эксплуатационной деятельности, не затрагивая вопросы резервирования и прочего, а также вопросов физической безопасности службы поддержки клиентов, так как это отдельные большие темы.
Для этого требуется посетить ЦОД, просмотреть эксплуатационную документацию, совершить обход как серверных помещений, так и помещений с инженерным оборудованием, провести беседы с руководителями эксплуатации и дежурным персоналом.
Примерный чек-лист для определения уровня зрелости службы эксплуатации ЦОД
• Есть ли проактивные меры по уменьшению загрязнений (бахильная машина, липкие ковры)?
• Не просрочены ли огнетушители или газ в системе газового тушения? Даты поверки и заправки указаны на огнетушителях и баллонах с газом?
• Чисто ли на территории? Нет ли посторонних предметов в серверных, не относящихся к деятельности ЦОД (например, шкафы, мебель, упаковочные материалы и т. п.)?
• Есть ли посторонние предметы в стойках (например, коробки и пакеты)?
• Присутствуют ли заглушки в холодных коридорах, закрыты ли излишние отверстия и щели в полу?
Рис. 6. Применение бахильной машины
Рис. 7. Применение липких ковров
• Есть ли заглушки на выключенных кондиционерах, препятствующие обратному перетоку холодного воздуха?
• Поддерживается ли подпор подаваемого вентиляцией воздуха внутри серверных помещений? Каким образом это контролируется?
• Каково состояние подфальшпольного пространства? Нет ли мусора под фальшполом?
Рис. 8. Мусор под фальшполом
• Есть ли документ, описывающий процедуру уборки? Указано ли там, где и каким способом следует ее проводить?
• Есть ли маркировка оборудования в едином формате? Хорошо ли она видна?
• Есть ли в щитовом оборудовании, кондиционерах, задвижках и т. д. маркировка положений по умолчанию? Запишите положение выключателей любого щита. Запишите положение любой задвижки. Это пригодится дальше.
• Аккуратно ли хранятся материалы на складе? Как происходит учет материалов и мест их хранения? Сфотографируйте одну из полок стеллажа на складе. Это пригодится дальше.