Оценить:
 Рейтинг: 0

Эксплуатация ЦОД. Практическое руководство

Год написания книги
2023
Теги
<< 1 ... 5 6 7 8 9 10 11 >>
На страницу:
9 из 11
Настройки чтения
Размер шрифта
Высота строк
Поля

• Есть ли оборудование, в данный момент выведенное из работы? Запишите его маркировку (если имеется), зафиксируйте, какое именно это оборудование и где оно находится. Сверьтесь с дежурным инженером, может ли он подтвердить все это документально.

• Есть ли информация о версионности документов, доступных вам для обозрения? Помните, что схемы не должны быть старше двух лет, а документация – старше трех лет от текущей даты.

О чем спросить главного инженера / руководителя ЦОД (желательно без предварительной подготовки со стороны службы эксплуатации):

• За организацию эксплуатации каких систем он отвечает? Записано ли это в его должностной инструкции?

• Актуальный список обслуживания оборудования, не выполненного в срок за последний год. Где его можно посмотреть?

• Актуальный список дежурных инженеров, не прошедших плановые тренировки в текущем месяце. Где его можно посмотреть?

• История всех отказов и обслуживания кондиционера ХХ (подставьте номер, который вы запомнили из предыдущего обхода) за последний год.

• Сколько подобных аварий было на другом аналогичном оборудовании? Есть ли учет ошибок и их анализ?

• При каком уровне нагрузки ЦОД надо начинать закупку дополнительных новых ИБП? Задокументировано ли это, есть ли планирование, можно ли все подтвердить документально?

• Какие риски существуют на данный момент для вашего ЦОД? Где это задокументировано?

• Что такое парные нагрузки? Как вы контролируете парные нагрузки? Какие именно парные нагрузки контролируете?

• Спросите о выведенном из работы оборудовании, которое вы отметили в прошлой части во время обхода. Есть ли соответствующие записи в отчете дежурных за смену?

• В каком виде и где хранится текущая документация по эксплуатации, внутренние политики и процедуры?

Затем посетите дежурную смену без руководителя и спросите по очереди дежурных инженеров (лучше в режиме один на один):

• За оперативное управление какими системами отвечает дежурный? Почему и где это записано?

• Кому дежурный отправляет отчеты при передаче смены? Почему и где это записано?

• Использует ли дежурный на обходе чек-лист? Почему и где это записано?

• Как дежурный контролирует работу подрядчиков? Почему и где это записано? (Во всех этих ответах информация должна совпадать с рассказом главного инженера.)

• В каком штатном положении должны быть выключатели из щита, который вы отметили? Почему и где это записано?

• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?

• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.

• В какой момент надо заказывать материалы на склад? Почему и где это записано?

• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?

• Когда следующая тренировка у дежурного и на какую тему?

• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?

• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?

Методики оценки

В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:

• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?

• DO – выполняется ли запланированное?

• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?

• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?

Применительно к процессу эксплуатации ЦОД приведем простой пример.

Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).

Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:

• Проактивность. Есть ли совершенствование процессов, процедур?

• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?

• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?

Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.

Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:

• Facility Operations Maturity Model[33 - Schneider electric IT mission critical services & software, inc. 2013.] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.

• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.

• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure[34 - https://uptimeinstitute.com/publications/asset/asset-executive-handbook-risk-management-for-it-infrastructure.].

Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.

В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.

Персонал службы эксплуатации

Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.

В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).

За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.

Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.
<< 1 ... 5 6 7 8 9 10 11 >>
На страницу:
9 из 11