Профилактики: лучше меньше, да лучше
Профилактики: лучше меньше, да лучше
Понятно, что работа любого оборудования «на износ», без профилактик, планово-предупредительных работ (ППР) ни к чему хорошему не приводит. Это относится не только производственному оборудованию, но и к программно-аппаратным комплексам.
«Детские» болезни типа несоразмерной нагрузки или ошибок программирования лечатся достаточно просто. Сложнее с обслуживанием серверов, сетевого оборудования, линий связи. Их нужно обновлять, обслуживать, вносить изменения в настройки операционных систем, применять централизованные обновления, которые еженедельно поставляются разработчиком операционных систем.
При грамотной организации инфраструктуры совсем необязательно для этого останавливать работу информационной системы. Наличие резервных блоков питания и резервных дисков для хранения данных (мы обсуждали это выше) позволяет менять блоки на ходу (ИТ-специалисты называют это «горячей заменой»).
Ну а если надо выполнить более серьезный ремонт сервера или обновить на нем операционную систему? В этом случае начинает работать система резервирования. Именно благодаря ей выход из строя одного сервера никак не отражается на работоспособности системы, и пользователи этого не замечают.
Последовательно выводятся из эксплуатации сервер за сервером (кстати, аналогично работает спутниковая система, поддерживающая ГЛОНАСС или GPS, — часть спутников там всегда на профилактике), после чего на них выполняются профилактические работы и обновления. Чаще подобные операции проводятся ночью или в выходные дни, когда нагрузка на систему минимальная (стоимость простоя мы с вами оценивали).
Другой вид профилактических работ связан с развитием информационной системы. Развивается Корпорация — развивается и система, отставать нельзя. Значит, нужны регулярные остановки для проведения обновлений, корректировок и т. д.
Мы реализуем два основных подхода:
1. Сокращение количества и времени проведения профилактик за счет ритмичного графика внесения изменений в систему.
2. Дробление монолитной большой системы на части для того, чтобы разные модули системы можно было резервировать и выводить из эксплуатации поочередно (по аналогии с оборудованием).
Казалось бы, прост первый подход (профилактические остановки ИТ-сервисов можно рассматривать как переналадки оборудования на технологических линиях). Но для его реализации понадобилось несколько лет, потраченных на настройку и наладку оборудования, приведение его к единой целевой архитектуре, внесение значительных изменений в саму информационную систему.
В итоге:
• заменили ежедневную получасовую утреннюю профилактику на пятиминутную (!) профилактику по вторникам и четвергам;
• перенесли полную перезагрузку всех сервисов с внесением обновлений в информационные системы на воскресные вечера, в часы наименьшей нагрузки.
Время простоя системы из‑за профилактик сократилось в среднем в 10 раз. А значит, у клиентов появилось больше времени для заказа необходимой им продукции.
В книге «Эффективное производство в России? Да!» мы подробно обсуждали два варианта переналадки оборудования:
• операции, которые выполняются после остановки оборудования. Например, пресс-форму можно заменить только при остановленном прессе;
• операции, которые могут быть выполнены во время работы оборудования. Например, болты крепления пресс-формы можно подобрать и отсортировать и при работающем прессе.
Аналогия с ИТ очевидна — если рассматривать программноаппаратный комплекс как технологическую линию, а программистов и системных администраторов как наладчиков и ремонтников технологического оборудования. Серьезная предварительная подготовка наших профилактических остановок, перевод большинства «переналадок» в категорию «без остановки оборудования» дали существенные результаты по сокращению времени проведения профилактик без потери их качества.