Операторы данных иногда допускают ошибки, которые могут привести к остановке всего центра обработки данных. Однако большинства этих проблем можно избежать с помощью мер по техническому обслуживанию, процедур проверки, а также благодаря здравому смыслу и опыту операторов системы.
«Незапланированный сбой в работе центра обработки данных» — это вежливый способ сообщить о проблемах в центре обработки данных, которые приводят к простою. Независимо от того, является ли основной причиной ошибка оборудования, ошибка программного обеспечения или ошибка человека, большинство этих ошибок можно и нужно предотвратить заранее. Благодаря высокому уровню резервирования рисков в современных центрах обработки данных вполне возможно заранее предотвратить инциденты.
Одна интересная вещь заключается в том, что большие и маленькие ошибки все равно могут возникать в центре обработки данных постоянно, и ущерб, причиняемый прекращением работы центров обработки данных, немалый, даже на короткое время. Согласно исследованию Data Center Knowledge, простой центра обработки данных может стоить предприятиям около 7900 долларов за минуту. Фактически 93% компаний с простоем дата-центров 10 и более дней обанкротились в течение года, а 40% обанкротились сразу. А другое исследование 41 оцененного центра обработки данных показало, что средняя стоимость незапланированных простоев включает более 179 тысяч долларов из-за перерывов в работе, около 118 тысяч долларов из-за упущенной выгоды и около 42 тысяч долларов из-за производительности. Если бы менеджеры центров обработки данных просто больше сосредоточились на исследовании и устранении основных причин распространенных ошибок, они бы значительно снизили потенциальные риски.
Проблема в том, что многие операторы и операторы центров обработки данных часто больше внимания уделяют росту и доходам, вместо того, чтобы поддерживать и укреплять то, что уже есть. Если вы сегодня обратите внимание на администраторов во многих государственных и частных центрах обработки данных, вы увидите, что они почти исключительно озабочены увеличением емкости хранилища, увеличением плотности серверов и увеличением плотности серверов. системы охлаждения, например. Хотя все это замечательно, очень необходимо и демонстрирует невероятный рост индустрии хранения данных, это также показывает, почему центры обработки данных выходят из строя, что происходит все чаще и чаще.
В этой статье мы рассмотрим распространенные причины отключения центров обработки данных и выделим, что могут сделать администраторы, чтобы минимизировать или даже устранить их, полностью устранить эти проблемы, а также улучшить стабильность вашей системы.
Причины, приводящие к краху дата-центра
Ошибка, вызванная людьми
Это самые простые причины, но их труднее всего избежать. Проще говоря, каждый может ошибаться. Поскольку 22% сбоев вызваны человеческим фактором, эта причина заслуживает тщательного рассмотрения и, что немаловажно, ее можно относительно легко предотвратить.
Неправильная авторизация в системе
В действительности лишь немногие администраторы имеют полный и неограниченный доступ ко всем системам центра обработки данных. Вместо того, чтобы предоставлять это разрешение большему количеству людей, необходимо жестко контролировать доступ. В противном случае вполне возможно, что в системе может возникнуть серьезная ошибка. Например, в инциденте с Joyent в 2014 году опытный администратор случайно перезапустил все виртуальные машины в восточном дата-центре компании всего за несколько кликов.
Плохие процедуры резервного копирования
При планировании задач обслуживания важным, но часто забываемым шагом является процесс резервного копирования. Часто процессы документируются, но не проверяются тщательно, и во многих случаях после обслуживания все не восстанавливается полностью в исходную форму.
Внесение слишком большого количества изменений
Если во время обслуживания администратор попытается внести слишком много изменений одновременно, это может вызвать проблемы. Во-первых, у администраторов часто бывает спешка, поскольку им приходится выполнять большое количество задач за короткий период времени, что часто приводит к ошибкам. Во-вторых, поскольку за один и тот же период времени происходит так много изменений, устранение неполадок после изменений становится гораздо более сложной задачей.
Слабость в управлении человеческими ресурсами
Звучит жестковато, но сотрудники центра должны уметь строго следовать правилам и подвергаться жесткой дисциплинарной ответственности за их нарушение. Например, ни в одном центре обработки данных сотрудникам не разрешается есть и пить во время работы, а аварийные выключатели должны быть четко обозначены и закреплены. Эти вещи могут показаться незначительными, но могут привести к серьезным инцидентам, поэтому всегда строго соблюдайте правила.
Системная ошибка
Резервное питание не гарантируется, оборудование устарело или неправильно настроено.
Самая распространенная причина выхода из строя дата-центра – отключение электроэнергии. Отключения электроэнергии могут произойти в любой момент. Поэтому центры обработки данных проектируются с резервными источниками питания на случай сбоя основного питания. В качестве резервного источника питания часто используются батареи или генераторные системы. Проблема в том, что батарею можно не заменить вовремя, генератор не проверять и не обслуживать, что приводит к проблемам при отключении электроэнергии. Все это означает, что ваши возможности резервного копирования могут быть недоступны, когда они вам нужны больше всего.
В случае отключения электроэнергии системы ИБП используют батареи в качестве резервного источника питания, что делает их важной частью поддержания работоспособности центров обработки данных. Однако аккумулятор не всегда работает хорошо. Выполняйте техническое обслуживание, рекомендованное самими производителями, для проверки работоспособности аккумулятора. Не реже одного раза в квартал следует проверять батареи на предмет правильности установки, разрядки и зарядки. Сюда входят визуальные осмотры, проверки мощности и регулярный мониторинг с помощью программного обеспечения или самого поставщика ИБП.
Кроме того, высокие температуры могут сократить срок службы батареи системы. Создание специального помещения для ИБП может помочь сократить срок службы батарей. Вам также следует избегать частой разрядки аккумулятора и тщательно следить за ослабленными соединениями или изношенными разъемами. Короче говоря, ИБП — это особенно важная система, она требует разумного проектирования, правильного использования и строгого обслуживания.
Неисправность в системе охлаждения
Механические системы в дата-центре потребляют много электроэнергии, а значит, во время работы выделяют большое количество тепла. Дата-центр может превратиться в крематорий уже через минуту работы. Вот почему система охлаждения так важна. И даже если у вас есть показания датчиков температуры и оповещения, отправленные администраторам, вы должны быть уверены, что у вас достаточно времени, чтобы реализовать резервные процедуры охлаждения центра, прежде чем все расплавится.
Кроме того, многие системы охлаждения на самом деле не предназначены для того, чтобы справляться с повышенным уровнем тепла в современном центре обработки данных большой мощности. Опять же, планирование ситуаций, когда ваш центр обработки данных работает на 100% мощности, может помочь спланировать улучшение систем охлаждения в будущем. Также необходима настройка систем оповещения о колебаниях температуры в системе. Вы можете использовать программное обеспечение для теплового моделирования и некоторые системы DCIM. Кроме того, химические хладагенты являются лучшим выбором, чем системы на водной основе.
Процесс автоматического преобразования не работает должным образом
Большинство поставщиков услуг, организаций и предприятий имеют резервные центры обработки данных, используемые в качестве производственных центров обработки данных. В случае отключения электроэнергии в основном центре обработки данных автоматически запустится резервный центр обработки данных, и весь трафик будет перенаправлен на этот резервный центр. Если все сделано правильно, процесс должен быть гладким на всем пути до конечного пользователя. К сожалению, автоматическое переключение при сбое часто не работает должным образом. Обычной причиной этой проблемы является отсутствие регулярного тестирования. Даже небольшие изменения в производственной инфраструктуре могут оказать большое влияние на автоматическое переключение при отказе. Поэтому при внесении каких-либо изменений в инфраструктуру необходимо будет протестировать автоматизированные процедуры аварийного переключения, чтобы убедиться, что ничего не отклонилось от процесса.
Устаревшее оборудование
Все оборудование каждой системы имеет определенный срок службы. И чем дольше вы используете аппаратное обеспечение, тем больше вероятность столкнуться с проблемами. Все это знают, но важное приложение часто выходит из строя только потому, что оно работает на оборудовании 10-летней давности. Эти проблемы часто возникают из-за отсутствия комплексных планов замены и обновления новых аппаратных или программных платформ или из-за нехватки бюджета. Если дело в деньгах, то ничего не поделаешь. Но если вы просто попытаетесь воспользоваться преимуществом как можно дольше, проблема может возникнуть в любой момент, и когда это произойдет, ущерб, причиненный проблемой, может быть намного больше.
В системе пожаротушения возникла проблема с утечкой воды.
В большинстве современных дата-центров используются безводные системы противопожарной защиты, чтобы они не повредили оборудование при намеренном или случайном включении. Но многие старые объекты по-прежнему используют традиционные системы противопожарной защиты в своих центрах обработки данных. Многие утечки воды привели к серьезным отключениям электроэнергии.
Аварийное отключение питания активировано случайно
Высокий уровень физической безопасности, существующий в большинстве центров обработки данных, не просто отпугивает воров. Они также созданы для того, чтобы избегать сотрудников, которые не понимают, как работает центр обработки данных. Например, администратор приложения заходит в центр обработки данных и случайно включает аварийное отключение питания (EPO). EPO — это большая красная кнопка, отвечающая за отключение питания всей системы. И очевидно, что для тех, кто не понимает или не имеет опыта, такая путаница вполне возможна.
Под кибератакой, ddos
За прошедшие годы кибератаки стали одной из основных причин сбоев центров обработки данных: с 2% в 2010 году до 22% в 2016 году. Операторы Центров обработки данных должны принять меры по созданию систем для раннего обнаружения и снижения рисков атак.
Дата-центры сложно защитить от масштабной DDoS-атаки . Большинство интернет-провайдеров предоставляют некоторую защиту на уровнях 3 и 4 сети, но вашим сервисам необходима дополнительная защита на уровне 7, на которую можно специально нацелиться с помощью HTTP GET или вызовов аналогичной атаки. Службы смягчения последствий, такие как межсетевые экраны, IPS/IDS и DDoS, можно комбинировать для перенаправления трафика.
Природная катастрофа
Недавнее увеличение количества ураганов и наводнений может привести к серьезным нарушениям в работе центров обработки данных. В 2010 году в США произошло более 250 стихийных бедствий. По статистике, штат Нью-Джерси, США, понес убытки в размере $63,9 млрд из-за перерыва в работе бизнеса, вызванного ураганом «Сэнди» в 2012 году.
Меры по ограничению ущерба, причиненного инцидентами «обрушения» центров обработки данных
Если время простоя для планового технического обслуживания тщательно спланировано и клиенты заранее предупреждены о простоях центра, особенно в период низкой посещаемости, клиенты будут более сочувствующими, и ущерб будет значительно уменьшен. Наибольший ущерб возникает тогда, когда он возникает неожиданно и особенно когда он длится долго и возникают дополнительные проблемы. Поддерживайте стабильность всей системы ресурсов компании, чтобы сотрудники могли эффективно выполнять свою работу, снижая нагрузку на ИТ-отделы.
Конкретно:
- Создайте резервную копию своих данных: на случай сбоя в центре обработки данных ваши данные (и, что более важно, данные ваших клиентов) должны быть готовы к началу работы. Начните устранение неполадок и запустите снова. Выполнение регулярного резервного копирования снижает риск реального сбоя. Если ваша компания может себе это позволить, некоторые продукты, такие как линейка продуктов EMC VPLEX или программное обеспечение VEEAM для резервного копирования и репликации, могут помочь минимизировать время простоя за счет автоматического переключения на место резервного копирования.
- Поддерживайте регулярный мониторинг серверной системы. Мониторинг — это услуга, которую вы можете выполнять регулярно и обычно она не стоит слишком дорого. Сторонняя служба мониторинга уведомляет вас о потенциальном простое сервера, чтобы вы могли немедленно решить проблему.
- Сведите к минимуму человеческие ошибки: соблюдайте осторожность при работе или обходе серверных систем или электропроводки, чтобы случайно не повредить их, или просто не прикасайтесь к таинственным переключателям без вашего опыта. Держите жидкости вдали от механических систем. Вызывайте специалиста по защите данных каждый раз, когда серверу требуется обновление или обслуживание, и соблюдайте правила центра.
Каждый центр обработки данных, от небольших центров до объектов корпоративного масштаба и поставщиков услуг, должен стремиться на 100% предоставлять надежные услуги пользователям. Потратив время на планирование будущего, следуя принципам технического обслуживания и человеческого фактора, ваш центр обработки данных сможет избежать некоторых из наиболее распространенных причин сбоев.
узнать больше