На днях перевозил небольшую серверную на новое место.
Собрал всё на новом месте - один сервер не запустился. Сервер старый - 12 лет, ещё на SAS дисках 10k формата SFF (2.5") и железном контроллере LSI MegaRAID. Вот он то и подвёл. Просто перестал определятся. Соответственно, сам сервер работает, но диски не видит. Я и так, и сяк его покрутил, повертел, потряс, повтыкал - ничего не помогает. Сервер хоть и старый, но жаль его, свою работу он выполнял, и его 8 дисков в одном юните были очень кстати.
Это известная тема, когда выходит из строя рейд контроллер. Её всегда приводят в пример, когда спорят на тему, нужен ли он, или лучше использовать программную реализацию. Конкретно в этом споре мне довод о том, что рейд контроллер может сломаться, кажется нелепым. Сломаться может всё, что угодно. В любом случае должны быть бэкапы, чтобы не переживать за железо. У меня бэкапы были, уже развернул. Не без приключений, но всё получилось. Отдельно об этом расскажу.
Для меня выбор между железным рейдом и софтовым даже сейчас не очевиден. Да, рейд контроллер - это ещё одна точка отказа и его функциональность почти полностью может заменить программный рейд. Но в то же время отвязка системы хранения от ОС с управлением и мониторингом через BMC (Baseboard Management Controller), плюс, простая и понятная горячая замена дисков, тоже выглядят удобным. Если всё нормально настроено, сбойный диск просто начинает мигать красным. Ты его вынимаешь, заменяешь и запускается ребилд, либо диск встаёт в резерв, а ребил уже был выполнен резервным диском. Всё максимально просто, даже сервер выключать не надо.
В итоге я каждый раз ломаю голову при заказе нового сервера, брать нормальный рейд контроллер или нет, прокидывать диски в систему напрямую. А вы что предпочитаете?
По поводу переезда серверов лишний раз хочу напомнить, что если выключаете, а тем более перевозите оборудование, которое много лет работает онлайн, всегда держите в голове, что что-то может не включиться. Я много раз с этим сталкивался. Чем старее железо, тем больше вероятность, что оно не включится. И хорошо, если будет понятно, что вышло из строя, а это не всегда так. Там банально пластик пересыхает в проводах, пропадает контакт или становится нестабильным.
Конечно, хорошо полностью отвязаться от железа и арендовать облачные ресурсы. Но если взять, к примеру, этот сервер, который проработал 12 лет, и арендовать эти же ресурсы в облаке на такой же срок, то не ошибусь, если предположу, что расходов будет на порядок больше - раз в 10-20.
#железо