Перейти к содержимому

Degraded raid что это

  • автор:

RAID degraded

Если из массива с избыточностью (1, 5, 6, 10, и другие комбинированные уровни) «выпадает» диск, то есть управляющая утилита помечает его как проблемный, то массив меняет свой статус на degraded или critical – в зависимости от терминологии конкретного оборудования.

Данные при этом доступны, массив продолжает работу. Просто он потерял избыточность и при проблемах с еще одним диском возможна потеря информации.

  1. Замените «выпавший» диск на новый. При этом не спешите старый диск выбрасывать, перезаписывать или пускать на запчасти. Пусть лежит до самого конца процедуры.
  1. Запустите «перестроение» (rebuild), если оно не запустилось автоматически.

По окончании процедуры массив примет прежний нормальный статус, к нему вернется избыточность. Пока вы не убедитесь, что данные на месте и все цело, ничего не делайте с вынутым диском.

Чего делать нельзя?

  1. Не пытайтесь уговорить массив работать с «выпавшим» диском. Не запускайте перестроение с исключенным участником, вживляя его заново.
  1. Ничего не делайте средствами устройства или контроллера, если в статусе degraded данные не доступны. Это говорит о некорректной работе оборудования. Вам уже нужна помощь специалистов. Перестроение в таком состоянии грозит дополнительными разрушениями, иногда фатальными.
  1. Не игнорируйте сообщения raid-утилиты. Если она предупреждает, что операция опасна для данных, так оно и есть. Возможно, вы делаете что-то не то. Стоит остановиться.

Перечисленные пункты позже будут проиллюстрированы конкретными примерами из практики. К сожалению, многие наши клиенты столкнулись с серьезными проблемами, допустив ошибки именно в этих простых шагах. Не повторяйте их.

Оставить заявку на консультацию, чтобы задать любые вопросы, можно в форме ниже

RAID degraded

Обращайтесь в лучшую компанию по восстановлению данных

Закажите бесплатную диагностику

Халатность сисадмина

Однажды утром раздался звонок. Молодой человек сообщил, что у него упал RAID5 массив из пяти SCSI винчестеров и требуется восстановление данных. Сказал что из области и приедет через пару часов. С учетом московских пробок приехал только под закрытие, оставив нам на диагностику полчаса. Сервер привез целиком, около 30 кг 🙂

Получаса хватило, что бы констатировать страшный факт. Данные на всех винчестерах из массива: уничтожены.

Со слов системного администратора, ситуация была следующая. Сервер работал, к нему обращались пользователи…. документы, 1С бухгалтерия и т.п. Заметили, что к одному из дисков нет обращения, не моргает лампочка. БИОС RAID контроллера показывает что массив поврежден (Array DEGRADED), но данные при этом читаются, хоть и скорость работы сервера заметно упала. Решили сделать «благое» дело. Вставить вместо сломанного винчестера новый и воспользоваться функцией REBUILD. Собственно RAID5 на это и рассчитан. После долгой работы REBUILD сервер перестал загружаться вообще.

Когда диски попали к нам, на обычном SCSI контроллере, через ДискЕдитор, на всех дисках были видны НУЛИ, по всей поверхности.

.RAID5 организован таким образом, что данные пишутся секторами на все диски последоватьно, то есть данные существуют на всех дисках одновременно. На примере RAID5 из 5 дисков, четыре сектора запишутся последовательно на четыре диска, а на пятом сформируется специальная контрольная сумма от этих четырех секторов, и так далее, до конца дисков. Сектора с контрольной суммой циклически повторяются и перемещаются последовательно по всем дискам в массиве. Сделано это для того что бы при выходе из строя любого одного диска, можно вставить исправный чистый диск, сделать ребилд, с помощью контрольных сумм чистый диск заполнится информацией сломанного, и рейд продолжит функционирование, в обычном режиме. RAID может работать и в аварийном режиме, то есть: «на ходу» ломается диск, контроллер продолжит высчитывать контрольную сумму, но не писать её на диски, скорость его работы при этом замедляется, RAID начнет противно пищать.

В данном случае, вместо пересчета с рабочих дисков с информацией на новый чистый, REBUILD произошел «наоборот». Нули с нового диска записались на все остальные, тем самым данные уничтожились.

Налицо, грубейшая ошибка системного администратора, халатное отношение к информации предприятия. Прежде чем совершать какие либо манипуляции с данными, пока они читаются, их нужно скопировать в надежное место. Вот так, мы остались без денег, а фирма без данных 😉

Degraded raid что это

В ZFS предусмотрены методы проверки работоспособности устройства и пула. Работоспособность пула определяется на основе состояния всех его устройств. Эта информация о состоянии отображается с помощью команды zpool status . Кроме того, для выявления потенциальных сбоев пула и устройств используется команда fmd , и они отображаются в системной консоли и в файле /var/adm/messages . В этом разделе описывается процедура определения работоспособности пула и устройства. Способы устранения сбоев или восстановления неработоспособных пулов здесь не рассматриваются. Дополнительно об устранении неполадок и восстановлении данных см. Глава 11Поиск и устранение сбоев и восстановление данных в ZFS.

Каждое устройство может находиться в одном из следующих состояний:

Устройство находится в нормальном рабочем состоянии. Несмотря на возможность возникновения некоторых временных ошибок, устройство исправно.

Произошел сбой виртуального устройства, однако оно по-прежнему функционирует. Это состояние является наиболее распространенным при потере связи между зеркалом или устройством RAID-Z и одним или несколькими составными устройствами. Отказоустойчивость пула может быть подвергнута риску, т. к. следующий сбой в каком-либо другом устройстве может оказаться неисправимым.

Виртуальное устройство полностью недоступно. Это состояние обычно указывает на полный сбой устройства, в результате которого ZFS не может обмениваться данными с этим устройством. Если виртуальное устройство верхнего уровня находится в этом состоянии, то весь пул становится недоступным.

Виртуальное устройство было явно переведено администратором в автономный режим.

Доступ к устройству или виртуальному устройству невозможен. В некоторых случаях пулы с устройствами в состоянии UNAVAILABLE отображаются в режиме DEGRADED. Если виртуальное устройство верхнего уровня недоступно, то также недоступны все элементы пула.

Устройство было физически удалено во время работы системы. Обнаружение удаления устройств является аппаратной функцией и может не поддерживаться на некоторых платформах.

Работоспособность пула определяется на основе работоспособности всех виртуальных устройств верхнего уровня. Если все виртуальные устройства находятся в состоянии ONLINE, то пул также находится в состоянии ONLINE. Если какое-либо из виртуальных устройств находится в состоянии DEGRADED или UNAVAILABLE, то пул также находится в состоянии DEGRADED. Если виртуальное устройство верхнего уровня находится в состоянии FAULTED или OFFLINE, то пул также находится в состоянии FAULTED. Пул в состоянии FAULTED полностью недоступен. Восстановление данных без подключения или исправления требуемых устройств невозможно. Пул в состоянии DEGRADED продолжает функционировать, но обеспечение того же уровня избыточности данных или пропускной способности, что и при состоянии ONLINE, невозможно.

Базовая информация о работоспособности пула устройств хранения данных

Наиболее простым способом получения краткого обзора статуса работоспособности пула является команда zpool status :

# zpool status -x all pools are healthy

Для проверки определенных пулов в команде необходимо указать имя пула. Любой пул, не находящийся в состоянии ONLINE, должен быть проверен на наличие потенциальных проблем, как описано в следующем разделе.

Подробная информация о работоспособности

Для запроса более подробных данных по работоспособности используется параметр -v . Пример:

# zpool status -v tank pool: tank state: DEGRADED status: One or more devices could not be opened. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Attach the missing device and online it using 'zpool online'. see: http://www.sun.com/msg/ZFS-8000-2Q scrub: none requested config: NAME STATE READ WRITE CKSUM tank DEGRADED 0 0 0 mirror DEGRADED 0 0 0 c1t0d0 FAULTED 0 0 0 cannot open c1t1d0 ONLINE 0 0 0 errors: No known data errors

Эти выходные данные содержат полное описание причины текущего состояния пула, включая четкое описание проблемы и ссылку на статью в базе знаний для получения дополнительной информации. Каждая такая статья позволяет получить актуальную информацию по рекомендуемым способам устранения текущей проблемы. С помощью подробной информации о конфигурации можно определить, какое из устройств повреждено и как восстановить пул.

В приведенном выше примере неисправное устройство требуется заменить. После замены устройства для его перевода обратно в оперативный режим используется команда zpool online . Пример:

# zpool online tank c1t0d0 Bringing device c1t0d0 online # zpool status -x all pools are healthy

Если пул содержит устройство в автономном режиме, то этот проблемный пул будет указан в выходных данных команды. Пример:

# zpool status -x pool: tank state: DEGRADED status: One or more devices has been taken offline by the adminstrator. Sufficient replicas exist for the pool to continue functioning in a degraded state. action: Online the device using 'zpool online' or replace the device with 'zpool replace'. scrub: none requested config: NAME STATE READ WRITE CKSUM tank DEGRADED 0 0 0 mirror DEGRADED 0 0 0 c1t0d0 ONLINE 0 0 0 c1t1d0 OFFLINE 0 0 0 errors: No known data errors

Столбцы READ и WRITE содержат количество ошибок ввода/вывода, зарегистрированных для устройства, тогда как столбец CKSUM содержит количество неисправимых ошибок контрольной суммы, возникших в устройстве. Оба эти счетчика ошибок определяют вероятность сбоя устройства и необходимость корректировочных действий. При обнаружении ненулевых счетчиков ошибок для виртуального устройства верхнего уровня часть данных может оказаться недоступной. Счетчик ошибок учитывает все известные ошибки в данных.

В приведенном выше примере выходных данных устройство в автономном режиме не приводит к возникновению ошибок в данных.

Для получения дополнительной информации о диагностике и восстановлении неисправных пулов и данных см. Глава 11Поиск и устранение сбоев и восстановление данных в ZFS.

  • Previous: Просмотр статистики ввода/вывода для пула устройств хранения данных ZFS
  • Next: Переход пулов устройств хранения данных ZFS

Как восстановить деградированный RAID 5 Synology NAS, изменить RAID 5 на RAID 6 без потери данных

В этой статье мы рассмотрим, как заменить сбойный диск в RAID массиве Synology NAS DSM. А еще как добавить дополнительные накопители и сделать миграцию с RAID 5 на RAID 6.

Как восстановить деградированный RAID 5 Synology NAS, изменить RAID 5 на RAID 6 без потери данных

  • Как определить вышедший из строя диск
  • Как сделать миграцию с RAID 5 на RAID 6
  • Вопросы и ответы
  • Комментарии

Нет ничего хуже, чем звук неисправного жесткого диска или ошибки накопителей NAS-хранилища. Потеря гигабайтов данных, фото, видео, документов близка как никогда, так как дисковый массив находится в деградированном состоянии. Сохранность ваших данных зависит от правильной замены вышедшего из строя диска и восстановлении RAID. Если вы используете для хранения ваших данных устройство NAS, при правильном подходе вы с легкостью сможете восстановить работу RAID массива.

Перейти к просмотру

Как восстановить деградированный RAID 5 Synology NAS, изменить RAID 5 на RAID 6 без потери данных

Прежде чем приступать к замене диска нужно определить тип RAID, поддерживает он замену диска без потери данных, и сколько накопителей могут выйти из строя без прекращения его работы. Мы будем проверять это на примере устройства от Synology и RAID 5 уровня.

Если для хранения данных на дисках используется технология RAID 5, и вышел из строя лишь один накопитель, все не так плохо. Технология построения RAID 5, позволяет продолжать работу NAS в обычном режиме даже при поломке одного диска, поэтому не нужно сразу менять его на любой имеющийся диск. Тем не менее вы теряете дальнейшую отказоустойчивость, так как при выходе из строя еще одного накопителя RAID будет разрушен. Помимо этого, диски в массиве подвергаются повышенной нагрузке, поскольку они должны выполнять задачи вместо неисправного. И когда рабочие диски, постигнет та же участь, лишь вопрос времени. Если еще один диск выйдет из строя ремонт RAID и восстановление данных станут более трудными (и почти невозможными) для выполнения. Поэтому рекомендуется в кротчайшие сроки заменить нерабочий накопитель.

При выходе из строя диска NAS предупреждает громким звуковым сигналом. Также при входе в DiskStation ManagerDiskStation Manager будет выведено уведомление о том, что один из пулов – имеет деградированный статус, рекомендуется заменить нерабочий диск.

Предупреждение DiskStation Manager

Если предварительно были настроены уведомления, то вы еще получите письмо с уведомлением об ошибке на почту.

Как определить вышедший из строя диск

Для начала нужно определить вышедший из строя диск. Для этого откройте меню – Storage ManagerHDD. В этом списке по номеру вы сможете определить диск, который нужно заменить.

Рядом с каждым диском вы найдете его статус с зеленым или красным цветом, в зависимости от состояния диска. Когда все работает правильно, рядом с каждым диском будет зеленая надпись «Normal». Рядом с неисправным диском будет отображаться статус красного цвета «Crashed» или «Failed». В моем случае неисправный жесткий диск вовсе не отображается, так как он полностью нерабочий.

Storage Manager - HDD

Прежде чем осуществлять любые манипуляции с дисками рекомендуется сделать резервную копию важных данных, обозначить все диски, их порядок и т.д.

Лотки для дисков пронумерованы

Затем вытащите из соответствующего лотка диск, который нужно заменить, каждый из лотков может быть пронумерован.

Номер диска равно его положению в корпусе NAS

Если нумерации нет ее можно определить, номер диска – это его положение в корпусе NAS-хранилища слева направо. Если из строя вышел диск 5, то это пятый жесткий диск слева. Определив нерабочий диск, вытащите его из корпуса. NAS-устройства от Synology поддерживают горячую замену дисков, это значит, что его не обязательно выключать при замене накопителя.

На его место установите новый накопитель, или если есть свободный лоток установите новый диск в свободный слот.

Перед тем как добавлять диск в массив его рекомендуется проверить, для этого запустите SMART test. Откройте – Storage Manager и перейдите к разделу – HDD/SSD. Здесь выберите новый диск и кликните по кнопке – Health Info.

Тестирование диска

Затем в правой части экрана – SMART Test. Выберите тип теста и нажмите – Start.

Запуск теста диска

Во время работы будет выведен статус и ход выполнения. При успешном тесте можно добавить накопитель к массиву.

Откройте менеджер управления NASменюStorage ManagerStorage Pool. Здесь кликните по кнопке – Actions и выберите из списка – Repair.

Storage Manager – Storage Pool – Actions – Repair

В открывшемся окне добавьте новый диск в список справа и нажмите – Next. На уведомление о том, что данный диск будет затерт, нажмите – ок, для подтверждения, а затем – Apply. После чего начнется процесс восстановления.

Добавьте диск в пул

По окончании процесса его статус изменится на – Normal, и все файлы, которые хранились на устройстве останутся без изменений.

Завершение процесса пересборки RAID

Как сделать миграцию с RAID 5 на RAID 6

Раз уж мы затронули процесс добавления диска давайте рассмотрим, как добавить дополнительные диски в NAS-хранилище и сделать миграцию с одного уровня RAID к другому без потери данных, на примере RAID 5 и миграции к RAID 6.

В NAS-устройствах можно изменять типы RAID для пулов ресурсов хранения, не опасаясь того, что существующие данные будут утеряны. Например, можно создать пул ресурсов хранения RAID 1 позднее изменить его на RAID 5 в случае установки дополнительных дисков, а затем преобразовать его в RAID6.

Чтобы изменить тип RAID в NAS должно быть установлено достаточное количество дисков. Минимальное количество дисков для RAID5 – три, для того чтобы изменить его на шестой, нужно добавить, как минимум один диск.

Прежде чем изменить тип RAID, убедитесь, что состояние пула, является исправным. При добавлении дисков в массив, их объём должен быть больше или равен диску с самым малым объёмом в этом пуле. Также все диски должны быть одного типа.

Для изменения уровня RAID откройте – менюStorage ManagerStorage pool. Здесь кликните по кнопке – Action и выберите из списка – Change RAID Type.

Storage pool – Action– Change RAID Type

Выбираем RAID 6 – Next, добавляем диски для расширения массива и жмем – Next, во всплывающем окне с уведомлением что данные на этих дисках будут затерты, жмем – Ок.

Выбираем тип массива RAID 6

Проверяем конфигурацию и жмем Apply для подтверждения. После начнется процесс добавления новых дисков и перестроение RAID массива, по завершении на экране появится уведомление об успешном преобразовании RAID.

Построение RAID 6

При таком перестроении все данные, которые лежат на дисковом массиве останутся без изменений. Не учитывая ситуаций аварийного выключения питания.

При перестроении массива происходит перерасчет четности, данные на дисках перезаписываются, в момент пропажи питания, процесс прерывается и все данные, которые хранятся во временной памяти могут быть повреждены в результате RAID будет разрушен. В таком случае доступ к файлам будет утерян и для восстановления потребуется специализированная программа для восстановления данных с RAID. Что может произойти с массивом при аварийном отключении питания при перестроении RAID? Массив будет разрушен, диск недоступен и все данные утеряны.

Массив RAID 6 разрушен

Далее для расширения места откройте раздел – Volume, кликните по кнопке – Action и выберите из списка конфигурацию.

Volume – Action – Configure

Установите размер диска и нажмите – Ок для подтверждения.

Устанавливаем новый размер массива

Диск расширен, миграция с RAID 5 на RAID 6 прошла успешно и все файлы, которые хранились на RAID 5 массиве остались без изменений после перестроения.

Все файлы остались без изменений после перестроения RAID

В том случае если при перестроении у вас пропало питание и RAID массив был разрушен, случайно удалили важные данные, воспользуйтесь программой для восстановления данных – Hetman RAID Recovery. Утилита в автоматическом режиме соберет разрушенный RAID, и вы сможете достать из него ваши файлы. Она поддерживает все популярные типы RAID и большинство устройство от различных производителей NAS.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *