Raid 1 mdadm (linux) восстановление после сбоя диска: DRDY err (UNC) продолжает повторяться не удается войти

в выходные дни я получил несколько писем с нашего сервера сетевого хранения (просто пользовательский ящик с CentOS 5 и 2 2TB дисков программного обеспечения raid 1) с указанием смарт-обнаруженных проблем с одним из дисков.

Я сделал статус, и 2 из рейдовых разделов были отмечены как failed:

    [[email protected] ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[1] sda1[0]
      104320 blocks [2/2] [UU]

md0 : active raid1 sdb3[1] sda3[2](F)
      4064320 blocks [2/1] [_U]

md3 : active raid1 sdb5[1] sda5[0]
      1928860160 blocks [2/2] [UU]

md2 : active raid1 sdb2[1] sda2[2](F)
      20482752 blocks [2/1] [_U]

Итак, я установил все разделы sda на "failed", успешно удалил все зеркала sda, вставил новый идентичный диск 2tb (после выключения) и загрузился. Теперь я не могу добраться до логина поскольку сообщения об ошибках продолжают повторяться после md: массив raid autodetect достигается во время процесса загрузки. Сначала ошибки были что-то вроде:

  DRDY err (UNC) -- exception emask media error

теперь я получаю ошибки ввода-вывода. Я попытался с поврежденным диском удалить, а затем с ним снова. То же самое шоу. Записи, которые я нашел, показывают, что это простой процесс восстановления. Что это дает? Кто-нибудь сталкивался с чем-то подобным? Похоже, что процесс загрузки все еще продолжается, хотя на каждый шаг уходит целая вечность. Кому-нибудь приходилось так долго ждать, чтобы добраться до подсказки? Надеюсь, если я не смогу добраться до подсказки, я смогу добраться куда-нибудь с помощью спасательного компакт-диска.

3 ответа:

посмотрите на md2-он имеет два раздела в массиве, указанном в порядке [sdb2] [sda2], а состояние пары указано как [_U], что означает, что первый раздел ([sdb2]) выпал из спаривания. Прочтите здесь:http://www.howtoforge.com/replacing_hard_disks_in_a_raid1_array. Надеюсь, вы разберетесь.

я тупица. Я неправильно идентифицировал неисправный диск и пытался использовать плохой в моих усилиях по восстановлению. Для тех, кто заинтересован, вы можете использовать lshal, чтобы получить s/n плохого диска. перенаправьте вывод lshal в файл журнала, а затем найдите sda sdb или любой mdadm или SMART, идентифицированный как плохой.

после ответа Linker3000 содержимое диска, который вы удалили первым, должно быть в порядке. Удалите диск, который вы теперь знаете, на самом деле сломан и попробуйте начать с хорошего диска в одиночку. Существует небольшая вероятность того, что md пометил ваш здоровый диск как находящийся позади, когда вы повторно добавили его с сломанным диском. В этом случае вам нужно начать с live CD/USB и повторно активировать RAID. После того, как ваша система работает нормально, вы можете начать снова с обычных шагов, чтобы добавьте новый диск в RAID 1s.