Восстановление файловой системы XFS. ¶
От: kraps 31 января 2014 г. 17:27
Здравствуйте, уважаемые посетители форума.
Посоветовали обратиться с моей проблемой на данном форуме [url=http://3nity.ru/viewtopic.php?f=6&t=18704&sid=da1cd7ed5ace905c98f3afe14af21d19&p=128333#p128333]http://3nity.ru/viewtopic.php?f=6&t=18704&sid=da1cd7ed5ace905c98f3afe14af21d19&p=128333#p128333[/url]
Повторю суть:
На днях столкнулся со следующей проблемой.
Есть сервер с RAID контроллером Areca 1260 и дисковым массивом на 7,5Тб (9 raid set+3 hot spare). Система linux gentoo, установлена на отдельный диск.
[code]uname -a
Linux host 3.10.25-gentoo #2 SMP Fri Jan 24 14:13:10 MSK 2014 x86_64 Intel(R) Xeon(TM) CPU 3.00GHz GenuineIntel GNU/Linu[/code]
Файловая система raid массива XFS /dev/sdb1.
Недавно на raid произошел сбой, после которого в логах рейда была обнаружена запись:
[code]2014-01-24 07:12:34 H/W Monitor Raid Powered On[/code]
Сказать точно было ли отключение электропитания сложно, т.к. сервер стоит удаленно и подключен к гарантированному питанию с резервом, поэтому я не исключаю программно/аппаратный сбой самого контроллера, после которого диск размонтировался. Затем был ребилд raid, который завершился успешно. Сейчас его состояние стабильно, но файловая система не монтируется. Подобное произошло впервые за 5 лет эксплуатации данного дискового массива.
[code]Copyright (c) 2004-2011 Areca, Inc. All Rights Reserved.
Areca CLI, Version: 1.86, Arclib: 310, Date: Nov 1 2011( Linux )
S # Name Type Interface
==================================================
[*] 1 ARC-1260 Raid Controller PCI
==================================================
CMD Description
==========================================================
main Show Command Categories.
set General Settings.
rsf RaidSet Functions.
vsf VolumeSet Functions.
disk Physical Drive Functions.
sys System Functions.
net Ethernet Functions.
event Event Functions.
hw Hardware Monitor Functions.
mail Mail Notification Functions.
snmp SNMP Functions.
ntp NTP Functions.
exit Exit CLI.
==========================================================
Command Format: <CMD> [Sub-Command] [Parameters].
Note: Use <CMD> -h or -help to get details.
CLI> sys info
The System Information
===========================================
Main Processor : 500MHz
CPU ICache Size : 32KB
CPU DCache Size : 32KB
CPU SCache Size : 0KB
System Memory : 256MB/333MHz/ECC
Firmware Version : V1.49 2010-12-02
BOOT ROM Version : V1.49 2010-12-02
Serial Number : Y706CAANAR600367
Controller Name : ARC-1260
Current IP Address : 192.168.90.250
===========================================
GuiErrMsg<0x00>: Success.
CLI> rsf info
# Name Disks TotalCap FreeCap DiskChannels State
===============================================================================
1 Raid Set # 00 12 9000.0GB 0.0GB 123F465E9ABD Normal
===============================================================================
GuiErrMsg<0x00>: Success.
CLI> vsf info
# Name Raid Name Level Capacity Ch/Id/Lun State
===============================================================================
1 ARC-1260-VOL#00 Raid Set # 00 Raid6 7500.0GB 00/00/00 Normal
===============================================================================
GuiErrMsg<0x00>: Success.
CLI> disk info
# Ch# ModelName Capacity Usage
===============================================================================
1 1 ST3750640NS 750.2GB Raid Set # 00
2 2 ST3750640NS 750.2GB Raid Set # 00
3 3 ST3750640NS 750.2GB Raid Set # 00
4 4 ST3750640NS 750.2GB Raid Set # 00
5 5 GB1000EAMYC 1000.2GB Raid Set # 00
6 6 ST3750330NS 750.2GB Raid Set # 00
7 7 GB1000EAMYC 1000.2GB HotSpare[Global]
8 8 GB1000EAMYC 1000.2GB HotSpare[Global]
9 9 ST3750640NS 750.2GB Raid Set # 00
10 10 ST3750640NS 750.2GB Raid Set # 00
11 11 ST3750640NS 750.2GB Raid Set # 00
12 12 ST3750330NS 750.2GB HotSpare[Global]
13 13 ST3750640NS 750.2GB Raid Set # 00
14 14 ST3750640NS 750.2GB Raid Set # 00
15 15 ST3750640NS 750.2GB Raid Set # 00
16 16 N.A. 0.0GB N.A.
===============================================================================
GuiErrMsg<0x00>: Success.
CLI> hw info
The Hardware Monitor Information
===========================================
Fan#1 Speed (RPM) : 1188
Battery Status : 100%
HDD #1 Temp. : 31
HDD #2 Temp. : 30
HDD #3 Temp. : 29
HDD #4 Temp. : 34
HDD #5 Temp. : 31
HDD #6 Temp. : 27
HDD #7 Temp. : 29
HDD #8 Temp. : 33
HDD #9 Temp. : 32
HDD #10 Temp. : 31
HDD #11 Temp. : 29
HDD #12 Temp. : 32
HDD #13 Temp. : 33
HDD #14 Temp. : 33
HDD #15 Temp. : 31
HDD #16 Temp. : 0
===========================================
GuiErrMsg<0x00>: Success.
CLI> event info
Date-Time Device Event Type Elapsed Time Errors
===============================================================================
2014-01-28 04:17:30 Proxy Or Inband HTTP Log In
2014-01-27 05:06:56 Proxy Or Inband HTTP Log In
2014-01-27 04:14:16 H/W MONITOR Raid Powered On
2014-01-27 03:58:22 H/W MONITOR Raid Powered On
2014-01-27 03:54:31 RS232 Terminal VT100 Log In
2014-01-27 03:54:16 H/W MONITOR Raid Powered On
2014-01-26 11:06:04 Proxy Or Inband HTTP Log In
2014-01-25 12:32:07 Proxy Or Inband HTTP Log In
2014-01-24 15:31:35 Proxy Or Inband HTTP Log In
2014-01-24 14:46:17 ARC-1260-VOL#00 Complete Rebuild 006:22:29
2014-01-24 08:23:48 ARC-1260-VOL#00 Start Rebuilding
2014-01-24 08:23:46 IDE Channel #12 Device Failed
2014-01-24 08:23:46 Raid Set # 00 Rebuild RaidSet
2014-01-24 08:23:45 Raid Set # 00 RaidSet Degraded
2014-01-24 08:23:45 ARC-1260-VOL#00 Volume Degraded
2014-01-24 08:09:00 Proxy Or Inband HTTP Log In
2014-01-24 07:12:34 H/W MONITOR Raid Powered On
2014-01-24 06:23:01 H/W MONITOR Raid Powered On
===============================================================================
GuiErrMsg<0x00>: Success.
CLI> sys showcfg
The System Configuration
=====================================================
System Beeper Setting : Disabled
Background Task Priority : Medium(50%)
JBOD/RAID Configuration : RAID
Max SATA Mode Supported : SATA300+NCQ
HDD Read Ahead Cache : Enabled
Volume Data Read Ahead : Normal
Stagger Power On Control : 0.7
Spin Down Idle HDD (Minutes) : Disabled
HDD SMART Status Polling : Enabled
Empty HDD Slot LED : ON
Auto Activate Incomplete Raid : Enabled
Disk Write Cache Mode : Enabled
Disk Capacity Truncation Mode : Multiples Of 10G
=====================================================
GuiErrMsg<0x00>: Success.[/code]
При попытке запустить утилиту восстановления xfs_repair получаю следующее:
[code]xfs_repair -P /dev/sdb1
Phase 1 - find and verify superblock...
Phase 2 - using internal log
- zero log...
RROR: The filesystem has valuable metadata changes in a log which needs to
be replayed. Mount the filesystem to replay the log, and unmount it before
re-running xfs_repair. If you are unable to mount the filesystem, then use
the -L option to destroy the log and attempt a repair.
Note that destroying the log may cause corruption -- please attempt a mount
of the filesystem before doing this.[/code]
вывод команды xfs_repair -n более информативен, но не дает возможности вносить изменения в файловую систему:
[code]xfs_repair -n /dev/sdb1
### Вывод команды пришлось убрать из-за превышения количества символов в сообщении.
### Если необходимо добавлю сюда в обсуждении либо можно посмотреть на указанных в сообщении ресурсах.
[/code]
По данному поводу завел инцидент на багзилле [url=http://oss.sgi.com/bugzilla/show_bug.cgi?id=1045]http://oss.sgi.com/bugzilla/show_bug.cgi?id=1045[/url], где приложил все технические характеристики сервера и выводы команд. К сожалению, разработчики пока ничего не ответили.
У меня сейчас один вопрос, можно ли восстановить систему без существенной потери данных? Читал, что использование ключа -L практически наверняка приводит к полной потере. Так ли это? Был ли положительный или отрицательный опыт у кого-нибудь из присутствующих на форуме? Какие существуют варианты по восстановлению файловой системы XFS?
Заранее спасибо за помощь.