raidコントローラ不調のトラブルシューティング

手作り大福

※写真と本文は関係ありません。


社内ファイルサーバ用にサーバを購入した。
セットアップ中にたまに再起動したりて、なんか調子悪いなぁと思ってたのを原因究明。

サーバはHPのProLiant ML310e Gen8
Raidカードは後付けの LSI Megaraid SAS 9240-4i

再起動がかかるのはH/W側の問題かと思い、hpのsystem management homepageで確認してみる。
WebUI(https://hostIPaddress:2381/)からインテグレーテッドマネジメントログを確認。

(クリティカル) Unrecoverable System Error (NMI) has occurred. System Firmware will log additional details in a separate IML entry if possible
(危険)POST Error: 1785-Slot X Drive Array Not Config

と2項目のログがたくさん見える。
『POST Error: 1785-Slot X Drive Array Not Config』はオンボードのRaidを無効に。
『Unrecoverable System Error (NMI) 』はRaidカードを差し直し。で改善。
さらに/var/log/messagesにこんなLogが…

Jan 23 21:00:07 samba2013 MR_MONITOR[3603]:  Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:0Unknown Sense Code,   CDB   =    0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x72 0x01 0x00 0x1d 0x00 0x00 0x00 0x0e 0x09 0x0c 0x00 0x00 0x00 0xff 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x50
Jan 23 21:05:06 samba2013 MR_MONITOR[3603]:  Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:0Unknown Sense Code,   CDB   =    0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x72 0x01 0x00 0x1d 0x00 0x00 0x00 0x0e 0x09 0x0c 0x00 0x00 0x00 0xff 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x50
Jan 23 21:10:06 samba2013 MR_MONITOR[3603]:  Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:0Unknown Sense Code,   CDB   =    0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x72 0x01 0x00 0x1d 0x00 0x00 0x00 0x0e 0x09 0x0c 0x00 0x00 0x00 0xff 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x50
Jan 23 21:15:06 samba2013 MR_MONITOR[3603]:  Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:0Unknown Sense Code,   CDB   =    0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x72 0x01 0x00 0x1d 0x00 0x00 0x00 0x0e 0x09 0x0c 0x00 0x00 0x00 0xff 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x50
Jan 23 21:20:06 samba2013 MR_MONITOR[3603]:  Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:0Unknown Sense Code,   CDB   =    0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x72 0x01 0x00 0x1d 0x00 0x00 0x00 0x0e 0x09 0x0c 0x00 0x00 0x00 0xff 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x50

5分おきにUnexpectedなエラー…

これは結局よくわからなくて、F/Wが少し古いからUpdateしてみたらたまたまなおった。

# /usr/local/MegaRAID\ Storage\ Manager/StorCLI/storcli64 /c0  download file=/home/hogege/Downloads/imr_fw.rom 
Download Completed.     
Flashing image to adapter...
Controller = 0
Status = Success
Description = F/W Flash Completed. Please reboot the system for the changes to take effect

Current package version = 20.5.1-0003
New package version = 20.12.1-0150

これで完調になりました。