2009年3月6日金曜日

mdadm on lenny

昨日のraid関連の話は、mdadmがどうとかじゃなくて、sata_nvのエラーなんだと思い当たる。
だからといって解決できるわけでもないが。

2009年3月5日木曜日

mdadm raid on lenny (続き)

lenny新規インストール>インストーラでraid6>失敗
etchR6新規インストール>インストーラでraid6>成功:ディスク障害の線は消える
pinでlennyのmdadmを導入>成功
lennyへのupgrade>成功
2.6.26kernelで起動>起動・動作はするがしばらくディスクアクセスすると十数秒程度固まり下のエラー?が表示される。

という事でlinux-image-2.6.26-1-686が悪い様子。
しばらくはetchnhalfのkernel-2.6.24とlennyのシステムの組み合わせで運用することにする。
(etchのサポートが終わる前にどうにかしないといけないが・・・)
この状態だとnvidiaドライバでxが動かないのが悲しい
(nvidiaのスクリプトでもmodule-assistantでもダメだった)

他に試してみて効果がなかったこと
・起動時のkernel optionにirqpoll all_generic_ideを加える
・update-initramfs -u -k allをする

システムが固まったときに出るログ
[  516.967796] ata3: EH in SWNCQ mode,QC:qc_active 0x1FF sactive 0x1FF
[ 516.967908] ata3: SWNCQ:qc_active 0x6 defer_bits 0x1F9 last_issue_tag 0x2
[ 516.967910] dhfis 0x2 dmafis 0x0 sdbfis 0x0
[ 516.968113] ata3: ATA_REG 0x40 ERR_REG 0x0
[ 516.968208] ata3: tag : dhfis dmafis sdbfis sacitve
[ 516.968306] ata3: tag 0x1: 1 0 0 1
[ 516.968398] ata3: tag 0x2: 0 0 0 1
[ 516.968497] ata3.00: exception Emask 0x0 SAct 0x1ff SErr 0x0 action 0x6 frozen
[ 516.968640] ata3.00: cmd 61/18:00:10:a0:61/00:00:10:00:00/40 tag 0 ncq 12288 out
[ 516.968641] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.968919] ata3.00: status: { DRDY }
[ 516.969014] ata3.00: cmd 61/08:08:80:a0:61/00:00:10:00:00/40 tag 1 ncq 4096 out
[ 516.969015] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 61/08:10:a8:9f:61/00:00:10:00:00/40 tag 2 ncq 4096 out
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:18:18:f6:01/00:00:00:00:00/40 tag 3 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:20:38:f6:01/00:00:00:00:00/40 tag 4 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:28:18:d9:bd/00:00:0c:00:00/40 tag 5 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:30:38:d9:bd/00:00:0c:00:00/40 tag 6 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:38:80:57:d6/00:00:15:00:00/40 tag 7 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969232] ata3.00: status: { DRDY }
[ 516.969232] ata3.00: cmd 60/08:40:80:57:d6/00:00:16:00:00/40 tag 8 ncq 4096 in
[ 516.969232] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[ 516.969513] ata3.00: status: { DRDY }
[ 516.973361] ata3: hard resetting link
[ 517.450677] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 517.475108] ata3.00: configured for UDMA/133
[ 517.475221] ata3: EH complete
[ 517.477833] sd 2:0:0:0: [sdc] 976773168 512-byte hardware sectors (500108 MB)
[ 517.477968] sd 2:0:0:0: [sdc] Write Protect is off
[ 517.478538] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
[ 517.478559] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

2009年3月4日水曜日

lennyにupgradeしたらmdadmのarrayがぶっ壊れた

ここ↓らへんの情報が怪しい感じ
http://www.nurs.or.jp/~ogochan/essay/archives/1010

lennyがリリースされてしばらくしたのでetchnhalfからlennyにupgradeした。
ata6: COMRESET failed (errno=-16)
みたいなメッセージがやたらと出てきて、ディスクにアクセスできなくなったので慌てて停止させる。(ログが吹き飛んだのでうろ覚え)
レスキューディスクから起動させて、mdadm --assemble したらdisk3台分しか認識しなくなってる。(元は6台でraid6を組んでいた)
etchnhalfのインストールディスクで再び起動し、パーティショナーまで進んだところでシェルに逃げる。assemble -> manage add -> misc run したら奇跡的にdegraded arrayとして動いたので急いでバックアップ。その後、再起動してもう一度同じ事をしたけどInput/Output errorになってしまったので、完全にarray死亡。まさに間一髪。

その後、lennyを新規インストールしようとしてraid6組み直したら2台がDisk failureで止まってしまったのでlennyのmdadmは濡れ衣かもしれない。