Fagyal Csongor
2005-02-24 21:20:30 UTC
Hi mindenki,
A következő idegtépő problémám lenne, hátha látott már valaki ilyet...
Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.
A gépben SCSI RAID fut, de van mellette 2 SATA vinyó (Samsung+Seagate,
120G/160G). Boot után minden rendben - egy ideig. Aztán egyszer csak -
van egy olyan érzésem, mintha I/O inaktivitás után lenne, de ez nem
biztos - a SATA vinyók meghalnak: gyakorlatilag minden processz, ami
feléjük irányuló I/O-t végezne, az freeze-el (D).
A log innentől ilyeneket mond, hogy:
Feb 24 19:57:20 ns1 kernel: ata2: command 0x35 timeout, stat 0x80
host_stat 0x21
Feb 24 19:57:20 ns1 kernel: ata2: status=0x80 { Busy }
Feb 24 19:57:20 ns1 kernel: SCSI error : <2 0 0 0> return code = 0x8000002
Feb 24 19:57:20 ns1 kernel: FMK Current sdd: sense = 70 9f
Feb 24 19:57:20 ns1 kernel: ASC=8e ASCQ=f7
Feb 24 19:57:20 ns1 kernel: end_request: I/O error, dev sdd, sector 12519
Feb 24 19:57:20 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 19:57:20 ns1 last message repeated 2 times
Érdekes, hogy minkét vinyó ilyen módon elszáll... tehát mintha az
alaplapi SATA chip őrülne meg (ICH5 vagy hogy hívják amúgy). Umount-olni
lehet (2 percig tart...), sőt, újra mount-olni is, de a hiba marad.
Kikaptam a libata és az ata_piix modult, visszaraktam, de innentől
végleg eltűnnek a device-ok, a log aszongya, hogy:
Feb 24 21:44:24 ns1 kernel: ACPI: PCI interrupt 0000:00:1f.2[A] -> GSI
18 (level, low) -> IRQ 169
Feb 24 21:44:24 ns1 kernel: ata1: SATA max UDMA/133 cmd 0xCC00 ctl
0xC882 bmdma 0xC400 irq 169
Feb 24 21:44:24 ns1 kernel: ata2: SATA max UDMA/133 cmd 0xC800 ctl
0xC482 bmdma 0xC408 irq 169
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xCC07
Feb 24 21:44:24 ns1 kernel: scsi7 : ata_piix
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 21:44:24 ns1 kernel: scsi8 : ata_piix
Reboot után minden renben működik ismét - a következő leállásig...
Talán érdekes lehet, hogy úgy néz ki, a hibajelenség ezzel kezdődik:
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:47 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:53 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:53 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:57 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:57 ns1 kernel: ata1: error=0x40 { UncorrectableError }
...
Feb 24 15:55:52 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:55:52 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:55:52 ns1 kernel: SCSI error : <1 0 0 0> return code = 0x8000002
Feb 24 15:55:52 ns1 kernel: Current sdc: sense key Medium Error
Feb 24 15:55:52 ns1 kernel: Additional sense: Unrecovered read error -
auto reallocate failed
Feb 24 15:55:52 ns1 kernel: end_request: I/O error, dev sdc, sector 2624447
És végül: amikor umount-olom a partíciókat (már az error után), az
umountolás ideje ALATT az umountolódó partíció mérete átmenetileg(!)
megegyezik a SCSI RAID partíciójával! Ez már "totálgáz (tm)".
A vinyókon fizikai vagy SMART hibát, badblockot nem találtunk... (pesze
attól még lehet hibás).
Valami ötlet?
THX,
- Csongor
A következő idegtépő problémám lenne, hátha látott már valaki ilyet...
Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.
A gépben SCSI RAID fut, de van mellette 2 SATA vinyó (Samsung+Seagate,
120G/160G). Boot után minden rendben - egy ideig. Aztán egyszer csak -
van egy olyan érzésem, mintha I/O inaktivitás után lenne, de ez nem
biztos - a SATA vinyók meghalnak: gyakorlatilag minden processz, ami
feléjük irányuló I/O-t végezne, az freeze-el (D).
A log innentől ilyeneket mond, hogy:
Feb 24 19:57:20 ns1 kernel: ata2: command 0x35 timeout, stat 0x80
host_stat 0x21
Feb 24 19:57:20 ns1 kernel: ata2: status=0x80 { Busy }
Feb 24 19:57:20 ns1 kernel: SCSI error : <2 0 0 0> return code = 0x8000002
Feb 24 19:57:20 ns1 kernel: FMK Current sdd: sense = 70 9f
Feb 24 19:57:20 ns1 kernel: ASC=8e ASCQ=f7
Feb 24 19:57:20 ns1 kernel: end_request: I/O error, dev sdd, sector 12519
Feb 24 19:57:20 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 19:57:20 ns1 last message repeated 2 times
Érdekes, hogy minkét vinyó ilyen módon elszáll... tehát mintha az
alaplapi SATA chip őrülne meg (ICH5 vagy hogy hívják amúgy). Umount-olni
lehet (2 percig tart...), sőt, újra mount-olni is, de a hiba marad.
Kikaptam a libata és az ata_piix modult, visszaraktam, de innentől
végleg eltűnnek a device-ok, a log aszongya, hogy:
Feb 24 21:44:24 ns1 kernel: ACPI: PCI interrupt 0000:00:1f.2[A] -> GSI
18 (level, low) -> IRQ 169
Feb 24 21:44:24 ns1 kernel: ata1: SATA max UDMA/133 cmd 0xCC00 ctl
0xC882 bmdma 0xC400 irq 169
Feb 24 21:44:24 ns1 kernel: ata2: SATA max UDMA/133 cmd 0xC800 ctl
0xC482 bmdma 0xC408 irq 169
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xCC07
Feb 24 21:44:24 ns1 kernel: scsi7 : ata_piix
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 21:44:24 ns1 kernel: scsi8 : ata_piix
Reboot után minden renben működik ismét - a következő leállásig...
Talán érdekes lehet, hogy úgy néz ki, a hibajelenség ezzel kezdődik:
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:47 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:53 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:53 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:57 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:57 ns1 kernel: ata1: error=0x40 { UncorrectableError }
...
Feb 24 15:55:52 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:55:52 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:55:52 ns1 kernel: SCSI error : <1 0 0 0> return code = 0x8000002
Feb 24 15:55:52 ns1 kernel: Current sdc: sense key Medium Error
Feb 24 15:55:52 ns1 kernel: Additional sense: Unrecovered read error -
auto reallocate failed
Feb 24 15:55:52 ns1 kernel: end_request: I/O error, dev sdc, sector 2624447
És végül: amikor umount-olom a partíciókat (már az error után), az
umountolás ideje ALATT az umountolódó partíció mérete átmenetileg(!)
megegyezik a SCSI RAID partíciójával! Ez már "totálgáz (tm)".
A vinyókon fizikai vagy SMART hibát, badblockot nem találtunk... (pesze
attól még lehet hibás).
Valami ötlet?
THX,
- Csongor