Discussion:
SATA lockup
Fagyal Csongor
2005-02-24 21:20:30 UTC
Permalink
Hi mindenki,

A következő idegtépő problémám lenne, hátha látott már valaki ilyet...

Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.

A gépben SCSI RAID fut, de van mellette 2 SATA vinyó (Samsung+Seagate,
120G/160G). Boot után minden rendben - egy ideig. Aztán egyszer csak -
van egy olyan érzésem, mintha I/O inaktivitás után lenne, de ez nem
biztos - a SATA vinyók meghalnak: gyakorlatilag minden processz, ami
feléjük irányuló I/O-t végezne, az freeze-el (D).

A log innentől ilyeneket mond, hogy:

Feb 24 19:57:20 ns1 kernel: ata2: command 0x35 timeout, stat 0x80
host_stat 0x21
Feb 24 19:57:20 ns1 kernel: ata2: status=0x80 { Busy }
Feb 24 19:57:20 ns1 kernel: SCSI error : <2 0 0 0> return code = 0x8000002
Feb 24 19:57:20 ns1 kernel: FMK Current sdd: sense = 70 9f
Feb 24 19:57:20 ns1 kernel: ASC=8e ASCQ=f7
Feb 24 19:57:20 ns1 kernel: end_request: I/O error, dev sdd, sector 12519
Feb 24 19:57:20 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 19:57:20 ns1 last message repeated 2 times

Érdekes, hogy minkét vinyó ilyen módon elszáll... tehát mintha az
alaplapi SATA chip őrülne meg (ICH5 vagy hogy hívják amúgy). Umount-olni
lehet (2 percig tart...), sőt, újra mount-olni is, de a hiba marad.

Kikaptam a libata és az ata_piix modult, visszaraktam, de innentől
végleg eltűnnek a device-ok, a log aszongya, hogy:

Feb 24 21:44:24 ns1 kernel: ACPI: PCI interrupt 0000:00:1f.2[A] -> GSI
18 (level, low) -> IRQ 169
Feb 24 21:44:24 ns1 kernel: ata1: SATA max UDMA/133 cmd 0xCC00 ctl
0xC882 bmdma 0xC400 irq 169
Feb 24 21:44:24 ns1 kernel: ata2: SATA max UDMA/133 cmd 0xC800 ctl
0xC482 bmdma 0xC408 irq 169
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xCC07
Feb 24 21:44:24 ns1 kernel: scsi7 : ata_piix
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 21:44:24 ns1 kernel: scsi8 : ata_piix


Reboot után minden renben működik ismét - a következő leállásig...

Talán érdekes lehet, hogy úgy néz ki, a hibajelenség ezzel kezdődik:
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:47 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:53 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:53 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:57 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:57 ns1 kernel: ata1: error=0x40 { UncorrectableError }
...
Feb 24 15:55:52 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:55:52 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:55:52 ns1 kernel: SCSI error : <1 0 0 0> return code = 0x8000002
Feb 24 15:55:52 ns1 kernel: Current sdc: sense key Medium Error
Feb 24 15:55:52 ns1 kernel: Additional sense: Unrecovered read error -
auto reallocate failed
Feb 24 15:55:52 ns1 kernel: end_request: I/O error, dev sdc, sector 2624447


És végül: amikor umount-olom a partíciókat (már az error után), az
umountolás ideje ALATT az umountolódó partíció mérete átmenetileg(!)
megegyezik a SCSI RAID partíciójával! Ez már "totálgáz (tm)".

A vinyókon fizikai vagy SMART hibát, badblockot nem találtunk... (pesze
attól még lehet hibás).

Valami ötlet?

THX,
- Csongor
Haluska Gyorgy
2005-02-24 22:32:32 UTC
Permalink
Post by Fagyal Csongor
Hi mindenki,
Feb 24 15:55:52 ns1 kernel: Current sdc: sense key Medium Error
Feb 24 15:55:52 ns1 kernel: Additional sense: Unrecovered read error -
auto reallocate failed
Feb 24 15:55:52 ns1 kernel: end_request: I/O error, dev sdc, sector 2624447
És végül: amikor umount-olom a partíciókat (már az error után), az
umountolás ideje ALATT az umountolódó partíció mérete átmenetileg(!)
megegyezik a SCSI RAID partíciójával! Ez már "totálgáz (tm)".
A vinyókon fizikai vagy SMART hibát, badblockot nem találtunk... (pesze
attól még lehet hibás).
Valami ötlet?
Nincsenek veletlenul rackben a vinyok ?
Nekem volt egyszer egy ilyen, barmit kulon teszteltem jo volt. Amint a vinyo
bekerult a rackba egy ido mulva meghalt. Rack nelkul mukodik jol.

Udv,
--
George
Fagyal Csongor
2005-02-24 23:57:28 UTC
Permalink
Hi,
Post by Haluska Gyorgy
Nincsenek veletlenul rackben a vinyok ?
Nay.
Post by Haluska Gyorgy
Nekem volt egyszer egy ilyen, barmit kulon teszteltem jo volt. Amint a vinyo
bekerult a rackba egy ido mulva meghalt. Rack nelkul mukodik jol.
Az valoszinuleg a rack rossz kabelezese miatt lehetett... netan
melegedes... itt nincs egyik sem.
En itt inkabb valami alaplap/libata/ata_piix/seagate utkozesre
tippelek... vagy eseteg megis rossz az egyik vinyo, annyira, hogy
kiirtja a vezerlot (ami mondjuk eleg gaz lenne...)

Kosz,
- Cs.
KADI Gergo
2005-02-25 12:35:40 UTC
Permalink
Post by Fagyal Csongor
Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.
A FC3-ban levo 2.6.10-es kernellel nekem is volt komoly problemam
(leak-elt). Ugyan az teljesen mas, de egy probat meger, hogy a
2.6.9-essel is elojon-e a problema (nekem megoldotta).

Gergo
Fagyal Csongor
2005-02-25 12:39:42 UTC
Permalink
E,
Post by KADI Gergo
Post by Fagyal Csongor
Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.
A FC3-ban levo 2.6.10-es kernellel nekem is volt komoly problemam
(leak-elt). Ugyan az teljesen mas, de egy probat meger, hogy a
2.6.9-essel is elojon-e a problema (nekem megoldotta).
Aaaa, nem jo, azzal kezdtem, 2.6.9-el... :-( Amiatt upgrade-eltem, hogy
hatha segit, a libata-t elegge sokat hackelik mostansag.

Aszem kiszedem az egyik vinyot, es megnezem az eredmenyt. Ha nem javul,
uj SATA vezerlo... ha javul, akkor vinyo => kuka.

- Cs.
Pallai Roland
2005-02-25 13:17:04 UTC
Permalink
a 160G-s Seagate SATA-kkal nem klappol vmi (mast nem probaltam), en
highpoint vezerlon hasznaltam kettot de minketto napi 3x 'command
timeout'-al elszallt, mikozben mellette mas tipusokbol 6db gond nelkul
ment a vezerlon. azota kicsereltem oket 2db WD-re es azok mennek gond
nelkul, a Seagate-et meg otthon hasznalom desktop-ra
--
dap
Fagyal Csongor
2005-02-25 13:21:14 UTC
Permalink
E,
Post by Pallai Roland
a 160G-s Seagate SATA-kkal nem klappol vmi (mast nem probaltam), en
highpoint vezerlon hasznaltam kettot de minketto napi 3x 'command
timeout'-al elszallt, mikozben mellette mas tipusokbol 6db gond nelkul
ment a vezerlon. azota kicsereltem oket 2db WD-re es azok mennek gond
nelkul, a Seagate-et meg otthon hasznalom desktop-ra
Na igen... most latom en is, hogy ez a tipus (es a 160-as is) benne van
a "blacklist" array-ben a libata kodjaban... :-\

A francba... lehet, hogy ez lesz...

Eskuszom jobb volt, amikor meg sima ATA-kent lattak a regebbi kernelek a
SATA vinyokat... addig nem volt semmi baj.

Koszi,
- Cs.
Pallai Roland
2005-02-25 14:45:20 UTC
Permalink
Post by Fagyal Csongor
Post by Pallai Roland
a 160G-s Seagate SATA-kkal nem klappol vmi (mast nem probaltam), en
highpoint vezerlon hasznaltam kettot de minketto napi 3x 'command
timeout'-al elszallt, mikozben mellette mas tipusokbol 6db gond nelkul
ment a vezerlon. azota kicsereltem oket 2db WD-re es azok mennek gond
nelkul, a Seagate-et meg otthon hasznalom desktop-ra
Na igen... most latom en is, hogy ez a tipus (es a 160-as is) benne van
a "blacklist" array-ben a libata kodjaban... :-\
A francba... lehet, hogy ez lesz...
Eskuszom jobb volt, amikor meg sima ATA-kent lattak a regebbi kernelek a
SATA vinyokat... addig nem volt semmi baj.
a HPT vezerom 3rdparty driverrel megy, szoval szerintem a libata ezert
az inkompatibilitasert nem felelos, egyszeruen a Seagate b. el vmit
--
dap
Szládovics Péter
2005-02-24 21:33:28 UTC
Permalink
Post by Fagyal Csongor
Hi mindenki,
Szia
Post by Fagyal Csongor
[érdekes]
Hm...
Két dolgot nem értek:
1. SATA-t /tudtommal/ a hdparm nem kezeli, nem értem a DMA-ra vonatkozó
bejegyzéseket a logodban.
2. S.M.A.R.T. -ot mivel néztél? A SATA-t /tudtommal/ nem támogatja a
smartd, sőt, egy ismerősöm FC3-mal járt ugyanígy, az első
kernelfrissítése után nem indult a rendszere, mert csak 1 SATA HDD-je
volt, és ahogy a smartd betöltődött, be is állt a rendszer. Mióta
kivette, minden OK.
Nem okozhat ez Nálad is problémát?

Üdv,
Peti
Fagyal Csongor
2005-02-25 23:16:40 UTC
Permalink
Hi,
Post by Szládovics Péter
Post by Fagyal Csongor
Hi mindenki,
Szia
Post by Fagyal Csongor
[érdekes]
Hm...
1. SATA-t /tudtommal/ a hdparm nem kezeli, nem értem a DMA-ra
vonatkozó bejegyzéseket a logodban.
Ezt én sem.
Post by Szládovics Péter
2. S.M.A.R.T. -ot mivel néztél?
Másik gépben (XP), Seagate saját SMART ellenőrzőjével. Illetve a BIOS is
mondja, hogy "SMART: OK".
Post by Szládovics Péter
A SATA-t /tudtommal/ nem támogatja a smartd,
így van.
Post by Szládovics Péter
sőt, egy ismerősöm FC3-mal járt ugyanígy, az első kernelfrissítése
után nem indult a rendszere, mert csak 1 SATA HDD-je volt, és ahogy a
smartd betöltődött, be is állt a rendszer. Mióta kivette, minden OK.
Nem okozhat ez Nálad is problémát?
Nem hiszem... a smartd el sem indul nálam (illetve nem _tud_ elindulni,
valóban nem engedi át a driver a SMART-ot, ezért "[ FAILED ]").

- Cs.
Ugron Balazs
2005-02-27 20:12:04 UTC
Permalink
Post by Fagyal Csongor
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Ugyan nem SATA de 160G samsung winyokkal jartunk mi is igy, 3 kulonbozo
gepben levo osszesen 24 diszkbol vagy 16 produkalta a jelenseget, es egy
ido utan lettek rajtuk bad sectorok is ahogy azt kell (raid1 arrayokban
voltak a winyok, winyonkenti brutal hutessel).
Aztan ki lett dobva mind a 24, helyette most WD-k vannak, mennek
uzembiztosan.

Balazs
Fagyal Csongor
2005-02-28 00:23:39 UTC
Permalink
E,
Post by Ugron Balazs
Post by Fagyal Csongor
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady SeekComplete
Ugyan nem SATA de 160G samsung winyokkal jartunk mi is igy, 3
kulonbozo gepben levo osszesen 24 diszkbol vagy 16 produkalta a
jelenseget, es egy ido utan lettek rajtuk bad sectorok is ahogy azt
kell (raid1 arrayokban voltak a winyok, winyonkenti brutal hutessel).
Aztan ki lett dobva mind a 24, helyette most WD-k vannak, mennek
uzembiztosan.
Nagyon ugy erzem, hogy valami ilyesmirol lesz itten szo...

A heten cserelek, aztan majd update-elem az urakat.

Kosz,
- Cs.
Fagyal Csongor
2005-03-04 10:42:42 UTC
Permalink
Uraim, follow-up:

Kivéve a Seagate vinyót a gépből minden tökéletesen működik.

Eddig is megvolt a márkáról a véleményem... hát mostantól még jobban.

Üdv,
- Cs.
Post by Fagyal Csongor
Hi mindenki,
A következő idegtépő problémám lenne, hátha látott már valaki ilyet...
Adott egy Fedora Core 3, 2.6.10-1.766_FC3smp kernel, P4 3G HT, ASUS
P5D800 alaplap.
A gépben SCSI RAID fut, de van mellette 2 SATA vinyó (Samsung+Seagate,
120G/160G). Boot után minden rendben - egy ideig. Aztán egyszer csak -
van egy olyan érzésem, mintha I/O inaktivitás után lenne, de ez nem
biztos - a SATA vinyók meghalnak: gyakorlatilag minden processz, ami
feléjük irányuló I/O-t végezne, az freeze-el (D).
Feb 24 19:57:20 ns1 kernel: ata2: command 0x35 timeout, stat 0x80
host_stat 0x21
Feb 24 19:57:20 ns1 kernel: ata2: status=0x80 { Busy }
Feb 24 19:57:20 ns1 kernel: SCSI error : <2 0 0 0> return code = 0x8000002
Feb 24 19:57:20 ns1 kernel: FMK Current sdd: sense = 70 9f
Feb 24 19:57:20 ns1 kernel: ASC=8e ASCQ=f7
Feb 24 19:57:20 ns1 kernel: end_request: I/O error, dev sdd, sector 12519
Feb 24 19:57:20 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 19:57:20 ns1 last message repeated 2 times
Érdekes, hogy minkét vinyó ilyen módon elszáll... tehát mintha az
alaplapi SATA chip őrülne meg (ICH5 vagy hogy hívják amúgy).
Umount-olni lehet (2 percig tart...), sőt, újra mount-olni is, de a
hiba marad.
Kikaptam a libata és az ata_piix modult, visszaraktam, de innentől
Feb 24 21:44:24 ns1 kernel: ACPI: PCI interrupt 0000:00:1f.2[A] -> GSI
18 (level, low) -> IRQ 169
Feb 24 21:44:24 ns1 kernel: ata1: SATA max UDMA/133 cmd 0xCC00 ctl
0xC882 bmdma 0xC400 irq 169
Feb 24 21:44:24 ns1 kernel: ata2: SATA max UDMA/133 cmd 0xC800 ctl
0xC482 bmdma 0xC408 irq 169
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xCC07
Feb 24 21:44:24 ns1 kernel: scsi7 : ata_piix
Feb 24 21:44:24 ns1 kernel: ATA: abnormal status 0x80 on port 0xC807
Feb 24 21:44:24 ns1 kernel: scsi8 : ata_piix
Reboot után minden renben működik ismét - a következő leállásig...
Feb 24 15:54:43 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:54:43 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:47 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:54:47 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:53 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:54:53 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:54:57 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:54:57 ns1 kernel: ata1: error=0x40 { UncorrectableError }
...
Feb 24 15:55:52 ns1 kernel: ata1: status=0x51 { DriveReady
SeekComplete Error }
Feb 24 15:55:52 ns1 kernel: ata1: error=0x40 { UncorrectableError }
Feb 24 15:55:52 ns1 kernel: SCSI error : <1 0 0 0> return code = 0x8000002
Feb 24 15:55:52 ns1 kernel: Current sdc: sense key Medium Error
Feb 24 15:55:52 ns1 kernel: Additional sense: Unrecovered read error -
auto reallocate failed
Feb 24 15:55:52 ns1 kernel: end_request: I/O error, dev sdc, sector 2624447
És végül: amikor umount-olom a partíciókat (már az error után), az
umountolás ideje ALATT az umountolódó partíció mérete átmenetileg(!)
megegyezik a SCSI RAID partíciójával! Ez már "totálgáz (tm)".
A vinyókon fizikai vagy SMART hibát, badblockot nem találtunk...
(pesze attól még lehet hibás).
Valami ötlet?
THX,
- Csongor
_______________________________________________
linux++ mailing list
http://mlf2.linux.rulez.org/mailman/listinfo/linux++
Loading...