[ dzigilibonglica @ 09.06.2011. 12:25 ] @
Pozdrav ljudi, ovo je već polako počelo da me izludjuje:

Svaki put kada nasilno nestane struje (Nestanak, ili sklopka izbaci) meni se Ubuntu 11.04 više ne podiže (isto bilo i sa 10.04LTS).
Samo ispiše:
Code:
Grub Error


Onda kreće njakanje tri sata sa live CD-om i update-grub itd...ali bez pravila nekad proradi, a nekada ne, pa vadim kablove od HD-a, pa bodem u drugi priključak i tako dok ne proradi.

Evo sada radi, ali šta da radim kad opet nestane struje? Ja znam da Ubuntu piše po boot recordima na HD-u kada se gasi, ali može li to lepo da se isključi, ili da piše odma čim se diže, da se to više ne skrši sa sve ubuntuom ili moram ups i na kućnu makinu?

Disk je sata 80GB sa tri particije:
1) EXT4: Ubuntu 15-ak gigabajta
2) EXT4: Podaci 60-tak gigabajta
3) Swap: ostatak (4-5 GB)

Ubuntu je 11.04 64bita, gnome.

Pozdrav.
[ combuster @ 09.06.2011. 12:49 ] @
To ne bi trebalo da je do Ubuntu-a, mada ajd, za svaki slucaj, trebalo bi da ti ispise neki broj posle Grub Error-a.
[ dzigilibonglica @ 09.06.2011. 16:23 ] @
Code:
Grub Error


A nekada i
Code:
Error loading Grub
[ combuster @ 09.06.2011. 17:07 ] @
Meni to nema neke logike, da ti bas uvek ojadi grub, a da ti zvekne uvek MBR otisle bi ti i particije i ne bi se dizao grub uopste. Nesto je tu drugo problem, ubuntu ne pise nista po MBR-u kada se gasi vec samo umount-uje particije, ja bih pre rekao da se tebi hdd zaglupi i da cak nije u pitanju ni fs corruption.

Instaliraj smartmontools i daj izlaz od komande:

sudo smartctl -a /dev/sda
[ dzigilibonglica @ 09.06.2011. 17:39 ] @
Code:

[email protected]:/media/Dokumenti/zdravko/Documents/Java$ sudo smartctl -a /dev/sda
[sudo] password for zdravko: 
smartctl 5.40 2010-07-12 r3124 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD800AAJS-00PSA0
Serial Number:    WD-WMAP9C741337
Firmware Version: 05.06H05
User Capacity:    80,026,361,856 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun  9 18:38:30 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)    Offline data collection activity
                    was suspended by an interrupting command from host.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:          (2100) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      (  31) minutes.
Conveyance self-test routine
recommended polling time:      (   6) minutes.
SCT capabilities:            (0x103f)    SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   160   156   021    Pre-fail  Always       -       3000
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       673
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000e   200   200   051    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       10381
 10 Spin_Retry_Count        0x0012   100   100   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   051    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       641
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       152
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       674
194 Temperature_Celsius     0x0022   103   095   000    Old_age   Always       -       40
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       5891
200 Multi_Zone_Error_Rate   0x0008   200   200   051    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
[ dzigilibonglica @ 09.06.2011. 18:06 ] @
@combuster: Hvala


Zaboravio sam da napomenem jos par stvari:

Pre sam imao instaliran i Win7 na toj masini, ali sam ga koristio retko, odnosno samo kada bih posao doneo kući (VB programiranje).
I tako bih jednom u dve nedelje, izabrao iz grub-a Win7, i odmah posle Win sesije i restarta, Ubuntu se nije hteo dizati (tada 10.04).
Takođe prijavljivao je potpuno iste greške svaki put kada bi startovao Win7 pa posle probao da dignem Ubuntu (isto ponašanje posle Wina, kao i posle nestanka struje).

Sada nema više Win7 na toj mašini, znači samo Ubuntu 11.04, D particija i Swap, ali opet ista gnjavaža.

Ne pada mi ništa na pamet, jedino da ti pustim ovaj test sledeći put iz live CD-a kada se opet isto desi?

Pozdrav!
[ Miroslav Strugarevic @ 09.06.2011. 18:57 ] @
I ja glasam za HW gresku. Ja bih pokrenuo onaj WD-ov zvanicni alat za proveru ispravnosti hdd-a, zamenio bih sata/ata kabal itd...

Takodje bih razmislio o kupovini UPS-a.
[ dzigilibonglica @ 09.06.2011. 19:35 ] @
Moguće da je hardwerski problem,

ali zadnjih nedelju dana mi je bila sama Win7 , i na nju ne utiče ta eventualna hw greška.
[ Miroslav Strugarevic @ 09.06.2011. 19:38 ] @
Zameni ti kabal za pocetak.
[ combuster @ 09.06.2011. 20:21 ] @
U jbt...

199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 5891

Disaster...

Kabl, napajanje, ni ta temperatura bas ne pomaze ali nije strasno (mada ovo je pri idle-u, ko zna dokle ide pri opterecenju).
[ mtesic @ 09.06.2011. 21:11 ] @
Meni je poznat scenario koji dzigilibonglica prica. Samo da prijavim da imam identicno iskustvo - da ne ispadne da se coveku pricinjava.

[ combuster @ 09.06.2011. 21:16 ] @
Pa ustanovili smo da mu se ne pricinjava :) Kad si imao slicno iskustvo - kako si ga resio ? Ili ako pricas u prezentu onda izvadi i ti smart log pa da vidimo jel slican problem kod tebe.
[ mtesic @ 09.06.2011. 22:37 ] @
Ma, resavao sam tako sto sam bootovao CD i cakcao menije do iznemoglosti - dok nesto ne uradi posao. Ne prilazim vise sa onoliko entuzijazma Linu kao sto sam nekad cinio (ahhh, godine, obaveze i skraceni zivci), te me ceo problem ne tangira vise, ali eto, zeleo sam da prijavim da drugar nije u individualnom problemu (valjda je i to neki hint).
Za sl. da to moze da pomogne resavanju problema -> eve i mog reporta iz konzole :-)
(trenutno imam Barshunastog Narvala, ali se desavalo i na ranijim verzijama, mislim cak i na drugim distribucijama a terao sam Suse i RedHat).

=== START OF INFORMATION SECTION ===
Model Family: Maxtor DiamondMax 10 family (ATA/133 and SATA/150)
Device Model: Maxtor 6L160P0
Serial Number: L315J4RG
Firmware Version: BAJ41G20
User Capacity: 163,927,522,816 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0
Local Time is: Thu Jun 9 23:22:02 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (1202) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 63) minutes.
SCT capabilities: (0x0021) SCT Status supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
3 Spin_Up_Time 0x0027 208 206 063 Pre-fail Always - 16137
4 Start_Stop_Count 0x0032 250 250 000 Old_age Always - 6638
5 Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail Always - 0
6 Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0
7 Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0
8 Seek_Time_Performance 0x0027 248 240 187 Pre-fail Always - 53714
9 Power_On_Minutes 0x0032 231 231 000 Old_age Always - 112h+01m
10 Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0
11 Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 240 240 000 Old_age Always - 5159
192 Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0
193 Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0
194 Temperature_Celsius 0x0032 042 253 000 Old_age Always - 40
195 Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 28027
196 Reallocated_Event_Count 0x0008 253 253 000 Old_age Offline - 0
197 Current_Pending_Sector 0x0008 253 253 000 Old_age Offline - 0
198 Offline_Uncorrectable 0x0008 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0008 001 001 000 Old_age Offline - 792
200 Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 252 000 Old_age Always - 0
202 Data_Address_Mark_Errs 0x000a 253 252 000 Old_age Always - 0
203 Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 0
204 Soft_ECC_Correction 0x000a 253 252 000 Old_age Always - 0
205 Thermal_Asperity_Rate 0x000a 253 252 000 Old_age Always - 0
207 Spin_High_Current 0x002a 253 252 000 Old_age Always - 0
208 Spin_Buzz 0x002a 253 252 000 Old_age Always - 0
209 Offline_Seek_Performnce 0x0024 242 242 000 Old_age Offline - 143
210 Unknown_Attribute 0x0032 253 252 000 Old_age Always - 0
211 Unknown_Attribute 0x0032 253 252 000 Old_age Always - 0
212 Unknown_Attribute 0x0032 253 197 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay
[ combuster @ 09.06.2011. 22:56 ] @
I tebi isto UDMA CRC error count visok.

Jbg, to moze da bude do kabla, kontrolera, napajanja... Nista mi drugo ne pada na pamet. Pogotovo sto ni jedan ni drugi nemate reallocated sektora...
[ mtesic @ 12.06.2011. 07:36 ] @
Tnx combuster za info i trud. U krajnjoj liniji, resice se kada promenim(o) konfiguracije :-). Poz.
[ dzigilibonglica @ 12.06.2011. 09:41 ] @
Ok,
ustanovili smo da su nam hardovi krševi, ali ja opet tipujem na Grub ili Ubuntu.

Ako je do harda, ne bi trebalo ništa da se učita, ali on učita Grub i onda grub napravi neku brljotinu...i to simptomatočno uvek posle nasilnog restarta/shutdown-a.
Neka neću da se zaluđujem sada time, ali kao da gledam da će Marphy da mi pošalje jedan restart baš kad mi taj komp bude bio najpotrebniji...
[ combuster @ 12.06.2011. 11:21 ] @
Mogu da ti garantujem da nije do Ubuntu-a, 99% sam siguran da to nema veze sa Linux-om. Ajde neko vreme instaliraj Windows i samo njega vozi, zabelezi broj UDMA CRC gresaka i povremeno ih proveravaj i vidi da li rastu. Kada imas toliki broj, sigurno ce se pojaviti jos u periodu od 3-4 dana. Onda ces znati da li je hardware-ski problem ili nije. SMART parametre mozes da ocitas i preko hwinfo-a: http://www.hwinfo.com/download32.html
[ dzigilibonglica @ 12.06.2011. 13:07 ] @
Pa rekoh ja već da sam terao WIN7 nekih 7-10 dana:

Citat:
dzigilibonglica: Moguće da je hardwerski problem,

ali zadnjih nedelju dana mi je bila sama Win7 , i na nju ne utiče ta eventualna hw greška.


I dešavao se nasilni reset, ali nikada da neće da bootojue, nekada kaže "Windows recovered from serious error " kada se digne, ili ponudi prilikom boot-a safe mode ili start windows normaly...jer je nasilno ugašen, ali to je sve.
Kao što i pre reče (ako to išta utiče) dešavalo se uvek isto sa dual boot-om win-a i ubuntua: Kada god bih ušao u sesiju Windows-a i onda je normalno ugasio ili uradio softwerski reset, dešavalo se da izbaci grub error prilikom ponovnog starta računara.


Sada više nemam Windows, ali ostaje pitanje nasilnog reseta ili gašenja, kada pokaže samo Grub error.

Windows kada je saam, on svari sve, dok kod Lin-a izbaci Grub error.

E sada mi je još sumnjivo ovo, pa možda to zbunjuje Grub:
Particija 1: /dev/sda1
Particija 2: /dev/sda5
Particija 3: /dev/sda6
[ dzigilibonglica @ 12.06.2011. 13:42 ] @
Evo upravo sam uspeo da rešim problem na neki način uz dosta googlanja:

Code:

  sudo apt-get purge grub-pc
  sudo apt-get install grub
  sudo rm /boot/grub/*
  sudo grub-install --recheck /dev/sda
  sudo update-grub


Reset na legacy Grub radi posao. Jeste malo stariji i sporiji, ali pošto imam samo ubuntu, i ne treba mi neki izbor.
Čak sam i probao 2-3 puta da ga secnem sa hardwerskim reset-om, i svaki put se diže.

Googlao sam problem dual boot-a sa windows-om i dešavalo se i drugima isto to kao i meni sa HW resetom.
Od ponuđenih rešenja, ovo je najbezbolnije, a problem je ipak u Samom GRUB-u 2.
Naime grub2 koristi određeni broj bajtova u MBR-u, ali i moj Ubuntu je na istom disku, pa uvek nešto napiše po delu MBR-a koji koristi i Grub. Ista situacija je i sa Windowsom.
Međutim Ubuntu prilikom pisanja po MBR-u to prvo isčita i sačuva, a prilikom gašenja to isto vrati u MBR?!!! Zato je i pucao GRUB.

Grub1 koristi manji broj bajtova u mbr-u pa ga taj problem i ne dotiče, jer deo po kojem sistemi pišu, njega ne čepi.
E sada, 5-6 sekundi sporiji boot kod Gruba1, u donosu na Grub2, ja bih sigurno rekao mala cena naspram celog dana njakanja sa kompom samo da bih ga upalio. Na kraju krajeva može i Grub1 da se optimizuje

@combuster i kompanija : Veliko HVALA na trudu oko problema

Evo ponuđenih rešenja (malo sam ih ja ulepšao sa code xml-om da budu čitljivija):

Citat:

Solution 1 Disable the Window Program Writing to the MBR
See what happens if you disable or uninstall programs in Windows which might be writing to extended MBR. You also might be able to determine the program by looking at a hexdump of the extended MBR. Open a terminal in your Linux OS and type
Code:
sudo dd if=/dev/sda of=/good_mbr  count=63

(this assume that you are booting from /dev/sda, otherwise you might have to use /dev/sdb, /dev/sdc, ...)
Next time grub fails to boot, boot into a Linux Live CD, type
Code:
sudo dd if=/dev/sda of=/bad_mbr  count=63

and compare the two files:
Code:
   sudo mount /dev/sda3 /mnt
   sudo hexdump  -C /mnt/good_mbr
   sudo hexdump  -C /bad_mbr

(here /dev/sda3 needs replace by the device name of the Ubuntu partition)

Solution 2 Revert to Legacy Grub
Code:
  sudo apt-get purge grub-pc
  sudo apt-get install grub
  sudo rm /boot/grub/*
  sudo grub-install --recheck /dev/sda
  sudo update-grub


This assume that /dev/sda is your boot drive. Otherwise you need replace /dev/sda by one of /dev/sdb, /dev/sdc,...
You also need to add Windows to your Grub menu:
Code:
    gksudo gedit /boot/grub/menu.lst

and add an entry for Windows at the very end of the file:
Code:
title [Your Version of Windows]
    rootnoverify (hdY,Z)
    chainloader +1

if Windows is not on the boot drive, that is if Y is not zero,you also need the map line:
Code:
    title [Your Version of Windows]
    rootnoverify (hdY,Z)
    map (hd0) (hdY)
    map (hdY) (hd0)
    chainloader +1


Solution 3 Install Grub2 to a partition and use a different boot loader in the MBR
Code:
 sudo grub-install --recheck --force /dev/sda2
  sudo apt-get install lilo
  sudo lilo -M /dev/sda ext
  echo "SET grub-pc/install_devices /dev/sda2" | sudo debconf-communicate

here /dev/sda2 needs to be your Ubuntu partition. If you use the Windows partition by accident, you won't be able to boot Window anymore.

Solution 4 Install Grub to the MBR of a different hard drive
Code:
sudo grub-install --recheck /dev/sdZ
   echo "SET grub-pc/install_devices /dev/sdZ" | sudo debconf-communicate

and set your Bios to boot from /dev/sdZ
[ combuster @ 12.06.2011. 13:47 ] @
To je sve u redu, imas jednu primarnu particiju i dve logicke. (prva cetiri broja su ti rezervisana za primarne particije, ostalo je za logicke unutar extended particije).

Ok, sada mi je dosta stvari jasnije, rekao si nasilni reset, tebi cela masina istrokira ili se resetuje sama od sebe zbog gomile gresaka tokom I/O operacija, to ne samo da moze da ti uspori rad sistema podosta vec utice i na sigurnost i bezbednost podataka na disku. Tako da ono, lajemo uz pogresno drvo, nije pitanje kako namestiti grub da ne reaguje na takve greske pri radu neko kako same greske otkloniti.

Ja ne znam sta drugo da ti kazem, kreni redom, zameni kabl, pa testiraj, isto to uradi sa ubadanjem u drugi IDE port, dugim hdd-om, napajanjem pa eventualno ako mozes da nadjes i PCI IDE kontrolerom. Testiras tako sto pratis smart parametre, da li se CRC greske uvecavaju i da li ti se naravno dogadja isti problem sa pokretanjem grub-a.

/edit: ovim si samo sprecio da se problem ispolji na jedan nacin, ali veruj mi sa takvim stanjem u kakvom ti je hdd i/ili ostatak navedene opreme mozes da ocekujes svasta...
[ dzigilibonglica @ 12.06.2011. 15:55 ] @
Nasilni reset mi se nije nikada dogodio sam od sebe, uglavnom je to zbog nestanka struje, ili sevne malo pa izbaci sklopka, na takav nasilni reset sam mislio.
Nije se desavalo da mi se sistem zakuca pa da moram da ga resetujem.

Ovo sam sada namerno uradio reset na dugmetu par puta da bih video jesam li resio problem, i problem je resen.
Menjao sam kablic, ubadao u druge rupe, ali uvek je bilo isto. Kod mene nije IDE disk već je onaj sa uzanim kablićem(ata).
I rekoh simptomatično je bilo da se baš uvek kada se nasilno ugasi komp, pukne grub.

Al nebitno, bitno da je rešeno, ko još bude gledao ovu temu znaće šta da radi :)

Pozdrav!