Nem tervezett leállás a cPanel4-es szerveren

Többen észrevettétek, hogy a cpanel4 szerverünk elérhetetlen volt tegnap kora este óta. Természetesen mi is azonnal értesültünk a problémáról okostelefonjainkon, és azonnal elkezdtük a hiba elhárítását, ami vasárnap délelőtt felyeződött be. A hibát a szerver meghibásodása okozta, a tárhely adatokat a március 2-i mentésből állítottuk vissza. A szerver jelenleg hibamentesen működik.

Jó tudni!

A szerver működik, kritikus adatvesztés nem történt, azonban ha tárhelyedre 2-án szombaton új fájlok kerültek fel, akkor egyes fájlok hiányozhatnak, míg az adatbázis a jó állapotot mutatja! Olvass tovább és ellenőrizd weboldalad! 

Mi okozta a hibát?

Pontosan nem sikerült kideríteni a hiba okát, azonban annyi biztos, hogy a tárhelyeket tároló merevlemez kötet fájlrendszere megsérült. Itt nem a hardver elemekre kell gondlni, hanem a merevlemezekből összeállított RAID10 kötet tartalmára, ami leírja az operációs rendszernek, hol is vannak az adatok.

A fájlrendszer sérülését valószínűleg az okozta, hogy a szerver (amikor bejelnetkeztünk rá) túl volt terhelve, és az újraindítási kísérleteink kudarcba fulladtak. Végül 2 óra próbálkozás után a jó öreg reset gombot használva indítottuk újra a szerveret. Feltehetőleg ez nem tetszett az amúgy modern EXT4 fájlrendszernek, mert az újraindítás után már egyes tárhelyek tartalma nem volt elérhető.

A hibajavítás

Újabb, több órás próbálkozás következett, hogy a fájlrendszert helyreállítsuk, ami elvileg egy mozdulat kellett volna legyen, hiszen naplózó fájlrendszerről beszélünk. Ez azonban nem így történt. Tudtuk, hogy van adatmentésünk egy másik backup szerveren, azonban a backup átmásolása hosszú órákat vesz igénybe, tekintve, hogy a közel nyolcmilló fájlt kell átmozgatnunk és megfelelően beállítanunk. Tehát adtunk pár órát a próbálkozásnak, de nagyjából hajnali két óra körül már biztosnak tűnt, hogy nem fog sikerülni.

Ekkor a tárhelyeket tartalmazó kötetet újraformáztuk, és elkeztük az adatok áttöltését, ami vasárnap délelőtt fejeződött be.

Nem volt adatvesztés

Kritikus adatvesztésről úgy gondolom nem beszélhetünk, azonban annyit érdemes tudnotok, hogy a fájlok amiket visszaraktunk a Március 2-i reggeli mentésből vannak. Az adatbázis viszont nem sérült meg (másik köteten van), ezért úgy gondoltuk, hogy azt nem rakjuk vissza, mert azzal nagyobb problémát okozunk, mintha meghagyjuk.

Mit érdemes átnézni?

Alapvetően érdemes átnézni az oldalakat, hogy megfelelően működnek-e. Hibás adattatalom akkor tapasztalható, ha pélkdául 2-án nap közben töltötted fel a webáruházad képekkel. Ekkor az adatbázisban benne lesznek a termékek (mert az esti állapot), azonban a fájlrendszerben tárolt képek nem lesznek a szerveren, hiszen az a reggeli állapotot mutatja.

Ez problémát jelenthet akkor is, ha weboldalad felhasználói töltöttek tartalmat weboldaladon keresztül a tárhelyedre, például egy fórumban.

Most akkor van hétvégén support vagy nincs?

Többen sérelmeztétek levélben, hogy nem értek el minket telefonon. Ennek oka, hogy hétvégén nincs ügyfélszolgálatunk, de ez nem azt jelenti, hogy a szervereket sem figyeljük. A szervereket a Pingdom szolgáltatásán kresztül figyeljün folyamatosan a világ töb mint 40 pontjáról, és ha baj van, mobiltelefonjaink azonnal jeleznek.

Ha olyan a probléma, ami érint benneteket, akkor arról Twitter oldalunkon azonnal értesítünk benneteket. Érdems feliratkozni a Twitterre, mert a mai telefonok azonnal megjelenítik ezeket a bejegyzéseket, mint egy üzenetet, és így azonnal értesülhettek mindenről. A tegnapi problémáról fő oldalunkra is kitettünk egy igen nagy feliratot, hogy biztosan lássátok, tudunk róla.

De akkor miért nem válaszoltatok a levelekre?

Amikor a probléma láthatóan nagyobb, nincs időnk foglalkozni azzal, hogy leveleitekre válaszoljunk, hiszen mindenkinek elsődleges érdeke, hogy a szolgáltatás működjön, nem az, hogy a levél meg legyen válaszolva.

Tudjuk, hogy nem működik, tudjuk, hogyan oldjuk meg, és azt is tudjuk, hogy nektek fontos, hogy működjön! Higgyétek el, nekünk is fontos!

Kövess minket!