Blogg

Här skriver vi om sånt som är av intresse för våra kunder. IT-säkerhetsfrågor som rör svenska företag, viktigt och intressant, och även om sådant som händer på Optinet!
Rune Wallgren
01 mar 2019

Resan mot Hyperconverged – del 4 – Grande Finale

Första servern har landat!

Vi skall börja med en server för att säkerställa så att allt fungerar, sen beställer vi några till och bygger klustret färdigt. Har knappt aldrig varit med om det förut, men givetvis var det leveranstid på servern, flera veckor. Ok, under tiden kollar vi på disk m.m. Vilka diskar skall vi ha? Vi skall givetvis ha enterpriseklassade diskar, något annat duger inte, sen skall vi ha SSD (inte S2D utan SSD) för cache. Vet ni hur många olika varianter av SATA och SAS-diskar det finns bara från en enda tillverkare? Hur många som helst, säker över hundra modeller. Bara från en leverantör ..

Vi beslutar i alla fall till slut att gå på SAS och 6 TB stora. Återigen köper vi in en för att testa så den fungerar i servern. Återigen är det leveranstid, men som tur är kan vi ju leta vidare efter SSD så länge. Om det var svårt att hitta en vettig SAS-disk visar det sig nästan omöjligt att hitta en SSD (med facit i hand blev det omöjligt).

Allt som alla hade sagt (och som vi hade läst) innan om att bygga med billiga standardkomponenter visade sig vara så långt i från sanning man kunde komma. Vi hittar helt enkelt inte någon SSD utan flyttar fokuset till NVMe. Och nu blir det tekniskt, en SSD-disk modell SAS kan ha 254 kommandon i en kö, en NVMe disk kan 64 000 kommandon i 64 000 köer … Jepp, slå 64 000 x 64 000 på miniräknaren och jämför. En NVMe disk är i princip en SSD som kopplas in på PCI-busen som alltså ökar graden av parallellism något ofantligt. Vi letar alltså efter en enterpriseklassad NVMe disk nu, men går bet igen. (Här skulle man kunna skriva in lite svordomar 🙂 ) Inga av våra distributörer har det vi behöver. Till slut hittar vi en, men den har utgått och skall inte tillverkas mer. Vi ger dock inte upp utan går vidare utanför våra befintliga distributörskanaler och hittar en (1) disk. Går det att beställa fler? Ja, det gör det tydligen. Stora osäkerhetsmoment nu, vi beställer en för att testa, som tur är har servern och den andra disken landat nu. NVMe disken kom på ett par dagar och fungerar fantastiskt, att installera en server går på under 5 min. Ok, dags att beställa resten, fler servrar, SAS-diskar, NVMe diskar, nätverkskort och några raiserboards. Återigen väntan … (tidigare har priser i IT-branschen bara sjunkit och leverans har inte varit ett problem, nu har priserna börjat stiga och leveranser kan ta tid …)

Allt på plats! Vi har även fått tillgång till server 2019 i egenskap av Microsoftpartner. Givetvis skall vi installera det senaste! Fyra dagar senare ger vi upp. Hyperconverged cluster är inte supportat i denna builden av server 2019, jo man kan göra ett hack i registret och få det att funka, men vi pratar om produktion här, skall man då köra på en osupportad, hackad, version av Windows Server, det känns inte som den smartaste vägen. Även om man såklart vill ligga i framkant är detta kanske lite väl i framkant. Således ominstallation igen, har tappat räkningen på vilken gång i ordningen.

Så till slut, efter en hel del andra problem som vi inte går närmare in på är klustret igång. Dags att se vad det går för, blir det någon fart? Hur stor skillnad blir det på 10 Gbit och 20 Gbit nätverk, hur skall cachen tweakas m.m.?

Och svaret på frågan är, med alla inställningar rätt inställd över 4,6 miljoner IOPS.

Pust, det tog ett tag, men där satt den i krysset! Bara allt testande kvar nu, nu skall vi krascha diskar, servrar, nätverk och bryta strömmen och se hur felsäkert allt är, sen skall vi testa kontrollerade uppdateringar! Sagt och gjort vi rycker diskar och kollar hur de bygger om sig, vi rycker strömmen till servrar och vi bryter nätverkskontakten och rycker strömmen till en hel switch, allt bara fortsätter att fungera.

Vi väntar några dagar på att det skall komma uppdateringar och låter allt skötas per automatik. Alla noder startas om under kontrollerade former samtidigt som alla maskiner som ligger på noderna flyttas runt. Riktigt snyggt!

Klustret har INGEN single point of failure. Till skillnad från det vi skrev om tidigare i del 1 där alla kluster hade SAN:et som single point of failure har inte detta klustret den svagheten. Inte heller blir nätverket (normalt sett) en falskhals eftersom all läs/skriv sker till lokala diskar. Vidare kan man även utöka klustret genom att koppla på fler noder och på så vis växa. Man kanske inte skall överbetona denna fördel dock, för sannolikheten att man kommer dragande med en ny server till ett, eller ett par, år gammalt kluster är kanske inte så stor. Troligen bygger man då ett nytt, vid sidan av.

Till sist, vi har en lista på komponenter som passar ihop, vi har reservdelar på hyllan och vi kan byt allt i drift!

Här skulle man kunna skriva mission accomplished, cased closed, men det finns en nivå till, med Hyper-V, virtuella switchar, VLAN och virtuella brandväggar så ev. blir det en fortsättning, den som lever får se …

Lämna en kommentar