Driftstatus: Vi har normal drift med full reservkapacitet

Internet driftstörning – 11:e – 12:e januari 2012

 

Här följer ett litet sammandrag av händelseförloppet. Är ni ointresserade av tekniska problem så läs vidare längre ner, där finns mer information om funktion och sårbarheter.

 

 

Kl. 09:31 den 11:e januari försvann internet. Bara tvärdog! Vi märkte detta direkt eftersom vi själva i princip alltid sitter uppkopplade mot leverantörer eller kunder samtidigt som vi får larm från vårt larmsystem.

En trolig felkälla kan vara en switch som hängt sig (dock inte så vanligt, men troligt) så en av oss tog direkt hissen till källaren och datahallen samtidigt som en annan slängde sig på luren till Telenor, en av våra internetoperatörer, för att felanmäla och få information från dem om eventuellt centralt fel. Switchen såg hur fin ut som helst, alla lamporna blinkade och det fanns inga tecken på problem. Telenor visste inte heller något om något fel, men tog en felanmälan och skulle börja felsöka från sin sida.

09:37 Det första kunderna börjar ringa in. Vi brukar skämta om det ibland, att om det är dött på telefonen kan vi alltid gå och dra ut sladden till internet så börjar kunderna ringa. Och det är verkligen så, det är som att vrida på en kran … Första reaktionen man får från kunderna är oftast positiv. De flesta brukar vara oroliga för att något ute hos dem gått sönder och när de får reda på att det är ett centralt fel som också drabbar andra så kan man oftast höra en lättnadens suck. Hur som helst i detta skede är de flesta tacksamma för att vi svarar i telefon och att de får besked om vad som är fel.

Här har vi som leverantör tagit 2 strategiska beslut. Inte använda IP-telefoni, som antagligen också skulle legat nere vilket skulle inneburit att ingen fått tag på oss och att använda dubbla internetförbindelser (eller tredubbla, eller ännu fler eg.) vilket innebär att mail fortfarande levereras in till vår servrar och specifika servar kan fortfarande nås över den andra internetförbindelsen samtidigt som vi kan felsöka från båda håll så att säga.

10:49 Efter ett antal samtal till Telenor får vi nu besked om att det är en central accessrouter i Göteborg som har ett trasigt kort, kort 7 närmare bestämt. Detta beräknas vara åtgärdat senast 15:00. Man får dock känslan att det kommer att ske tidigare, hur svårt är det att byta ett kort liksom. Och tekniker var redan på väg. Skönt, för det här stoppet har redan varat för länge… Tonläget i telefonen på inringande kunder börjar nu ändras lite och vissa har redan ringt åter för att få ny statusuppdatering. På vår driftssida finns information som vi uppdaterar löpande, men endast de kunder som har internet via oss kunde komma åt den.

15:24 KATASTROF 1. Allt som inte får hända har hänt. Reservkortet som fanns på plats i Göteborg fungerade inte. Nytt kort skickades express med flyg och hamnade i fel stad, i Karlstad… Detta kortet kommer nu att anlända 18:30 och skall sedan installeras. Kunder som ringer in nu är inte lika positiva, vissa är arga (fullt förståeligt) dock kan fortfarande någon skämta om att gå hem tidigare. Personal stannar kvar på Optinet för att även senare under kvällen hjälpa till med felsökning och svara i telefonen för de kunder som jobbar kväll.

20:30 Internet går igång igen, puuhh, det var på tiden! Vi bevakar förbindelsen fortlöpande för att se så att den nu är stabil … vilket den är … enda fram till 23:00…

23:01 Ny kontakt med Telenor, nu börjar det kännas lite skumt, kortet är bytt och allt borde fungera perfekt igen. Mycket oroväckande att linan går upp och ner, känns inte bra …

23:30 Kontakt igen, nu borde det funka. Vi fortsätter att bevaka och allt verkar stabilt fram till 06:30.

07:30 KATASTROF 2. Internet funkar fortfarande inte, kortet är bytt och allt ser rätt ut, dock fungerar det inte och nu vet ingen varför … De kunder som ringer nu är irriterade och upprörda. Gårdagens trevliga och skämtsamma ton är helt borta. Att vi jobbat hela natten gör ingen gladare i detta läge …

09:30 Felet funnet! Ytterligare ett fel vill säga, som legat ”latent” i Telenors nät och triggats av det första felet. Detta innebär att vi måste byta IP-adresser i vår core-switch. Adresser bytta, och NU 09:50 är allt stabilt igen. Vi bevakar dock fortfarande. Kunder som ringer in nu undrar om helt andra saker …

————

Alla är vi idag mer beroende av internet än vi tror, det har blivit samhällskritiskt! På Optinet har vi gjort över 30 säkerhetsanalyser av IT-miljöer på företag och alla framhäver hur beroende de är av mail och internet. Stopp kan accepteras i några få timmar.

Detta framgår också väldigt tydlig genom en enkel analys av kundernas tonläge när de ringer in, ju längre tiden går ju mer förändras det!

Här är det på sin plats att klargöra vad de olika internetoperatörerna lovar i sina avtal med sina kunder. I princip alla operatörer Telia, Telenor, Tele2, Bredbandsbolaget etc har samma typ av upplägg, man ”garanterar” en tillgänglighet. Sedan sätter man en siffra efter tex. 99,5% (vanligt förekommande för företagsabonnemang). Vad innebär då detta?

Ja, en upptid på 99,5% av tiden på ett helt år innebär att man kan ha ett avbrott på 43,8 timmar. Detta innebär alltså att en tjänst kan ligga nere i drygt en arbetsvecka per år. Är detta acceptabelt? Det tycker inte vi. Vad kan man då ställa för krav om detta inträffar? Även här är standard att man får en reduktion på sin månadsavgift på tex. 30%. Är avbrottet längre så kan man få upp till full reduktion för en enstaka månad, aldrig mer!

Eller, det där sista var faktiskt inte sant, man kan få mer. Låt oss säga att man har en väldigt kritisk tjänst, då kan man enligt ök. med sin internetoperatör först teckna full redundans vilket vanligen innebär dubbla fiberförbindelser som går två fysiskt olika vägar. Att dra in dessa kostar från 100 000:-, sedan har man avtal om högsta tillgänglighet och dygnet runt-support. Nu är vi uppe i över 20 000:-/månad. Har man denna typ av avtal kan man förhandla om en kundunik erättning. Jag vågar säga att detta är något i överkant för vår normala kund.

Om man å andra sidan betalar några tusenlappar i månaden för internet och får ett avbrott på upp till en vecka och som kompensation får några hundralappar i reducerad kostnad så är det en klen tröst.

Detta är inte vad man förväntar sig (man är sällan så påläst så man vet vad man kan förvänta sig) och något för oss att ta lärdom av!

————–

Eftersom ekonomisk kompensation alltså inte är relevant återstår att bygga en teknisk lösning som håller den nivå som både ni och vi kan förvänta sig och acceptera. Senast ett längre stopp inträffade var för 5-6 år sedan och då i samband med en fiberavgrävning vid ett arbete på en bro vid Ullevi. Då var internet inte riktigt lika kritiskt som nu, det framgår tydligt!

Från Optinets sida kommer vi att vidta följande åtgärder för att höja säkerheten och förhindra liknande stopp:

  1. Utökad redundans på internetförbindelsen kommer att installeras. Dvs ytterligare förbindelser installeras så att om en går ner kan trafiken gå en annan väg. (Redundans finns redan i dag för mail, DNS och som extra tillval.)
  2. Dieselkraftverk installeras för att kunna driva hela datahallen även under längre strömavbrott (hade inte spelat någon roll för detta fel)
  3. Informera kunderna tydligare om systemens uppbyggnad så att man själv lättare kan utvärdera sin sårbarhet (läs detta blogginlägget noga)
  4. Införa testrutiner för att i ett förebyggande syfte testa så att våra, såväl som våra leverantörers (Telenor, Telia, Gothnet, DGC, Skanonva etc), redundans fungerar som utlovat
  5. Ta till oss de synpunkter ni som kund i övrigt kan bidra med och anpassa oss där efter.

Flera av dessa punkter är redan i rullning, dvs. beställda dock inte installerade. Arbetet kommer att ske under våren 2012.

———–

Men, det finns två sidor av varje mynt. Oavsett hur bra säkerhet vi bygger kommer även er säkerhet att vara lika viktig. Om internet fungerar in till vår datahall så måste även internet fungera ute hos våra kunder. Det är betydligt vanligare med fel hos våra kunder än hos oss. Här måste man också se om sitt eget hus. En extra ADSL-förbindelse eller en extra 3G kan vara några alternativ, sedan beror det på var servrarna står osv.

Här kan jag inte låta bli att berätta en historia ur verkligheten: Ett företag hade ett avbrott på internet (som inte alls hade med Optinet att göra) dock såg vi till att de fick en 3G-baserad reservlösning så att de både kunde skicka/ta emot mail till egen mailserver och komma ut på internet. En inte helt enkel teknisk lösning skall tilläggas som vi var stolta över att kunna sätta upp på kort varsel. VD:n förklarade att avbrottet var jobbigt för dem. Han förklarade också att under dessa två dagar kunde de missa ordrar för flera miljoner. När lösningen var klar berättade vi vad det skulle kosta att ha den permanent om fel hände igen, runt 300:-/månad, vilket han då förklarade var helt oacceptabelt. Spontant kände man då att något som sades var fel, ibland blir man inte helt klok … Men, oavsett scenario kan Optinet hjälpa till att höja säkerheten, tillfälligt eller permanent!

Till sist: 100% säkert är en utopi. Den som säger något annat ljuger. Om hela Göteborg blir strömlöst hjälper det inte med hur många dieselkraftverk man än har, samma sak med mänskliga misstag. Vi kan dock lova att vi kommer att höja driftsäkerheten med alla till buds stående medel till den nivå både ni och vi kan acceptera!