Bbabo NET

Veda & Technika Správy

Microsoft 365 zlyhal v dôsledku nesprávnej aktualizácie interného centrálneho úložiska konfigurácie

Microsoft zverejnil, že päťhodinový výpadok Microsoft 365 na celom svete 21. júla bol spôsobený nesprávne zostavenou aktualizáciou, ktorú inžinieri spoločnosti nainštalovali pri práci na internom centrálnom úložisku konfigurácie. Incident sa dotkol mnohých zákazníkov a cloudových služieb spoločnosti, ktoré tiež využívajú službu Enterprise Configuration Service (ECS).

Centralizované cloudové služby spoločnosti Microsoft umožňujú pomocou špeciálnych nástrojov vykonávať rozsiahle dynamické zmeny vo fungovaní služieb a cloudových aplikácií, ako aj cielené zmeny, ako sú špecifické konfigurácie pre každého partnera, podnikového klienta alebo skupinu koncových používateľov. Nesprávna konfigurácia centrálnej podnikovej konfiguračnej služby ECS mala za následok kaskádové výpadky služieb Microsoft 365 a ovplyvnila podnikových používateľov vo viacerých regiónoch.

Navyše, incident bol spočiatku malý. V protokoloch to vyzeralo ako zlyhanie v Microsoft Teams. Potom sa jeho vplyv začal dramaticky rozširovať do iných cloudových služieb. Výpadok nakoniec ovplyvnil niekoľko služieb Microsoft 365 s integráciou Teams, ktoré tiež využívajú ECS, vrátane Exchange Online, Windows 365 a Office Online.

Výsledkom je, že podnikoví používatelia na celom svete začali spoločnosti Microsoft hlásiť, že nemôžu používať Microsoft Teams a niekoľko ďalších služieb alebo funkcií Microsoft 365.

„Tento problém ovplyvnil možnosť používateľov pripojiť sa k desktopovým, webovým a mobilným klientom Microsoft Teams,“ vysvetlil Microsoft vo svojej predbežnej správe.

Microsoft uviedol, že telemetria identifikovala 300 000 postihnutých zákazníkov. Najviac zasiahnuté boli spoločnosti v regióne Ázie a Tichomoria (APAC), keďže tam bol v čase výpadku pracovný deň. Európski a americkí zákazníci boli postihnutí menej. Postihnutí podnikoví zákazníci navyše zaznamenali najviac problémov s nefungovaním priameho smerovania a služieb Skype MFA.

Podľa správy Microsoftu k havárii došlo 21. júla o 4:05 moskovského času. Inžinieri spoločnosti odstránili väčšinu problémov s nimi spojených do piatich hodín. O 9:00 moskovského času sa Microsoft 365 vrátil do normálu. Niektorí zákazníci mali až do 16:00 moskovského času stále problémy s cloudovými službami spoločnosti Microsoft.

Vyšetrovanie odhalilo, že incident ovplyvnil zákazníkov, ktorí sa pokúšali používať jednu alebo viacero z nasledujúcich služieb a funkcií Microsoft 365 (všetky boli v rôznej miere ovplyvnené výpadkom):

Exchange Online (pri odosielaní pošty došlo k oneskoreniu);

Centrum spravovania Microsoft 365 (prístup bol odmietnutý);

Microsoft Word vo viacerých cloudových službách (nestiahnuté);

Microsoft Forms (nemožnosť používania cez Teams);

Microsoft Graph API (ovplyvnená bola akákoľvek služba používajúca toto API)

Office Online (vyskytli sa problémy s prístupom k programu Microsoft Word);

SharePoint Online (vyskytli sa problémy s prístupom k programu Microsoft Word;

Project Online (prístup bol uzavretý);

PowerPlatform a PowerAutomate (neschopnosť nasadiť nové prostredie pomocou databázy);

automatické aktualizácie v Microsoft Managed Desktop (prístup bol odmietnutý);

Yammer (mal problémy so spustením Yammer);

Windows 365 (nemôže pridávať ani vytvárať nové cloudové počítače).

„Aktualizácia na nasadenie do našej služby ECS obsahovala chybu kódu, ktorá ovplyvnila spätnú kompatibilitu s inými službami využívajúcimi ECS. Konečným výsledkom bolo, že služby využívajúce ECS® vrátili nesprávne konfigurácie do všetkých ich pripojených partnerských služieb, “pripustila spoločnosť. „To viedlo k tomu, že nadväzujúce spoločnosti a cloudové služby pripojené k Microsoftu dostali správu o stave 200, ktorá naznačuje, že stiahnutie konfigurácie bolo úspešné. V skutočnosti obsahoval skreslený a nefunkčný objekt JSON,“ upresnili odborníci spoločnosti.

Spoločnosť Microsoft uviedla, že v dôsledku tohto incidentu spoločnosť zlepší mechanizmus prepnutia služby Microsoft Teams tak, aby sa v prípade podobného zlyhania pri budúcich aktualizáciách ECS vrátil k verzii konfigurácie ECS uloženej vo vyrovnávacej pamäti. Spoločnosť tiež zavedie nástroje na ďalšiu izoláciu porúch, aby sa obmedzil ich vplyv, ako aj upraví prahové hodnoty monitorovania, aby sa tieto poruchy na nízkej úrovni lepšie odhalili v počiatočných štádiách ich výskytu.

Microsoft 365 zlyhal v dôsledku nesprávnej aktualizácie interného centrálneho úložiska konfigurácie