Britské ATC odhalilo příčinu nedávného výpadku

08.09.2023 4 příspěvky

Devět dní poté, co Velkou Británii ochromil výpadek ATC systému, zodpovědná společnost přišla s příčinou. Tou byl sled několika událostí, které nebyly včas zachyceny. Finální report vydal NATS, provozovatel tamního letového provozu.

Obrázek zachycuje cestující, kteří 28. srpna uvízli na londýnském letišti Stansted
Obrázek zachycuje cestující, kteří 28. srpna uvízli na londýnském letišti Stansted (Zdroj: Reuters)

Co se stalo?

Osmadvacátého srpna krátce po půl deváté ráno řízení letového provozu obdrželo plán letu, který absolvoval cestu nad Velkou Británií. Systém NATS obvykle přebere data potřebná k příslušné části letu nad Spojeným královstvím a předkládá je řídícím letového provozu. Údaje přebrané na konci srpna ale vyvolaly vypnutí celého systému i jeho záložní verze (oba byly technicky vzato uvedeny do „režimu údržby“). 

Ve zprávě je uvedeno, že systém nebyl schopen navrhnout standardní postup a nebyl pro ATC použitelný. Bez pomoci tohoto systému řídící mohli odbavit pouze 15 % běžného provozu. Letadla, která byla ve vzduchu, mohla v letu pokračovat bez nutnosti zvláštních opatření. Oproti tomu do vzduchu nebyly vpuštěny další stroje, které by zvýšily momentální vytížení. O následcích jsme psali konkrétně zde.

Co bylo příčinou?

Výpadek systému podle oficiální zprávy vyvolaly duplicitní body cesty. Jde o konkrétní místa na zemi s názvy o pěti písmenech. Pro ilustraci, piloti přilétají k Londýnu skrze body KATHY, ABSAV a AVANT. Kombinace tak umožňují pouze omezený počet a některé se opakují. 

Pro letadla, která nad Velkou Británií přelétají, platí, že jejich plán musí obsahovat konkrétní bod, kde vstupují do britského vzdušného prostoru, nemusí už ale obsahovat bod jeho opuštění. Systém NATS je naprogramován tak, aby v databázi vyhledal nejbližší bod mimo britskou kontrolu a určil, kudy letadlo prostor opustí. A právě toto zavinilo výpadek celého systému, jednalo se totiž o duplikát jiného waypointu v tomtéž letovém plánu.

„Vzhledem k tomu, že letové údaje jsou pro bezpečnost provozu kritické informace, které jsou předávány řídícím letového provozu, systém si musí být jistý, že jsou správné, a to v tomto případě nemohl,“ uvádí zpráva. „Proto přestal pracovat, čímž se předešlo jakékoli možnosti předání nesprávných údajů ATC.“

Kvůli tomuto „nedorozumění“ přešel do režimu údržby jak hlavní, tak záložní systém, který umožňuje běžný provoz tisícům letům denně. Podle NATS oba „bezpečně selhaly“. To se stalo vůbec poprvé v historii, celý proces přechodu od normálního stavu k tomu chybovému trval méně než 20 sekund. 

Na vině je pravděpodobně Francie

Zpráva nezmiňuje, o jakou leteckou společnost se jedná ani jakou trasu letí, pouze uvádí: „Odlet byl plánován na 28. srpna kolem čtvrté hodiny ranní a přílet kolem třetí hodiny odpolední.“ Let, který nejvíce odpovídá těmto časovým údajům a prolétal nad vzdušným prostorem Spojeného království, je AF85 společnosti Air France ze San Francisca do Paříže. Tato informace však nebyla potvrzena a jde čistě o spekulaci. 

Nikdo z pasažérů ani posádek nebyl vystaven nebezpečí. Tamní úřad pro civilní letectví, který dohlíží na práci letového provozu, aktuálně celou situaci zkoumá v širším pojetí a zabývá se také tím, jak NATS na celou situaci zareagovalo. Rob Bishton, ředitel úřadu, se nechal slyšet, že vysvětlení budí minimálně několik otázek pro bezpečnost letectví a budou přijata potřebná opatření. 

Mohlo by vás zajímat


Zkušenosti a doplnění našich čtenářů

To je nesmysl

08.09.2023 v 14:18 Vladimír

Jakožto soudnímu znalci v oboru IT se mi vysvětlení jeví jako úplná blbost. Není možné, aby fungující systém se zhroutil v důsledku duplicity nějakých dat. Resp. v důsledku jakýchkoliv dat. To by bylo možné u systému, který je nově nasazovaný. A aby ještě s sebou vzal záložní systém, to už je zcela mimo moje chápání. Možná vyjádření poskytly osoby, které nebyly dostatečně informovány, nejsou kvalifikované nebo byly úmyslně oklamány. 😀

Pokud by to pravda byla, tak už jenom lety VFR  🤪

Počkal bych si na opravdu oficiální úřední zprávu, jak to všechno bylo.

Odpovědět

RE: To je nesmysl

11.09.2023 v 11:59 Martin

Asi bych netvrdil, že to není možné. Možné to je, i když by člověk doufal že je to u takového systému krajně nepravděpodobné. Každopádně by to ukazovalo na velmi mizernou kvalitu kódu a neošetřené vyjímky.

Takových případů kdy například updavený packet sestřelí službu nebo dojde někde k přetečení zásobníku je bohužel stále celá řada. A i u toho jde jen o "data". Každý software obsahuje chyby a tady to bude ještě zajímavé pokud z toho bude ještě nějaký ten audit.

Odpovědět

RE: RE: To je nesmysl

13.09.2023 v 14:09 Vaclav

"Není možné, aby fungující systém se zhroutil v důsledku duplicity nějakých dat. Resp. v důsledku jakýchkoliv dat"

Tyhle systemy jsou vyvijeny a provozovany 20+ let, maji miliony radku kodu a miliardy miliard kombinaci/permutaci/variaci vstupnich dat. V 99,99% funguji bezvadne, ale nikdo nikdy nemuze rict, ze poctive otestoval "deset na dvacatou" moznosti pro kazdou releasnutou verzi. Takovy test by mohl trvat neco mezi milionem a miliardou let napriklad. To plati nejen pro pozemni SW, ale i pro avioniku, dokonce i v pripade level A, jako napr FADEC nebo flight controls.

Cili podepisuju, co rekl Martin, neni to nemozne (a nikdy to nebude 100% vylouceno), je to krajne nepravdepodobne a to i po tomhle incidentu...

Odpovědět

CAP2582: NERL Major Incident Preliminary Report

14.09.2023 v 10:02 MartinL

Oficiálna správa už je pár dní na svete.

https://publicapps.caa.co.uk/modalapplication.aspx?appid=11&mode=detail&id=12321

A zrejme to tak nejak bolo.

Having found an entry and exit point, with the latter being the duplicate and therefore geographically incorrect, the software could not extract a valid UK portion of flight plan between these two points. This is the root cause of the incident.

Odpovědět

Přidat komentář