インフィニティソリューションズ株式会社ブログ

AWS、米国東部リージョンで電源障害発生

米国東部時間で木曜日の夜に、米国東部リージョンのAvailability Zoneの1つで、EC2インスタンスとAmazon Elastic Block Store(EBS)の電源が失われる障害が発生した。

AWSのダッシュボードによると、

AWS Service Health Dashboard

‘At approximately 8:44PM PDT, there was a cable fault in the high voltage Utility power distribution system. Two Utility substations that feed the impacted Availability Zone went offline, causing the entire Availability Zone to fail over to generator power.‘

「米国太平洋夏時間で午後8:44頃、高圧分電システムのケーブルに障害が発生。影響を受けたAvailability Zoneに電源供給している2箇所の電源サブステーションがオフラインとなり、全Availability Zoneが発電機にフェイルオーバーした。」

— 電源障害を起こしたが、まずここまでは想定通り。しかし、

‘At 8:53PM PDT, one of the generators overheated and powered off because of a defective cooling fan. At this point, the EC2 instances and EBS volumes supported by this generator failed over to their secondary back-up power (which is provided by a completely separate power distribution circuit complete with additional generator capacity). ‘

「午後8:53、発電機の1つが冷却ファンが故障したため、オーバーヒートし、電源断となった。この時点で、発電機によって電源供給されていたEC2インスタンスとEBSボリュームは、(追加の発電容量をもち、完全に別の分電サーキットにより供給される)2次バックアップ電源にフェイルオーバーした。」

— 2次障害が発生したが、それも対策済みであった。

‘Unfortunately, one of the breakers on this particular back-up power distribution circuit was incorrectly configured to open at too low a power threshold and opened when the load transferred to this circuit. After this circuit breaker opened at 8:57PM PDT, the affected instances and volumes were left without primary, back-up, or secondary back-up power. ’

「残念ながら、このバックアップ分電サーキットのブレーカーの1つで、極めて低い電力で切れるよう、誤った設定がなされていたため、このサーキットに負荷が移った際、ブレーカが切れてしまった。午後8:57にこのサーキットブレーカーが切れてしまった後、影響を受けたインスタンスとボリュームは一時、バックアップ、2次バックアップ電源の全てを失った。」

— どこかの原発の話をしているような感じ。

この後、復旧が行われたわけだが、InformationWeekによると、

‘Heroku, Parse, Pinterest, and Quora were among the companies affected by the Thursday evening power outage. Heroku’s incident report shows the disruption lasting eight hours, though most service appears to have been restored in two hours.’

「Heroku、Parse、Pinterest、Quoraは木曜夜の電源障害により影響を受けた企業だ。Herokuの障害報告によれば、ほとんどのサービスは2時間で復元されたものの、中断は8時間続いたとのこと。」

— 書き込み中にいきなり電源断となった可能性もあり、整合性を保った形で復旧するのに時間を要したものと思われる。

別のAvailability Zoneに分散させたシステムにしている企業では、サービス停止とはならならかったであろうが。過去にも障害は発生しているわけで、サービス停止のリスクは現存する。そのリスクへの対策は、軽減、回避、受け入れのいずれかだ。別のAvailability Zoneやリージョンにシステムを分散させることにより、リスク軽減を図るのも手。AWSでリスクがあるから、他のプロバイダに変えるというのはAWSのリスクを回避できるが、単なるリスクの付け替えに過ぎない(この障害後、AWSの競合他社が乗換えをさかんに勧めているらしい)。さもなくば、リスクがあることを承知で、そのリスクを受け入れるかだ。