初めてEC2 Auto Recoveryでサーバーが自動復旧した。

2015年1月、AWSで、EC2 Auto Recoveryという機能がリリースされました。
これは、簡単にいうと、主に物理ホスト(それ以外の原因もあるようですが)の障害が発生した場合、EC2サーバーを自動的に再起動してくれる機能です。

・【AWS発表】Amazon EC2の自動リカバリ(Auto Recovery)機能
http://aws.typepad.com/aws_japan/2015/01/new-auto-recovery-for-amazon-ec2.html

国産クラウドサービスで「自動HA」「自動フェイルオーバー」といったネーミングで提供されている機能と同じような機能ですね。

この機能が東京リージョンにリリースされて以来、EC2で構築する際は必ず設定していたのですが、先日、初めてこの機能が効いて自動復旧したケースに遭遇しました。

サーバーのログやNew Relicの監視データによれば、サーバーのダウンタイムは約12分。
思っていたより長いですね。
ただ、このサーバーはアプリケーションサーバーで、2台用意してELBで負荷分散していたので、Webサービスのダウンはありませんでした。

なお、EC2 Auto RecoveryはEC2インスタンスにデフォルトで装備されている機能ではないため、CloudWatchでの設定が必要です。
設定手順は、クラスメソッドさんのブログ記事が詳しいです。

・【新機能】EC2 Cloudwatchの新機能「Auto Recovery」を使ってみた
http://dev.classmethod.jp/cloud/aws/ec2-auto-recovery-feature/

この設定をしないと手作業でEC2サーバーを起動する必要がありますので、運用で楽ができるよう、EC2には必ずこの設定を行うようにしましょう。
また、SNSによる通知設定も併せて行うと、Auto Recoveryによる復旧を検知しやすいです。

 

Follow me!