止まらないに越したことはないけど~Google大規模障害で考えたこと
クラウドのトラブルは
天災と思って諦めるのが低コスト
読書と編集 千葉直樹です
クラウドサービスの障害
僕の考え方
一週間ほど前、Googleのサービスの一部に障害が発生して、復旧までに6~7時間かかったということがありました。
目立ったのはGmail、その次にGoogle Drive系のアプリケーションという感じでした。
僕が遭遇した現象は、まずGoogleドキュメントが明らかに遅くなり、時々ネットワークエラーが起きるという状態になり、作ったドキュメントをGmailで共有しようとしたらエラーとなり、次にドキュメントをPDFにして添付しようとしたらアップロードができず。別のアカウントでも同じ現象という感じ。
現象からみて、ストレージ系に大規模な障害が起きたのだなと判断して、連絡先にメッセンジャーなどで連絡を入れて、大急ぎじゃないものについて待ってもらうことにしました。
他の手段を使うということも考えられなくはないのですが、情報管理の観点からは通常使っている手順を崩すのは得策ではないと考えたからです。
Googleのことですから数時間で復旧するだろうという楽観的な見通しを持っていたこともあるのですけど、そもそも無料のサービスを使っているということもありますよね。
有償サービスのほうが良いとは限らない
見た目無料だからいいこともある
エンジニア視点で見ると、サービスが止まるリスクはどのようなシステムでも存在していて、絶対止まらないなんてことはありえないのです。
むしろ、小さな障害は常に起きていて、それを恒常的に維持する作業をしているから動いているわけですね。
こういうシステムの場合、規模が大きいほどメリットがあります。恒常性を維持するための人の確保をしやすいからです。
これがオンプレミスだったらと考えるとゾッとします。めったに起きない障害が起きた時に、それを復旧するのは時間がかかるし、保守する立場からみるとかなり厳しいストレスにさらされることになります。
全てのリスクに備えるというのは一般の人が考えている以上にコストがかかります。たぶん想像の10倍とか100倍とかのお金がかかると思って間違いありません。
とすると、かけられるコストの分だけ頑張って、問題が発生したら諦めるという考え方にならざるを得ません。これ、なかなか理解されないのですが。
そう考えると、直接お金を取らないサービスというのはそれなりに良いところがあるのかもしれないと思います。
今回は有償サービスのGsuiteにも問題が起きたので難しいところですが、サービス料金を取る場合にはどの程度の障害について許容範囲とするかを予め決めておかなければならないし、最悪サービスが止まることによる責任をどこまで負うのかという問題が起きてしまいます。
Googleの場合、基本的にタダで使えるシステムがあるから有償側も安心して使えるし、Googleとしても訴訟リスクを避けられるのかもしれないと思いました。
いずれにしても、世界中の人々が使っている大規模なサービスだから影響を受ける人は多いけれども、その規模のおかげで早期に復旧することもできるわけで、このジレンマはなかなか解決できないものなのだろうと思います。
ITサービスも天災のように捉えて備えるのがいいかもしれません。自分のやっている仕事がどのレベルの緊急度を持つものなのか、日頃から考えて、一日くらいなら放っておいても大丈夫な余裕を持っておくのがいいでしょう。
クラウドを使っていたら、たぶんそれくらいの余裕があれば大抵のトラブルは復旧するでしょうから。