たまにはプログラムとバグの話(その3)
で、ほとんど野次馬のごとく原因についてあれこれ推論を書き散らかしましたが、ちょっと違う視点で今回の対応を見てみたいと思っています。
これまでの話で、人間はコーディングにおいてもテストにおいても、全くもって万能ではありませんし、フォールトレランスの仕組みも万能ではない事がおわかりいただけたかと思います。つまり、今動いているのは、タマタマだくらいに思っていたほうが良いという事です。精神衛生上よろしくはありませんが、その危機感を常に持っている事が危機管理のスタートだと言う事です。
つまり、システムダウンするという前提で色々考えておかなければならないのではないかという事です。
で、もし東証という市場が「絶対に止まっては困る」のであれば、システム開発・テスト・運用・保守サイドに全ての責を負わせるのではなく、障害発生時の回避について全く別ルートの対処を決めておく事が大事です。つまり、人間が手作業で処理できるバックアップルートを用意しておくとか*1、あるいはシステム更新の際には2セット用意しておいて、片系等だけ入れ替えて古い方をバックアップとし、いつでも戻せるようにしておくとか*2。
こういうのは、経営側の「止まっては困るという認識」と「コスト意識」との葛藤であります。決してタダで実現できる事ではないということです。そして、稼動開始してから3度もダウンが表面化したということは、今システムの開発ににおいてコスト意識が勝ってしまったがゆえに万全のバックアップ体制ができていないのではないかという疑念を生じます。
もし、経営者相当*3の人が記者発表として原因を説明するのであれば、この問題について触れるべきじゃないかなと思います。むしろ、システムの現場にだけ責任を負わせようとする事では、絶対に解決できない問題だと思うのであります。この記事の内容を読む限り、「自分の間違いを認めようとしていない」「対処方として出てきたのはただの根性論」みたいな印象を持ってしまうわけで、そこが気になるわけです*4。
逆に、そこまでの対応が必要でないシステムであれば「当社は、低価格でサービスを提供するためにベストエフォートで対処している。たまに停止するのは仕方がない」と言う内容を、懇切丁寧に説明するのも、広報面での重要な対応なのではないかと言う事なのです。