運用現場から生まれたIIJ統合運用管理サービス

今回は、「IIJ統合運用管理サービス」(以下、UOM)の開発背景を紹介しながら、サービス運用を担う現場の実情について考えてみます。

現在、UOMでは、年間1000万件にものぼるアラートを自動処理することで、その94パーセントの削減を実現しています。長年、アウトソーサとして数々のシステムを担当してきたなかで、かなりの自動化を推進してきました。なぜ、自動化に取り組んできたのか?それは、運用現場の知られざる実態から着想を得てたどり着いた結果にほかなりません。

膨大なアラートと運用現場の苦悩

例えば、システムの保守・運用では、監視システムから送られてくるアラートを随時処理するわけですが、これらすべてが対応を必要としているわけではない、という実態があります。本来、監視すべきアラートは、システム停止により引き起こされるビジネスインパクトを鑑みて監視対象を決定し、検知したアラートの対応方法を決めていくといった設計プロセスを踏むのですが、実情はちょっと違うケースがあるようです。実際に発生したアラートを分析してみると――

  • 作業影響によるアラート
  • リリース前のアラート
  • 無視してよいメッセージ

といったものが、その大半を占めており、こうしたアラート処理を人手で仕分けている舞台裏があります。きわめて生産性に欠ける作業ですが、仕分けてみないことには、本来の障害、すなわちビジネスインパクトを判断できないため、やらざるを得ません。

ところが、視点や立場が異なると、必ずしも"不要な"アラートとは言えないケースもあります。例えば、アプリケーション開発者にとっては「ユーザアクセスによるエラーは監視しておかないとWEBシステム障害に気づくことができず、システム健全性を保てないから、監視しておかないと不安だ」ということになり、インフラエンジニアにとっては「データベースの障害はシステム全体の停止を引き起こす恐れのある重大な障害だから、細かく障害状態を監視していないと心配だ」ということになります。こういった具体的な意見を聞くと、「たしかに監視しないとマズイな」という気もしてきて、その結果――

  • WEBアクセスの都度発生するアラート
  • データベース障害にともなう膨大なアラート

という状況が生み出されることになります。これはシステムの運用者にとって過酷な状況といえます。WEB障害もデータベース障害も、障害事象としては1つであるにもかかわらず、膨大なアラートを仕分ける作業に追い込まれてしまいます。

運用者の本業は何か

そもそも、運用者が本来すべきことは何でしょうか? 答えは「システムダウンタイムを短くして、ビジネスインパクトを最小限にとどめる」ことです。ところが、先の例のように、運用者はアラートの仕分け作業に追われる傾向にあり、なかなか障害復旧に手が回らないというもどかしい状況に陥っています。こうした状況を見過ごしてしまうと――

  • 復旧に時間がかかりすぎ
  • 機会損失をどうするのか

と、お叱りをいただく結果になることは明らかです。それゆえ、運用者が本来の業務をまっとうできる仕組みが求められ、「アラートは必要だが、同じアラートは必要ない」という仕分け作業の効率化が不可欠だという結論に達しました。

「監視アラートを削減すればいいのではないか?」というご意見もあろうかと思います。たしかに原則はその通りで、日頃からアラート削減や改善に努めることは大変有効です。ただ、システムの開発サイクルが年々早くなり、新たなビジネスも日々生まれてくる昨今、この当たり前の活動に時間をさけない実情もあります。大切な活動だとわかっていても、新規ビジネスと運用改善を天秤にかけると、新規ビジネスに注力せざるを得ません。やはり、運用者が本業に精を出せるよう何か対策を講じるべきだ、ということになりました。

コストの構造の改革

対策方法はいたってシンプルで、「仕分け作業は機械に任せて、復旧対応が必要なアラートにのみ、運用者のリソースをあてる」ということです。

実はこの仕掛けは、別の効果ももたらしてくれます。運用におけるコストの大半は人件費が占めているため、この仕組みができると、運用部門のコスト構造に変化が生じます。それは、人件費がアプリケーション開発コストに変貌していくことにほかなりません。

UOMは、表面的にはシステムを監視・運用するサービスにしか見えないかもしれませんが、運用現場の苦悩から生まれた、運用者のためのバックエンドシステムという一面も持ち合わせています。そして、このバックエンドシステムを活用することで、コスト構造の変革をもたらすことができます。

弊社においては、従来比で人件費を5分の1に圧縮すると同時にオペレーションスピードが2倍に向上したという成果が出ています。スピード向上は、機械化にともなう副次的効果とも言えますが、ビジネスインパクトを最小限に食い止めることに大きく貢献してくれます。バックエンドシステムの開発には費用がかさみましたが、その投資を上回る人件費の削減を実現できました。

お客様への還元

運用現場で悩んでいるのはIIJだけでなく、多くのITシステム部門は大同小異ではないでしょうか?運用はアウトソースして、自社の人員は別の業務に従事させましょう、としばしば言われますが、現実的には――

  • キャッシュアウトコスト
  • 初期導入コスト

といった大きな壁が立ちはだかっています。特に、クラウドが浸透して、サーバ1台あたりの単価が年々下がるなか、運用コストは相対的に高く見えてしまいがちです。運用者にとってみると、運用対象がクラウドでもオンプレでも、コストはあまり変わらなかったりします。ハードウェアの面倒はクラウド事業者がみてくれますが、OS、ミドルウェア、アプリケーションとレイヤが進むにつれ、オンプレとの差はなくなってきます。むしろ、管理コストという点では増えるくらいです。なぜなら、システムがどんどん増え、ハイブリッド化が進むにつれて、システムの複雑さは増していくからです。アラートの仕分けに加えて、クラウドへの対応を求められ、運用現場の苦悩はなかなか減りません。

IIJはそんな運用現場の一助になればと、SaaS型の運用管理基盤UOMを展開しています。UOMには長年アウトソーシングを担ってきたIIJのナレッジや、細やかな運用機能の数々がふんだんに盛り込まれています。

進化しつづけるSaaS

現在、開発の主眼はアラートの処理から、オペレーションに移っています。10月にリリースした自動オペレーション機能は、それまでの人的オペレーションを機械処理に変更し、さらなるコスト圧縮を図っています。単純作業を機械化することで、ヒューマンエラーの抑止にもつながります。

昨年度からこの機能を試験的に社内で活用した結果、従来は94パーセントだった自動化率を、97パーセントにまで引き上げることができました。これも SaaS型でサービス提供いたします。

更には、チケット管理機能のエンハンスやAIなどを活用した予測、そしてナレッジ分析機能の開発も検討しています。今後も引き続きUOMの進化にご期待ください。

(イラスト/STOMACHACHE.)

インターネット関連の最新情報「IIJ.news」をお届けします

本記事が掲載されているIIJグループ広報誌「IIJ.news」は、インターネット関連の最新動向や技術情報をお届けする小冊子で、2ヵ月に1回発行しています。

定期購読をご希望の方には無料でお送りしますので、ぜひお申し込みください。

掲載内容はIIJ.newsページでご覧いただけます。

※IIJグループ広報誌「IIJ.news vol.142」(2017年10月発行)より転載