統合監視とは-マルチクラウドのシステム運用を自動化・効率化-

システム運用の現場で障害対応に負荷がかかっていることはもちろんですが、最近では、マルチクラウド・ハイブリッドクラウド化が進み、アラートが増加し、運用コストが更にかかっている、というご相談が増えています。現状の運用を自動化・効率化するには、システムを統合監視することが必要となります。
今回はIIJが提供する統合運用監視システム「UOM」の紹介と共に、統合監視のポイントやこれからのシステム運用の在り方について解説いたします。

目次
  1. システムを運用するとは?
  2. マルチクラウド監視とは?
  3. アラートのフィルタリングで負荷軽減を実現する
  4. 自動通知の要件を整理する
  5. 有人での復旧作業を自動化する
  6. 面倒で仕方ないチケット化を自動化する
  7. 情報システム部の仕事はシステム監視だけではない!!
システム運用業務の課題を解決!
詳しいサービスガイドブック
ダウンロード(無料)

システムを運用するとは?

システムの運用とは、様々なシステム(Microsoft Azure・AWSなど)を監視、アラート抽出、通知、一次対応、記録、サポートという流れになっています。

マルチクラウド監視とは?

SaaSやPaaSを使ったマルチクラウド環境も増加していますが、従来のオンプレミス環境も残したハイブリッドクラウドのお客様が多いです。そのため、システム運用も各システムに合わせた個別最適化がとられていますが、監視方式が乱立し、通知内容、方法が統一されず、管理が大変になっているという課題を抱えている企業は多いです。

理想はマルチクラウド、オンプレミスを含めたハイブリッドクラウドを利用した環境を想定し、統合監視することです。
統合監視とは、クラウド環境とオンプレミスの双方を1つのツールで統合的に監視することです。
なお、監視ツールを統合する以外にも、既存の監視ツールとAPI連携・メールを取り込んで管理を統合するというやり方でも運用コストを削減できます。
監視システムを一度にリプレイスするハードルは高いため、監視ツールは既存のものを使い、監視情報の連携にて管理を統合する手法が取り組みやすい上に導入効果が高いと考えます。

下の例だと、Microsoft AzureやAWSは直接監視を行い、オンプレミスの監視をしているZabbixやNagiosとは監視情報の連携を行い監視結果だけを収集することで、管理を統合しています。

アラートのフィルタリングで負荷軽減を実現する

毎日膨大な量のアラートが出ていますが、対応すべき必要なアラートは3%(IIJ内実績調査)程度です。
ほとんどのアラートが対処不要のため、本来見るべきアラートが埋もれてしまうこともしばしばあります。

これを解決するためには、大量のアラートを集約していくことが求められます。
対応の要否判定をし、短時間でのアラートは重複排除することで、通知数が減り、運用負荷を軽減できます。

自動通知の要件を整理する

通知手段の使い分け

通知手段の課題として挙げられるのは、メールだけでは休日夜間の障害に気付けないことです。
すぐに対応が必要なアラートもあるため、障害レベルによって通知手段は使い分けが必要となります。

連絡先はグループ管理

通知の連絡先は対応するチームや組織に合わせたグループ管理がベストです。
監視ツールをまとめることで連絡先のグループも一括で管理できます。

運用体制に合わせたコール制御

電話通知は、24-365電話が取れるとは限りません。
アラート発生のたびに電話コールするのではなく、運用体制に合わせたコール制御する仕組みが必要です。

通知内容の統一

監視ツールの併用では通知内容がバラバラで読みづらくなるため、アラートを統合して統一したフォーマットによって管理が容易になります。

統合監視では、アラート、連絡先、通知手段、通知フォーマットの組み合わせが作成でき、一括で管理ができます。

有人での復旧作業を自動化する

オペレーションの現場では手順書ベースで有人作業が多くありますが、実態はほとんどが単純作業・定型作業で、それらはスクリプト化、自動化できます。

Microsoft AzureやAWSへの対応もCLIコマンドを設定することで、検知したアラートをトリガーに情報取得や再起動などを自動実行できます。

面倒で仕方ないチケット化を自動化する

インシデントのチケット登録は手間がかかり、ミスも起こりやすいです。
フィルターを通過したアラートは全てインシデントチケットとして自動起票される必要があります。
アラート通知、自動オペレーション結果まで自動記録されると対応履歴が明確になります。

インシデントチケットの管理はステータス、担当者、関連付けを可視化することがベストです。
Excelやメールを使った管理から脱却し、ハイブリッド環境でも1つのチケットツールに集約できます。

情報システム部の仕事はシステム監視だけではない!!

最後に……ここまではシステムの監視運用業務にフォーカスしてお伝えしましたが、情報システム部門の仕事は、ヘルプデスク業務、ITSMに準拠した内部統制の強化、システムの維持管理といった監視以外の業務も多く存在します。

UOMではそんな情報システム部の業務改善、内部統制強化のための使い方の提案や新機能をリリースしました。

社内問い合わせ業務の見える化

例えば、社内のヘルプデスク業務において、情報システム部門の各担当者が俗人的に対応をしてしまっていると、個々の対応ステータスが見えないためにきちんと対応が完了しているのかも分からない状況に陥ります。
昨今のリモートワーク下であればなおさら対応状況が見えづらく俗人化に拍車がかかります。

UOMのリクエスト管理機能を使うことで個々の対応履歴が見える化できるので、進捗管理や過去の問い合わせ内容の分析だって可能になります。

Before

  • 個々の問い合わせの対応の状況が管理されていない
  • すぐに分析して次の手を打つことができない
  • リモートワークだと場所もばらばらで共有できない

After

  • 漏れなく対応でき社内の満足度が向上
  • 過去の問い合わせ状況などから次の手を打てる

グループとしての内部統制強化

グループ企業の場合は子会社ごとで異なる監視通知ルールを持ち、子会社内完結型で管理しているケースも多いかと思います。
この状況では、子会社に重大なインシデントが発生しても親会社の認知、対応が遅れがちです。

UOMのアラート取り込み機能を活用して、子会社の重要インシデントだけは、UOMに連携されるように設定しておけば、親会社としても重要インシデントを即時認知可能となりますので、素早いアクションが可能となります。

Before

  • 子会社ごとに異なるシステムと運用監視・通知ルール
  • 運営に影響する重大イベントの認知が遅れる

After

  • 子会社で起こった重要なインシデントをすぐに知ることができ、素早く対応できる

システム構成の維持管理/ITSM

情報システム部門の業務改善ツールとしてサーバやライセンス関連の情報を自動的に収集して保守期限やライセンス更新期限を厳格に管理することで内部統制力を強化する「構成管理機能」や、問題管理/変更管理/リリース管理などの業務プロセスをワークフローにて標準化して運用統制を実現する「ITSMツール」も2021年10月にリリースしました。

これにより、1つのツールで運用監視+内部統制力強化が実現可能となり、情報システム部門の業務を横断的なサポートが可能です。

ここまでのポイントをまとめると、以下のとおりです。

  • マルチクラウド・ハイブリッドクラウドの環境でも統合監視できる
  • 既存の監視システムを一度にリプレイスしなくてもよい
  • アラートのフィルタリングで必要なアラートのみ通知できる
  • 自動通知の設定を運用に合わせて統一できる
  • 復旧作業・チケット管理を自動化し、有人作業を削減できる
  • 管理運用以外の情報システム部門の業務改善も1システムで実現する

IIJ統合運用管理サービス(UOM)では、マルチクラウド・ハイブリッドを統合監視に自動通知も要件を組み合わせて、監視業務以外の業務効率化も促進可能です。情シス業務を少しでも楽にしたい!とお悩みの方はぜひIIJにご相談ください。