システム運用の現場で障害対応に負荷がかかっていることはもちろんですが、最近では、マルチクラウド・ハイブリッドクラウド化が進み、アラートが増加し、運用コストが更にかかっている、というご相談が増えています。現状の運用を自動化・効率化するには、システムを統合監視することが必要となります。
今回はIIJが提供する統合運用監視システム「UOM」の紹介と共に、統合監視のポイントやこれからのシステム運用の在り方について解説いたします。
システムの運用とは、様々なシステム(Microsoft Azure・AWSなど)を監視、アラート抽出、通知、一次対応、記録、サポートという流れになっています。
SaaSやPaaSを使ったマルチクラウド環境も増加していますが、従来のオンプレミス環境も残したハイブリッドクラウドのお客様が多いです。そのため、システム運用も各システムに合わせた個別最適化がとられていますが、監視方式が乱立し、通知内容、方法が統一されず、管理が大変になっているという課題を抱えている企業は多いです。
理想はマルチクラウド、オンプレミスを含めたハイブリッドクラウドを利用した環境を想定し、統合監視することです。
統合監視とは、クラウド環境とオンプレミスの双方を1つのツールで統合的に監視することです。
なお、監視ツールを統合する以外にも、既存の監視ツールとAPI連携・メールを取り込んで管理を統合するというやり方でも運用コストを削減できます。
監視システムを一度にリプレイスするハードルは高いため、監視ツールは既存のものを使い、監視情報の連携にて管理を統合する手法が取り組みやすい上に導入効果が高いと考えます。
下の例だと、Microsoft AzureやAWSは直接監視を行い、オンプレミスの監視をしているZabbixやNagiosとは監視情報の連携を行い監視結果だけを収集することで、管理を統合しています。
毎日膨大な量のアラートが出ていますが、対応すべき必要なアラートは3%(IIJ内実績調査)程度です。
ほとんどのアラートが対処不要のため、本来見るべきアラートが埋もれてしまうこともしばしばあります。
これを解決するためには、大量のアラートを集約していくことが求められます。
対応の要否判定をし、短時間でのアラートは重複排除することで、通知数が減り、運用負荷を軽減できます。
通知手段の課題として挙げられるのは、メールだけでは休日夜間の障害に気付けないことです。
すぐに対応が必要なアラートもあるため、障害レベルによって通知手段は使い分けが必要となります。
通知の連絡先は対応するチームや組織に合わせたグループ管理がベストです。
監視ツールをまとめることで連絡先のグループも一括で管理できます。
電話通知は、24-365電話が取れるとは限りません。
アラート発生のたびに電話コールするのではなく、運用体制に合わせたコール制御する仕組みが必要です。
監視ツールの併用では通知内容がバラバラで読みづらくなるため、アラートを統合して統一したフォーマットによって管理が容易になります。
統合監視では、アラート、連絡先、通知手段、通知フォーマットの組み合わせが作成でき、一括で管理ができます。
オペレーションの現場では手順書ベースで有人作業が多くありますが、実態はほとんどが単純作業・定型作業で、それらはスクリプト化、自動化できます。
Microsoft AzureやAWSへの対応もCLIコマンドを設定することで、検知したアラートをトリガーに情報取得や再起動などを自動実行できます。
インシデントのチケット登録は手間がかかり、ミスも起こりやすいです。
フィルターを通過したアラートは全てインシデントチケットとして自動起票される必要があります。
アラート通知、自動オペレーション結果まで自動記録されると対応履歴が明確になります。
インシデントチケットの管理はステータス、担当者、関連付けを可視化することがベストです。
Excelやメールを使った管理から脱却し、ハイブリッド環境でも1つのチケットツールに集約できます。
最後に……ここまではシステムの監視運用業務にフォーカスしてお伝えしましたが、情報システム部門の仕事は、ヘルプデスク業務、ITSMに準拠した内部統制の強化、システムの維持管理といった監視以外の業務も多く存在します。
UOMではそんな情報システム部の業務改善、内部統制強化のための使い方の提案や新機能をリリースしました。
例えば、社内のヘルプデスク業務において、情報システム部門の各担当者が俗人的に対応をしてしまっていると、個々の対応ステータスが見えないためにきちんと対応が完了しているのかも分からない状況に陥ります。
昨今のリモートワーク下であればなおさら対応状況が見えづらく俗人化に拍車がかかります。
UOMのリクエスト管理機能を使うことで個々の対応履歴が見える化できるので、進捗管理や過去の問い合わせ内容の分析だって可能になります。
グループ企業の場合は子会社ごとで異なる監視通知ルールを持ち、子会社内完結型で管理しているケースも多いかと思います。
この状況では、子会社に重大なインシデントが発生しても親会社の認知、対応が遅れがちです。
UOMのアラート取り込み機能を活用して、子会社の重要インシデントだけは、UOMに連携されるように設定しておけば、親会社としても重要インシデントを即時認知可能となりますので、素早いアクションが可能となります。
情報システム部門の業務改善ツールとしてサーバやライセンス関連の情報を自動的に収集して保守期限やライセンス更新期限を厳格に管理することで内部統制力を強化する「構成管理機能」や、問題管理/変更管理/リリース管理などの業務プロセスをワークフローにて標準化して運用統制を実現する「ITSMツール」も2021年10月にリリースしました。
これにより、1つのツールで運用監視+内部統制力強化が実現可能となり、情報システム部門の業務を横断的なサポートが可能です。
ここまでのポイントをまとめると、以下のとおりです。
IIJ統合運用管理サービス(UOM)では、マルチクラウド・ハイブリッドを統合監視に自動通知も要件を組み合わせて、監視業務以外の業務効率化も促進可能です。情シス業務を少しでも楽にしたい!とお悩みの方はぜひIIJにご相談ください。