分散したログ情報を多面的に活用する高度なITサービスマネジメントへの第一歩

日々複雑化するシステムを安定運用したい。運用負荷やコストを削減したい――。安全かつ安定したITサービスを提供するためには、システム運用の自動化・効率化が欠かせません。大量のログデータを収集・可視化・分析することで運用作業の自動化や省力化を目指す、高度なITサービスマネジメントの方法を解説します。

目次
  1. デジタル化促進で高まるシステム運用の負荷
  2. 安全かつ安定したITサービスを実現するIIJの取り組み
  3. 運用自動化でITサービスマネジメントを高度化

デジタル化促進で高まるシステム運用の負荷

変化の激しい情報社会において、事業の拡大や業務の変化と共に運用するアプリケーションの数が年々増加しています。加えて、カメラで撮影した画像、センサーデバイスで取得した気温や湿度などの環境情報、体温や心拍といったバイタルデータなどを活用した新しいサービスや業務形態の実現に向けたデジタル化によって、取り扱うデータの種類と量も爆発的に増えています。

JUASの「企業IT動向調査2020」(※)によると、「IoT」「AI」「RPA」などのテクノロジーへの関心が依然高く、CDO(Chief Digital Officer)を設置する企業も増えるなど、デジタル化への取り組みは年々増加しており、ビジネスにおける情報資産の重要性が高まっていることがわかります。

(※)一般社団法人 日本情報システム・ユーザー協会「企業IT動向調査2020(2019年度調査)」:https://juas.or.jp/cms/media/2020/05/it20_ppt.pdf

このような企業の成長や情報のデジタル化の動きに合わせて、運用するシステム構成も多種多様化しています。システムやデータを効率的に利用する方法としてクラウドサービスを選択することが一般的となった結果、オンプレミスとクラウドサービスを組み合わせたマルチクラウド/ハイブリッドクラウドでシステムが構成されるケースが増えています。

企業が管理すべき機器やシステムの増加と複雑化により、運用担当者のシステム運用作業にかかる負担も増えています。一方で、システム運用業務には事業における差別化・競争優位性向上に直結しない側面があります。業務の自動化やアウトソーシングなど、効率的な運用方法へのシフトで、システム運用にかかる人材やコストの削減が求められるでしょう。

システム数やデータの増大、システム構成の複雑さ、運用業務の負担増加によって生じる問題

  • インシデント発生時にシステムそれぞれに接続して状況を確認する必要がある
  • アラートが大量に出て、重大なものを見落とす
  • システム運用の手順が整っておらず、作業ミスが起きて障害につながる
  • 過去と同じようなインシデントが何度も起きる
  • 障害発生時に復旧までに時間を要する
  • 急な障害発生で時間をとられる
  • 運用作業が単発的で実施プロセスや実績が次に生かせていない
  • 担当者がいないと対応方法がわからない

安全かつ安定したITサービスを実現するIIJの取り組み

通信事業者としてサービス設備を開発・構築し、安定運用してきたIIJにとって、システム運用は最も得意とする分野であり、自社で運用しているノードは10万台規模にのぼります。

2012年から提供している「IIJ統合運用管理サービス(UOM)」は、システム環境の変化に合わせて進化を続け、現在ではマルチクラウド運用が可能なSaaSとして提供しています。長年の運用で培ったIIJ独自のノウハウを活用し、複雑化するシステム運用にかかるお客様の負荷を大きく軽減。取り扱うシステムの増加を運用負荷に直接的に影響させないことで、お客様が提供するサービスの信頼性向上と更なるビジネス成長に貢献しています。

また、セキュリティ機器やサービスが出力するログを活用したSOCサービスやセキュリティ運用ソリューションも提供しています。膨大な情報を分析して蓄積されたセキュリティインテリジェンスと、セキュリティアナリストの知見を活かした高度な運用により、インシデントの早期発見と対策でお客様のシステムを脅威から守ります。

IIJ自身のサービスに目を向けても、サービスマネジメントシステムの国際規格である「ISO/IEC 20000-1:2018」の認証を取得するなど、ITサービスを安定した品質で提供し続けるよう取り組んでいます。

運用自動化でITサービスマネジメントを高度化

企業活動に欠かせないITシステムを安全かつ安定的に運用し、一定のサービスレベルでITサービスを提供し続けるためにはITサービスマネジメントが非常に重要です。ITサービスマネジメントは、本来あるべきレベルのシステム運用を最も効率的に実現するべきものですが、日々刻々と変化するシステムに追随できず作業効率が低下し、運用負荷が上がっている状況が散見されます。

作業効率化の有効な手段の一つがオペレーションの自動化です。人が運用業務を手作業で実施すると、対応の遅れや作業ミスが発生するリスクが伴います。これらをシステム化して自動化することで、作業負荷を軽減するだけでなく、作業ミス、問題の見落としや遅れによるサービス品質低下の抑制も実現できます。

システム運用を自動化する取り組みには様々なものがあります。古くからあるのが、システム監視の自動化です。ZabbixやPrometheusなどのオープンソースを活用したお客様独自の統合監視システムやIIJを含め各社が提供する運用監視サービスなどを導入し、システムの監視及び異常検知・アラート通知を自動化することで、運用負荷を軽減すると共に異常に対する発見や対応の遅れを抑制できます。マルチクラウド/ハイブリッドクラウド環境でも、アクセスログを1ヵ所に自動集約することで、各システムに接続してシステム状況を確認する必要がなくなります。集めたログをダッシュボードで可視化することで、各システムへのアクセス状況を俯瞰し、素早く正確に把握が可能になるなど、更なる運用業務の効率化も期待できます。

ITシステムに対する考え方も変化しています。旧来の「いかに障害が起きないシステムを作るか」から「障害が起きることを前提に、いかにサービスを提供し続けられるか」に変わってきたこともあり、NoOpsと呼ばれる「人間によるシステム運用作業の最小化」を目指す取り組みが活発になっています。集めたログを更に踏み込んで活用することで、障害の抑制や障害発生時の迅速な復旧に向け、ナレッジやノウハウを集約し、属人化しやすい運用作業の自動化や省力化を進められます。例えば、過去のログの傾向を分析してシステム障害の予兆を検知し、実障害につながる前の適切なタイミングで調査、リソース増強、及び機器交換を可能にすれば、システム利用者の満足度向上と保守費用適正化を両立できます。また、障害発生時に過去の類似障害の対応実績から対応方法を自動で抽出、イベント検知時に運用マニュアルから対応手順を自動で抽出するなど、これまで人が実施していた作業を自動化して対応時間を短縮し、サービスの復旧を早めることなどへの適用が期待できます。

このほか、運用業務の中で採取されたログデータをセキュリティ対策に活用する取り組みも活発化しています。セキュリティ機器から自動で発信されるログやアラートだけでなく、より高度な分析で脅威を早期発見するなど、ITサービスの安定稼働に力を入れる企業が増えています。

IIJでは、数多くのシステム開発と運用のノウハウを活用し、OSSを組み合わせた「ログデータ可視化・分析ソリューション」を提供しています。従来のログデータは、各システムに閉じて特定の目的のみに活用されるのが一般的でした。IIJのソリューションは、既存システムや運用業務を大きく変えることなく、集めた大量データへの高速検索や可視化を可能にします。更に、パートナー企業が提供するAI分析基盤を活用すれば、お客様の目的に合わせた分析手法での機械学習と予測など高度な分析を通じて、データに基づいた施策展開や生産性向上を実現できます。本ソリューションでは、大量のログデータを安定的、かつ安全に収集するために、パブリッククラウドとの接続サービスと共に提供します。

システム運用業務が統一され、一元的な通知管理が行えるだけではありません。システム全体のログから相関分析による状態異常の検知、通常とは異なる振る舞いの検知をすることで、システムの安定的な稼働、セキュリティ向上などにも寄与し、能動的で高品質なITサービス提供を可能にします。異なる環境で稼働するシステムのログデータを活用し、システムの安定稼働と運用コスト削減の両立を目指す方は、ぜひ一度ご相談ください。