AIOps特集

~ Hinemosが実現するAIOps:将来予測・変化量の監視、異常検知、高度なフィルタリングを実現 ~

キーワード

  • AIOps
  • AI
  • Impulse
  • @DeAnoS
  • 機械学習(machine learning)
  • ML
  • 人工知能(artificial intelligence)
  • AI
  • ルールベース
  • ルールエンジン
  • Drools
  • 生成AI
  • ChatGPT
  • AI ドリブン運用
  • AI ドリブンアーキテクチャ
作成日 2023/08/07
更新日 2023/10/23

AIOpsとは

AIOps(Artificial Intelligence for IT Operations)は、2016年にガートナー社によって提唱された造語であり、人工知能(AI)や機械学習(ML)を活用しIT業務の自動化、効率化を実現する事を指します。複雑化するITシステムの運用に対し、AI/MLの導入により人が判断・対応していたことを迅速に正確に行えるようになり、属人化から解放されると共に予防保守の負荷低減、結果として企業が新たな投資へ踏み出すことが可能になります。 特に生成AIの進化により、AIのシステム運用の活用が新たなステージに向かうことが出来る様になりました。生成AIでは、事前学習済みのモデルを活用する事で、学習コストの問題や導入の難易度が非常に下がります。もちろん生成AIは万能選手という訳ではありませんので単体で全てのスコープをカバーする事はできませんが、これまで難易度が高いと言われていたAI/MLの技術と組み合わせることで、より多くの人が多くのスコープでAIをシステム運用に活用し、その迅速性や生産性を飛躍的に向上させることが出来ます。 以下は、具体的な運用現場の課題に対するAI活用による解決例を示しています。

具体的な運用現場の課題例 生成AI活用による解決
障害対処の判断の適正化 障害対処の過去ナレッジは蓄積しているが、探し出せず記憶と経験と元に判断している 矢印 障害発生時時に過去ナレッジから対処法をアドバイス
設計工数の削減/迅速化 要件とシステム構成からある程度は機械的に作成できるはずが、毎回設計作業が発生する 矢印 要件とシステム構成に合わせた監視設計を自動生成
クラウドコスト最適化/適正化 使用しているクラウドの支出が、動作するシステムに対して適正なのか判断が難しい 矢印 クラウドの性能・課金情報からコスト削減をアドバイス

HinemosのAIドリブン運用の推進

Hinemosは運用のOODAループに基づき、各ステップでの生成AIを含む各種AIやML導入によりAIOpsを目指しています。OODAループとは、Observe(観察)、Orient(方向づけ)、Decide(決定)、Act(実行)の頭文字からなり、刻一刻と変化する状況で成果を得るためのフレームワーク、つまり運用現場に即した考え方になります。

HinemosのAIOpsへの取り組みについて

Hinemosの考えるAIOpsへの取り組みは以下の6つのカテゴリからなります。

  • - インテリジェントなアラート
  • - ナレッジ活用
  • - 対応判断の支援
  • - 障害対応の迅速化/自動化
  • - 監視自動設定/オートチューニング
  • - 運用ログを分析活用

この様な、これまで人手作業で実施していたものをAIベースにすることで飛躍的に運用を効率化し、生産性の向上を実現することを「AIドリブン運用」と呼んでいます。

以下の図は、生成AIを用いたHinemosのAIドリブン運用の具体的なイメージです。

  • - Hinemosが収集・蓄積・管理するITシステム別の蓄積データ
  • - NTTデータ先端技術が蓄積するナレッジデータ

この2つのデータを生成AIに活用する事で、様々な運用改善を実現できます。

HinemosのAIドリブン運用の推進

現時点で全てのカテゴリに対応した機能は揃っていませんが、今後も対応範囲を順次拡大していきます。

HinemosによるAIドリブン運用の機能・ソリューション

HinemosのAIドリブン運用に関する機能・ソリューションや最新の取り組みを紹介します。

将来予測監視、変化量監視

Hinemosは基本機能として将来予測監視と変化量監視を備えています。

  • 将来予測監視

    過去の収集値を基に監視対象の数値の傾向を測り、指定された時点の予測値を求めます。
    予測値は回帰方程式(線形回帰、多項式回帰(2次)、多項式回帰(3次))を使用します。

  • 変化量監視

    過去の収集値と比較することにより異常値を検出します。
    過去の収集値の平均値、標準偏差を基に閾値判定を行い、情報、警告、危険の重要度を判定して通知します。いわゆる、ボリンジャー・バンドと呼ばれる考え方です。

これによりリソース枯渇にいち早く気づいたり、閾値内の変動でも普段と違う動きといった異常の予兆を検知する事が可能です。

ユースケース

  1. ①ファイルシステム使用率が現在は30%前後であるが、急激に空き容量が埋まり、1か月後には80%に到達するといったことが予兆として確認できます。
  2. ②バッチサーバのメモリ使用率の挙動が通常は60%前後で安定している所、何かしらの異常により想定以上の変動を検知していることが確認できます。
将来予測監視について

AI基盤による異常検知ソリューション

HinemosとAI基盤(Impulse、@DeAnoS)を連携し、高度なITシステムの予兆検知や要因分析を行うソリューションを提供しています。

AI基盤による異常検知ソリューションについて

Hinemosにより収集・蓄積したITシステムのリソースデータを活用して、異常検知から要因分析を行います。

HinemosとAI基盤(Impulse、@DeAnoS)の連携について
  • ユースケース(Impulse)

    Impulseは機械学習技術を用いた分析プラットフォームです。機械学習技術を容易に導入・運用するためのアーキテクチャや機能を備えています。

    Impulseについて

    ITシステムの予兆検知として、ImpulseによるWebサーバのスローダウンの検出の例を紹介します。Webサーバがダウンするといった単純な障害ではなく、他の機器の影響によりゆっくりスローダウンするという通常の定数の閾値ベースの監視では検知が難しい性能問題(いわゆるサイレント障害)もImpulseにより予兆として検出できます。

    ImpulseによるWebサーバのスローダウンの検出の例
  • ユースケース(@DeAnoS)

    DeepAnomalySurveillance(@DeAnoS)はAIによる異常監視ソリューションです。AIエンジン部はディープラーニングを用いており、異常検出と異常の要因推定が可能です。

    DeepAnomalySurveillance(@DeAnoS)はAIによる異常監視ソリューションについて

    ITシステムの要因分析として、@DeAnoSによるWebシステムの応答遅延の要因特定の例を紹介します。関係ないと思われた認証サーバの過負荷がWebシステムの応答遅延を引き起こしていたことを@DeAnoSにより特定できます

    @DeAnoSによるWebシステムの応答遅延の要因特定の例

Hinemosメッセージフィルタ

Hinemosメッセージフィルタは、ルールエンジンを活用したインテリジェントなアラートと自動化を実現します。これにより、運用現場では様々な事象検知のために発生する大量の「メッセージ」から「本質的なイベント」を発見するというオペレータの負荷を大幅に削減し、直ちに運用対処のアクションにつなげることができます。運用対処のアクションも単なるアラートを上げるだけではなく自動対処が可能です。

Hinemosメッセージフィルタの特長

-Hinemosメッセージフィルタの4つの特長-

  • 特長①インテリジェントなアラート

    不要なメッセージの抑制と関連メッセージの集約により本質的なイベントの対処に注力できます。

    特長1インテリジェントなアラートについて
  • 特長②インテリジェントな自動化

    本質的なイベントメッセージから直ちに通報、インシデント連携、ジョブフロー・ワークフロー起動、監視制御といった運用業務に連動します。

    特長2インテリジェントな自動化について
  • 特長③ルールベースの条件指定

    When/Thenで定義するシンプルなルールを指定するだけ。複合イベント処理(CEP)により、イベント間の関係性をルールに指定できます。

    特長3ルールベースの条件指定について
  • 特長④Hinemosからのシームレスな導入

    Hinemosメッセージを受信し、リポジトリ情報をルールの条件内で参照可、そしてルール判定後のアクションでもHinemosの直接操作も可能です。

    特長4Hinemosからのシームレスな導入について

ユースケース

対処が必要なイベント=インシデントとして、発生したイベントの自動フィルタリング、インシデントとして自動起票する際に、Hinemosメッセージフィルタが活用できます。

Hinemosメッセージフィルタが活用について

過去ナレッジをルール化する事で、自動起票でありつつ不要にインシデントが起票されることを防ぎ、真に対応すべきインシデントのみに運用作業を注力する事ができます。実際の導入事例では、普段扱うインシデント数を大幅に削減出来たケースもございます。

運用自動化のインタフェースを生成AIベースで実現

運用自動化のインタフェースを生成AIベースで実現する実証実験を進めています。本実証実験においては、Azure OpenAI Service上のChatGPTを活用した運用自動化のインタフェースを開発し、自動化アクションへの判断ルールのイメージを自然言語でテキスト入力するだけで生成AIがルールを自動生成し、効率的に自動化サイクルを回すといった運用メンテナンス負荷を低減できるかの検証を行います。イベントからの自動化アクションの実行判断をスムーズに行うことで運用自動化に繋がります。

運用自動化を実現するルール自動生成

実証実験の具体的なイメージは以下の通りです。

自然言語指示によるルール自動生成について

検証結果について、11月のHinemos World2023に本内容のデモンストレーションと併せて発表します。

お問い合わせ

HinemosによるAIドリブン運用のメリットをご理解頂けたと思います。AIドリブン運用の導入にご興味のある方、Hinemosにご興味のある方は、ぜひお問い合わせください。

  • - 障害予測や普段と異なる挙動の監視を導入してみたい方
  • - 通常の仕組みでは実現できない高度な予兆検知、要因分析が必要な方
  • - インシデント対応コスト削減などルールに従った運用効率化を導入したい方
  • - AIドリブン運用を体験してみたい方

お問い合わせ内容の記載例

  • お問い合わせ対象

    特集:Hinemosが実現するAIOps

  • お問い合わせ内容

    HinemosによるAIOpsについて、ご興味のあるソリューションや解決したい課題、ご相談内容を記入してください。

関連情報

  • 紹介資料

    • - Hinemos機能紹介

      Hinemosの機能について詳しくご紹介しております。

    • - Hinemosメッセージフィルタ

      Hinemosでは異常を検知した際のメッセージに合わせてアクションを設定することが可能です。こちらの資料からHinemosメッセージフィルタについて詳しくご確認いただけます。

  • 記事・技術情報

    Coming Soon..

  • 事例

    - 株式会社NTTデータグループ様 PM Workbench®

    Hinemosメッセージフィルタを導入し、簡易な3ルールを設定するだけで最大80%のインシデント量の削減を実現。メッセージを転送する設定を追加するだけで現行システムには一切影響することなく、確認インシデント数を削減し、業務改善に寄与しました。

  • サービス・ソリューション

関連サイト

  • - 「現場で鍛え上げられた」異常検知ソリューション Impulse

    「Impulse(インパルス)」は機械学習技術の実用化を目的に、2014年市場に先駆けてリリースされ、数多くのお客様の「現場で鍛え上げられた」異常検知ソリューションです。企業活動にかかわる、複雑で膨大なセンサーや音声や画像、動画などのデータを収集・可視化する基本機能に加え、従来の閾値ベースの管理では発見できない障害や故障予兆の検知、不良品の検出、作業工程の確認・分析、要因の追究など、これまで対応困難であった業務課題に対し、機械学習を武器に新たなアプローチで現実解を導きます。

  • - AI異常予兆検知ソリューション @DeAnoS

    @DeAnoS(アットディアノス)は、NTT研究所が開発したディープラーニング技術に基づく異常予兆検知技術”DeAnoS®”を搭載し、複雑なシステムや設備の異常を事前に検知するAIパッケージです。閾値ルールなどの保守者の経験や、設計に基づく従来の異常検知方式では対応の難しかった「異常の判断」や「異常の要因推定」、「潜在的な未知の障害の発見」を深層学習(ディープラーニング)により解決へ導きます。