はじめに

昨今のストレージ業界では「クラウドベースのサポート基盤に蓄積されたログを AI / 機械学習で解析して予兆を検知し、障害を未然に防ぐ」といった 予測型(Predictive)サポートに関するメッセージをよく見かけます。これまで人が携わっていた保守対応の業務が、クラウドベースのサポート基盤により自動化され、さらには障害の予兆まで検知するというのは、まさに自律型ストレージの実現と言えるでしょう。しかし、そのメッセージと実際に提供されている保守内容については、ユーザーと各ベンダーの間で認識にギャップがあるようです。

そこで今回は、そのギャップを最小化するためにも、ピュア・ストレージが提供するクラウドベースのサポート基盤である Pure1 の予測型サポートについて、他社とのアーキテクチャや考え方の違いに触れながらご紹介します。

参考情報

これまでの Pure1 連載では、実際に「触りたくなる」ことをゴールの 1 つとして、その UI / UX や各機能にフォーカスした内容をご紹介しています。特に概要については第 1 回をご覧ください。

ピュア・ストレージの製品サポート・レベル

ピュア・ストレージは製品サポートのレベルを下図のとおり 4 つに分類して定義しており、導入した製品を Pure1 に接続するだけで自動的に Predictive (予測型)レベルまでを実現します。本稿では、無償かつ標準機能の範囲となる Re-active(対処型)Pro-active(プロアクティブ)Predictive(予測型) サポートの 3 レベルまでの内容をご紹介します。

サポート・レベルと Pure の対応

対処型(Re-active)サポートとプロアクティブ(Pro-active)サポート

ある製品で問題が発生し、それに伴うアラートが発行されると、運用担当者は既存の仕組み(例:syslog、SMTP、SNMP 等)でアラートを検知します。しかし、この時点では製品の提案に関わった関係者やサポート・エンジニアにはアラートが届いていないため、問題の発生を把握できません。そこで、発生したアラートを関係者に届ける仕組みを各社が実装しています。ピュア・ストレージであれば、クラウド上に展開された Pure1 がアラートを受け取り、その内容を関係者に通知します(第 1 回参照:クラウドベース管理ツール Pure1 – 概要とメリット)。

クラウドベース管理ツール Pure1

ここでの落とし穴は「サポート・エンジニアが解析を行うために必要なログがサポート基盤(例:Pure1)上にあるか?」です。お知らせ(infomation)や警告(warning)といった軽度のものであれば、アラートに付随するログの内容で十分なケースが多いのですが、重度(critical)な問題の場合、解析を行うための詳細ログが必要です。詳細ログがサポート基盤にない場合、結局はユーザー(運用担当者)が詳細ログを取得し、サポート担当者に送付するやり取りが発生します。このやり取りが問題解決までの時間に大きな影響を与え、最悪の場合はデフォルトで取得されているログだけでは解析できず、デバッグ・モード等に切り替えて再現待ちが必要となり、問題解決までの時間をさらに長くします。このような仕組みでは、プロアクティブ(Pro-active)とは言えません。あくまで関係者へのアラート通知を実現しているだけであって、その後のログのやり取りは、発生ベースの対処型(Re-active)サポートと言えます。

プロアクティブなサポートと詳細ログ

ピュア・ストレージの製品は、アラートや軽度なログはもちろん、詳細ログ(上図:core.log)もサポート基盤 Pure1 に送付しています。サポート・エンジニアは Pure1 から通知されるアラートを受け取ると、Pure1 上の詳細ログを元に解析を始められます。問題解決までの時間に大きな影響を与えるログのやり取りや再現待ちは一切不要なこの仕組みをプロアクティブ(Pro-active)サポートと言います。

予測型(Predictive)サポート

予測型サポートの競合優位性を語る場合、企業の規模や、仕組みを実装してからの期間をベースに数字(ビッグデータとして解析対象となるデータ量)をアピールする傾向にあります。その数字はもちろん重要ですし、ピュア・ストレージの Pure1 Predictive も数字(下図:ビッグデータ)を重要視しています。しかし、何より重要なのは「ビッグデータとして解析対象となるデータの品質」だと考えます。つまり、前述の「詳細ログがサポート基盤上にあるか?」が最も重要です。

Pure1 による予測型サポート

アラート、構成情報、軽度なログをビッグデータとして解析しても、予測できる内容は非常に限定されます。このようなサポート基盤で、重度な問題を発生させるおそれがあるアレイを検知できるでしょうか?多くの場合、ヘルス・チェックやベスト・プラクティスを元にしたシステムのスコア付け、軽度な問題の予兆検知に限定されています。

ピュア・ストレージの Pure1 は、前述のとおり、詳細ログも含め Pure1 上に存在し、その全てがビッグデータとして解析対象です。その結果として、予兆検知できる内容が他社を大きく凌ぎます。例えば、FlashArray を一製品で見ても、通常アラートの他に予測型アラートの数は 3 桁に達しており、今後もワールドワイドでの稼働実績を学習し、予兆検知できる内容は増えていきます。

AI、機械学習の活用によるサポートと他社の現実

まとめ

昨今のストレージ業界では、クラウドベースのサポート基盤による軽度な問題の自動通知とクローズが実現しています。これにより、ユーザーの皆様の運用負荷は大幅に低減するでしょう。しかし、業界のマーケティング・メッセージやセールス・トークは、重度な問題の迅速な解決の観点で大きなギャップがあると私共は感じています。このギャップを最小化するために、製品検討の際には以下を確認されることを強く推奨します。

  • サポート基盤のセールス・トークは必ずデモで見る。可能であれば検証も実施する。
  • デモ、検証の際は、リアルタイム性を確認する(サポート基盤上の情報は何時間前か)。
  • 予測型サポートについては、予兆検知できる具体的な内容を確認する。

実績値が証明する業界 No.1 の品質

ピュア・ストレージの製品、上図の例では SAN ストレージ向け製品としては FlashArray(//X、//C)のみで全てのユースケースをカバーできます。エントリー 〜 ハイエンドまで同一プラットフォームおよびストレージ OS で、ミッション・クリティカル環境での安定稼働にふさわしい品質を製品単体でも実現し、導入実績を作ってきました。Pure1 も考え方は同じです。軽度な問題の自動通知とクローズによる運用負荷の軽減はもちろん、重度な問題の迅速な解決のレベルをさらに高めるツールとして、真にプロアクティブな、予測型サポート基盤だと自負しています。

Pure1 ブログシリーズ

第 1 回:クラウドベース管理ツール Pure1 – 概要とメリット
第 2 回:Pure1 機能:VM Analytics – VM レイヤーの性能情報までフルスタックで表示
第 3 回:Pure1 機能:VM Analytics – Collector の構築手順
第 4 回:Pure1 機能:Forecast と H/W Simulation の活用


Pure Storage、Pure Storage のロゴ、およびその他全ての Pure Storage のマーク、製品名、サービス名は、米国およびその他の国における Pure Storage, Inc. の商標または登録商標です。その他記載の会社名、製品名は、各社の商標または登録商標です。

image_pdf