監視（Monitoring）とは？システム運用に不可欠な監視の種類・設計指針を解説

監視（Monitoring）とは？

監視（モニタリング）とは、サーバーやネットワーク、アプリケーションなどのITシステムが正常に稼働しているかどうかを継続的にチェックし、異常があれば素早く検知・通知する仕組みのことです。

人間の体に例えるなら、心拍数や血圧を常に測り続ける「健康モニター」のようなものです。数値が正常範囲を外れたら即座にアラームを鳴らし、手遅れになる前に対処できるようにするのが監視の役割です。

Gartner社の調査によると、ITシステムのダウンタイム（停止時間）による損失は、1分あたり平均5,600ドル（約80万円）に達するとされています。ECサイトやオンラインサービスであれば、数分の停止でも売上損失と信頼低下は計り知れません。

監視を適切に実施することで、障害の予兆を早期に捉え、ユーザーが気づく前に対処できます。「障害が起きてから慌てる」のではなく、「障害が起きる前に気づく」体制を作ることが、現代のシステム運用における監視の最大の意義です。

近年の監視（オブザーバビリティ）では、3つの柱と呼ばれるデータ種別を組み合わせて、システムの状態を多角的に把握します。

数値で表せるデータです。CPU使用率、メモリ使用量、リクエスト数、レスポンスタイムなど。「今、システムがどんな状態か」をリアルタイムに把握するのに使います。代表的なツールはPrometheusです。

システムやアプリケーションが出力するテキストの記録です。「何時に何が起きたか」という出来事の詳細を追跡できます。障害発生時の原因究明に不可欠です。代表的なツールはElasticsearch（ELKスタック）やGrafana Lokiです。

1つのリクエストが複数のサービスをまたいで処理される際の、各サービスでの処理時間や経路を可視化するデータです。マイクロサービス環境で「どこがボトルネックか」を特定するのに使います。代表的なツールはJaegerやZipkinです。

最近のIT業界では「監視（Monitoring）」に加えて「可観測性（Observability）」という用語をよく耳にします。両者は似ていますが、スコープが異なります。

概念	アプローチ	得意なこと
監視（Monitoring）	あらかじめ「何を見るか」を決めてチェックする	既知の障害パターンの検知。閾値を超えたらアラート
可観測性（Observability）	システムの内部状態を外部から推測できるようにする	未知の障害の調査。「なぜ」起きたかを探る

監視は「想定内の異常」を検知するのが得意で、可観測性は「想定外の異常」の原因を探るのが得意です。実務では両方を組み合わせて使います。

監視ツールは大きく分けて「オープンソース型」と「SaaS型」の2種類があります。

オープンソース型（Prometheus + Grafana、Zabbixなど）：ライセンス費用がかからず自由にカスタマイズできます。ただし、構築・運用は自前で行う必要があり、専任のインフラエンジニアがいるチーム向けです。

SaaS型（Datadog、New Relic、Mackerelなど）：セットアップが簡単で運用負荷が低い反面、データ量に応じて利用料が増加します。運用チームが少ない組織やスタートアップに適しています。

アラート疲れを防ぐ：閾値を厳しくしすぎると大量のアラートが飛び、チームが「オオカミ少年」状態に陥ります。本当に対応が必要なアラートだけを通知するよう、段階的に閾値を調整しましょう。

「何を監視するか」を最初に定義する：Googleが提唱する「4つのゴールデンシグナル」（レイテンシ、トラフィック、エラー率、飽和度）から始めるのが効果的です。最初からすべてを監視しようとすると、情報過多でかえって判断が鈍ります。

ランブック（対応手順書）とセットで運用する：アラートが来ても「何をすればいいかわからない」では意味がありません。主要なアラートには対応手順をセットで整備しましょう。

A. はい。サーバーが1台でも、障害にいち早く気づく手段は必要です。最低限、サーバーの死活監視（ping）とHTTPレスポンスのチェックから始めましょう。UptimeRobotのような無料サービスでも十分スタートできます。

A. まずは「サービスが正常に応答しているか（外形監視）」と「サーバーリソース（CPU・メモリ・ディスク）に余裕があるか」の2点から始めるのがおすすめです。

A. 監視はシステム状態のチェック手段、運用はシステムを日々動かす業務全体、SREは信頼性の向上を目的としたエンジニアリング手法です。監視は運用やSREの中の「一つの活動」という位置づけです。

監視は、ITシステムを安定して運用するための基盤です。メトリクス・ログ・トレースの3つの柱を活用し、既知の異常は監視で検知し、未知の異常は可観測性で調査するのが現代のベストプラクティスです。導入の際は、アラート疲れを防ぐ設計と、ゴールデンシグナルから始める段階的なアプローチが成功の鍵となります。