メトリクス モニタとアラート
メトリクス クエリでは、時系列でモニタを設定して、メトリクスが静的しきい値を超えたらアラートを出し、メールまたは Webhook 通知を送信できます。モニタごとに 1 つの重大アラート、1 つの警告アラート、および 1 つの欠落データ アラートの最大値と、1 つ以上の通知の宛先を設定できます。
モニタは 1 つの時系列、複数の時系列、または 2 つのメトリクス クエリの結合に対してアラートを出すことができます。つまりモニタ クエリが 10 個の異なる時系列を生成する場合、ユーザは、そのすべての時系列に関するアラートを個々に受信します。クエリが結合条件のみに適用される場合、ユーザは、その結合された値に関する個別のアラートを受信します。
たとえば 10 のホスト全体で CPU に関するアラートを生成するモニタを作成した場合、設定したしきい値を超えるホストごとに個別のアラートを受信します。
以下のいずれかの方法でメトリクス モニタとアラートを作成できます。
- メトリクス クエリ ページ (最初にクエリを作成する場合)
- [Manage Data (データの管理)] > [Alerts (アラート)] > [Metrics Monitors (メトリクス モニタ)] ページ
制限とヒント
- メトリクス モニタ クエリでは
timeshift
operator はサポートされていません。 - メトリクスが収集される方法によっては、一部のクエリで多くの時系列が生成され、より正確なアラートのための集約が必要になる場合があります。たとえば
metric=CPU_User
では 1 台の 8 コア マシンで 8 つの異なる時系列が生成されることがあります (その結果、1 つのホストから 8 つの異なるアラートが送信されます)。この例では、| avg by _sourceHost
をクエリに追加して、ノードを基準に集計をする必要があります。 - 各アカウントが作成できるモニタは最大 300 です。
- 各モニタが過去 24 時間で送信できる通知は 1,200 です。この上限に達すると、モニタは 6 時間ミュートされ、モニタの所有者にメールで通知されます。通知は 6 時間後、または手動でミュートが解除されると、再度有効になります。
- 時間範囲を選択するときは、次の点を検討します。
- レポート頻度の低いメトリクスの場合、レポート頻度より大きい期間を指定して、アラート エラーを回避します。たとえば、5 分ごとにメトリクスの受信を予定している場合、10 分以上の期間を選択します。
- 取り込み待ち時間のあるメトリクスの場合 (AWS CloudWatch メトリクスなど)、時間範囲が、データ ポイントのタイムスタンプではなく、データ ポイントの Sumo Logic の受信時間に適用されます。たとえば、時間範囲が 15 分の場合に、Sumo Logic が 9:15 am (データ ポイントのタイムスタンプは 9:00 am) にデータを受信し、9:30 am までに新しいデータ ポイントが受信されなければ、アラートがトリガされます。このシナリオでは、メトリクスのレポート頻度より大きい期間を指定します。
モニタとアラートの作成
[Metrics Monitor (メトリクス モニタ)] ページでのモニタとアラートの作成手順:
- メトリクス クエリを作成します。
- [Alert (アラート)] アイコンをクリックします。
- [Set Rules (ルールの設定)] ペインが表示されます。
- 重大アラートの作成手順:
- [Add threshold for Critical (重大アラートのしきい値の追加)] をクリックします。
- 重大のしきい値ダイアログが表示されます。
- [1] というラベルのフィールドで、[greater than (次より大きい)] または [less than (次より小さい)] を選択します。
- [2] というラベルのフィールドに、しきい値のメトリクス値を入力します。
- [3] というラベルのフィールドで、次のいずれかを選択します。
- for (期間): メトリクスがしきい値を超え、一定期間にわたって継続的にしきい値を超えたままであるときにアラートをトリガする場合は、このオプションを選択します。
- at least once in (次の期間に 1 回以上): 一定期間にメトリクスがしきい値を少なくとも 1 回超えたときにアラートをトリガする場合は、このオプションを選択します。
- [4] というラベルのフィールドで、時間範囲を選択します。
- [Send notification via (通知の送信方法)]:
- メール通知を送信する場合は、[Email (メール)] を選択したままにして、メール アドレスを (複数の場合はカンマで区切って) 入力します。
- Webhook 通知を送信する場合は、プルダウンをクリックして、リストから Webhook 接続を選択します。
- 重大アラートがトリガされたときに送信する別の通知を追加するには、ルールの上にカーソルを置いて、[+] を選択します。
- 警告アラートの作成手順:
- [Add threshold for Critical (警告アラートのしきい値の追加)] をクリックします。
- 警告のしきい値ダイアログが表示されます。
- [1] というラベルのフィールドで、[greater than (次より大きい)] または [less than (次より小さい)] を選択します。
- [2] というラベルのフィールドに、しきい値のメトリクス値を入力します。
- [3] というラベルのフィールドで、次のいずれかを選択します。
- for (期間): メトリクスがしきい値を超え、一定期間にわたって継続的にしきい値を超えたままであるときにアラートをトリガする場合は、このオプションを選択します。
- at least once in (次の期間に 1 回以上): 一定期間にメトリクスがしきい値を少なくとも 1 回超えたときにアラートをトリガする場合は、このオプションを選択します。
- [4] というラベルのフィールドで、時間範囲を選択します。
- [Send notification via (通知の送信方法)]:
- メール通知を送信する場合は、[Email (メール)] を選択したままにして、メール アドレスを (複数の場合はカンマで区切って) 入力します。
- Webhook 通知を送信する場合は、プルダウンをクリックして、リストから Webhook 接続を選択します。
- 警告アラートがトリガされたときに送信する別の通知を追加するには、ルールの上にカーソルを置いて、[+] を選択します。
- 欠落データ アラートの作成手順:
- [Add threshold for Critical (欠落データ アラートのしきい値の追加)] をクリックします。
- 欠落データのしきい値ダイアログが表示されます。
- [1] というラベルのフィールドで、次のいずれかを選択します。
- all time series (すべての時系列): 指定した期間中に Sumo Logic がモニタ全体で新しいデータ ポイントを受信しなかった場合に、通知がトリガされます。たとえば 5 つのホスト全体で CPU をモニタリングしている場合、5 つのホストすべてでデータのレポートが停止された場合にのみ通知されます。
- any time series (任意の時系列): Sumo Logic がモニタ内の 1 つの時系列で新しいデータ ポイントを受信しなかった場合に、通知がトリガされます。たとえば 5 つのホスト全体で CPU をモニタリングしている場合、5 つのホストのうち 1 つがデータのレポートを停止した場合に通知されます。
- [2] というラベルのフィールドで、時間範囲を選択します。
- [Send notification via (通知の送信方法)]:
- メール通知を送信する場合は、[Email (メール)] を選択したままにして、メール アドレスを (複数の場合はカンマで区切って) 入力します。
- Webhook 通知を送信する場合は、プルダウンをクリックして、リストから Webhook 接続を選択します。
- 欠落データ アラートがトリガされたときに送信する別の通知を追加するには、ルールの上にカーソルを置いて、[+] を選択します。
- [Set Name and Description (名前と説明の設定)] で、モニタの名前を追加します。必要に応じて説明を入力します。
- [Save (保存)] をクリックします。
新しいモニタが保存され、[Manage Data (データの管理)] > [Alerts (アラート)] > [Metrics Monitors (メトリクス モニタ)] ページに表示されます。
モニタ ステータスの表示
[Manage Data (データの管理)] > [Alerts (アラート)] > [Metrics Monitors (メトリクス モニタ)] ページに、メトリクス モニタに関する以下の情報が表示されます。
- ステータス。Status (ステータス) は、モニタの時系列ごとの状態を視覚的に表したものです。ステータスは、そのモニタにおける重大、警告、および OK の時系列の割合に応じて陰影がつけられます。
- Critical (重大)。重大状態にある時系列の数です。
- Warning (警告)。警告状態にある時系列の数です。
- OK。OK 状態にある時系列の数です。
- Muted (ミュート)。モニタがミュートされている場合は、mute (ミュート) アイコンを表示します。
- Missing (欠落)。Sumo がトラッキングしていた時系列のうち、欠落した時系列の数です。たとえば Sumo が 100 台のサーバの CPU_User をモニタリングしていたが、そのうち 2 台がメトリクスの送信を停止すると、Missing (欠落) の値が 2 になります。
- Name (名前): 作成されたモニタの名前。
- Created By (作成者): モニタを作成したユーザ。
- Status Since (ステータスの最終変更時間)。モニタのステータスが最近変更された時間。たとえば、ステータスが 3:43:17 AM に [OK] から [Critical (重大)] に変更された場合、列にはその時間が反映されます。
このページから以下の操作を実行できます。
- [Search Monitors (モニタの検索)] フィールドを使用して、モニタを検索します。以下を基準に検索できます。
- Name
- 説明
- 作成者
- クエリ
- [Showing (表示)] アクション メニューから、ステータスに基づいてモニタを検索します。
- モニタを編集するには、リスト内のモニタの上にカーソルを置き、[Edit (編集)] をクリックします。
- 新しいモニタを作成するには、[+] をクリックします。
リストからモニタを選択して、右側に情報ダイアログを表示することもできます。ここから以下のことを実行できます。
- モニタの詳細を表示します。
- [Edit (編集)] をクリックして、モニタを編集します。
- [Mute (ミュート)] をクリックして、モニタをミュートします。特定の期間、または無期限にモニタをミュートできます。モニタをミュートすると通知がオフになります。モニタ ルールは引き続き評価され、モニタのステータスは引き続き [Metric Monitors (メトリクス モニタ)] ページに表示されます。
- モニタを削除するには、[Delete (削除)] アイコンをクリックします。
モニタを管理するロール権限
モニタを管理するには、管理者ユーザであるか、モニタの管理ロール権限を持っている必要があります。この権限により、ユーザはモニタの作成、編集、ミュート、および削除が可能になります。この権限がないユーザは、[Metrics Monitors (メトリクス モニタ)] ページに既存のモニタを表示することはできますが、モニタを作成、編集、ミュート、削除することはできません。
メトリクス モニタのアラート メール
以下は、受信者に送信されるメトリクス モニタのアラート メールの例です。
モニタの例
モニタはリアルタイムにメトリクスを評価し、ルールに一致するとすぐにアラートをトリガします。設定したルールは、ローリング時間枠で連続的に評価されます。以下の例は、これらのローリング時間枠に基づいてモニタがどのようにアラートをトリガするかを示しています。
3:00 PM に、「重大」ルール (過去 5 分間で少なくとも 1 度 60 を超過) により、60 を過ぎるとすぐにメール通知がトリガされ送信されます。少なくとも 5 分間はこの「重大」状態が続きます。これはローリング時間枠がそのデータ ポイントを 3:05 PM まで取得するためです。
3:01 PM に時系列が 85 になります。そのため少なくとも 3:06 PM までは「重大」状態が続きます。
3:01 PM から 3:06 PM までは「重大」ルールに一致しますが、通知は送信されなくなります。
最後の「重大」データ ポイントが発生したのが 3:01 PM であることから、3:06 PM には「重大」ルールに一致しなくなります。モニタはその後、警告ルール (最後の 5 分のすべてで 20 を超過) をチェックします。3:01 PM から 3:06 PM まで時系列は 20 を超えたため、時系列の状態は「警告」に変わり、Slack 通知が送信されます。