Grafana Alerts

Grafana Alerts benachrichtigen automatisch, wenn eine Metrik oder Log-Abfrage einen definierten Schwellwert überschreitet.

Alert: 404-Fehler in rolldice

PromQL-Abfrage für 404-Fehler der rolldice-App in den letzten 5 Minuten:

count_over_time(
  {namespace="default", service_name="rolldice"} |= `404` [5m]
)

Alert in Grafana anlegen

  1. Grafana → Alerting → Alert Rules → New Alert Rule
  2. Abfrage eingeben (LogQL oder PromQL)
  3. Bedingung: IS ABOVE 0
  4. Evaluation Interval: 1m
  5. Contact Point konfigurieren (E-Mail, Slack, PagerDuty, …)
  6. Speichern

Alert testen

404-Fehler provozieren:

curl http://apps.trutz.cloud/nicht-vorhanden

Alert sollte nach max. 1 Minute auslösen.

Problem beheben und Alert beobachten

# Fehlerquelle im Code beheben (z.B. fehlende Route hinzufügen)
git add .
git commit -m "fix: add missing route"
git push
# Flux deployt die neue Version automatisch

Alert geht in den Status Resolved, sobald keine 404-Fehler mehr auftreten.

Notification Policies

Grafana → Alerting → Notification Policies:

Default Policy
  └── Severity = critical  →  PagerDuty
  └── Severity = warning   →  Slack
  └── Team = backend       →  E-Mail backend@trutz.io

Silence

Während Wartungsfenstern können Alerts stummgeschaltet werden:

Grafana → Alerting → Silences → Add Silence