Grafana Alerts
Grafana Alerts benachrichtigen automatisch, wenn eine Metrik oder Log-Abfrage einen definierten Schwellwert überschreitet.
Alert: 404-Fehler in rolldice
PromQL-Abfrage für 404-Fehler der rolldice-App in den letzten 5 Minuten:
count_over_time(
{namespace="default", service_name="rolldice"} |= `404` [5m]
)
Alert in Grafana anlegen
- Grafana → Alerting → Alert Rules → New Alert Rule
- Abfrage eingeben (LogQL oder PromQL)
- Bedingung:
IS ABOVE 0 - Evaluation Interval:
1m - Contact Point konfigurieren (E-Mail, Slack, PagerDuty, …)
- Speichern
Alert testen
404-Fehler provozieren:
curl http://apps.trutz.cloud/nicht-vorhanden
Alert sollte nach max. 1 Minute auslösen.
Problem beheben und Alert beobachten
# Fehlerquelle im Code beheben (z.B. fehlende Route hinzufügen)
git add .
git commit -m "fix: add missing route"
git push
# Flux deployt die neue Version automatisch
Alert geht in den Status Resolved, sobald keine 404-Fehler mehr auftreten.
Notification Policies
Grafana → Alerting → Notification Policies:
Default Policy
└── Severity = critical → PagerDuty
└── Severity = warning → Slack
└── Team = backend → E-Mail backend@trutz.io
Silence
Während Wartungsfenstern können Alerts stummgeschaltet werden:
Grafana → Alerting → Silences → Add Silence