Grafana DatasourceNoData Alert gefixt
In meinem AI-Setup mit Grafana wurde ich ständig von „DatasourceNoData“-Alerts genervt, weil das System in ruhigen Phasen ohne API-Anfragen fehlende Metriken als Infrastruktur-Ausfall interpretierte. Die Lösung war eine gezielte Anpassung der Fehlerbehandlung in den Alert-Regeln.
Warum "No Data" kein Fehler ist
Gerade bei lokalen LLM-Gateways oder RAG-Pipelines ist die Nutzung oft sprunghaft. Wenn in einem Zeitfenster schlichtweg keine Anfragen an die KI gestellt wurden, gibt die Zeitreihendatenbank keine Metriken zurück. Grafana verwechselt diese legitime Null-Aktivität standardmäßig mit einem Verbindungsabbruch und schlägt Alarm. Das führt schnell zur Alarmmüdigkeit – man ignoriert die Benachrichtigungen und übersieht irgendwann echte Probleme, wie etwa einen abgestürzten Service oder abgelaufene API-Keys.
Die Lösung im Grafana-Alerting
Um Grafana beizubringen, zwischen einem echten Ausfall und Inaktivität zu unterscheiden, musste ich kein tiefes Coden anwenden. Die Anpassung erfolgt direkt in den Einstellungen der jeweiligen Alert-Regel:
Die wichtigste Erkenntnis: Passe das "No Data"-Verhalten bewusst an deine Metriken an. So eliminierst du störendes Rauschen, verhinderst Alert Fatigue und stellst sicher, dass ein Alarm wieder ein echtes Problem signalisiert.